Révisions et IA Générative

Florent Capelli

22 Mars 2025

Petit retour en arrière

IA et Logique

Logique Propositionnelle

Présentée dans le TP 1
On fabrique des propositions à partir de propositions atomiques :

(p∧s) ⇒ r

p: il pleut
s: il y a du soleil
r: il y a un arc-en-ciel

p	s	r	F
0	0	0	1
0	0	1	1
0	1	0	1
0	1	1	1
1	0	0	1
1	0	1	1
1	1	0	0
1	1	1	1

On peut utiliser les propositions pour encoder de la connaissances sur un système et chercher les modèles possibles (voir TP1).

Résolution

Étant donné une proposition, quels sont ses modèles ?

Approche bruteforce : 2ⁿ, impossible pour n > 40 en pratique.
Problème soupçonné intrinsèquement difficile à résoudre : P vs NP.
Outils dédiés très efficaces : SAT Solvers, voir Travail Maison 1.
- Recherche de modèle guidée par des heuristiques
- Évite d’essayer des assignations qui ne seront pas des modèles pour des raisons évidentes ou “découvertes”.
- Exemple:
  - p ET F(q₁,…,q_r). On n’explorera pas les assignations où p = 0.
  - (p OU q) ET (p OU NON(q)) ET F(q₁,…,q_r): de même, mais la raison est plus subtile!

D’autres logiques

La logique propositionnelle ne permet pas de tout transcrire :

Logique du premier ordre pour des logiques sur des domaines non finis : “Tous les chiens savent nager”.
Notions de connaissances, croyances difficile à encoder : logiques modales.
Logique non monotones : ajouter de la connaissance peut modifier les fait dérivés.

Approche logique

Avantages :

Raisonnement complètement formalisé
Corrects et fiable.

Désavantages :

Complexité algorithmique de la résolution
Complexité de la formalisation :
- erreurs possibles.
- subtilité difficile à traduire.
- connaissance / croyance pas toujours facile à capturer.

IA et Apprentissage

Approche statistique, on apprend depuis des données :

Données D : ensemble de vecteurs d’attributs
- TP 3 : [7.3, 12, 5.1, 4.3] décrivant la longueur/largeur des sépales et longueur/largeur des pétales d’une iris.
On cherche une fonction f(x;p) qui colle aux données et généralise
- Attention au surapprentissage
Problème d’optimisation: quel est la meilleure f ? f^* = f(x;p) où p minimise une erreur E(p)!

Arbres de décision

Voir TP 3.

Pour l’apprendre :

On cherche une question qui répartit bien les données dans différentes classes
Mesuré par une fonction de mélange (Gini, entropie)
On recommence avec les données qu’il reste.

Réseaux de neurones

Voir TP 4

Inspiré au départ par des recherches sur le cerveau
Décrit un ensemble de fonctions dérivables, très expressives, avec beaucoup de paramètres.
Apprentissage : par descente de gradient.
- Algorithmes efficaces
- Implémenté sur des GPU (cartes graphiques)
- Permet de traiter des échelles jusqu’alors inacessibles !

IA générative : une introduction

Exemple

On veut générer des objets : images, textes etc.

batman crouched next to a babbling brook, under a cherry tree, zen-like, in the style of a Japanese painting

Molécules

Autre exemple : générer la structure 3D d’une protéine étant donnée sa séquence d’acides aminés.

https://alphafold.ebi.ac.uk/entry/Q8I3H7

Des outils

Nouvelles techniques ont engendré un intêret accru pour l’IA générative et multiplié les outils disponibles, souvent massivement financé par des grands acteurs de l’informatique :

Images : DALL-E, Midjourney, StableDiffusion etc.
Modèles de langues : ChatGPT (OpenAI), Llama (Meta), Gemini (Google), Mistral, DeepSeek, Claude etc.
Modèles de langues avec application particulière : Perplexity, Phind (moteur de recherche)
Vidéos : Sora (OpenAI), Gen-2 (Runway), Make-A-Video (Meta) _ Son : udio, suno…
Molécules : AlphaFold (Google)
Code informatique : CoPilot (Microsoft)
Plusieurs des modèles ci-dessous sont désormais multimodaux.

Formalisation

IA Générative : on veut pouvoir tirer aléatoirement dans un ensemble d’objet O.

étant donnés o₁, …, o_k tirés aléatoirement depuis O selon une distribution D inconnue
on veut trouver une distribution D′ telle que D ≃ D′.

Cadre un peu différent de l’apprentissage supervisé : ici on essaie d’apprendre une distribution.

Par exemple O peut être l’ensemble des images de taille 512 × 512
D : distribution ne considérant que l’ensemble des images représentant la photo d’un visage de quelqu’un.

Idée derrière : https://thispersondoesnotexist.com/

Formalisation : distribution jointe

L’approche précédente ne décrit pas vraiment ce dont on a besoin pour la génération d’images :

On veut pouvoir tirer aléatoirement une image décrivant “un cheval à la plage”
On a donc une probabilité jointe P(i,d) où i est une image et d sa description.
On veut tirer i avec probabilité P(i∣d=un cheval à la plage)

On veut donc “apprendre” une probabilité jointe P(X,Y) et être capable, étant donné y, de tirer x avec probabilité P(x∣Y=y).

On a besoin de “modèle” représentant des distributions (et plus des fonctions) :

Gaussian mixture model
Hidden Markov Model
Generative Adverserial Networks: méthode basée sur des réseaux de neurones
Transformers: utilisé en particulier par les modèles de langues

Éthique : un florilège

Deepfake

Possibilité de générer des images réalistes rapidement et facilement
Fine-tuning : outils disponibles peuvent être ajustés avec de nouveaux exemples
Spam et crédibilité du texte

Utilisation de données d’entraînement non autorisés

Outils entraînés en utilisant des jeux de données massifs (plusieurs terraoctets de données)
Ces jeux de données contiennent du matériel protégé par les droits d’auteurs… qui ressurgisse lors de la génération
Droit d’auteur/copyright inadaptés pour ces cas d’utilisation

Images générées et droits d’auteurs

Théâtre D’opéra Spatial, gagnants 2022 Colorado State Fair’s annual fine art competition, non éligible (aux US) pour la protection copyright car pas créé par un humain.

Racisme, sexisme et autres stéréotypes

L’IA générative, pour des raisons similaires, souffre des mêmes problèmes que la classification concernant les biais :

“an African man and his fancy house”, Credit: P. Kalluri et al. généré par Stable Diffusion XL

Coût écologique

Créer un nouveau modèle performant (entraîner) coûte énormément de ressources :

Consommation électrique des GPUs sollicités de façon intense pendant plusieurs jours.
- GPT 3: environ un A/R Paris New-York (1000 MWh) [1]
  - Beaucoup plus en réalité pour tester de nouveaux modèles non publiés
  - consommation amortie pendant utilisation
Consommation importante d’eau (système de refroidissement, partagé avec d’autres utilisations des data centers)

[1]: The Energy Footprint of Humans and Large Language Models

Génération de texte

Approches structurelles

Premières approches (pour la traduction essentiellement) :

modélisation de la langue via une grammaire formelle
génération de contenu respectant cette grammaire.

Difficile de coder la/les sens des mots qui dépendent du contexte.
Difficile de formaliser complètement une langue : la grammaire ne décrit pas tous les usages.
Ne semble pas être liée à la façon dont nous apprenons une langue.

Modèles de langue

Un modèle probabiliste de la langue !

On veut pouvoir évaluer la probabilité qu’un mot w apparaissent à la fin d’un texte T.

P(w|T)

Génération de texte

Comment générer un texte avec un modèle de langue ?

On complète mot par mot. On commence avec T= Aujourd’hui il :

Prendre w₀ qui maximise P(w|T) : w₀= fait.
Prendre w₁ qui maximise P(w|T.w₀): w₁=soleil
Prendre w₂ qui maximise P(w|T.w₀.w₁): w₂=END

Génération déterministe : pas très intéressante !

Génération de texte : avec tempéature

Au lieu de prendre le mot le plus probable, on tire x ∈ [0,1] aléatoirement.
Si x < K, on prend le mot le plus probable.
Sinon, on tire w avec probabilité P(w|T).

Température K = 0.8 et T= Aujourd’hui il :

x₀ = 0.3 : Prendre w₀ qui maximise P(w|T) : w₀= fait.
x₀ = 0.85 : Prendre w₁ avec proba P(w|T.w₀): w₁=un
x₀ = 0.1 : Prendre w₂ qui maximise P(w|T.w₀.w₁): w₂=temps
…

Impossibilité de représentation

L’ensemble des textes possible est infini.

On ne peut pas représenter la distribution P(w|T)…

On va se contenter d’une approximation de cette distribution :

Modèles n-grams.
Modèles type “transformers” qui “apprennent” une représentation du contexte T.

Modèle n-grams

Un modèle de langue n-grams est un modèle donnant la probabilité qu’un mot w apparaisse après une suite w₁, …, w_n de mots, n fixé :

P(w|w₁,…,w_n)

On peut l’approximer depuis un corpus de texte. Faiblesses:

Gros même pour des petits contextes: Si on a 10000 mots et qu’on veut représenter explicitement cette probabilité pour n = 3, on doit calculer 10¹⁶ valeurs
Petit contexte peu pertinent
Même si on pouvait avoir de grand contexte : combien de textes faudrait-il pour trouver ces probabilités ?

Succès des modèles de langues récents : capacité à intégrer de gros contextes tout en repérant les parties “pertinentes”.

LLMs

Large Language Models (ChatGPT, Mistral, Gemini, DeepSeek etc.):

basés sur des architectures en réseaux contenant plusieurs milliards de paramètres (GPT 4 aurait 10¹² paramètres),
entraînés sur des corpus de texte de plusieurs terraoctets.
Plusieurs phases d’apprentissage avec des buts et données différentes :
1. Entraînement sur un large corpus
2. Entraînement à résoudre des tâches questions/réponses.
3. Renforcement : garder les “meilleurs” réponses (selon un score, souvent donné par un humain).

Tokens

Les mots ne sont pas forcément la bonne unité pour travailler.
Par exemple : tourner, tournant, tourniquet, tournons sont tous de la même famille
On travaille avec des unités plus fines : les tokens

Apprentissage implicite d’encodages

Les réseaux de neurones travaillent plus facilement avec des nombres qu’avec du texte.
On a donc un encodage E des mots vers des vecteurs de nombres.
Idéalement, ces vecteurs traduisent la sémantique d’un mot.

E(roi) + E(femme) ≃ E(reine)

Idées déjà présentes avant l’apparition des LLMs, voir word2vec (jeux pedantle/semantle basés sur ces outils).

Voir la page de Jean-Philippe Fauconnier où vous trouverez un modèle d’encodage pour le français et des instructions pour l’utiliser avec la librairie Python gensim.

LLMs et Encodages

Les LLMs vont un cran plus loin :

Ils apprennent des encodages d’un mot et de son contexte.

utilise une architecture neuronale dédiée : les transformers
Un mécanisme appelé attention qui modifie l’importance des mots dans un contexte T.

I called Alice but she did not answer. Her phone was off.

Forces et limites des LLMs

Compréhension de concepts

On observe des comportements de généralisations, compréhension de concepts non explicitement définis :

Exemple :
- Prompt: Il faut empiler de façon stable : un livre, neufs oeufs, un ordinateur portable, une bouteille et un clou.
- Réponse : Placer les oeufs sur le livre comme une grille 3 × 3 puis l’ordinateur par-dessus. Déposer le reste des objets sur l’ordinateur.

Nécessite un “modèle” physique pour répondre à la questions, qui a été implicitement appris via le langage comme proxy.

Bubeck, Sébastien, et al. “Sparks of artificial general intelligence: Early experiments with gpt-4.” arXiv preprint arXiv:2303.12712 (2023).

Hallucinations

Limite : Connaissances

Les LLMs n’ont pas d’anchrage direct avec des modèles de vérité / de connaissances :

“Connaissances” inférées lors de l’entraînement
Dépend du corpus, qui peut être pollué (voir manipulé), biaisé.
Limite “logique” naturellement induite par le fait que le contexte considéré est borné (rappel : problème de logique du TP 1).

Limite : erreurs humaines

Les LLMs tendent à répéter des intuitions fausses qui sont induites chez les humains par la tournure de certains textes :

Le blog de Gil Kalai contient d’autres exemples amusants.

Génération d’images

Modèle de diffusion

StableDiffusion est basé sur un modèle de diffusion.

Une image est générée par débruitages successifs d’une image aléatoire :

Les images

On considère que les images sont des tableaux de pixels.

On a un sous-ensembe V des vraies images, ie, qui représentent “quelque chose” – implicitement définie par notre jeu de données.

Le but est de “débruiter” une image y hors de V, c’est-à-dire de trouver u petit tel que y + u ∈ V.

Apprendre à débruiter…

On suppose qu’on démarre avec une image bruitée de la forme y = x + σϵ.

x est une “vraie” image
σ est le niveau de bruit
ϵ est un bruit, ie des valeurs aléatoires ∈ [0,1]

On veut apprendre une fonction d(y,σ) qui “approxime” ϵ connaissant y et σ.

On “générera” donc x en faisant y + d(y,σ).

Une autre interprétation : on cherche x une vraie image qui est “proche” de y.

Pour cela, on bruite (plusieurs fois) chaque image y du jeu de données avec des valeurs de σ, ϵ différentes
On fait un apprentissage supervisé pour apprendre d(y,σ)

… pour débruiter du bruit

Pour générer une image (ou autre chose), on part d’un bruit y₀ complètement aléatoire.

y_i + 1 := y_i + σ_i ⋅ d(y_i,σ_i)

On fixe le nombre t d’étapes où on applique le débruitage
σ_i décroit : plus on affine, plus on considère que le bruit est petit (en général, il décroit exponentiellement vite).

StableDiffusion ou halluciner des images dans du bruit !

En vrai ?

En vrai, c’est beaucoup plus complexe que cela :

Besoin de “guider” le débruitage avec le texte
- encodage sémantique du texte vers des vecteurs
- jeu de données nécessaire encore plus important
Architecture du réseau permettant d’apprendre d assez complexe.