Intelligence Artificielle

iA

L’intelligence artificielle moderne repose sur plusieurs concepts fondamentaux organisés en une hiérarchie allant du machine learning classique jusqu’aux modèles génératifs les plus avancés, comme les grands modèles de langage (LLM) et les modèles de diffusion utilisés pour générer des images ou des vidéos.
Cet article vous propose une cartographie claire et structurée de ces notions, afin de comprendre comment ces systèmes fonctionnent, comment ils s’organisent et comment ils produisent des résultats aussi impressionnants que ChatGPT, LLaMA, Stable Diffusion ou Midjourney.

Machine Learning : la base de l’apprentissage automatique

Le machine learning est une branche de l’intelligence artificielle qui permet aux machines d’apprendre à partir de données sans être explicitement programmées.
Il se divise en trois grandes familles.

Apprentissage supervisé

Le modèle apprend à partir d’exemples annotés, c’est-à-dire avec les bonnes réponses.

Exemples de tâches :

Classification (ex : reconnaître un chat ou un chien)
Régression (ex : prédire un prix ou une température)

Algorithmes courants :

Régression linéaire
K plus proches voisins
Réseaux de neurones
Arbres de décision

Apprentissage non supervisé

Le modèle découvre des structures et des patterns dans les données.

Exemples :

Clustering
Réduction de dimension (comme t-SNE, souvent utilisé pour visualiser des clusters)

Apprentissage par renforcement

Le modèle apprend par essais et erreurs, en recevant des récompenses.

Le Deep Learning : apprendre à grande échelle

Le deep learning repose sur des réseaux de neurones artificiels organisés en couches.
Plus les couches sont nombreuses, plus le modèle peut apprendre des structures complexes.

Réseau de neurones (ANN)

Un réseau de neurones est composé de nœuds (neurones) reliés entre eux par des poids. Chaque neurone transforme son entrée et transmet une information à la couche suivante.

Réseau de neurones multicouche (MLP)

C’est la version “profonde” du réseau de neurones.
On y trouve :

des couches d’entrée
plusieurs couches cachées
une couche de sortie

Les MLP sont utilisés pour :

la classification
la régression
la représentation de données

Rétropropagation du gradient

C’est la méthode d’apprentissage standard.
Le modèle ajuste progressivement ses poids pour réduire l’erreur entre sa prédiction et la bonne réponse.

Les architectures spécialisées du deep learning

Réseaux convolutifs (CNN)

Les CNN sont conçus pour analyser des images grâce à des filtres qui détectent des motifs (lignes, textures, formes).

Applications :

classification d’images
détection d’objets
traitement vidéo

Réseaux récurrents (RNN, LSTM)

Ces réseaux traitent des données séquentielles comme :

le texte
l’audio
les séries temporelles

Ils conservent une “mémoire” du passé, mais ont été largement remplacés par les transformeurs.

Les Transformeurs : la révolution de 2017

L’architecture des transformers est aujourd’hui au cœur des modèles les plus performants.
Elle repose sur le mécanisme d’attention, qui permet au modèle de comprendre quelles parties de l’entrée sont les plus importantes, quelles que soient leur position.

Avantages :

traitement parallèle massif
compréhension du contexte élargie
adaptation au texte, à l’image, à la vidéo

Les transformeurs ont permis l’émergence :

des LLM (GPT, LLaMA, Claude…)
des modèles génératifs de texte
des modèles de vision avancés
des modèles text-to-image

Les modèles de langage (LLM)

Les grands modèles de langage sont construits sur l’architecture transformer.
Ils apprennent à prédire le mot suivant dans une séquence, après avoir été exposés à des trillions de tokens (morceaux de texte).

Fonctionnement général :

Tokenisation du texte
Transformation en vecteurs (embeddings)
Passage dans des dizaines à centaines de couches Transformer
Prédiction du prochain token
Génération de texte

Exemples de modèles :

ChatGPT
LLaMA
Gemini
Claude

Les modèles génératifs

Les modèles génératifs apprennent non seulement à analyser des données, mais aussi à créer de nouvelles données.

GAN (Generative Adversarial Networks)

Deux réseaux s’affrontent : l’un crée, l’autre critique.
Très efficaces pour générer des images réalistes.

Auto-encodeurs (VAE)

Ils apprennent à compresser puis reconstruire des données.

Modèles de diffusion

Aujourd’hui les plus utilisés pour la génération d’images.
Ils apprennent à transformer du bruit en image cohérente en plusieurs étapes.

Principe :

On ajoute du bruit à une image
Le modèle apprend à retirer ce bruit
Pendant la génération, le modèle part du bruit et “remonte” le processus

Exemples :

Stable Diffusion
Midjourney (basé sur diffusion + améliorations propriétaires)

Les systèmes multimodaux modernes

Les modèles actuels peuvent traiter et générer plusieurs types de données.
Voici les correspondances les plus courantes :

Text-to-Text : ChatGPT, LLaMA
Text-to-Image : Stable Diffusion
Text-to-Video : Sora, Runway
Vidéo-to-Text : analyse vidéo, sous-titres automatiques
Image-to-Video : modèles vidéo conditionnés par image

Dans ces pipelines, chaque modalité possède :

un encodeur adapté
un modèle central (transformer ou diffusion)
un décodeur propre à la sortie souhaitée

‍