iA
L’intelligence artificielle moderne repose sur plusieurs concepts fondamentaux organisés en une hiérarchie allant du machine learning classique jusqu’aux modèles génératifs les plus avancés, comme les grands modèles de langage (LLM) et les modèles de diffusion utilisés pour générer des images ou des vidéos.
Cet article vous propose une cartographie claire et structurée de ces notions, afin de comprendre comment ces systèmes fonctionnent, comment ils s’organisent et comment ils produisent des résultats aussi impressionnants que ChatGPT, LLaMA, Stable Diffusion ou Midjourney.
Machine Learning : la base de l’apprentissage automatique
Le machine learning est une branche de l’intelligence artificielle qui permet aux machines d’apprendre à partir de données sans être explicitement programmées.
Il se divise en trois grandes familles.
Apprentissage supervisé
Le modèle apprend à partir d’exemples annotés, c’est-à-dire avec les bonnes réponses.
Exemples de tâches :
- Classification (ex : reconnaître un chat ou un chien)
- Régression (ex : prédire un prix ou une température)
Algorithmes courants :
- Régression linéaire
- K plus proches voisins
- Réseaux de neurones
- Arbres de décision
Apprentissage non supervisé
Le modèle découvre des structures et des patterns dans les données.
Exemples :
- Clustering
- Réduction de dimension (comme t-SNE, souvent utilisé pour visualiser des clusters)
Apprentissage par renforcement
Le modèle apprend par essais et erreurs, en recevant des récompenses.
Le Deep Learning : apprendre à grande échelle
Le deep learning repose sur des réseaux de neurones artificiels organisés en couches.
Plus les couches sont nombreuses, plus le modèle peut apprendre des structures complexes.
Réseau de neurones (ANN)
Un réseau de neurones est composé de nœuds (neurones) reliés entre eux par des poids. Chaque neurone transforme son entrée et transmet une information à la couche suivante.
Réseau de neurones multicouche (MLP)
C’est la version “profonde” du réseau de neurones.
On y trouve :
- des couches d’entrée
- plusieurs couches cachées
- une couche de sortie
Les MLP sont utilisés pour :
- la classification
- la régression
- la représentation de données
Rétropropagation du gradient
C’est la méthode d’apprentissage standard.
Le modèle ajuste progressivement ses poids pour réduire l’erreur entre sa prédiction et la bonne réponse.
Les architectures spécialisées du deep learning
Réseaux convolutifs (CNN)
Les CNN sont conçus pour analyser des images grâce à des filtres qui détectent des motifs (lignes, textures, formes).
Applications :
- classification d’images
- détection d’objets
- traitement vidéo
Réseaux récurrents (RNN, LSTM)
Ces réseaux traitent des données séquentielles comme :
- le texte
- l’audio
- les séries temporelles
Ils conservent une “mémoire” du passé, mais ont été largement remplacés par les transformeurs.
Les Transformeurs : la révolution de 2017
L’architecture des transformers est aujourd’hui au cœur des modèles les plus performants.
Elle repose sur le mécanisme d’attention, qui permet au modèle de comprendre quelles parties de l’entrée sont les plus importantes, quelles que soient leur position.
Avantages :
- traitement parallèle massif
- compréhension du contexte élargie
- adaptation au texte, à l’image, à la vidéo
Les transformeurs ont permis l’émergence :
- des LLM (GPT, LLaMA, Claude…)
- des modèles génératifs de texte
- des modèles de vision avancés
- des modèles text-to-image
Les modèles de langage (LLM)
Les grands modèles de langage sont construits sur l’architecture transformer.
Ils apprennent à prédire le mot suivant dans une séquence, après avoir été exposés à des trillions de tokens (morceaux de texte).
Fonctionnement général :
- Tokenisation du texte
- Transformation en vecteurs (embeddings)
- Passage dans des dizaines à centaines de couches Transformer
- Prédiction du prochain token
- Génération de texte
Exemples de modèles :
- ChatGPT
- LLaMA
- Gemini
- Claude
Les modèles génératifs
Les modèles génératifs apprennent non seulement à analyser des données, mais aussi à créer de nouvelles données.
GAN (Generative Adversarial Networks)
Deux réseaux s’affrontent : l’un crée, l’autre critique.
Très efficaces pour générer des images réalistes.
Auto-encodeurs (VAE)
Ils apprennent à compresser puis reconstruire des données.
Modèles de diffusion
Aujourd’hui les plus utilisés pour la génération d’images.
Ils apprennent à transformer du bruit en image cohérente en plusieurs étapes.
Principe :
- On ajoute du bruit à une image
- Le modèle apprend à retirer ce bruit
- Pendant la génération, le modèle part du bruit et “remonte” le processus
Exemples :
- Stable Diffusion
- Midjourney (basé sur diffusion + améliorations propriétaires)
Les systèmes multimodaux modernes
Les modèles actuels peuvent traiter et générer plusieurs types de données.
Voici les correspondances les plus courantes :
- Text-to-Text : ChatGPT, LLaMA
- Text-to-Image : Stable Diffusion
- Text-to-Video : Sora, Runway
- Vidéo-to-Text : analyse vidéo, sous-titres automatiques
- Image-to-Video : modèles vidéo conditionnés par image
Dans ces pipelines, chaque modalité possède :
- un encodeur adapté
- un modèle central (transformer ou diffusion)
- un décodeur propre à la sortie souhaitée