02 — Comment fonctionne l'IA ? - Marc Desfossés inc

2.1 Les données : le carburant de l'IA

Tout modèle d'IA repose sur des données. La qualité, la quantité et la diversité des données d'entraînement déterminent les performances du modèle.

Supervisé : le modèle apprend à partir d'exemples étiquetés (entrée → sortie attendue)
Non supervisé : le modèle découvre des structures dans les données sans étiquettes
Par renforcement : le modèle apprend par essai-erreur avec un système de récompenses

2.2 Réseaux de neurones et deep learning

Un réseau de neurones est inspiré du cerveau humain : des couches de neurones artificiels connectés entre eux. Chaque neurone reçoit des entrées, applique une transformation mathématique, et produit une sortie.

Le deep learning utilise des réseaux avec de nombreuses couches. L'architecture Transformer, introduite en 2017, est la base de tous les LLMs actuels.

2.3 Tokens et embeddings

Les LLMs découpent le texte en tokens — des fragments de mots. Les embeddings sont des représentations mathématiques (vecteurs) dans un espace multidimensionnel. Les mots sémantiquement proches sont proches dans cet espace.

💡Analogie

Imaginez les embeddings comme une carte géographique des concepts. « Roi » et « Reine » seraient proches. La direction de « Roi » à « Reine » serait similaire à celle de « Homme » à « Femme ».

2.4 Entraînement et inférence

L'entraînement : le modèle ajuste ses milliards de paramètres. Coûteux en calcul et énergie. L'inférence : utilisation du modèle pour générer des réponses, token par token.

175BParamètres GPT-3

~15TTokens d'entraînement

~1M $+Coût entraînement

Marc Desfossés inc

02_Comment fonctionne l'IA ?

2.1 Les données : le carburant de l'IA

2.2 Réseaux de neurones et deep learning

2.3 Tokens et embeddings

2.4 Entraînement et inférence