The Claude Bible
Accueil / Fondements des LLMs
Niveau: Debutant · 10 lecons

Fondements des LLMs

Tokens, contexte, température, la famille Claude. Les bases indispensables.

Ouvrir le cours interactif212 lecons, quiz, exercices, 3 langues, gratuit.

Ce qu'est vraiment un LLM

Un grand modèle de langage (LLM) ne "comprend" pas comme un humain et ne "cherche" pas dans une base de données. Il fait une seule chose, des milliards de fois : prédire le prochain fragment de texte le plus probable compte tenu de tout ce qui précède.

Conséquences pratiques, qui expliquent 90 % des surprises :

Gardez cette image : un improvisateur brillant mais amnésique. Votre rôle est de lui donner le bon décor (contexte) pour chaque scène.

Points cles
  • Un LLM prédit le prochain token, rien d'autre
  • Halluciner = produire une sortie plausible mais fausse, un risque structurel
  • Aucune mémoire entre les sessions : tout vit dans le contexte
  • Connaissances figées à une date de coupure

Les tokens et la fenêtre de contexte

Le modèle ne voit pas des lettres ni des mots, mais des tokens : des fragments de texte. En gros, 1 token correspond à environ 4 caractères, soit 0,75 mot en anglais. Le mot "interesting" peut compter 2 ou 3 tokens.

La fenêtre de contexte est le nombre maximum de tokens que le modèle peut traiter en une seule fois : votre invite + l'historique + les fichiers + sa réponse. Les modèles Claude récents acceptent jusqu'à 200 000 tokens, et certaines configurations jusqu'à 1 million de tokens (le modèle qui a écrit ceci fonctionne à 1M).

Pourquoi c'est fondamental :

Le module 7 est entièrement consacré à la maîtrise du contexte et des coûts. Pour l'instant, retenez l'unité : le token.

Points cles
  • Token = fragment de texte, environ 4 caractères
  • Fenêtre de contexte = entrée + historique + fichiers + sortie, avec un plafond (200K, parfois 1M)
  • Tout est facturé en tokens, entrée et sortie
  • Trop de contexte parasite dégrade la qualité, pas seulement le coût

La température, et le mythe du réglage magique

La température régule l'aléatoire dans la prédiction. Basse (0 à 0.3) : le modèle choisit presque toujours le token le plus probable, ce qui donne des réponses stables et prévisibles, idéal pour le code, l'extraction, la classification. Haute (0.7 à 1) : plus de diversité, idéal pour le brainstorming et la créativité.

Deux autres paramètres que vous rencontrerez dans l'API :

Le piège classique du débutant : croire que l'on corrige un mauvais résultat en tripatouillant la température. 95 % du temps, le problème vient du prompt, pas du réglage. Un prompt clair à température 0.3 surpasse un prompt vague à n'importe quelle température. On ajuste la température en dernier, pas en premier.

Points cles
  • Température basse = stable et factuel ; haute = créatif et diversifié
  • max_tokens plafonne la sortie (attention aux coupures)
  • Un mauvais résultat vient presque toujours du prompt, pas de la température

La famille Claude : Opus, Sonnet, Haiku

Anthropic publie chaque génération en trois tailles, qui échangent intelligence contre vitesse et coût :

Identifiants de modèles (utiles dans l'API et dans Claude Code) pour la génération actuelle :

La règle de Pierre, appliquée dans sa pratique : Opus pour l'architecture, le brainstorming et le débogage ; déléguer le répétitif, le multi-langue et l'audit à Sonnet ou Haiku via des sous-agents. Plus de détails dans le module multi-agent. Côté facturation, les appels Claude sont la ressource bon marché de sa configuration : seuls les services externes payants comptent vraiment.

Points cles
  • Opus = puissance, Sonnet = équilibre, Haiku = vitesse/volume
  • Mêmes identifiants partout : claude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5-...
  • Pierre : Opus pour l'architecture/débogage, Sonnet/Haiku pour le travail répétitif délégué

Le sens sans dictionnaire : les embeddings

Quand un modèle de langage lit un mot ou une phrase, il ne le cherche pas dans un dictionnaire. Il convertit le texte en un vecteur, c'est-à-dire une longue liste de nombres (souvent des centaines ou des milliers de valeurs). Cette liste est appelée un embedding. Chaque nombre capture une infime facette du sens, si bien que la liste entière représente ce que le texte "signifie" pour le modèle.

L'intuition clé est que des sens similaires produisent des vecteurs similaires. Dans l'espace mathématique où vivent ces vecteurs (appelé espace d'embedding), les mots et expressions se regroupent par sens. "Docteur" et "médecin" se retrouvent proches l'un de l'autre. "Chien" et "chat" sont voisins mais loin de "facture". Le modèle n'avait pas besoin d'une règle disant que ces mots sont liés : il a appris leurs positions en traitant des milliards de phrases.

Cette géométrie du sens est ce qui permet à Claude de répondre aux questions, de trouver des passages pertinents et de comprendre le contexte. Quand vous posez une question, elle est convertie en vecteur, et le modèle trouve le contenu dont le vecteur est proche dans l'espace d'embedding. Ce procédé s'appelle la recherche sémantique (recherche par le sens, et non par les mots exacts).

Points cles
  • Les embeddings convertissent le texte en listes de nombres
  • Des sens similaires sont proches dans l'espace d'embedding
  • La recherche sémantique utilise la distance vectorielle, pas les mots-clés
  • Les modèles apprennent ces positions à partir des données, pas de règles

Échantillonnage : pourquoi le même prompt varie

Chaque fois qu'un modèle de langage génère du texte, il choisit les mots un par un. Après chaque mot, il consulte une liste de probabilités : des milliers de mots candidats, chacun avec un score. La façon dont il pioche dans cette liste s'appelle le décodage, et c'est la principale raison pour laquelle deux prompts identiques peuvent produire des réponses différentes.

Le décodage glouton choisit toujours le mot avec le score le plus élevé. Il est rapide et entièrement déterministe (la sortie est toujours la même), mais il tend à produire un texte plat et répétitif. Le décodage par échantillonnage introduit de l'aléatoire : le modèle tire dans la liste de probabilités plutôt que de prendre systématiquement le premier élément. Le degré d'aléatoire est contrôlé par la température (abordée dans la leçon suivante) et par deux filtres appliqués avant l'échantillonnage :

En pratique, top-p et top-k sont souvent appliqués ensemble avant l'échantillonnage basé sur la température. L'API de Claude expose ces deux paramètres. Augmenter p ou k élargit le pool et accroît la variété ; les diminuer rend le modèle plus prévisible. Fixer la température à 0 revient au décodage glouton, quels que soient les réglages top-p ou top-k.

Points cles
  • Le décodage glouton choisit toujours le mot de plus haute probabilité, produisant une sortie déterministe.
  • Top-k limite les candidats aux k mots les plus probables à chaque étape.
  • Top-p (échantillonnage nucléaire) conserve le plus petit ensemble de mots couvrant p de la probabilité totale.
  • Le décodage par échantillonnage introduit une variété utile ; la température 0 la supprime.

Trois voix : system, user, assistant

Chaque conversation envoyée à un LLM (grand modèle de langage) est composée de messages, et chaque message appartient à l'un des trois rôles : system, user ou assistant. Comprendre ces rôles vous permet de savoir exactement comment Claude est instruite, qui parle, et ce que Claude est autorisée à dire.

Le system prompt est défini par celui qui construit le produit (un développeur, une entreprise, ou Claude Code lui-même). Il arrive avant le début de la conversation et indique à Claude comment se comporter : sa personnalité, ses limites, sa mission. L'utilisateur ne le voit pas, sauf si le créateur choisit de le montrer.

Le tour user correspond à votre message : la question, l'instruction ou le fichier que vous envoyez. Le tour assistant est la réponse de Claude. Ces deux rôles s'alternent pour former l'historique de conversation que Claude lit à chaque fois qu'elle répond.

Points cles
  • Le system prompt est invisible pour l'utilisateur mais contrôle le comportement de Claude.
  • Les tours user et assistant s'alternent pour former l'historique de conversation.
  • Claude lit l'intégralité de l'historique à chaque réponse, pas seulement le dernier message.
  • Savoir quel rôle contient quel texte aide à déboguer un comportement inattendu.

Comment Claude a été entraîné

Claude commence sa vie comme tout grand modèle de langage (LLM) : il passe par le préentraînement, au cours duquel il lit une portion massive d'internet, de livres et de code. Durant cette phase, le modèle apprend la grammaire, des faits, des schémas de raisonnement et des styles d'écriture, uniquement en prédisant le mot suivant, des milliards de fois. Aucune guidance humaine encore, seulement des statistiques à une échelle colossale.

Vient ensuite le RLHF (Reinforcement Learning from Human Feedback, ou apprentissage par renforcement à partir de retours humains). Des formateurs humains évaluent des paires de réponses du modèle, et ces évaluations servent à entraîner un "modèle de préférences" distinct. Claude est alors affiné pour produire des réponses qui obtiennent de bons scores sur ce modèle de préférences. C'est ainsi que la prédiction de texte brut devient un assistant utile qui suit les instructions et évite les erreurs flagrantes.

Anthropic ajoute une troisième couche appelée Constitutional AI (CAI). Au lieu de s'appuyer uniquement sur des évaluateurs humains, CAI fournit au modèle un ensemble de principes écrits (une "constitution") et lui demande de critiquer et réviser ses propres réponses à la lumière de ces principes. Cela rend le processus d'alignement plus évolutif et plus transparent, car les règles sont explicites plutôt qu'enfouies dans les intuitions des évaluateurs.

Ces trois phases façonnent tout ce que vous vivez lorsque vous parlez à Claude :

Points cles
  • Préentraînement : apprendre la langue à partir de texte brut à grande échelle
  • RLHF : façonner le comportement grâce aux évaluations de préférences humaines
  • Constitutional AI : autocritique à partir de principes écrits
  • Les phases d'entraînement déterminent les connaissances, l'utilité et les limites de sécurité

L'attention et pourquoi la position compte

Chaque LLM (grand modèle de langage) moderne repose sur un mécanisme appelé attention. Lorsque le modèle lit votre invite, il ne traite pas chaque mot de la même façon. Il attribue un score à chaque mot (ou token) par rapport à tous les autres et détermine lesquels sont les plus pertinents pour chaque étape de la réponse. Imaginez que le modèle se pose la question : "pour écrire ce prochain mot, sur quels mots précédents dois-je m'appuyer le plus ?"

Étant donné que les scores d'attention sont calculés sur l'ensemble de la fenêtre de contexte (le texte total que le modèle peut voir en une seule fois), le modèle peut en théorie relier n'importe quelles deux informations, quelle que soit la distance qui les sépare. En pratique, cependant, les chercheurs ont observé un phénomène appelé lost-in-the-middle : les modèles ont tendance à mieux rappeler les informations placées au tout début ou à la toute fin d'une invite longue, plutôt que celles enfouies au milieu.

Cela a une conséquence directe et pratique sur la façon dont vous structurez vos invites et les documents que vous transmettez à Claude :

Le même principe s'applique lorsque vous transmettez à Claude un long document et lui posez une question à son sujet. Placez votre question avant le document, reformulez-la brièvement après, et mettez en évidence la section pertinente avec une étiquette. Cette structure en sandwich combat l'effet lost-in-the-middle et produit systématiquement de meilleures réponses.

Points cles
  • L'attention pondère chaque token par rapport à tous les autres pour déterminer la pertinence
  • Lost-in-the-middle : les informations enfouies au milieu d'une invite longue sont les moins bien rappelées
  • Placez les tâches tôt, les contraintes critiques tard, et utilisez la structure pour signaler l'importance
  • Reformuler une question avant et après un long document améliore le rappel

La date limite de connaissance et l'ancrage

Tout grand modèle de langage (LLM) est entraîné sur un instantané de textes rassemblés jusqu'à une date précise, appelée la date limite de connaissance. Au-delà de cette date, le modèle n'a aucune connaissance des nouveaux événements, des prix mis à jour, des lois révisées ni de quoi que ce soit d'autre qui aurait changé. La date limite de connaissance de Claude est août 2025 ; il ne peut donc pas répondre de façon fiable sur ce qui s'est passé après ce point.

Cela pose un problème pratique : le monde continue d'évoluer tandis que le modèle reste figé. Une question sur les cours boursiers actuels, la dernière version d'un logiciel ou un événement politique récent produira probablement une réponse obsolète ou tout simplement erronée, même d'un modèle compétent. Le modèle ne sait pas ce qu'il ne sait pas, et il peut donc répondre avec une fausse assurance.

L'ancrage est la technique utilisée pour remédier à cela. Elle consiste à donner au modèle accès à des informations fraîches et fiables au moment où il répond, plutôt que de s'appuyer uniquement sur ce qu'il a mémorisé lors de son entraînement. Les deux méthodes d'ancrage les plus courantes sont :

L'ancrage ne rend pas le modèle infaillible, mais il déplace le goulot d'étranglement des données d'entraînement figées vers la qualité des sources que vous fournissez. Vérifiez ou citez toujours ces sources de façon indépendante pour tout ce qui est important.

Points cles
  • Date limite de connaissance : la date au-delà de laquelle un modèle ne dispose plus de données d'entraînement
  • Ancrage : fournir des sources actuelles pour que le modèle raisonne sur des faits récents
  • L'intégration de la recherche web injecte des résultats en direct dans le contexte du modèle
  • Coller ou joindre du texte est la forme la plus simple d'ancrage manuel
Travailler avec moi

Maitrisez Claude, Claude Code et les LLM, de votre premier prompt a l orchestration multi-agents.

Ce cours vous plait ? Je l ai concu de bout en bout. Besoin d une web app, d une app mobile, d une automatisation IA ou de SEO/GEO ? Parlons-en.

Me contacter sur LinkedInVoir un site que j ai realise