Un grand modèle de langage (LLM) ne "comprend" pas comme un humain et ne "cherche" pas dans une base de données. Il fait une seule chose, des milliards de fois : prédire le prochain fragment de texte le plus probable compte tenu de tout ce qui précède.
Conséquences pratiques, qui expliquent 90 % des surprises :
Il est excellent pour les motifs (style, structure, code idiomatique) car ce sont des régularités du langage.
Il peut inventer avec confiance (halluciner) : un texte faux mais plausible reste statistiquement probable. D'où la règle qui suit : donnez-lui les sources, ne faites pas confiance à sa mémoire pour les faits.
Il n'a aucune mémoire entre les conversations. Tout ce qu'il "sait" sur vous vit dans le contexte qui lui est transmis à chaque appel.
Ses connaissances s'arrêtent à une date de coupure. Pour les événements récents, vous devez lui fournir une recherche web.
Gardez cette image : un improvisateur brillant mais amnésique. Votre rôle est de lui donner le bon décor (contexte) pour chaque scène.
Points cles
Un LLM prédit le prochain token, rien d'autre
Halluciner = produire une sortie plausible mais fausse, un risque structurel
Aucune mémoire entre les sessions : tout vit dans le contexte
Connaissances figées à une date de coupure
Les tokens et la fenêtre de contexte
Le modèle ne voit pas des lettres ni des mots, mais des tokens : des fragments de texte. En gros, 1 token correspond à environ 4 caractères, soit 0,75 mot en anglais. Le mot "interesting" peut compter 2 ou 3 tokens.
La fenêtre de contexte est le nombre maximum de tokens que le modèle peut traiter en une seule fois : votre invite + l'historique + les fichiers + sa réponse. Les modèles Claude récents acceptent jusqu'à 200 000 tokens, et certaines configurations jusqu'à 1 million de tokens (le modèle qui a écrit ceci fonctionne à 1M).
Pourquoi c'est fondamental :
Tout se paie en tokens (entrée + sortie). Plus de contexte = plus cher et plus lent.
Quand la fenêtre se remplit, il faut résumer ou nettoyer (nous verrons /compact et /clear dans Claude Code).
Un contexte surchargé de bruit dégrade la qualité : le signal utile se noie. "Plus de contexte" ne signifie pas "meilleur résultat".
Le module 7 est entièrement consacré à la maîtrise du contexte et des coûts. Pour l'instant, retenez l'unité : le token.
Points cles
Token = fragment de texte, environ 4 caractères
Fenêtre de contexte = entrée + historique + fichiers + sortie, avec un plafond (200K, parfois 1M)
Tout est facturé en tokens, entrée et sortie
Trop de contexte parasite dégrade la qualité, pas seulement le coût
La température, et le mythe du réglage magique
La température régule l'aléatoire dans la prédiction. Basse (0 à 0.3) : le modèle choisit presque toujours le token le plus probable, ce qui donne des réponses stables et prévisibles, idéal pour le code, l'extraction, la classification. Haute (0.7 à 1) : plus de diversité, idéal pour le brainstorming et la créativité.
Deux autres paramètres que vous rencontrerez dans l'API :
max_tokens : la longueur maximale de la réponse. Trop bas = réponse coupée.
top_p : une alternative à la température (échantillonnage nucléaire). En général, on touche l'un ou l'autre, pas les deux.
Le piège classique du débutant : croire que l'on corrige un mauvais résultat en tripatouillant la température. 95 % du temps, le problème vient du prompt, pas du réglage. Un prompt clair à température 0.3 surpasse un prompt vague à n'importe quelle température. On ajuste la température en dernier, pas en premier.
Points cles
Température basse = stable et factuel ; haute = créatif et diversifié
max_tokens plafonne la sortie (attention aux coupures)
Un mauvais résultat vient presque toujours du prompt, pas de la température
La famille Claude : Opus, Sonnet, Haiku
Anthropic publie chaque génération en trois tailles, qui échangent intelligence contre vitesse et coût :
Opus : le plus puissant. Architecture, raisonnement difficile, débogage complexe, brainstorming. Le plus lent et le plus cher.
Sonnet : l'équilibre. Le cheval de bataille quotidien, très bon rapport qualité/coût.
Haiku : le plus rapide et le moins cher. Tâches répétitives, classification, volume, multi-langue.
Identifiants de modèles (utiles dans l'API et dans Claude Code) pour la génération actuelle :
Opus 4.8 : claude-opus-4-8
Sonnet 4.6 : claude-sonnet-4-6
Haiku 4.5 : claude-haiku-4-5-20251001
La règle de Pierre, appliquée dans sa pratique : Opus pour l'architecture, le brainstorming et le débogage ; déléguer le répétitif, le multi-langue et l'audit à Sonnet ou Haiku via des sous-agents. Plus de détails dans le module multi-agent. Côté facturation, les appels Claude sont la ressource bon marché de sa configuration : seuls les services externes payants comptent vraiment.
Points cles
Opus = puissance, Sonnet = équilibre, Haiku = vitesse/volume
Pierre : Opus pour l'architecture/débogage, Sonnet/Haiku pour le travail répétitif délégué
Le sens sans dictionnaire : les embeddings
Quand un modèle de langage lit un mot ou une phrase, il ne le cherche pas dans un dictionnaire. Il convertit le texte en un vecteur, c'est-à-dire une longue liste de nombres (souvent des centaines ou des milliers de valeurs). Cette liste est appelée un embedding. Chaque nombre capture une infime facette du sens, si bien que la liste entière représente ce que le texte "signifie" pour le modèle.
L'intuition clé est que des sens similaires produisent des vecteurs similaires. Dans l'espace mathématique où vivent ces vecteurs (appelé espace d'embedding), les mots et expressions se regroupent par sens. "Docteur" et "médecin" se retrouvent proches l'un de l'autre. "Chien" et "chat" sont voisins mais loin de "facture". Le modèle n'avait pas besoin d'une règle disant que ces mots sont liés : il a appris leurs positions en traitant des milliards de phrases.
Cette géométrie du sens est ce qui permet à Claude de répondre aux questions, de trouver des passages pertinents et de comprendre le contexte. Quand vous posez une question, elle est convertie en vecteur, et le modèle trouve le contenu dont le vecteur est proche dans l'espace d'embedding. Ce procédé s'appelle la recherche sémantique (recherche par le sens, et non par les mots exacts).
Vecteur : une liste de nombres qui encode un concept.
Embedding : le vecteur spécifique qu'un modèle attribue à un morceau de texte.
Espace d'embedding : la carte multidimensionnelle où vivent tous ces vecteurs.
Recherche sémantique : trouver un texte par distance de sens plutôt que par correspondance de mots-clés.
Points cles
Les embeddings convertissent le texte en listes de nombres
Des sens similaires sont proches dans l'espace d'embedding
La recherche sémantique utilise la distance vectorielle, pas les mots-clés
Les modèles apprennent ces positions à partir des données, pas de règles
Échantillonnage : pourquoi le même prompt varie
Chaque fois qu'un modèle de langage génère du texte, il choisit les mots un par un. Après chaque mot, il consulte une liste de probabilités : des milliers de mots candidats, chacun avec un score. La façon dont il pioche dans cette liste s'appelle le décodage, et c'est la principale raison pour laquelle deux prompts identiques peuvent produire des réponses différentes.
Le décodage glouton choisit toujours le mot avec le score le plus élevé. Il est rapide et entièrement déterministe (la sortie est toujours la même), mais il tend à produire un texte plat et répétitif. Le décodage par échantillonnage introduit de l'aléatoire : le modèle tire dans la liste de probabilités plutôt que de prendre systématiquement le premier élément. Le degré d'aléatoire est contrôlé par la température (abordée dans la leçon suivante) et par deux filtres appliqués avant l'échantillonnage :
Filtrage top-k : ne conserver que les k candidats au score le plus élevé et écarter les autres. Si k vaut 40, seuls les 40 mots les plus probables sont éligibles à chaque étape.
Filtrage top-p (échantillonnage nucléaire) : conserver le plus petit ensemble de candidats dont la probabilité cumulée atteint p. Si p vaut 0,9, les mots représentant ensemble 90 % de la masse de probabilité sont conservés ; la longue traîne de mots peu probables est supprimée. Ce mécanisme s'adapte dynamiquement : lorsque le modèle est très confiant, moins de mots passent le filtre.
En pratique, top-p et top-k sont souvent appliqués ensemble avant l'échantillonnage basé sur la température. L'API de Claude expose ces deux paramètres. Augmenter p ou k élargit le pool et accroît la variété ; les diminuer rend le modèle plus prévisible. Fixer la température à 0 revient au décodage glouton, quels que soient les réglages top-p ou top-k.
Points cles
Le décodage glouton choisit toujours le mot de plus haute probabilité, produisant une sortie déterministe.
Top-k limite les candidats aux k mots les plus probables à chaque étape.
Top-p (échantillonnage nucléaire) conserve le plus petit ensemble de mots couvrant p de la probabilité totale.
Le décodage par échantillonnage introduit une variété utile ; la température 0 la supprime.
Trois voix : system, user, assistant
Chaque conversation envoyée à un LLM (grand modèle de langage) est composée de messages, et chaque message appartient à l'un des trois rôles : system, user ou assistant. Comprendre ces rôles vous permet de savoir exactement comment Claude est instruite, qui parle, et ce que Claude est autorisée à dire.
Le system prompt est défini par celui qui construit le produit (un développeur, une entreprise, ou Claude Code lui-même). Il arrive avant le début de la conversation et indique à Claude comment se comporter : sa personnalité, ses limites, sa mission. L'utilisateur ne le voit pas, sauf si le créateur choisit de le montrer.
Le tour user correspond à votre message : la question, l'instruction ou le fichier que vous envoyez. Le tour assistant est la réponse de Claude. Ces deux rôles s'alternent pour former l'historique de conversation que Claude lit à chaque fois qu'elle répond.
system : instructions invisibles du créateur, qui définissent les règles et la personnalité.
user : votre saisie, le message que vous tapez ou le fichier que vous joignez.
assistant : la réponse de Claude, générée à partir de tout ce qui précède dans le fil de conversation.
Points cles
Le system prompt est invisible pour l'utilisateur mais contrôle le comportement de Claude.
Les tours user et assistant s'alternent pour former l'historique de conversation.
Claude lit l'intégralité de l'historique à chaque réponse, pas seulement le dernier message.
Savoir quel rôle contient quel texte aide à déboguer un comportement inattendu.
Comment Claude a été entraîné
Claude commence sa vie comme tout grand modèle de langage (LLM) : il passe par le préentraînement, au cours duquel il lit une portion massive d'internet, de livres et de code. Durant cette phase, le modèle apprend la grammaire, des faits, des schémas de raisonnement et des styles d'écriture, uniquement en prédisant le mot suivant, des milliards de fois. Aucune guidance humaine encore, seulement des statistiques à une échelle colossale.
Vient ensuite le RLHF (Reinforcement Learning from Human Feedback, ou apprentissage par renforcement à partir de retours humains). Des formateurs humains évaluent des paires de réponses du modèle, et ces évaluations servent à entraîner un "modèle de préférences" distinct. Claude est alors affiné pour produire des réponses qui obtiennent de bons scores sur ce modèle de préférences. C'est ainsi que la prédiction de texte brut devient un assistant utile qui suit les instructions et évite les erreurs flagrantes.
Anthropic ajoute une troisième couche appelée Constitutional AI (CAI). Au lieu de s'appuyer uniquement sur des évaluateurs humains, CAI fournit au modèle un ensemble de principes écrits (une "constitution") et lui demande de critiquer et réviser ses propres réponses à la lumière de ces principes. Cela rend le processus d'alignement plus évolutif et plus transparent, car les règles sont explicites plutôt qu'enfouies dans les intuitions des évaluateurs.
Ces trois phases façonnent tout ce que vous vivez lorsque vous parlez à Claude :
Le préentraînement détermine ce que Claude sait et comment il raisonne.
Le RLHF détermine à quel point il est utile et capable de suivre des instructions.
Constitutional AI détermine ses limites de sécurité et ses valeurs constantes.
Ces trois phases ensemble expliquent pourquoi Claude peut écrire du code de manière fluide mais refusera certaines demandes sans que l'utilisateur le lui ait demandé.
Points cles
Préentraînement : apprendre la langue à partir de texte brut à grande échelle
RLHF : façonner le comportement grâce aux évaluations de préférences humaines
Constitutional AI : autocritique à partir de principes écrits
Les phases d'entraînement déterminent les connaissances, l'utilité et les limites de sécurité
L'attention et pourquoi la position compte
Chaque LLM (grand modèle de langage) moderne repose sur un mécanisme appelé attention. Lorsque le modèle lit votre invite, il ne traite pas chaque mot de la même façon. Il attribue un score à chaque mot (ou token) par rapport à tous les autres et détermine lesquels sont les plus pertinents pour chaque étape de la réponse. Imaginez que le modèle se pose la question : "pour écrire ce prochain mot, sur quels mots précédents dois-je m'appuyer le plus ?"
Étant donné que les scores d'attention sont calculés sur l'ensemble de la fenêtre de contexte (le texte total que le modèle peut voir en une seule fois), le modèle peut en théorie relier n'importe quelles deux informations, quelle que soit la distance qui les sépare. En pratique, cependant, les chercheurs ont observé un phénomène appelé lost-in-the-middle : les modèles ont tendance à mieux rappeler les informations placées au tout début ou à la toute fin d'une invite longue, plutôt que celles enfouies au milieu.
Cela a une conséquence directe et pratique sur la façon dont vous structurez vos invites et les documents que vous transmettez à Claude :
Placez la tâche ou la question en premier (ou du moins très tôt). Le modèle ancre son attention sur les tokens d'ouverture.
Placez les faits ou contraintes critiques vers la fin, juste avant que la réponse soit attendue. Le contenu en fin d'invite est rappelé de façon fiable.
Évitez d'enfouir les règles importantes au milieu d'un long bloc de texte de contexte. Ces règles sont celles qui ont le plus de risque d'être ignorées ou oubliées.
Utilisez la structure (titres, listes à puces, étiquettes explicites comme "IMPORTANT :") pour renforcer l'attention sur les passages critiques, où qu'ils se trouvent.
Le même principe s'applique lorsque vous transmettez à Claude un long document et lui posez une question à son sujet. Placez votre question avant le document, reformulez-la brièvement après, et mettez en évidence la section pertinente avec une étiquette. Cette structure en sandwich combat l'effet lost-in-the-middle et produit systématiquement de meilleures réponses.
Points cles
L'attention pondère chaque token par rapport à tous les autres pour déterminer la pertinence
Lost-in-the-middle : les informations enfouies au milieu d'une invite longue sont les moins bien rappelées
Placez les tâches tôt, les contraintes critiques tard, et utilisez la structure pour signaler l'importance
Reformuler une question avant et après un long document améliore le rappel
La date limite de connaissance et l'ancrage
Tout grand modèle de langage (LLM) est entraîné sur un instantané de textes rassemblés jusqu'à une date précise, appelée la date limite de connaissance. Au-delà de cette date, le modèle n'a aucune connaissance des nouveaux événements, des prix mis à jour, des lois révisées ni de quoi que ce soit d'autre qui aurait changé. La date limite de connaissance de Claude est août 2025 ; il ne peut donc pas répondre de façon fiable sur ce qui s'est passé après ce point.
Cela pose un problème pratique : le monde continue d'évoluer tandis que le modèle reste figé. Une question sur les cours boursiers actuels, la dernière version d'un logiciel ou un événement politique récent produira probablement une réponse obsolète ou tout simplement erronée, même d'un modèle compétent. Le modèle ne sait pas ce qu'il ne sait pas, et il peut donc répondre avec une fausse assurance.
L'ancrage est la technique utilisée pour remédier à cela. Elle consiste à donner au modèle accès à des informations fraîches et fiables au moment où il répond, plutôt que de s'appuyer uniquement sur ce qu'il a mémorisé lors de son entraînement. Les deux méthodes d'ancrage les plus courantes sont :
Intégration de la recherche web : le système récupère des résultats de recherche en direct et les injecte dans le contexte du modèle avant qu'il ne réponde. Claude.ai peut le faire grâce à son bouton de recherche intégré.
Sources fournies manuellement : vous collez ou joignez vous-même le texte pertinent (un document, un extrait de page web, un fichier de données). Le modèle raisonne sur ce que vous lui avez fourni, et non sur sa mémoire périmée.
L'ancrage ne rend pas le modèle infaillible, mais il déplace le goulot d'étranglement des données d'entraînement figées vers la qualité des sources que vous fournissez. Vérifiez ou citez toujours ces sources de façon indépendante pour tout ce qui est important.
Points cles
Date limite de connaissance : la date au-delà de laquelle un modèle ne dispose plus de données d'entraînement
Ancrage : fournir des sources actuelles pour que le modèle raisonne sur des faits récents
L'intégration de la recherche web injecte des résultats en direct dans le contexte du modèle
Coller ou joindre du texte est la forme la plus simple d'ancrage manuel
Travailler avec moi
Maitrisez Claude, Claude Code et les LLM, de votre premier prompt a l orchestration multi-agents.
Ce cours vous plait ? Je l ai concu de bout en bout. Besoin d une web app, d une app mobile, d une automatisation IA ou de SEO/GEO ? Parlons-en.