The Claude Bible
Accueil / Autres LLMs et routage
Niveau: Expert · 10 lecons

Autres LLMs et routage

Le paysage des modèles, la carte des refus, choisir le bon outil pour chaque tâche.

Ouvrir le cours interactif212 lecons, quiz, exercices, 3 langues, gratuit.

Le paysage : Claude, GPT, Gemini et les autres

Claude n'est pas seul. Connaître le paysage vous permet de choisir le bon modèle selon la tâche et de transférer vos techniques (un bon prompt reste bon partout). Les grandes familles :

Le corpus CL4R1T4S de Pierre rassemble les vrais system prompts de tous ces fournisseurs (ainsi que des outils Cursor, v0, Lovable, Devin, Perplexity...). Son Pattern Bank en extrait plus de 75 patterns réutilisables, classés en 13 catégories. La méta-leçon : les meilleures pratiques de prompting sont les mêmes partout, car tous ces modèles partagent la même nature de prédiction du token suivant. Apprendre Claude, c'est apprendre à parler à tous.

Points cles
  • Familles : Claude (code/raisonnement/sécurité), GPT (écosystème), Gemini (contexte géant), open-weights (local), Grok (permissif)
  • Les techniques de prompting se transfèrent : même nature de prédiction du token suivant
  • CL4R1T4S : une collection de vrais system prompts + un Pattern Bank de 75+ patterns
  • Apprendre Claude = apprendre à parler à tous les LLMs

Carte des refus et routage tactique

Chaque modèle possède sa politique de refus déclarée dans son system prompt. La Refusal Map de Pierre est une matrice de 14 fournisseurs x 14 catégories (droits d'auteur, cyber offensive/défensive, données personnelles, médical, juridique, financier, etc.) qui résume, par modèle, ce qui est strict, souple ou ouvert.

L'usage est le routage tactique : pour une tâche légitime qui se heurte à un refus trop large, choisir le modèle dont la politique laisse la latitude appropriée. Exemples documentés :

Deux mises en garde honnêtes que Pierre note lui-même :

La vraie leçon transposable : donner un contexte légitime fait passer une requête. "Audit de sécurité de mon propre site, voici l'autorisation" est traité très différemment de la même demande sans cadre. Un cadrage honnête est la première clé, bien avant le choix du modèle.

Points cles
  • Refusal Map = matrice fournisseurs x catégories de refus (strict/souple/ouvert)
  • Routage tactique : pour une tâche légitime, choisir le modèle avec la bonne latitude
  • Carte déclarative, pas comportementale : tester en réel ; lignes rouges infranchissables partout
  • Un cadrage honnête et légitime débloque plus que le choix du modèle

GPT-5 et la famille OpenAI

Le GPT-5 d'OpenAI (sorti en 2025) est le modèle phare actuel de la série GPT. Il rivalise directement avec Claude Opus sur le raisonnement, la rédaction longue et les tâches multimodales (c'est-à-dire qu'il peut traiter à la fois du texte et des images). GPT-5 est particulièrement performant pour suivre des instructions dans des cas d'usage grand public et est profondément intégré aux produits Microsoft via l'Azure OpenAI Service.

La famille OpenAI est organisée en niveaux, à l'image de l'échelle Opus / Sonnet / Haiku de Claude :

Comparé à Claude, GPT-5 tend à être plus permissif sur les contenus limites et est optimisé pour la diversité des tâches utilisateurs. Claude (en particulier Opus, identifiant de modèle claude-opus-4-8) est généralement préféré pour les documents longs et nuancés, les chaînes d'instructions strictes et les flux de travail de codage agentique où les refus et les hallucinations (faits inventés) ont un coût élevé. Les deux familles de modèles se distinguent surtout dans la gestion de la fenêtre de contexte : Claude 3.x et 4.x prennent en charge jusqu'à 200 000 tokens de contexte, tandis que GPT-5 supporte 128 000 tokens dans la plupart des configurations API.

Lorsque vous répartissez des tâches entre les modèles, la question pratique n'est pas "lequel est le plus intelligent" mais "lequel est le plus fiable pour cette tâche précise à ce coût." GPT-5 via l'API OpenAI et Claude via l'API Anthropic sont tous deux appelables depuis le même code d'orchestration, si bien que les systèmes réels utilisent souvent les deux, en assignant les tâches selon leurs points forts.

Points cles
  • GPT-5 est le modèle phare d'OpenAI, compétitif avec Claude Opus sur le raisonnement et les tâches multimodales.
  • L'échelle de niveaux OpenAI : GPT-5, GPT-4o, o3/o4-mini (raisonnement), GPT-4o mini.
  • Claude supporte jusqu'à 200k tokens de contexte ; l'API GPT-5 est limitée à 128k dans la plupart des configurations.
  • Choisissez le modèle selon l'adéquation à la tâche et le coût, pas selon un verdict unique de 'meilleur modèle'.

Gemini et les contextes très longs

La famille Gemini de Google (Ultra, Pro, Flash) est la principale concurrente des modèles Claude et GPT-4. Sa caractéristique distinctive est une fenêtre de contexte énorme (la quantité maximale de texte, de code ou de données qu'un modèle peut lire en une seule requête). Mi-2026, Gemini 1.5 Pro supporte jusqu'à 1 million de tokens, et Gemini 1.5 Flash jusqu'à 1 million de tokens à moindre coût. Pour référence, un token correspond environ à 3 ou 4 caractères de texte en anglais, soit 1 million de tokens qui peut contenir plusieurs grands romans ou toute une base de code de taille moyenne.

Quand une grande fenêtre de contexte est-elle vraiment utile ? Elle est utile lorsqu'il est impossible de découper l'entrée en morceaux plus petits sans perdre du sens. Les cas courants sont :

Les modèles Claude (Opus claude-opus-4-8, Sonnet claude-sonnet-4-6) offrent jusqu'à 200 000 tokens de contexte, ce qui couvre la plupart des tâches professionnelles. L'avantage de Gemini se manifeste dans les cas où même 200 000 tokens ne suffisent pas. Le compromis pratique : la qualité du raisonnement est généralement supérieure chez Claude et les modèles GPT-4 sur les tâches complexes à plusieurs étapes, tandis que Gemini Flash échange une partie de la profondeur de raisonnement contre la rapidité et le prix à grande échelle.

Points cles
  • Gemini Pro et Flash : fenêtre de contexte jusqu'à 1 million de tokens
  • La taille de la fenêtre de contexte importe surtout quand l'entrée ne peut pas être découpée
  • Claude plafonne à environ 200 000 tokens, avec une forte qualité de raisonnement
  • Choisir le modèle selon la forme de la tâche, pas par fidélité à une marque

Modèles ouverts : Llama, Mistral

Les modèles à poids ouverts sont des modèles d'IA dont les paramètres entraînés (les valeurs numériques qui définissent le comportement du modèle) sont rendus publics, ce qui permet à quiconque de les télécharger et de les exécuter localement ou sur ses propres serveurs. Les deux familles les plus connues sont Meta Llama (Llama 3, Llama 4) et Mistral (Mistral 7B, Mixtral, Mistral Large). Contrairement à Claude ou à GPT, aucune clé API ni abonnement mensuel n'est nécessaire pour les utiliser une fois téléchargés.

Le compromis fondamental est celui du contrôle versus la performance. Les modèles à poids ouverts offrent une confidentialité totale des données (rien ne quitte votre machine), un coût par jeton nul à l'inférence, et la possibilité de les fine-tuner (réentraîner sur vos propres données) pour un domaine spécifique. En contrepartie, vous devez fournir le matériel, gérer les mises à jour, et accepter que la performance de pointe reste inférieure à celle des meilleurs modèles propriétaires comme Claude Opus ou GPT-4o, du moins à mi-2026.

Pour orienter une charge de travail, privilégiez les modèles à poids ouverts quand une ou plusieurs de ces conditions s'appliquent :

Une stack pratique : utilisez Ollama (un serveur de modèles local, gratuit) pour servir Llama ou Mistral sur votre ordinateur portable ou un GPU loué, puis pointez votre code vers http://localhost:11434 en utilisant la même interface compatible OpenAI. En production, les versions quantifiées (compressées) en 4 bits de Llama 3 8B fonctionnent sur un seul GPU grand public avec 8 Go de VRAM.

Points cles
  • Poids ouverts : paramètres publics, auto-hébergeable
  • Idéal pour : confidentialité, volume élevé, fine-tuning, hors-ligne
  • Ollama sert Llama/Mistral localement via une API REST
  • Compromis : contrôle et coût versus performance de pointe

Faire tourner un modèle localement avec Ollama

L'inférence locale consiste à faire tourner un modèle d'IA entièrement sur votre propre machine : aucune donnée ne quitte jamais votre matériel. Ollama est l'outil le plus répandu pour cela : il télécharge des modèles à poids ouverts (dont les poids sont publiquement disponibles), les gère comme des images Docker et expose une API REST locale sur le port 11434.

Le compromis fondamental est entre capacité et maîtrise. Les modèles cloud comme Claude Opus ou GPT-4 s'exécutent sur les serveurs du fournisseur et offrent le meilleur raisonnement, au prix de l'envoi de votre texte à un tiers. Les modèles locaux s'exécutent sur votre CPU ou GPU sans aucun appel réseau, mais ils sont plus petits et moins performants pour les tâches de raisonnement complexe.

Principaux cas d'usage de l'inférence locale :

Les principaux modèles disponibles via Ollama comprennent Llama 3 (Meta), Mistral, Gemma (Google), Phi-3 (Microsoft) et de nombreuses variantes affinées. Aucun n'égalise Claude Opus sur le raisonnement difficile aujourd'hui, mais ils conviennent tout à fait à la classification, la synthèse, l'extraction sur modèle et la complétion de code sur des schémas connus.

Points cles
  • Inférence locale : le modèle tourne sur votre matériel, aucune donnée n'est envoyée à l'extérieur
  • Ollama gère les modèles à poids ouverts et sert une API locale
  • Compromis : confidentialité et zéro coût par appel contre capacité réduite
  • Idéal pour les données sensibles, l'usage hors ligne ou les volumes d'appels très élevés

Composer un prompt systeme multi-vendeurs

Le comportement par défaut d'aucun vendeur n'est optimal pour toutes les tâches. La composition de prompt multi-vendeurs consiste à lire les prompts système publiés ou reconstruits de plusieurs produits IA, à en extraire les règles pertinentes pour votre cas d'usage, puis à les fusionner en un prompt système cohérent que vous contrôlez.

Chaque vendeur a bien résolu un problème différent. Cursor (un éditeur de code IA) applique une discipline stricte d'édition de fichiers : il ne réécrit jamais un fichier sans l'avoir lu au préalable et affiche toujours un diff avant d'appliquer les modifications. Perplexity applique la citation en ligne : toute affirmation factuelle porte une référence numérotée. Le prompt système de GPT-4o applique l'anti-périplus : il interdit les formules comme "Je pense" ou "Je ne suis pas sûr" quand le modèle dispose de suffisamment de contexte pour être direct. Cline et Devin appliquent la discipline de boucle autonome : le modèle doit déclarer un plan, l'exécuter étape par étape, et ne s'arrêter qu'en cas d'ambiguïté ou de seuil de coût.

En combinant tout cela dans un seul prompt système pour Claude (en utilisant claude-opus-4-8 pour le raisonnement complexe ou claude-sonnet-4-6 pour la vitesse), vous obtenez un agent unique qui cite ses sources, édite les fichiers en toute sécurité, reste direct et fonctionne de façon autonome sans demandes de confirmation permanentes. Cette technique est parfois appelée prompt Frankenstein, car elle assemble des règles provenant de sources multiples en un seul corps.

Points cles
  • Extraire la règle la plus forte de chaque prompt vendeur
  • Fusionner les règles en un seul prompt système sans contradiction
  • Tester le prompt composé sur une tâche réelle avant de le déployer
  • Les règles du propriétaire priment toujours sur les valeurs par défaut des vendeurs

Routage tactique par tâche

Toutes les tâches ne méritent pas le même modèle. Le routage tactique consiste à choisir le modèle dont les points forts correspondent au travail en cours, afin de concentrer la puissance de calcul là où elle est rentable et d'éviter de payer un premium pour des tâches qui ne requièrent aucun raisonnement complexe.

Les trois niveaux en juin 2026 sont : Opus (claude-opus-4-8) pour le raisonnement complexe, l'architecture et les décisions de jugement ; Sonnet (claude-sonnet-4-6) pour le vaste terrain médian de la programmation, la rédaction et l'analyse ; Haiku (claude-haiku-4-5) pour les tâches rapides, à fort volume et simples, comme la classification ou l'extraction. Un mauvais routage dans un sens comme dans l'autre a un coût : utiliser Opus pour renommer une variable gaspille le budget, utiliser Haiku pour concevoir un système distribué risque de produire un résultat superficiel.

Une heuristique de routage pratique repose sur quatre signaux :

Dans Claude Code (l'agent de codage CLI et IDE), vous changez de modèle avec le drapeau --model ou la commande /model au sein d'une session. Les agents et pipelines construits sur l'API Anthropic peuvent router de façon programmatique en passant le paramètre model par requête, de sorte qu'un seul pipeline peut utiliser Haiku pour le pré-filtrage et Opus uniquement pour l'étape de jugement final.

Points cles
  • Routage tactique : adapter le niveau de modèle aux exigences de la tâche
  • Opus pour le jugement, Sonnet pour l'amplitude, Haiku pour la vitesse
  • Quatre signaux de routage : enjeux, nouveauté, longueur de sortie, latence
  • Le drapeau --model de Claude Code permet de changer de modèle par session ou par appel

Différences de refus selon les fournisseurs

Chaque grand fournisseur de LLM entraîne son modèle avec une politique de refus : un ensemble de règles qui poussent le modèle à décliner certaines requêtes. Ces politiques diffèrent par leur périmètre, leur ton et leur cohérence. Connaître ces différences permet d'acheminer les tâches vers le modèle le plus susceptible de les exécuter sans friction.

Les principales dimensions où les fournisseurs divergent sont listées ci-dessous. Un refus ferme signifie que le modèle ne répondra pas quelle que soit la formulation de la requête. Un refus mou signifie que le modèle résiste par défaut mais peut être débloqué grâce au contexte du system prompt, à l'attribution d'un rôle ou à une permission explicite de l'appelant API.

La stratégie d'acheminement pratique est d'utiliser un system prompt pour établir le contexte avant que le refus ne se produise. Si un modèle refuse encore après la mise en contexte, changez de fournisseur plutôt que d'essayer de tromper le modèle avec de l'injection de prompt (technique qui tente de contourner les instructions en cachant des commandes dans l'entrée), ce qui est peu fiable et viole les conditions d'utilisation.

Points cles
  • Les refus fermes ou mous dépendent de la politique du fournisseur et du contexte opérateur
  • Le contexte du system prompt est le mécanisme de déblocage légitime
  • Les modèles open-weight n'ont aucune politique de refus appliquée
  • Acheminez selon le type de tâche : choisissez le fournisseur dont la politique correspond au cas d'usage

Fine-tuning contre prompting

Un grand modèle de langage (LLM) comme Claude peut suivre des instructions écrites en langage naturel, une technique appelée prompting. Le fine-tuning est différent : vous prenez un modèle existant et continuez à l'entraîner sur votre propre jeu de données, de sorte que les poids eux-mêmes changent. Les deux approches permettent d'orienter le comportement d'un modèle, mais elles répondent à des problèmes différents.

Le prompting l'emporte dans la plupart des cas parce qu'il est rapide, peu coûteux et réversible. Vous itérez en quelques minutes, vous payez uniquement l'inférence (le calcul utilisé lorsque le modèle répond), et vous changez de modèle sans rien perdre. Le fine-tuning exige de collecter des centaines ou des milliers d'exemples annotés, de payer du temps de calcul GPU, d'héberger le modèle résultant, et de recommencer tout le processus chaque fois que vos besoins évoluent.

Le fine-tuning justifie son coût dans un ensemble restreint de situations :

Une règle pratique : épuisez d'abord le prompting. Utilisez des system prompts, des exemples few-shot (quelques paires entrée/sortie incluses dans le prompt), et la génération augmentée par récupération (RAG) (extraction de documents pertinents au moment de l'exécution) avant de toucher au fine-tuning. Le fine-tuning corrige le comportement ; le prompting le modèle. Si l'écart entre ce que fait le modèle et ce dont vous avez besoin relève de connaissances ou d'un style qui tient dans une fenêtre de contexte, le prompting est presque toujours la bonne réponse.

Points cles
  • Le prompting est rapide et réversible : préférez-le par défaut
  • Recourez au fine-tuning uniquement pour l'échelle, un format de sortie strict, le vocabulaire métier ou la confidentialité des données
  • Les exemples few-shot et le RAG peuvent remplacer le fine-tuning dans de nombreux cas
  • Les petits modèles fine-tunés réduisent les coûts à volume de requêtes élevé
Travailler avec moi

Maitrisez Claude, Claude Code et les LLM, de votre premier prompt a l orchestration multi-agents.

Ce cours vous plait ? Je l ai concu de bout en bout. Besoin d une web app, d une app mobile, d une automatisation IA ou de SEO/GEO ? Parlons-en.

Me contacter sur LinkedInVoir un site que j ai realise