Le paysage des modèles, la carte des refus, choisir le bon outil pour chaque tâche.

Le paysage : Claude, GPT, Gemini et les autres

Claude n'est pas seul. Connaître le paysage vous permet de choisir le bon modèle selon la tâche et de transférer vos techniques (un bon prompt reste bon partout). Les grandes familles :

Anthropic Claude : la référence pour le code, le raisonnement long, le suivi d'instructions et la sécurité. Excellent en agentics (Claude Code, Cowork).
OpenAI GPT : un écosystème large, multimodal, un function calling mature, l'agent Atlas/computer-use.
Google Gemini : fenêtres de contexte très grandes, intégration Google, multimodal natif.
Open-weights (Llama, Mistral, Kimi, DeepSeek) : poids ouverts, déployables localement, finement ajustables. Le terrain de jeu de la souveraineté et du coût marginal zéro.
xAI Grok : plus permissif sur certains contenus, temps réel.

Le corpus CL4R1T4S de Pierre rassemble les vrais system prompts de tous ces fournisseurs (ainsi que des outils Cursor, v0, Lovable, Devin, Perplexity...). Son Pattern Bank en extrait plus de 75 patterns réutilisables, classés en 13 catégories. La méta-leçon : les meilleures pratiques de prompting sont les mêmes partout, car tous ces modèles partagent la même nature de prédiction du token suivant. Apprendre Claude, c'est apprendre à parler à tous.

Mise à jour, juillet 2026 : l'échelle d'Anthropic a gagné un barreau. La famille Claude 5 (Fable 5, et son jumeau sans restrictions Mythos 5 réservé aux organisations approuvées) se place désormais au-dessus d'Opus 4.8, et Sonnet 5 a remplacé Sonnet 4.6 comme milieu de gamme par défaut. Le module fondations raconte toute l'histoire.

Points clés

Familles : Claude (code/raisonnement/sécurité), GPT (écosystème), Gemini (contexte géant), open-weights (local), Grok (permissif)
Les techniques de prompting se transfèrent : même nature de prédiction du token suivant
CL4R1T4S : une collection de vrais system prompts + un Pattern Bank de 75+ patterns
Apprendre Claude = apprendre à parler à tous les LLMs

Carte des refus et routage tactique

Chaque modèle possède sa politique de refus déclarée dans son system prompt. La Refusal Map de Pierre est une matrice de 14 fournisseurs x 14 catégories (droits d'auteur, cyber offensive/défensive, données personnelles, médical, juridique, financier, etc.) qui résume, par modèle, ce qui est strict, souple ou ouvert.

L'usage est le routage tactique : pour une tâche légitime qui se heurte à un refus trop large, choisir le modèle dont la politique laisse la latitude appropriée. Exemples documentés :

Audit défensif ou durcissement de votre propre site : Claude est très à l'aise.
Décision juridique ou financière : Claude répond mais avec une réserve ; on garde un humain dans la boucle.

Deux mises en garde honnêtes que Pierre note lui-même :

La carte est déclarative (ce que dit le prompt), pas comportementale : les classifieurs peuvent bloquer au-delà. Tester en réel avant de cataloguer.
Elle ne sert qu'à débloquer le légitime. Les lignes rouges (vrai malware, armes CBRN, contenu sexuel impliquant des mineurs) sont infranchissables partout, et c'est tant mieux.

La vraie leçon transposable : donner un contexte légitime fait passer une requête. "Audit de sécurité de mon propre site, voici l'autorisation" est traité très différemment de la même demande sans cadre. Un cadrage honnête est la première clé, bien avant le choix du modèle.

Points clés

Refusal Map = matrice fournisseurs x catégories de refus (strict/souple/ouvert)
Routage tactique : pour une tâche légitime, choisir le modèle avec la bonne latitude
Carte déclarative, pas comportementale : tester en réel ; lignes rouges infranchissables partout
Un cadrage honnête et légitime débloque plus que le choix du modèle

GPT-5 et la famille OpenAI

Le GPT-5 d'OpenAI (sorti en 2025) est le modèle phare actuel de la série GPT. Il rivalise directement avec Claude Opus sur le raisonnement, la rédaction longue et les tâches multimodales (c'est-à-dire qu'il peut traiter à la fois du texte et des images). GPT-5 est particulièrement performant pour suivre des instructions dans des cas d'usage grand public et est profondément intégré aux produits Microsoft via l'Azure OpenAI Service.

La famille OpenAI est organisée en niveaux, à l'image de l'échelle Opus / Sonnet / Haiku de Claude :

GPT-5 : modèle phare, capacité maximale, coût par token le plus élevé (un token correspond environ à 0,75 mot).
GPT-4o ("omni") : modèle multimodal rapide, utilisé par défaut dans ChatGPT, bon équilibre coût/qualité.
o3 / o4-mini : les modèles de "raisonnement" d'OpenAI, qui réfléchissent étape par étape avant de répondre, un concept similaire au mode de réflexion étendue de Claude.
GPT-4o mini : faible coût, grande vitesse, comparable au niveau Haiku.

Comparé à Claude, GPT-5 tend à être plus permissif sur les contenus limites et est optimisé pour la diversité des tâches utilisateurs. Claude (en particulier Opus, identifiant de modèle claude-opus-4-8) est généralement préféré pour les documents longs et nuancés, les chaînes d'instructions strictes et les flux de travail de codage agentique où les refus et les hallucinations (faits inventés) ont un coût élevé. Les deux familles de modèles se distinguent surtout dans la gestion de la fenêtre de contexte : Claude 3.x et 4.x prennent en charge jusqu'à 200 000 tokens de contexte, tandis que GPT-5 supporte 128 000 tokens dans la plupart des configurations API.

Lorsque vous répartissez des tâches entre les modèles, la question pratique n'est pas "lequel est le plus intelligent" mais "lequel est le plus fiable pour cette tâche précise à ce coût." GPT-5 via l'API OpenAI et Claude via l'API Anthropic sont tous deux appelables depuis le même code d'orchestration, si bien que les systèmes réels utilisent souvent les deux, en assignant les tâches selon leurs points forts.

Points clés

GPT-5 est le modèle phare d'OpenAI, compétitif avec Claude Opus sur le raisonnement et les tâches multimodales.
L'échelle de niveaux OpenAI : GPT-5, GPT-4o, o3/o4-mini (raisonnement), GPT-4o mini.
Claude supporte jusqu'à 200k tokens de contexte ; l'API GPT-5 est limitée à 128k dans la plupart des configurations.
Choisissez le modèle selon l'adéquation à la tâche et le coût, pas selon un verdict unique de 'meilleur modèle'.

Gemini et les contextes très longs

La famille Gemini de Google (Ultra, Pro, Flash) est la principale concurrente des modèles Claude et GPT-4. Sa caractéristique distinctive est une fenêtre de contexte énorme (la quantité maximale de texte, de code ou de données qu'un modèle peut lire en une seule requête). Mi-2026, Gemini 1.5 Pro supporte jusqu'à 1 million de tokens, et Gemini 1.5 Flash jusqu'à 1 million de tokens à moindre coût. Pour référence, un token correspond environ à 3 ou 4 caractères de texte en anglais, soit 1 million de tokens qui peut contenir plusieurs grands romans ou toute une base de code de taille moyenne.

Quand une grande fenêtre de contexte est-elle vraiment utile ? Elle est utile lorsqu'il est impossible de découper l'entrée en morceaux plus petits sans perdre du sens. Les cas courants sont :

Analyser un contrat juridique complet ou un article de recherche sans le résumer au préalable
Déboguer une grande base de code en fournissant tous les fichiers en même temps
Rechercher un détail précis dans un journal de conversation ou une transcription entière
Traiter des transcriptions audio ou vidéo d'une heure en un seul appel

Les modèles Claude (Opus claude-opus-4-8, Sonnet claude-sonnet-4-6) offrent jusqu'à 200 000 tokens de contexte, ce qui couvre la plupart des tâches professionnelles. L'avantage de Gemini se manifeste dans les cas où même 200 000 tokens ne suffisent pas. Le compromis pratique : la qualité du raisonnement est généralement supérieure chez Claude et les modèles GPT-4 sur les tâches complexes à plusieurs étapes, tandis que Gemini Flash échange une partie de la profondeur de raisonnement contre la rapidité et le prix à grande échelle.

Mise à jour, juillet 2026 : Google a arrêté le Gemini CLI le 18 juin 2026 pour les offres gratuite, Pro et Ultra, remplacé par l'Antigravity CLI en closed-source (sans parité de fonctions au lancement). Partout où ce cours mentionnait la commande gemini comme alternative CLI, lisez Antigravity CLI, avec cette réserve.

Points clés

Gemini Pro et Flash : fenêtre de contexte jusqu'à 1 million de tokens
La taille de la fenêtre de contexte importe surtout quand l'entrée ne peut pas être découpée
Claude plafonne à environ 200 000 tokens, avec une forte qualité de raisonnement
Choisir le modèle selon la forme de la tâche, pas par fidélité à une marque

Modèles ouverts : Llama, Mistral

Les modèles à poids ouverts sont des modèles d'IA dont les paramètres entraînés (les valeurs numériques qui définissent le comportement du modèle) sont rendus publics, ce qui permet à quiconque de les télécharger et de les exécuter localement ou sur ses propres serveurs. Les deux familles les plus connues sont Meta Llama (Llama 3, Llama 4) et Mistral (Mistral 7B, Mixtral, Mistral Large). Contrairement à Claude ou à GPT, aucune clé API ni abonnement mensuel n'est nécessaire pour les utiliser une fois téléchargés.

Le compromis fondamental est celui du contrôle versus la performance. Les modèles à poids ouverts offrent une confidentialité totale des données (rien ne quitte votre machine), un coût par jeton nul à l'inférence, et la possibilité de les fine-tuner (réentraîner sur vos propres données) pour un domaine spécifique. En contrepartie, vous devez fournir le matériel, gérer les mises à jour, et accepter que la performance de pointe reste inférieure à celle des meilleurs modèles propriétaires comme Claude Opus ou GPT-4o, du moins à mi-2026.

Pour orienter une charge de travail, privilégiez les modèles à poids ouverts quand une ou plusieurs de ces conditions s'appliquent :

Sensibilité des données : documents juridiques, médicaux ou internes qui ne doivent pas quitter votre infrastructure.
Volume élevé, faible complexité : tâches de classification, d'extraction ou de résumé où un modèle de 7B ou 8B est suffisamment précis et où le coût par appel compte.
Fine-tuning nécessaire : vous avez besoin d'un vocabulaire métier ou d'un style rédactionnel maison que le prompt engineering seul ne peut pas garantir.
Déploiement hors-ligne ou en périphérie : pas de connexion internet fiable, ou des contraintes de latence qu'une API distante ne peut pas satisfaire.

Une stack pratique : utilisez Ollama (un serveur de modèles local, gratuit) pour servir Llama ou Mistral sur votre ordinateur portable ou un GPU loué, puis pointez votre code vers http://localhost:11434 en utilisant la même interface compatible OpenAI. En production, les versions quantifiées (compressées) en 4 bits de Llama 3 8B fonctionnent sur un seul GPU grand public avec 8 Go de VRAM.

Points clés

Poids ouverts : paramètres publics, auto-hébergeable
Idéal pour : confidentialité, volume élevé, fine-tuning, hors-ligne
Ollama sert Llama/Mistral localement via une API REST
Compromis : contrôle et coût versus performance de pointe

Faire tourner un modèle localement avec Ollama

L'inférence locale consiste à faire tourner un modèle d'IA entièrement sur votre propre machine : aucune donnée ne quitte jamais votre matériel. Ollama est l'outil le plus répandu pour cela : il télécharge des modèles à poids ouverts (dont les poids sont publiquement disponibles), les gère comme des images Docker et expose une API REST locale sur le port 11434.

Le compromis fondamental est entre capacité et maîtrise. Les modèles cloud comme Claude Opus ou GPT-4 s'exécutent sur les serveurs du fournisseur et offrent le meilleur raisonnement, au prix de l'envoi de votre texte à un tiers. Les modèles locaux s'exécutent sur votre CPU ou GPU sans aucun appel réseau, mais ils sont plus petits et moins performants pour les tâches de raisonnement complexe.

Principaux cas d'usage de l'inférence locale :

Données sensibles : dossiers médicaux, documents juridiques, code interne que vous ne pouvez pas envoyer à une API externe.
Environnements hors ligne ou isolés : usines, appareils de terrain ou réseaux sécurisés sans accès internet.
Coût à haut volume : une fois le modèle téléchargé, chaque appel est gratuit, ce qui le rend attractif pour des millions de completions courtes.
Boucles à faible latence : un modèle local peut répondre en moins d'une seconde sur un GPU moderne, sans délai de transit réseau.

Les principaux modèles disponibles via Ollama comprennent Llama 3 (Meta), Mistral, Gemma (Google), Phi-3 (Microsoft) et de nombreuses variantes affinées. Aucun n'égalise Claude Opus sur le raisonnement difficile aujourd'hui, mais ils conviennent tout à fait à la classification, la synthèse, l'extraction sur modèle et la complétion de code sur des schémas connus.

Points clés

Inférence locale : le modèle tourne sur votre matériel, aucune donnée n'est envoyée à l'extérieur
Ollama gère les modèles à poids ouverts et sert une API locale
Compromis : confidentialité et zéro coût par appel contre capacité réduite
Idéal pour les données sensibles, l'usage hors ligne ou les volumes d'appels très élevés

Composer un prompt systeme multi-vendeurs

Le comportement par défaut d'aucun vendeur n'est optimal pour toutes les tâches. La composition de prompt multi-vendeurs consiste à lire les prompts système publiés ou reconstruits de plusieurs produits IA, à en extraire les règles pertinentes pour votre cas d'usage, puis à les fusionner en un prompt système cohérent que vous contrôlez.

Chaque vendeur a bien résolu un problème différent. Cursor (un éditeur de code IA) applique une discipline stricte d'édition de fichiers : il ne réécrit jamais un fichier sans l'avoir lu au préalable et affiche toujours un diff avant d'appliquer les modifications. Perplexity applique la citation en ligne : toute affirmation factuelle porte une référence numérotée. Le prompt système de GPT-4o applique l'anti-périplus : il interdit les formules comme "Je pense" ou "Je ne suis pas sûr" quand le modèle dispose de suffisamment de contexte pour être direct. Cline et Devin appliquent la discipline de boucle autonome : le modèle doit déclarer un plan, l'exécuter étape par étape, et ne s'arrêter qu'en cas d'ambiguïté ou de seuil de coût.

En combinant tout cela dans un seul prompt système pour Claude (en utilisant claude-opus-4-8 pour le raisonnement complexe ou claude-sonnet-4-6 pour la vitesse), vous obtenez un agent unique qui cite ses sources, édite les fichiers en toute sécurité, reste direct et fonctionne de façon autonome sans demandes de confirmation permanentes. Cette technique est parfois appelée prompt Frankenstein, car elle assemble des règles provenant de sources multiples en un seul corps.

Lire avant d'écrire (Cursor) : toujours lire un fichier avant de le modifier ; afficher un résumé du diff.
Citer chaque affirmation (Perplexity) : ajouter [source : ...] ou une note de bas de page numérotée aux affirmations factuelles.
Pas de périplus (GPT-4o) : interdire les formules de remplissage ; être direct quand le contexte est suffisant.
Planifier puis exécuter (Cline/Devin) : déclarer les étapes avant d'agir ; s'arrêter uniquement en cas d'ambiguïté ou de seuil de coût.
Archiver, jamais supprimer (règle du propriétaire) : ne jamais supprimer, toujours déplacer dans _ARCHIVES/.

Points clés

Extraire la règle la plus forte de chaque prompt vendeur
Fusionner les règles en un seul prompt système sans contradiction
Tester le prompt composé sur une tâche réelle avant de le déployer
Les règles du propriétaire priment toujours sur les valeurs par défaut des vendeurs

Routage tactique par tâche

Toutes les tâches ne méritent pas le même modèle. Le routage tactique consiste à choisir le modèle dont les points forts correspondent au travail en cours, afin de concentrer la puissance de calcul là où elle est rentable et d'éviter de payer un premium pour des tâches qui ne requièrent aucun raisonnement complexe.

Les trois niveaux en juin 2026 sont : Opus (claude-opus-4-8) pour le raisonnement complexe, l'architecture et les décisions de jugement ; Sonnet (claude-sonnet-4-6) pour le vaste terrain médian de la programmation, la rédaction et l'analyse ; Haiku (claude-haiku-4-5) pour les tâches rapides, à fort volume et simples, comme la classification ou l'extraction. Un mauvais routage dans un sens comme dans l'autre a un coût : utiliser Opus pour renommer une variable gaspille le budget, utiliser Haiku pour concevoir un système distribué risque de produire un résultat superficiel.

Une heuristique de routage pratique repose sur quatre signaux :

Enjeux : une mauvaise réponse causera-t-elle un préjudice réel ou un travail supplémentaire ? Privilégier Opus.
Nouveauté : le problème est-il bien défini et répétitif ? Haiku ou Sonnet suffit.
Longueur de la sortie : les documents structurés longs bénéficient du raisonnement de Sonnet ou Opus sur un grand nombre de tokens.
Budget de latence : si un utilisateur attend moins de deux secondes, Haiku gagne en vitesse quelle que soit la complexité de la tâche.

Dans Claude Code (l'agent de codage CLI et IDE), vous changez de modèle avec le drapeau --model ou la commande /model au sein d'une session. Les agents et pipelines construits sur l'API Anthropic peuvent router de façon programmatique en passant le paramètre model par requête, de sorte qu'un seul pipeline peut utiliser Haiku pour le pré-filtrage et Opus uniquement pour l'étape de jugement final.

Points clés

Routage tactique : adapter le niveau de modèle aux exigences de la tâche
Opus pour le jugement, Sonnet pour l'amplitude, Haiku pour la vitesse
Quatre signaux de routage : enjeux, nouveauté, longueur de sortie, latence
Le drapeau --model de Claude Code permet de changer de modèle par session ou par appel

Différences de refus selon les fournisseurs

Chaque grand fournisseur de LLM entraîne son modèle avec une politique de refus : un ensemble de règles qui poussent le modèle à décliner certaines requêtes. Ces politiques diffèrent par leur périmètre, leur ton et leur cohérence. Connaître ces différences permet d'acheminer les tâches vers le modèle le plus susceptible de les exécuter sans friction.

Les principales dimensions où les fournisseurs divergent sont listées ci-dessous. Un refus ferme signifie que le modèle ne répondra pas quelle que soit la formulation de la requête. Un refus mou signifie que le modèle résiste par défaut mais peut être débloqué grâce au contexte du system prompt, à l'attribution d'un rôle ou à une permission explicite de l'appelant API.

Détail médical et juridique : Claude (Anthropic) a tendance à ajouter des avertissements mais peut aller plus loin avec un system prompt qui établit un contexte professionnel. GPT-4o (OpenAI) se comporte de manière similaire. Gemini (Google) est plus conservateur sur les spécificités cliniques.
Sécurité et contenu offensif : Tous les grands fournisseurs refusent fermement les instructions pas à pas pour la synthèse d'armes. Pour les sujets de sécurité à double usage (tests de pénétration, analyse d'exploits), Claude avec un system prompt opérateur est généralement le plus permissif parmi les trois grands.
Fiction créative avec thèmes sombres : Claude autorise le contenu littéraire mature lorsque l'opérateur l'active. GPT-4o est plus strict par défaut sur la violence et le contenu explicite. Les modèles open-weight (Llama, Mistral) exécutés localement n'ont aucune politique appliquée.
Opinion politique et sujets controversés : Claude décline d'exprimer des opinions personnelles sur des sujets politiques contestés. GPT-4o se comporte de façon similaire. Les modèles open-weight donnent souvent une opinion si on leur demande directement.

La stratégie d'acheminement pratique est d'utiliser un system prompt pour établir le contexte avant que le refus ne se produise. Si un modèle refuse encore après la mise en contexte, changez de fournisseur plutôt que d'essayer de tromper le modèle avec de l'injection de prompt (technique qui tente de contourner les instructions en cachant des commandes dans l'entrée), ce qui est peu fiable et viole les conditions d'utilisation.

Points clés

Les refus fermes ou mous dépendent de la politique du fournisseur et du contexte opérateur
Le contexte du system prompt est le mécanisme de déblocage légitime
Les modèles open-weight n'ont aucune politique de refus appliquée
Acheminez selon le type de tâche : choisissez le fournisseur dont la politique correspond au cas d'usage

Fine-tuning contre prompting

Un grand modèle de langage (LLM) comme Claude peut suivre des instructions écrites en langage naturel, une technique appelée prompting. Le fine-tuning est différent : vous prenez un modèle existant et continuez à l'entraîner sur votre propre jeu de données, de sorte que les poids eux-mêmes changent. Les deux approches permettent d'orienter le comportement d'un modèle, mais elles répondent à des problèmes différents.

Le prompting l'emporte dans la plupart des cas parce qu'il est rapide, peu coûteux et réversible. Vous itérez en quelques minutes, vous payez uniquement l'inférence (le calcul utilisé lorsque le modèle répond), et vous changez de modèle sans rien perdre. Le fine-tuning exige de collecter des centaines ou des milliers d'exemples annotés, de payer du temps de calcul GPU, d'héberger le modèle résultant, et de recommencer tout le processus chaque fois que vos besoins évoluent.

Le fine-tuning justifie son coût dans un ensemble restreint de situations :

Latence et coût à grande échelle : un petit modèle fine-tuné (7B ou 8B paramètres) répondant à des millions de requêtes par jour est bien moins coûteux que de router chaque appel vers un modèle frontier.
Sortie hautement structurée : si vous avez besoin que le modèle produise toujours du JSON valide dans un schéma fixe, le fine-tuning impose le format de manière plus fiable qu'un prompt.
Vocabulaire ou style métier : textes médicaux, juridiques ou spécifiques à un secteur où le modèle de base utilise systématiquement une terminologie incorrecte.
Les données ne peuvent pas quitter vos serveurs : un modèle fine-tuné hébergé localement évite d'envoyer des données sensibles à une API tierce.

Une règle pratique : épuisez d'abord le prompting. Utilisez des system prompts, des exemples few-shot (quelques paires entrée/sortie incluses dans le prompt), et la génération augmentée par récupération (RAG) (extraction de documents pertinents au moment de l'exécution) avant de toucher au fine-tuning. Le fine-tuning corrige le comportement ; le prompting le modèle. Si l'écart entre ce que fait le modèle et ce dont vous avez besoin relève de connaissances ou d'un style qui tient dans une fenêtre de contexte, le prompting est presque toujours la bonne réponse.

Points clés

Le prompting est rapide et réversible : préférez-le par défaut
Recourez au fine-tuning uniquement pour l'échelle, un format de sortie strict, le vocabulaire métier ou la confidentialité des données
Les exemples few-shot et le RAG peuvent remplacer le fine-tuning dans de nombreux cas
Les petits modèles fine-tunés réduisent les coûts à volume de requêtes élevé

Autres LLMs et routage

Le paysage : Claude, GPT, Gemini et les autres

Carte des refus et routage tactique

GPT-5 et la famille OpenAI

Gemini et les contextes très longs

Modèles ouverts : Llama, Mistral

Faire tourner un modèle localement avec Ollama

Composer un prompt systeme multi-vendeurs

Routage tactique par tâche

Différences de refus selon les fournisseurs

Fine-tuning contre prompting

Besoin de ce niveau d'exécution sur votre projet ?

Inspiré par 0xloucash