Vous comparez ChatGPT vs Claude vs Gemini pour choisir le meilleur modèle IA en 2026 ? Je paie les trois de ma poche et je tape dans leurs API au boulot tous les jours, alors ce n'est pas un comparatif vite fait sur fiche technique. Trois familles restent en lice : ChatGPT (GPT-5 turbo et mini), Claude (Opus 4.8 et Sonnet 4.6), Gemini (3.0 Pro et Flash). Ils sont tous bons, maintenant. Les écarts ne sortent que quand on leur colle un vrai boulot sous le nez. Alors j'ai fait tourner dix tâches que j'utilise pour de vrai, choisi celle que j'ouvrirais en premier pour chacune, et construit une antisèche calée sur ce qui bouffe vos journées.
The short answer
Il n'y a pas de gagnant unique en 2026, et quiconque vous tend une réponse unique est en train de vous vendre quelque chose. Claude gagne le code, la rédaction longue et la vision dense. Gemini gagne la recherche avec grounding, l'audio et le contexte de 2M tokens. ChatGPT gagne l'analyse de données de bout en bout et les agents multi-outils. Le bon réflexe, c'est de router : choisir le modèle par boulot.
Je paie les trois. De ma poche, et je tape dans leurs API au boulot tous les jours, alors non, ce n'est pas un comparatif vite fait sur fiche technique. Il reste trois familles en lice : ChatGPT (OpenAI, GPT-5 turbo / GPT-5 mini), Claude (Anthropic, Opus 4.8 / Sonnet 4.6), Gemini (Google, 3.0 Pro / 3.0 Flash). Et voilà la partie que personne n'aime dire tout haut : ils sont tous bons, maintenant. Montrez-moi un classement abstrait et je hausse les épaules. Les écarts ne sortent que quand on leur colle un vrai boulot sous le nez, et même là, ils sont plus petits que ce que le marketing voudrait vous faire croire. Donc c'est ce que j'ai fait. Dix tâches que je fais vraiment tourner, celle pour laquelle j'ouvrirais en premier tel ou tel modèle, plus une antisèche à la fin calée sur ce qui bouffe vos journées. Pondre du code. Dompter de la data. Écrire, ou juste maintenir l'ops en vie.
Méthodologie : modèles testés, échantillons, critères
J'ai testé chaque famille aux deux extrémités, le flagship et le pas cher. Donc GPT-5 turbo et GPT-5 mini chez OpenAI. Claude Opus 4.8 (standard, plus le mode rapide arrivé le 28 mai 2026) et Claude Sonnet 4.6 chez Anthropic. Gemini 3.0 Pro avec Gemini 3.0 Flash chez Google. Tout est passé par les API publiques, pas par les interfaces de chat. Température bloquée à 0.3, montée à 0.7 pour les prompts créatifs. Trois passes chacun, on garde la médiane, parce que quiconque a déjà livré contre ces machins sait qu'une seule passe chanceuse ne vous apprend strictement rien.
Je n'ai pas noté sur des benchmarks fermés. J'ai noté sur une seule chose : est-ce que je pouvais livrer la sortie. Ce qui se décline en fait en quatre questions qui me tiennent vraiment éveillé la nuit. Est-ce que c'était juste et complet au point de ne pas devoir en réécrire la moitié. Est-ce que c'était reproductible sur les trois passes, ou juste un coup de bol unique. Combien ça m'a coûté en vrais tokens d'entrée plus sortie. Et combien de temps je suis resté planté à attendre (latence p95, premier token et total). Ces poids varient énormément selon le boulot. Écrire une histoire ? J'attends tout l'après-midi. Un chatbot qui répond à un client, par contre, et chaque seconde de plus, c'est quelqu'un qui a déjà changé d'onglet.
Cas 1 : Génération de code (Claude gagne)
Prompt : « Implémente une fonction TypeScript qui parse un CSV malformé (séparateurs mélangés, guillemets imbriqués, lignes vides), renvoie un tableau d'objets typés et gère les erreurs ligne par ligne avec un rapport structuré. »
GPT-5 turbo : 92/100 - correct code, full types, error handling OK
but 2 edge cases (BOM, CRLF) missed across 3 runs.
Claude Opus 4.8 : 96/100 - idiomatic code, all cases covered,
spontaneously adds a "strict" mode and a "lenient" mode.
Gemini 3.0 Pro : 88/100 - works but verbose structure,
uses external libs where native would have been enough.
Verdict du cas 1 : Claude. Toujours la première chose que j'ouvre quand je veux du code qui a l'air écrit par un senior, edge cases gérés, sans main à tenir. Il a attrapé les pièges BOM et CRLF que GPT-5 turbo a allègrement loupés, puis il a proposé spontanément un mode strict et un mode permissif que je n'avais jamais demandés. GPT-5 turbo lui souffle dans la nuque, cela dit. Et dès que vous passez en multi-fichiers, que vous le pointez sur un repo entier via la Responses API et que vous le laissez lire et écrire à travers l'arborescence, c'est lui à qui je fais le plus confiance. Honnêtement, je me trompe peut-être sur l'endroit où passe cette ligne, elle bouge selon le repo. Gemini Flash, c'est mon choix pour pondre cent snippets pas chers, prévoyez juste de relire chacun d'eux avant de merger quoi que ce soit.
Cas 2 : Recherche et synthèse documentaire (Gemini gagne)
Prompt : « Synthétise les 12 documents fournis (articles académiques + rapports industriels sur les LLM, 380 pages au total) en 5 thèmes principaux avec des citations précises (numéro de paragraphe ou de page). »
GPT-5 turbo : correct synthesis but hallucinates 2 citations out of 18.
File API usable, but cost ~$0.40 per run.
Claude Opus 4.8 : zero hallucinations on citations, excellent thematic grouping.
Cost ~$0.95 per run (Opus is expensive).
Gemini 3.0 Pro : zero hallucinations, accurate citations via native grounding,
includes a mermaid graph of relationships. Cost ~$0.22.
Verdict du cas 2 : Gemini. Et pas de justesse. Deux raisons pour lesquelles il a filé avec la victoire. Le grounding natif, où la recherche Google est branchée directement dans la génération. Et une fenêtre de 2M tokens assez vaste pour que j'aie déversé les douze documents en un seul appel au lieu de les découper. Zéro citation inventée, plus un graphe de relations que personne n'avait demandé. La facture s'est arrêtée à vingt-deux centimes. Il y a un hic, par contre, et c'est le grounding lui-même : boîte régulée, rien qui ait le droit de toucher à une recherche externe, et d'un coup c'est mort. C'est exactement le moment où je bascule sur Claude, qui a aussi atteint zéro hallucination et coûte à peu près quatre fois plus cher pour le privilège. GPT-5 fait le job. Il a aussi halluciné deux citations et m'a facturé plus pour le faire. Donc, non.
Cas 3 : Rédaction longue (Claude gagne)
Prompt : « Rédige un article de 2200 mots sur l'histoire des architectures CPU pour un public technique généraliste : ton vivant, exemples concrets, transitions narratives, pas de listes à puces. »
GPT-5 turbo : 2180 words, clear structure, but uniform voice,
some recurring phrases ("Imagine for a moment...").
Claude Opus 4.8 : 2220 words, authentic voice, polished transitions,
three well-constructed "narrative pivot" moments.
Gemini 3.0 Pro : 2050 words, factually correct but more formal,
reproduces a Wikipedia-style structure.
Verdict du cas 3 : Claude domine la prose longue depuis l'époque des 3.x, et Opus 4.8 n'a jamais rendu la couronne. Il fait varier la longueur des phrases comme le ferait une vraie personne, et les transitions vous portent d'une idée à la suivante au lieu de juste vous y cogner. Pas de cadence plate et calibrée qui vous fait décrocher du regard et frétiller du doigt sur la molette. GPT-5 a fait un chemin vraiment long. Je publierais son brouillon après une passe d'édition normale, aucune honte à ça. Gemini écrit une copie propre, neutre, et juste en plus, ce qui sonne comme un compliment tiède et l'est un peu. Très bien pour de la doc, très bien pour un rapport que personne ne lit pour le plaisir. Mais si je veux que ça sonne comme un humain qui a tapé ça, je réécris plus que je n'aimerais l'admettre.
Cas 4 : Analyse de données (GPT-5 gagne)
Prompt : « Voici un CSV de 50 000 lignes (logs serveur). Identifie les 5 principales anomalies, propose une requête SQL pour les filtrer, et génère un graphique récapitulatif. »
GPT-5 turbo : uses Code Interpreter, runs pandas + matplotlib in sandbox,
returns the chart as PNG. Latency 18s.
Claude Opus 4.8 : reasons over the sample but cannot execute the code,
provides the SQL query and Python code to run yourself.
Gemini 3.0 Pro : native Code Execution (since late 2024), generates the chart,
latency 14s, but visualisation less rich than GPT-5.
Verdict du cas 4 : pour la boucle complète ? Vous lui filez un CSV crado, et il vous rend les anomalies plus le SQL plus un graphique à coller direct dans un deck ? GPT-5 turbo. Point barre. Code Interpreter, c'est le pourquoi : un vrai sandbox Python qui survit d'un tour à l'autre avec pandas et matplotlib déjà chargés, donc il lance l'analyse au lieu d'en raconter une. Le Code Execution natif de Gemini fait le même tour et arrive juste derrière, le graphique est juste plus dépouillé. Claude est le plus fin raisonneur sur les chiffres des trois, et il refuse quand même d'exécuter quoi que ce soit. Il vous écrit le SQL et le Python, puis vous dit d'aller les lancer vous-même. Rageant quand vous vouliez la réponse il y a cinq minutes. Exactement ce que vous voulez quand vous êtes quelque part de régulé et que vous préférez qu'aucun code ne touche à la data sans que vous ayez les mains sur le volant.
Cas 5 : Vision multimodale (Claude gagne)
Prompt : « Voici une capture d'un dashboard Grafana complexe. Décris ce qui est anormal (3 alertes visibles, 1 métrique en baisse, 2 graphiques manquants) et propose des actions. »
GPT-5 turbo : identifies the 3 alerts, misses 1 declining metric,
flags the missing graphs. 5/6 elements.
Claude Opus 4.8 : identifies 6/6 elements, also reads axis labels,
proposes a coherent investigation order.
Gemini 3.0 Pro : identifies 5/6 elements, label reading approximate
on the low-contrast zone.
Verdict du cas 5 : Claude lit vraiment les captures techniques denses, un dashboard surchargé ou du code fourré dans une image ou un schéma d'architecture que personne n'a bien étiqueté. Six sur six ici. Il a tiré les labels d'axes du graphique puis m'a tendu un ordre sensé pour aller chasser les alertes, que je n'avais pas demandé et que j'ai gardé quand même. Gemini est juste là pour les images naturelles et marketing. Il a juste mollement lâché sur le coin à faible contraste. L'OCR de GPT-5 turbo s'est énormément amélioré, et sur une capture propre je le prendrais sans hésiter une seconde. Bourrez le cadre d'infos, par contre, et c'est encore lui le premier à laisser tomber un truc.
Cas 6 : Audio multimodal (Gemini gagne)
Prompt : « Transcris 30 minutes d'audio (réunion en anglais, 4 intervenants, terminologie technique), avec diarisation des locuteurs et un résumé à puces. »
GPT-5 turbo : separate Whisper API, excellent transcription quality,
basic speaker diarization. 2-step pipeline (transcribe -> synthesize).
Claude Opus 4.8 : native audio input since 2026, correct transcription
but missing speaker diarization (anonymised).
Gemini 3.0 Pro : native audio, excellent transcription, automatic diarization,
summary included in a single call. Latency 28s.
Verdict du cas 6 : pour l'audio long, Gemini 3.0 Pro a fini par devenir mon défaut, presque par accident. Diarisation native, une transcription propre même à travers le jargon, le résumé, tout ça rendu en un seul appel. Pas de code de glu. GPT-5 plus Whisper transcrit tout aussi bien, peut-être un poil mieux honnêtement, mais là vous recousez un pipeline en deux étapes (transcrire, puis résumer) et c'est plus de pièces mobiles à surveiller à 3 h du matin. Claude prend l'audio en natif ces jours-ci et la transcription en elle-même est correcte. Puis il rend tout anonymisé. Aucune idée de qui a dit quoi. Donc pour une réunion à quatre personnes, c'est celui que je sauterais.
Cas 7 : Tool use et function calling (GPT-5 gagne)
Prompt : « Avec ces 8 outils définis (search_web, read_file, write_file, execute_sql, send_email, etc.), exécute la tâche : "trouve les 3 derniers clients churnés, envoie-leur un e-mail de réengagement, logue le résultat". »
GPT-5 turbo : parallel tool calls, robust error handling,
3 tools chained in 4s. Strict JSON format respected.
Claude Opus 4.8 : sequential calls (refuses parallel by default),
explicit reasoning, 3 tools in 7s.
Gemini 3.0 Pro : function_declarations correct but response format
sometimes ambiguous for nested arguments.
Verdict du cas 7 : quand le boulot est un agent qui jongle avec une pile d'outils, je prends GPT-5 turbo. Il tire les appels en parallèle et tient le schéma JSON que vous lui passez via response_format. Il a même nettoyé ses propres erreurs sans s'écrouler, trois outils enchaînés en quatre secondes pile. Claude, c'est le prudent. Un outil à la fois par défaut, à narrer sa réflexion tout du long, ce qui se lit comme plus lent jusqu'à ce qu'un truc casse à 2 h du matin et que cette trace de raisonnement soit la seule raison pour laquelle vous trouvez un jour le bug. Gemini y arrive. J'ai juste fini par boulonner de la validation en plus autour de ses réponses, parce que les arguments imbriqués revenaient ambigus plus d'une fois et que j'ai arrêté de leur faire confiance.
Cas 8 : Contexte long (Gemini gagne)
Prompt : « Voici une codebase entière de 1,4M tokens (un projet Django moyen). Trouve la fonction responsable du calcul de la taxe, explique sa logique, et propose un refactor en moins de 200 lignes. »
GPT-5 turbo : context window 256k -> 1M (higher tier), partial or full
coverage depending on tier. Cost ~$2.50 per run at 1M.
Claude Opus 4.8 : 200k context natively, 1M on enterprise request.
Beyond 200k, retrieval quality degrades.
Gemini 3.0 Pro : 2M context natively, stable cost, excellent
needle-in-haystack up to 1.5M, degrades after.
Verdict du cas 8 : le contexte long, c'est le terrain de Gemini et personne ne l'en a délogé pour l'instant. 2M tokens, ouverts à tout le monde, pas planqués derrière une poignée de main enterprise, et le rappel needle-in-a-haystack tient jusqu'à environ 1,5M avant de commencer à s'effilocher sur les bords. GPT-5 turbo peut techniquement toucher au 1M ces temps-ci. Le compteur tourne vite, par contre, et une passe m'a coûté 2,50 $. Claude offre le meilleur rapport qualité-par-token que vous trouverez où que ce soit de zéro à 200k, et dans cette bande je le prendrais à chaque fois sans ciller. Traînez-le au-delà de 200k et vous le sortez de la zone pour laquelle il a été conçu, et ça se voit.
Cas 9 : Coût par million de tokens
Voici les vrais dégâts au million de tokens, tarifs publics au mois de mai 2026. J'ai séparé les flagships des modèles pas chers exprès. On ne les sort pas pour les mêmes boulots, et les fourrer dans une seule liste ne fait que masquer là où l'argent fuit vraiment.
| Modèle | Entrée $/M | Sortie $/M | Contexte max |
|---|---|---|---|
| GPT-5 turbo | $5.00 | $15.00 | 256k (1M tier+) |
| GPT-5 mini | $0.40 | $1.60 | 200k |
| Claude Opus 4.8 (standard) | $5.00 | $25.00 | 200k |
| Claude Opus 4.8 (fast mode) | $10.00 | $50.00 | 200k |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200k |
| Gemini 3.0 Pro | $3.50 | $14.00 | 2M |
| Gemini 3.0 Flash | $0.30 | $1.20 | 1M |
Verdict du cas 9 : la sortie d'Opus 4.8 le 28 mai a discrètement tué ce qui me faisait toujours grincer des dents. L'ancien Opus, c'était une taxe x5 par rapport à Sonnet, alors je routais presque tout vers Sonnet et je ne réveillais Opus que quand je n'avais aucune autre option. À 5 $ / 25 $ en standard, Opus 4.8 atterrit autour de 1,7x Sonnet 4.6, et ça réécrit le calcul. Sonnet 4.6 reste mon défaut sur le rapport qualité-prix brut. Mais le deuxième palier de boulot, celui que je laissais sur Sonnet purement par sécurité, ça part chez Opus maintenant et je dors tranquille. En bas, dans les sièges pas chers (génération en masse, classification, extraction), c'est Gemini Flash et GPT-5 mini, sans discuter. Et le nouveau mode rapide d'Opus 4.8 (2,5x de débit, 10 $ / 50 $) coûte un tiers de ce que demandaient les anciens paliers rapides, ce qui suffit largement à me le faire prendre dans une boucle d'agent où la latence du premier token est le truc qui me tue lentement.
Vous voulez le chiffre pour votre charge de travail réelle, pas une abstraction au million ? Il connaît déjà les tarifs des six modèles ci-dessus, plus Mistral et Cohere si vous les branchez.
Cas 10 : Latence et débit (TTFT, tokens/sec)
La plupart du temps, la latence n'a pas d'importance. Les gens s'y obsèdent quand même. Elle compte vraiment à deux endroits, et c'est à peu près tout. Un, tout ce qu'un humain attend en direct, chat ou voix, où il sent chaque battement. Deux, les chaînes d'agents, où chaque étape empile son délai sur la précédente, et dix appels « assez rapides » finissent en spinner devant lequel personne ne reste.
| Modèle | TTFT médian | Tokens/sec en sortie |
|---|---|---|
| GPT-5 turbo | 520 ms | ~85 tok/s |
| GPT-5 mini | 280 ms | ~140 tok/s |
| Claude Opus 4.8 (standard) | 620 ms | ~70 tok/s |
| Claude Opus 4.8 (fast mode) | 320 ms | ~175 tok/s |
| Claude Sonnet 4.6 | 420 ms | ~95 tok/s |
| Gemini 3.0 Pro | 580 ms | ~78 tok/s |
| Gemini 3.0 Flash | 180 ms | ~210 tok/s |
| Llama 4 405B via Groq | 120 ms | ~750 tok/s |
Verdict du cas 10 : tout ce qui stream vers une personne ? Oubliez les flagships. Flash, mini et Sonnet donnent une impression plus vive, vous ne décèlerez pas de perte de qualité sur le boulot quotidien, et dans une zone de chat « ça paraît rapide », c'est en gros tout le jeu. Quand j'ai juste besoin d'un jet de tokens à la latence la plus basse que l'argent puisse acheter, Groq qui fait tourner Llama 4 est encore tout seul dans sa propre catégorie à 750 tok/s. Un cheval à un seul tour, d'accord. Sur ce tour-là, par contre, les autres ne sont pas vraiment dans la conversation, et je doute que ça change ce trimestre.
Verdict global et grille de décision
Vous êtes venu pour que je couronne un seul gagnant ? Désolé. Il n'y en a pas, et quiconque vous tend une réponse unique en 2026 est en train de vous vendre quelque chose. Ce que je fais vraiment, c'est router. Choisir le modèle par boulot, selon celui qui gagne sur la qualité, le coût et la latence pour cette seule chose précise. La grille ci-dessous, c'est par où je vous ferais démarrer. Des défauts, pas des évangiles. Votre mix de trafic va pousser quelques-unes de ces cases ailleurs, sans doute dès la première semaine.
| Profil / tâche dominante | Choix par défaut | Alternative |
|---|---|---|
| Développeur (code, refactor) | Claude Sonnet 4.6 | GPT-5 turbo (multi-fichiers) |
| Recherche / synthèse documentaire | Gemini 3.0 Pro (grounding) | Claude Opus 4.8 (régulé) |
| Création de contenu (article, narration) | Claude Opus 4.8 | GPT-5 turbo |
| Analyse de données de bout en bout | GPT-5 turbo (Code Interpreter) | Gemini 3.0 Pro |
| Vision (captures, OCR technique) | Claude Opus 4.8 | Gemini 3.0 Pro |
| Audio / transcription / diarisation | Gemini 3.0 Pro | GPT-5 + Whisper |
| Agent multi-outils, function calling | GPT-5 turbo | Claude Sonnet 4.6 |
| Contexte long (codebase, livres) | Gemini 3.0 Pro (2M) | Claude Opus 4.8 (qualité 200k) |
| Génération de masse (classification, extraction) | Gemini 3.0 Flash | GPT-5 mini |
| UX en streaming à très faible latence | Groq Llama 4 / Gemini Flash | GPT-5 mini |
Ce qui a changé à la mise à jour de mai 2026
J'ai rafraîchi ça le 29 mai, le lendemain matin de l'arrivée de Claude Opus 4.8, et trois des changements méritent votre attention si vous préparez une stack pour 2026. Le gros morceau pour moi, c'est le nouveau « fast mode » posé juste à côté du standard : 2,5x le débit pour un tiers de ce que demandaient les anciens paliers rapides. Dans une chaîne d'agent, le time-to-first-token fait souvent toute la différence entre la chaîne qui termine et l'utilisateur qui décroche. Ça change quels appels je suis prêt à faire tout court. Ensuite il y a les workflows dynamiques, en research preview dans Claude Code, où l'agent planifie le boulot, fait essaimer des centaines de sous-agents en parallèle dans une seule session, puis vérifie sa propre copie avant de faire son rapport. Et troisièmement, un curseur de contrôle d'effort (low, default, extra, max) actif sur tous les paliers d'abonnement et qui vous laisse doser la qualité contre la vitesse sans rerouter vers un autre modèle entièrement. Les chiffres d'Anthropic eux-mêmes placent le codage agentique à 69,2 pour cent, contre 64,3 sur 4.7, et le raisonnement multidisciplinaire avec outils à 57,9, contre 54,7. Leurs benchmarks, donc, à prendre avec des pincettes. Le saut colle quand même avec ce que j'ai ressenti en l'utilisant, pour ce que ça vaut.
Ce qu'il faut surveiller fin 2026
Quelques combats prennent forme pour la seconde moitié de l'année. Le raisonnement profond, le truc de chaîne-de-pensée cachée (o3, Claude Extended Thinking, Gemini Deep Think), apparaît maintenant dans chaque flagship, alors attendez-vous à voir tout l'ordre hiérarchique se rejouer sur ce seul axe. Le multimodal natif, où l'audio, la vidéo et la génération d'images vivent tous dans un seul modèle, fonce chez Google avec Veo 3 et chez OpenAI avec GPT-5 Vision et Sora. Et les agents autonomes au long cours, des sessions qui tournent pendant des heures et tirent des dizaines d'outils tout en gérant leur propre mémoire, c'est le truc qu'Anthropic et OpenAI n'arrêtent pas de présenter comme la priorité. Surveillez les annonces du Q3 ; c'est là que je mettrais mon argent.
Questions fréquentes
Quel modèle utiliser si je débute et que je ne veux qu'un seul abonnement ?
Un seul abonnement et une vie tranquille ? Pour le chat, un peu de rédaction, le snippet de code occasionnel, ChatGPT Plus et Claude Pro se valent à peu près au quotidien. Prenez l'interface que vous aimez vraiment regarder. Le code, c'est le seul endroit où je les séparerais. Si vous vivez dans un éditeur la plupart des jours, c'est Claude Pro que je vous tendrais. Et si votre boulot, c'est surtout des longs documents plus aller chasser des trucs sur le web, je vous pousserais plutôt vers Gemini Advanced, purement pour le grounding Google.
Claude Opus 4.8 est-il toujours nettement plus cher que Sonnet 4.6 ?
Plus comme avant. Opus 4.8 standard tourne à 5 $ / 25 $ le million de tokens contre Sonnet 4.6 à 3 $ / 15 $. Disons 1,7x, là où les anciens paliers d'Opus vous piquaient un bon 5x. Donc mon routage a bougé. Sonnet 4.6 gère le code et la rédaction du quotidien. Opus 4.8 standard reçoit l'appel dès qu'une tâche vaut une petite prime pour son jugement plus fin. Et le fast mode d'Opus 4.8 (10 $ / 50 $, 2,5x de débit) débarque quand je suis dans une boucle d'agent et que la latence fait plus mal que la facture.
Les prix vont-ils continuer de baisser tout au long de 2026 ?
Oui, et le schéma s'est tenu assez régulièrement pour que je parie dessus. Les flagships d'aujourd'hui perdront peut-être 30 pour cent d'ici la fin d'année et glisseront en douce dans le palier Sonnet/Pro, pendant que le nouveau flagship rutilant atterrira en coûtant deux à trois fois plus. La règle de pouce autour de laquelle je planifie : ce que vous faites tourner en prod a en gros six mois et coûte à peu près la moitié du dernier flagship. Calibrez votre effort de prompt-engineering en conséquence. Ne déversez pas trois semaines à essorer un modèle que vous rétrograderez à Noël.
Comment les équipes de prod qui utilisent plusieurs modèles routent-elles vraiment ?
La plupart des équipes que je connais soit roulent leur propre routeur dans l'appli, soit s'appuient sur OpenRouter, Portkey ou LiteLLM pour gérer ça. La décision se résume en général à une poignée de choses : quel type de tâche c'est (code, vision, contexte long), à quel point ça compte vraiment (un client fixe l'écran versus un batch que personne ne regarde), et ce que c'est autorisé à coûter. Le truc qui surprend les gens : un petit classifieur pas cher, Gemini Flash ou GPT-5 mini, décide souvent à quel modèle cher la vraie requête se fait même refiler.
Mistral, Llama, DeepSeek : encore pertinents en 2026 ?
Absolument, si vous avez la bonne niche pour eux. Mistral Large 3, c'est celui que je sortirais à la seconde où la souveraineté des données européenne ou un déploiement on-prem arrive sur la table. Llama 4 405B sur Groq reste intouchable en latence pour l'UX en streaming. Et DeepSeek-R3 raisonne vraiment bien pour ce que ça coûte, c'est-à-dire presque rien. Aucun d'eux ne remplace carrément les trois flagships américains. Je les garde quand même tous dans la boîte à outils pour les boulots qu'ils gagnent.