Calculateur de coûts AI
Calcule ce qu'une fonctionnalité AI coûte par mois et par an sur les modèles de 2026, classés du moins cher au plus cher.
Ce calculateur de coûts AI chiffre ce qu'une fonctionnalité AI coûte vraiment par mois et par an avant que tu ne la livres. Donne-lui quatre nombres : la moyenne d'input tokens par appel, les output tokens, le volume d'appels mensuel, et un ratio de caching si tu en utilises un. En retour, tu obtiens le coût par appel et par mois sur GPT-5.5, GPT-5 mini, Claude Opus 4.8, Sonnet 4.6, Haiku 4, Gemini 3 Pro et Gemini 3 Flash, classés du moins cher au plus cher. Il projette l'année et le total sur trois ans, signale le point d'équilibre entre un flagship et un modèle plus petit, et montre où le prompt caching divise par deux ta facture input. L'output est facturé trois à cinq fois le tarif input, donc une fonctionnalité bavarde coûte toujours plus cher. Ce sont les tarifs de liste 2026, alors superpose ta remise batch ou entreprise par-dessus. Rien de ce que tu tapes ne quitte la page.
100% dans votre navigateur. Rien de ce que vous tapez ne quitte cette page.
Simulateur de facture AI mensuelle
Je l'ai construit après une matinée de trop passée à me dire "attends, pourquoi la facture API est aussi salée ?". Donne-lui quatre choses : la moyenne d'input tokens par appel, les output tokens, le volume d'appels mensuel, et un ratio de caching si tu en utilises un. En retour, tu obtiens le coût par appel et par mois sur GPT-5.5, GPT-5 mini, Claude Opus 4.8, Sonnet 4.6, Haiku 4, Gemini 3 Pro et Gemini 3 Flash. Il les classe du moins cher au plus cher. Ensuite il projette l'année et il signale le moment où un modèle plus petit fait le même boulot pour cinq fois moins cher. Rien ne quitte ton navigateur. Alors colle les vrais chiffres, pas des estimations arrondies au pif.
Ce sont les tarifs de liste publiés en 2026. Sur une batch API ou un contrat entreprise ? Tu paieras moins que ce qui est affiché ici. L'input caché tourne autour de 10% du tarif input standard chez la plupart des providers.
Ce qu'un calculateur de coûts AI fait avant que tu ne livres une fonctionnalité
Le coût AI par appel est sournois. Un appel à GPT-5.5 ou Opus 4.8 coûte une fraction de centime. Ça paraît quasiment gratuit, du coup personne ne réfléchit pendant la démo. Puis tu multiplies par un million d'appels par mois et cette même fonctionnalité inoffensive débarque en revue financière avec cinq chiffres à côté. Quatre choses déterminent le montant : les input tokens par appel (ton system prompt, plus le contexte récupéré, plus l'historique de conversation, plus le message de l'utilisateur, le tout additionné), les output tokens par appel (qui tournent généralement trois à cinq fois le tarif input), le nombre d'appels mensuel, et la part d'input que tu peux mettre en cache. Je voulais ces quatre curseurs au même endroit, côte à côte sur les principaux modèles de 2026, pour que le choix flagship-ou-milieu-de-gamme-ou-tout-petit se fasse avant que le code ne parte. Pas après l'arrivée de la facture.
Honnêtement, ce qui me sert le plus là-dedans, c'est de m'en servir comme garde-fou. Voici le schéma que je vois revenir sans arrêt : une fonctionnalité est prototypée sur le modèle le plus intelligent de la pièce, ça marche, et personne ne revient jamais l'essayer sur quelque chose de moins cher. Alors passe tes vraies tailles de tokens dans le tableau. Tu découvres vite si passer d'Opus 4.8 à Sonnet 4.6 réduit vraiment la facture de 5x, ou si un caching à 80% divise grosso modo ton coût input par deux. Ou si ta charge de travail est tellement orientée output que le prix output est le seul chiffre qui compte et que le tarif input pas cher est un leurre que tu poursuis depuis le début.
Comment marche vraiment la facturation AI en 2026
Six ans plus tard, le modèle de facturation est toujours celui qu'OpenAI a lancé en 2020. Tu paies au token, et l'input et l'output ont des tarifs différents. L'input, c'est tout ce que tu envoies : le system prompt, l'historique de conversation, les chunks que ta couche RAG remonte, les définitions de fonctions, le message de l'utilisateur, ces exemples few-shot que tu as oublié d'enlever. L'output, c'est ce qui revient, la réponse finale plus les reasoning traces que tu as demandées. L'output coûte plus cher. À chaque fois. Écrire un token brûle plus de GPU que d'en lire un, point. En plus de ça, les vendeurs te filent quelques leviers : input caché (les tokens qu'ils ont vus récemment, facturés à une fraction du tarif normal), batch APIs (lance ça en async, paie moitié prix), capacité réservée une fois que tu es assez gros pour la demander gentiment.
- Compte les tokens que tu vas envoyer : additionne le system prompt, l'historique, le contexte récupéré, le message de l'utilisateur. Cette somme va dans le champ "input tokens par appel".
- Estime les tokens que le modèle va renvoyer : les règles grossières sur lesquelles je m'appuie, une réponse de classification courte tourne entre 5 et 30 tokens, une réponse de chatbot entre 100 et 400, un blob JSON structuré entre 200 et 2000, une réécriture d'article complète entre 500 et 3000.
- Multiplie par le volume d'appels : utilisateurs actifs mensuels, exécutions d'automatisation, cron jobs, retries. Si ça déclenche un appel, ça compte. Les retries, c'est la partie que les gens oublient, et ça mord.
- Applique la part d'input caché : disons que 80% de ton input est un system prompt fixe plus un contexte RAG stable. Le caching fait tomber ce morceau à environ 10% du prix input normal.
- Compare entre les modèles : exactement la même charge de travail peut tourner à 30 $ par mois sur Haiku 4, 180 $ sur Sonnet 4.6, 300 $ sur Opus 4.8 standard, ou 600 $ sur Opus 4.8 fast mode si tu paies pour les 2,5x de débit. Est-ce que le gain de qualité ou de latence justifie ce bond, ça, c'est la vraie question.
Cas d'usage courants du calculateur
- Budgéter une nouvelle fonctionnalité AI. Avant de valider un item de roadmap, fais tourner appels attendus fois tokens attendus pour chaque modèle que tu considères. Débarquer en revue financière avec une seule page qui montre déjà les chiffres mensuels et annuels pour chaque candidat ? Ça t'économise un round complet d'allers-retours.
- Choisir entre flagship et mini. Opus 4.8 standard se situe environ 10x au-dessus de Haiku 4 maintenant, et c'est déjà après qu'Opus 4.8 ait coupé l'ancienne prime de 30x à son lancement du 28 mai 2026. Pour de la classification courte, du routing, du draft simple, le petit modèle est presque toujours le bon choix. Ça ne fait que transformer cet écart en quelque chose que tu peux pointer du doigt au lieu de l'agiter dans le vague.
- Mesurer l'impact du prompt-caching. Le caching est un des plus gros leviers dont tu disposes en 2026. La plupart des gens le sous-exploitent gravement. Rentre ton ratio de cache (70 à 90% est normal pour un setup RAG stable) et regarde ce que ça fait à la facture de chaque modèle. Les vendeurs avec les remises de cache les plus profondes, Anthropic et OpenAI, prennent nettement l'avantage dès que ton ratio grimpe.
- Comparer les modèles de reasoning face aux standards. Les modes reasoning (longues chaînes de pensée, boucles d'agent) avalent bien plus d'output tokens qu'une réponse de chat classique. Fais tourner le même job à 200 d'output, puis à 2000. Regarde le classement basculer. Plein de charges de travail passent très bien sur Sonnet 4.6 avec le reasoning activé mais deviennent vraiment douloureuses sur Opus 4.8.
- Planifier une migration. Si un truc tourne sur Opus 4.8 standard aujourd'hui et que Sonnet 4.6 passe ta barre de qualité, le tableau annuel te dit exactement combien de budget tu récupères en switchant. Mais attention au piège. Avec Opus 4.8 désormais à seulement environ 1,7x Sonnet (c'était 5x sur les anciennes versions d'Opus), le move ne se rentabilise que quand le volume est élevé ou que l'écart de qualité ne compte honnêtement pas pour ton cas.
- Fixer le prix de ton propre produit. Tu emballes une API AI dans un SaaS ? Le coût par appel ici, c'est ton plancher. Facturer 3 à 5x le coût du modèle est le point de départ habituel, et ça transforme ce calcul en vérification de cinq secondes au lieu d'un tableur.
Limites et précisions sur la précision
Lis ça comme une estimation, pas comme une facture. C'est du prix de liste, rien de plus. Ta vraie facture peut atterrir plus bas grâce à des tarifs négociés, des remises pour engagement d'usage, des batch APIs, l'occasionnel palier gratuit mensuel. Ou elle peut atterrir plus haut : retries, surcharge du function-calling, suppléments image et audio, des outputs qui ont tourné bien plus longtemps que prévu. Et n'oublie pas, les tokens que tu tapes sont une moyenne. Le trafic réel a une longue traîne. J'ai vu une hausse de 10% des output tokens tirer une facture vers le haut de 5 à 15% à elle toute seule. Alors quand ça compte vraiment, fais tourner ça trois fois (baseline, plus 20%, plus 50%) et dimensionne la capacité sur la plus haute. Les prix 2026 intégrés ici sont ce que chaque vendeur avait affiché publiquement à la date de publication. Dès que quelqu'un change ses prix, ça devient obsolète et il faut un rafraîchissement.
Une chose que je dirai cash : ça ne téléphone jamais à la maison. Rien sur ta charge de travail ne quitte la page. Ni vers PeopleAreGeek, ni vers qui que ce soit. Colle de vrais volumes, des coûts de prototype, des chiffres de planification confidentiels, tout ce que tu as ouvert dans un onglet. De toute façon, le calcul n'est qu'une poignée de multiplications : input tokens fois le prix input moins la remise de cache, plus output tokens fois le prix output, le tout fois ton volume d'appels.
Questions fréquentes
Pourquoi le prix de l'output est-il toujours plus élevé que celui de l'input ?
Parce qu'écrire coûte plus cher que lire. Chaque output token signifie une autre passe forward complète à travers le modèle, donc le temps GPU par token sortant est tout simplement plus élevé que pour les tokens entrants. C'est pour ça que tous les grands vendeurs facturent l'output à trois ou cinq fois le tarif input. Et c'est pour ça qu'une fonctionnalité bavarde avec des longues réponses coûtera toujours plus cher qu'une fonctionnalité de recherche qui renvoie des réponses de deux mots.
C'est quoi le prompt caching et comment je le modélise ?
Le caching veut dire que tu paies environ 10% du prix input normal sur les tokens que le vendeur a vus récemment. C'est de l'argent quasi gratuit dès que tu réutilises un gros system prompt ou le même contexte RAG sur beaucoup d'appels. Pour le modéliser, calcule la part de ton input qui reste vraiment identique (généralement 60 à 90% pour un vrai système RAG) et rentre ce chiffre dans le champ Input caché %.
Dois-je toujours choisir le modèle le moins cher ?
Non. Courir après le modèle le moins cher, c'est exactement comme ça que tu livres un truc qui s'effondre discrètement sur les cas difficiles. Un classifier ou un router ? Haiku 4 ou Gemini 3 Flash feront très bien l'affaire. Un coding agent, un job d'extraction structurée, un chatbot face à tes vrais clients ? Ça veut généralement Sonnet 4.6, GPT-5.5 ou Opus 4.8. Le move honnête, et je mourrai sur cette colline, c'est de faire tourner des evals sur tes propres échantillons et de prendre le modèle le moins cher qui passe ta barre de précision. Pas le modèle le moins cher, point.
À quel point les prix 2026 intégrés à ce calculateur sont-ils précis ?
Ce sont le prix de liste affiché publiquement par chaque vendeur le jour de la mise en ligne. Précis, oui, mais précis pour la liste. Si tu es un compte entreprise, tu as quasi certainement négocié tes propres tarifs. Les batch APIs enlèvent 50%. Le caching enlève 90% sur la part qu'il couvre. Ce que tu vois ici, c'est le prix affiché non ajusté, alors superpose ton propre contrat ou ta remise batch par-dessus.
Pourquoi la même charge de travail paraît parfois moins chère sur Gemini et parfois sur Claude ?
Tout se joue sur ton ratio input/output. En 2026, Gemini 3 casse les prix de Claude sur l'input, tandis que Claude tient le coup sur l'output. Donc une charge de travail tout en input avec une toute petite réponse (gros contexte RAG, réponse de deux lignes) tend à atterrir sur Gemini. Inverse ça vers du gros output, disons de la longue génération ou une boucle d'agent, et Claude ou GPT-5.5 peuvent prendre l'avantage. Ne devine pas. L'onglet classé te dit qui gagne pour tes chiffres exacts.
Les données du calcul sont-elles envoyées quelque part ?
Non. Chaque multiplication tourne ici même dans ton navigateur. Les volumes que tu tapes, ton ratio de cache, le preset sur lequel tu as cliqué, tout ça reste sur ta machine. Sers-t'en pour de la planification financière sensible tant que tu veux. Ces chiffres ne passent jamais par le réseau.