L'IA de dernière génération est plus chère que jamais, bien que les prix soient baissés. Le problème est que vous pensez plus qu'avant

Pendant des années, le mantra a été répété: à mesure que l'intelligence artificielle mûrit, son utilisation serait progressivement plus chère … mais la réalité de 2025 résulte beaucoup moins d'idylliques: de plus en plus de développeurs et d'entreprises qui « achètent l'IA par des barils » – pour générer du code, résumer des documents ou monter leurs propres agents de l'IA – découvrir que leurs factures ne sont pas seulement en baisse, mais aussi bien. Et, dans de nombreux cas, ils tombent. Que se passe-t-il ici?

Du prix par jeton … au nombre de jetons

Il est pratique de séparer deux concepts: la formation et l'inférence. La formation des modèles les plus importantes continue d'exiger un supercalcul très cher. L'inférence – pour effectuer des réponses d'un modèle déjà formé – est en cours de réduction de manière soutenue: le Coût du jeton Il se prononce.

Mais ce qui est sauvé ici, ne compense pas les dépenses supplémentaires qui ont introduit l'une des nouvelles fonctions étoiles de l'IA: les nouvelles utilisations « avec le raisonnement » déclenchent la quantité de jetons dépensés par la tâche.

Pour le mettre en termes gastronomiques: la formation d'un modèle, c'est comme construire un four industriel, mais demander des réponses à un modèle déjà formé, c'est comme cuire chaque gâteau: chacun sort moins cher au fil du temps … avec le salut qui Maintenant, vous utilisez plus de masse qu'avant, car les biscuits sont géants et avec plusieurs couches.

Traduction:

Énormes fenêtres de contexte. Au lieu de 1 à 2 pages, nous tournons maintenant des dizaines ou des centaines.
Diverses étapes internes. Le modèle prévoit, écrit des brouillons, de l'auto-shre et de la comparaison des options avant de donner la réponse finale.
Utilisation d'outils. Rechercher sur le Web, exécuter des bases de connaissances de code ou de consultation; Chaque aller-retour ajoute des jetons (instructions, résultats, résumés).
Tester et voter. Parfois, plusieurs réponses sont générées et les meilleures sont choisies; Utile pour la qualité, coûteuse dans les jetons.

Ainsi, les modèles améliorent leur travail … au détriment de la multiplication de la consommation. Résultat: L'unité est bon marché, mais le panier que nous consommons est de plus en plus volumineux.

Combien de jetons consomment chaque cas d'utilisation?

Les chiffres varient selon le modèle et la configuration, mais l'ordre de grandeur aide à comprendre les comptes:

Chat de base des questions et réponses: ~ 50 à 500 jetons.
Bref résumé d'un document: ~ 200 à 6 000.
Assistance de base du code: ~ 500 à 2 000.
Écriture de code complexe: ~ 20 000 à 100 000+.
Analyse juridique du document: ~ 75 000 à 250 000+.
Agents multi-pasos: ~ 100 000 à 1 000 000+.

Avec ces volumes, il n'est pas surprenant que les plateformes qui prouvent que de nombreux modèles trouvent que « la carrière pour la réponse la plus intelligente » est devenue une garantie supplémentaire de dépenses.

Les entreprises font des comptes

Les conséquences sont déjà visibles: la notion – un exemple représentatif du SaaS productif – explique que, devant des marges de près de 90% de deux ans, il y a maintenant environ 10 points dans les coûts de l'IA qui soutiennent leurs nouvelles fonctions. Il y a quelques semaines, une étude du MIT a été révélée qui a affirmé que 95% des entreprises qui offrent des applications génératives ne faisaient pas de rentabilité.

Mais ceux qui dépensent le pire sont les startups qui vendent des applications de Codage d'ambiance: Les changements de prix récents ont découvert à quel point il est facile pour un utilisateur de brûler en quelques jours les crédits d'un mois entier lorsque la complexité de ses demandes augmente.

Via | WSJ