2025 allait être l’année des agents capables de remplacer les gens. Mais la meilleure IA n’est capable d’effectuer que 2,5 % des tâches humaines

2025 allait être, selon de nombreuses prévisions, l'année des agents : des intelligences artificielles capables de prendre en charge des projets entiers, de planifier des tâches, de coordonner des ressources et de fournir des résultats professionnels sans supervision humaine. Le battage médiatique ne concernait pas seulement l’environnement : Microsoft parlait des travailleurs de l’IA.

La réalité est différente, pour l’instant. Une nouvelle étude de Scale AI a voulu vérifier dans quelle mesure les grands modèles actuels peuvent effectuer des tâches de travail réelles. Pas de benchmarks inintelligibles : les tests étaient de véritables projets indépendants, évalués par un panel de 40 juges comme s'il s'agissait de clients humains. Ils allaient de la conception de produits et du développement de jeux vidéo à l'analyse de données ou à la rédaction de textes scientifiques. Pour des experts comme Andrej Karpathy, co-fondateur d’OpenAI, les agents ne sont tout simplement pas là.

Combien de ces emplois atteindraient un niveau « acceptable » pour un client moyen ? Le modèle Manus a été celui qui a réalisé les meilleures performances, et par rapport à ce que l'on pouvait attendre sur la base des promesses, il n'a pas été brillant : seulement 2,5 % de ses livraisons ont été jugées acceptables. À partir de là, tout a baissé : Grok a atteint 2,1 %, Claude est resté à des chiffres similaires, GPT-5 à 1,7 % et Gemini 2.5 Pro a terminé dernier à 0,8 %.

La réalité de l’IA entièrement agentique en 2025. Selon les tests, moins de trois projets sur cent présentés par les modèles les plus avancés au monde auraient passé le filtre d’un vrai client. Mais ce n’est pas que l’IA soit inutile. En fait, 2,5 % est un chiffre très élevé compte tenu de nos origines et du rythme de progression de l’industrie. Mais une commission royale exige plus qu’une précision technique démontrable dans repères.

Les modèles et agents actuels sont rapides, polyvalents et de plus en plus cohérents, mais ils sont encore loin de fonctionner avec autonomie et jugement humain. Ils n’établissent pas de priorités, ne contextualisent pas bien et ne comprennent pas les nuances ou les attentes.

Par | Antonio Ortiz dans X