L'Europe se met à table face à l'IA open source chinoise et remporte la course mondiale : voici les nouveautés de Mistral

En 2023, OpenAI et ChatGPT trouvent leur rival en Europe : le français Mistral AI lance sa nouvelle intelligence artificielle. Cette entreprise a maintenant lancé son nouveau modèle, qui se distingue par son ouverture à la manière des propositions chinoises reconnues telles que DeepSeek. Le nouveau Devstral 2 est présenté comme un « agent CLI (interface de ligne de commande) de pointe et un modèle de codage open source ». Comom explique le site officiel :

Il est disponible en deux tailles : Devstral 2 (123B) et Devstral Small 2 (24B). Devstral 2 est distribué sous une licence MIT modifiée, tandis que Devstral Small 2 utilise Apache 2.0. Les deux sont open source et disposent de licences permissives pour accélérer l’intelligence distribuée.

Comme le rappelle Xataka, l'élite des modèles ouverts pour la programmation assistée est constituée de modèles chinois (en plus de DeepSeek, il y a Kimi ou Qwen). L'arrivée de Devstral 2 places Mistral « fait d'une entreprise européenne un véritable concurrent dans un domaine qui semblait jusqu'ici réservé aux autres ».

Devstral 2 surpasse les principales technologies mondiales

Dans les chiffres SWE-Bench Verified publiés par la société, Devstral 2 obtient un score de 72,2 %. En regardant le trafic, vous pouvez voir qu'il est juste un peu en dessous de DeepSeek V3.2 et surpasse Kimi K2 Thinking, deux modèles ouverts comme la proposition Mistral.

Son Destral 2 occupe donc une excellente deuxième place. Aux Etats-Unis, les technologies les plus puissantes sont les logiciels propriétaires (Gemini, GPT 5, Claude et Grok). De plus, Grok, l’IA d’Elon Musk s’avère moins puissante que la technologie européenne.

La Verified SWE Bank se concentre sur l’évaluation de la capacité des systèmes d’IA à gérer des tâches complexes et autonomes. « L'évaluation de l'IA en génie logiciel est particulièrement difficile en raison de la nature complexe des problèmes de codage et de la nécessité d'évaluations précises des solutions générées », comme l'explique OpenAI.

Comme l'ajoute Xataka, SWE-Bench Verified est un test conçu pour évaluer si un modèle peut résoudre de véritables tâches de programmation. « L'évaluation cherche à mesurer si le système comprend la structure du projet, identifie la cause du problème et propose une solution cohérente. »

« Taille réduite »

Devstral 2 (123B) et Devstral Small 2 (24B) sont 5 et 28 fois plus petits que DeepSeek V3.2 et 8 et 41 fois plus petits que Kimi K2. Selon l'entreprise, cela « démontre que les modèles compacts peuvent égaler, voire surpasser, les performances de concurrents beaucoup plus grands. Leur petite taille les rend faciles à déployer sur un matériel limité, réduisant ainsi les barrières pour les développeurs, les petites entreprises et les amateurs ».

La même société explique que Devstral 2 permet d'explorer les bases de code et d'orchestrer les modifications dans plusieurs fichiers, tout en conservant le contexte au niveau architectural.

Il suit les dépendances du framework, détecte les échecs et réessaye d'apporter des correctifs, résolvant ainsi des problèmes tels que des corrections de bugs. « Le modèle peut être ajusté pour donner la priorité à des langages spécifiques ou optimisé pour les bases de code des grandes entreprises. »

Mistral a évalué Devstral 2 par rapport à DeepSeek V3.2 et Claude Sonnet 4.5 à l'aide d'évaluations humaines effectuées par un fournisseur d'annotations indépendant, avec des tâches structurées à l'aide de Cline.

« Devstral 2 présente un net avantage sur DeepSeek V3.2, avec un taux de réussite de 42,8 % contre un taux d'échec de 28,6 %. Cependant, Claude Sonnet 4.5 est toujours largement préféré, ce qui indique qu'il reste un écart avec les modèles fermés. »

Par | Xataka

Images | Mistral