TestSprite lance un outil de ligne de commande open source pour aider les agents IA à vérifier leur propre travail

L'outil de test de logiciels autonome basé sur l'intelligence artificielle TestSprite Inc. a annoncé aujourd'hui que la société a rendu open source son outil d'interface de ligne de commande qui permet aux agents de codage d'IA de vérifier leur propre travail.

À mesure que la révolution du codage de l’IA est en marche, les outils de codage autonomes sont devenus plus intelligents et ont permis aux développeurs de se frayer un chemin vers des applications entières du jour au lendemain. Le résultat est un code plus rapide, mais en même temps, cela signifie que le logiciel peut sortir de la chaîne d'assemblage numérique avec des bogues invisibles qui peuvent ne pas être détectés par les tests unitaires exécutés par des outils agentiques.

Dans de trop nombreux cas, un agent IA peut signaler qu'une fonctionnalité est terminée, mais certains tests ont échoué, n'ont pas été écrits correctement, étaient incomplets ou ont simplement été ignorés. D'autres fois, un agent de codage peut écrire une fonction qui semble s'exécuter en surface mais qui contient un bug caché qui ne se déclenche que dans un cas extrême qu'un client rencontrera dans des circonstances particulières (même 1 sur 1 000, c'est trop souvent) – ou, dans le pire des cas, cela brise complètement une autre partie de la base de code.

« C'est exactement ce qui rend les développeurs fous », a déclaré le fondateur et directeur général Yunhao Jiao. « Vous utilisez l'IA, vous expédiez quelque chose de nouveau, vous réparez une chose, puis boum, une autre chose plante. Même le meilleur agent de notre concurrence a cassé 12 % des fonctionnalités qui fonctionnaient déjà. C'est l'écart qu'un vérificateur comble. »

TestSprite a déclaré que la version d'aujourd'hui fournit une interface de ligne de commande, un espace sur le terminal, qui donne aux agents de codage une véritable boucle d'assurance qualité, et non une vérification ponctuelle.

L'agent de codage décrit un comportement une fois. TestSprite l'exécute ensuite dans le cloud comme le ferait un utilisateur réel, en pilotant un navigateur en direct ou en accédant à une interface de programmation d'application en direct, sans jamais utiliser de protocoles fictifs. Il renvoie ensuite un mode d'échec unique et cohérent : l'étape défaillante et ses voisins, des captures d'écran, un manifeste de modèle d'objet de document, la source du test, une hypothèse de cause première et un correctif recommandé.

L'agent de codage IA peut alors lire les données, corriger le code et réexécuter.

Cela devient la boucle de test. Chaque fois que l'agent exécute une phase de travail, TestSprite ajoute des dizaines de nouveaux tests, de sorte que la couverture augmente parallèlement à la base de code. Cela fournit un filet de sécurité qui contrôle les lacunes potentielles et peut capturer les éventualités à mesure que la complexité de l'application change de forme sans s'emmêler.

La CLI TestSprite est open source sous la licence Apache 2.0 et disponible aujourd'hui. L'installation est simple en utilisant « npm install -g @testsprite/cli » pour les machines avec Node.js 2.0 ou supérieur. La documentation et la référence sont disponibles sur GitHub.

CoderCup : bataille de codage d'agents IA arbitrée publiquement

En plus de l'annonce open source CLI, TestSprite a lancé CoderCup, un concours public et un classement dans lequel les agents d'IA ont construit et déployé la même application en une seule horloge.

La société a utilisé sa nouvelle CLI open source comme arbitre neutre, imitant la Coupe du monde de football, qui a également eu son coup d'envoi aujourd'hui. L'agent de test a agi pour noter chaque phase et a lié chaque score aux preuves publiques à l'appui.

Lors du premier événement, plusieurs agents frontaliers se sont affrontés, notamment Claude Code d'Anthropic PBC, le Codex d'OpenAI Group PBC et Antigravity de Google LLC avec TestSprite publiant ouvertement les résultats complets et les scores par phase sur codercup.ai.

« La plupart des benchmarks évaluent les agents de codage de l'IA sur un seul chiffre, mais ce n'est pas ce que ressentent réellement les développeurs », a déclaré Jiao. « Ce qui compte au quotidien, ce sont des choses qu'aucun classement ne capture. »

Ces mesures incluent des éléments tels que ce que les agents réussissent du premier coup, la fréquence à laquelle ils interrompent quelque chose qui fonctionnait auparavant et s'ils peuvent récupérer par eux-mêmes.

Pour la plupart, de nombreux joueurs pionniers sont entrés sur le terrain et ont ébloui par leurs forces et leurs faiblesses. Claude Code a fait preuve de régularité, tandis que Codex et Antigravity ont été les plus rapides au classement général, se classant en minutes cumulées inférieures à 100.

Kimi, de Beijing Moonshot AI Technology Co. Ltd., a marché dans la direction opposée : le plus lent au compteur, à environ 350 minutes ; mais ce lent roulement a porté ses fruits. Tout en étant plus petit et moins cher, Kimi a affiché la précision la plus élevée dans le domaine à 0,89 et le coût total le plus bas, surclassant les agents plusieurs fois par rapport à sa taille.

Les agents qui couraient le plus vite étaient rarement ceux qui obtenaient la note. Chaque agent, même le plus fidèle, continuait à interrompre le travail qu'il avait déjà accompli.

« Nous avons construit CoderCup pour rendre ces choses visibles. La mise au jeu de football est la partie amusante ; les mesures en dessous sont le véritable point », a ajouté Jiao.