Patronus AI obtient un financement de 50 millions de dollars pour tester les agents d'IA dans des environnements simulés

La start-up modèle mondiale à croissance rapide Patronus AI Inc. se prépare à une croissance encore plus rapide après avoir levé aujourd'hui 50 millions de dollars en financement de série B.

Patronus AI a été fondée par Anand Kannappan et Rebecca Qian, anciens chercheurs en intelligence artificielle de Meta Platforms Inc., qui ont pour mission de garantir que les agents autonomes peuvent être utilisés de manière fiable. Ils construisent l'infrastructure nécessaire pour permettre une formation complète des agents d'IA, afin que d'autres chercheurs puissent améliorer les performances et la fiabilité des systèmes d'IA couvrant des applications allant du trading financier aux diagnostics de santé et à l'automatisation des drones.

La startup a connu une forte croissance au cours de l’année dernière, à mesure que les systèmes d’IA deviennent plus sophistiqués et plus performants. De nos jours, l'IA ne se contente pas de répondre aux questions des gens, mais exécute de manière autonome des tâches complexes en plusieurs étapes en leur nom, telles que réserver des tables dans des restaurants, acheter et vendre des actions à des prix prédéterminés, etc. Cependant, l'autonomie peut être risquée, et avant de faire confiance à un agent d'IA pour mener de telles activités, il est nécessaire de s'assurer qu'il fera le travail comme prévu, sans causer de problèmes ni se tromper. C'est là qu'intervient Patronus AI.

Les développeurs d'IA utilisent des benchmarks pour démontrer les performances et les capacités de leur modèle d'IA, mais même un score record sur un benchmark orienté agent ne signifie pas vraiment grand-chose. Le problème est que travailler de manière autonome dans le monde réel est une tout autre affaire, car de nombreux facteurs externes peuvent avoir un impact sur la capacité d'un agent à accomplir correctement une tâche.

Les modèles mondiaux de Patronus AI permettent aux développeurs et aux chercheurs de créer des environnements numériques simulés qui reflètent plus précisément les conditions du monde réel, permettant ainsi aux agents d'être mis à l'épreuve dans plusieurs scénarios différents. Selon Glenn Solomon, directeur général de Notable Capital, ils sont extrêmement populaires, utilisés par pratiquement tous les grands laboratoires d'IA et des dizaines de startups. Il a déclaré que la société constatait une demande « insatiable » pour ses environnements simulés et qu’elle avait multiplié ses revenus par 15 au cours de l’année dernière.

Avec les modèles mondiaux de Patronus AI, les développeurs peuvent créer des répliques fonctionnelles complètes de sites Web et d'applications d'entreprise, où les agents d'IA peuvent être soumis à des tests de résistance après les avoir formés avec un apprentissage par renforcement – ​​une technique qui consiste à récompenser les agents pour avoir accompli avec succès des tâches et à les pénaliser en cas d'échec. Dans ces environnements simulés, les agents d’IA peuvent être testés dans un large éventail de scénarios imprévisibles pour voir comment ils gèrent l’inattendu. C'est similaire à la façon dont Waymo LLC a construit une simulation pour apprendre à ses voitures autonomes à éviter les dangers tels qu'un enfant courant après un ballon.

Kannappan a déclaré que ces types de simulations sont nécessaires, car les références ne fournissent que des évaluations statiques montrant si un modèle peut fonctionner dans un environnement étroitement contrôlé. « Ils ne vous disent pas si un agent peut surmonter l’ambiguïté, se remettre d’un échec ou fonctionner de manière fiable au sein de flux de travail longs et imprévisibles », a-t-il déclaré. « Cela nécessite des environnements dans lesquels les systèmes peuvent s’exercer, adopter et accumuler de l’expérience au fil du temps. »

Pour l'instant, Patronus AI se concentre principalement sur la création de mondes simulés pour les tâches de finance et d'ingénierie logicielle, mais Kannappan a déclaré que ses ambitions s'étendent bien au-delà. « Nous sommes très concentrés sur les problèmes qui sont vérifiables, donc les problèmes que vous pouvez immédiatement vérifier et vérifier, mais il y a une tonne d'autres domaines qui sont très non vérifiables ou très difficiles à vérifier », a-t-il déclaré à TechCrunch dans une interview.

L’opportunité est particulièrement intéressante car Patronus AI semble opérer dans un créneau très peu fréquenté, avec peu de rivaux évidents capables d’égaler ses capacités de tests agents. Kannappan a déclaré que les plus grands concurrents de l'entreprise sont les équipes d'évaluation de modèles internes constituées par les laboratoires d'IA. D'autres développeurs de modèles mondiaux, tels que Google LLC et Decart AI Inc., se concentrent davantage sur la formation en IA que sur les évaluations de performances.

« Patronus AI s'attaque à l'un des problèmes d'infrastructure les plus importants en matière d'IA », a déclaré Itay Inbar de Greenfield Partners. « L’avenir de l’IA dépendra de systèmes capables d’apprendre et de fonctionner de manière fiable dans des environnements complexes, et les simulations deviennent essentielles pour rendre cela possible. »

Photo : Patronus AI

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine