Standard Intelligence Inc., une startup d'intelligence artificielle composée de six personnes, a annoncé aujourd'hui avoir levé 75 millions de dollars de financement.
Sequoia et Spark Capital ont mené le tour. Ils ont été rejoints par plusieurs visiteurs providentiels, dont l’éminent chercheur en IA Andrej Karpathy.
Standard Intelligence a développé un modèle de base appelé FDM-1 qui est spécifiquement optimisé pour les tâches informatiques. Ce sont des tâches qui nécessitent qu’une IA interagisse avec une application via son interface graphique. Selon Standard Intelligence, FDM-1 peut effectuer un large éventail d'activités allant de l'analyse des vulnérabilités des logiciels à l'utilisation de programmes de conception assistée par ordinateur.
Les modèles d'utilisation informatique sont généralement formés sur des captures d'écran de humains interagissant avec des applications. Ces images doivent être annotées manuellement avec des notes explicatives. Par exemple, une série de captures d’écran illustrant un flux de travail d’achat en ligne doit être accompagnée d’une description en langage naturel de l’achat.
Standard Intelligence a formé FDM-1 sur des séquences vidéo plutôt que sur des captures d'écran. De plus, il a remplacé les annotations créées par l’homme par un modèle dit de dynamique inverse, ou IMD. Il s'agit d'un réseau neuronal capable de générer automatiquement des explications de capture d'écran.
Générer des annotations avec un IMD coûte beaucoup moins cher que de le faire manuellement. En conséquence, les chercheurs peuvent créer des ensembles de données de formation plus volumineux que ce qui serait autrement possible. Standard Intelligence a rassemblé un ensemble de données de formation à l'utilisation de l'ordinateur avec 11 millions d'heures de séquences, soit plusieurs ordres de grandeur plus importants que la meilleure alternative open source suivante.
L'augmentation de la taille de l'ensemble de données de formation d'un modèle d'IA améliore la qualité de sa sortie. Une vidéo de démonstration publiée par Standard Intelligence montre FDM-1 en train de concevoir un composant métallique à l'aide d'une application d'ingénierie populaire. Dans un autre test, les ingénieurs de l'entreprise ont rendu les commandes d'un véhicule autonome accessibles via un site Web. FDM-1 a appris à conduire le véhicule via le site Web après une heure de mise au point.
Un autre argument de vente du modèle est qu’il utilise des ressources matérielles relativement limitées. L'un des facteurs qui contribuent à son efficacité est qu'il ne s'appuie pas sur un raisonnement en chaîne de pensée ou sur des outils pour effectuer des tâches dans les applications. De plus, FDM-1 dispose d'un encodeur vidéo qui, selon Standard Intelligence, est 100 fois plus efficace que l'alternative d'OpenAI Group PBC.
Un encodeur vidéo est un module logiciel chargé de traduire les images en représentations mathématiques que les modèles d'IA peuvent comprendre. Le stockage de ces représentations mathématiques peut nécessiter une quantité importante de mémoire. Il est possible de réduire leur empreinte matérielle, mais cela diminue généralement la qualité de sortie de l'IA.
L'encodeur du FDM-1 atténue ce compromis en utilisant un objectif de compression dit masqué. La technologie supprime les parties sans importance des images traitées par le modèle, ce qui réduit les besoins en mémoire sans diminuer la qualité des données. Selon Standard Intelligence, l'encodeur permet aux modèles dotés d'une fenêtre contextuelle de 1 million de jetons de traiter deux heures de vidéo à 30 FPS par invite.
La société utilisera les capitaux nouvellement levés pour acheter des capacités informatiques supplémentaires. De plus, Standard Intelligence prévoit de développer des garde-corps de sécurité IA optimisés pour les modèles d’utilisation informatique.