Institut de recherche sur l'intelligence artificielle basé à Seattle Ai2l'Allen Institute for AI, a annoncé aujourd'hui ses modèles d'intelligence artificielle open source de nouvelle génération, destinés à permettre aux robots de fonctionner dans le monde réel, avec MolmoAct 2.
En août dernier, la société a sorti sa première itération, MolmoActle premier modèle de raisonnement par action de l'entreprise, une nouvelle classe de modèles d'IA qui permet aux machines de raisonner sur des environnements 3D avant d'agir. Ai2 a déclaré que la sortie de MolmoAct 2 surpasse considérablement les modèles robotiques propriétaires sur le marché et gère diverses tâches du monde réel jusqu'à 37 fois plus rapidement que son prédécesseur.
En plus de MolmoAct 2, Ai2 a publié un vaste ensemble de données nommé MolmoAct 2-Bimanual YAM, développé pour être la plus grande source de données manuelles open source pour les démonstrations « à deux bras » jamais publiée, contenant plus de 720 heures de formation incluses.
La société a déclaré que MolmoAct avait été formé sur 22 heures de données internes conservées sur trois mois. C'est devenu la base pour prouver que les architectures ouvertes basées sur le raisonnement pouvaient battre des modèles fermés beaucoup plus grands sur des références standard de l'industrie. MolmoAct 2 perpétue cet héritage et est conçu pour fonctionner dans des environnements réels.
Pour créer MolmoAct 2, l'entreprise a reconstruit toute l'architecture à partir de zéro. Ai2 ne s'est pas simplement étendu Molmo 2la vidéo de l'entreprise comprenant le modèle d'IA, mais l'a conçu sur la base de Molmo 2-ER, une variante spécialisée de raisonnement incarné du modèle de base de l'entreprise. Il a été formé sur plus de 3 millions d'exemples de pointage basé sur des images, de détection d'objets, de raisonnement spatial abstrait, de raisonnement multi-images et de réponses à des questions spatiales basées sur des images et des vidéos.
Cela permet au nouveau modèle d’associer un expert en action dédié pour générer des actions robotiques grâce au raisonnement 3D.
La société a déclaré que la création de l’ensemble de données MolmoAct 2-Bimanual YAM est devenue fondamentale pour ce processus. Bimanuel fait référence à la présence de deux bras robotiques travaillant ensemble dans des tâches coordonnées, telles que plier des serviettes, numériser des produits d'épicerie, charger un smartphone ou débarrasser une table.
Avec plus de 700 heures d’exemples de données, il s’agit du plus grand ensemble de données présent dans l’industrie.
La société a déclaré avoir complété l'ensemble de données avec un mélange supplémentaire d'ensembles de données de robots qui permettent à MolmoAct 2 d'être exposé à différents bras, configurations de caméra, schémas de contrôle et styles de tâches.
Les chercheurs ont également amélioré le côté linguistique des données du robot en rendant les instructions plus diversifiées en réduisant les répétitions et les annotations de mauvaise qualité. Pour ce faire, ils ont réannoté la bibliothèque robotisée et augmenté le nombre d’étiquettes uniques de 71 000 à environ 146 000.
MolmoAct 2 dans le monde réel
Le véritable test des modèles d’IA robotique consiste à les tester dans le monde réel. Pour voir comment Molmo Act 2 se comportera dans des environnements réels, Ai2 a été testé avec des chercheurs du Laboratoire de cong au Sanford Lab de la Stanford School of Medicine, dirigé par le professeur Le Cong, où le laboratoire travaille sur des weblabs impliquant la génétique.
Cong Lab couvre CRISPR, qui est un mécanisme phénoménal d'édition génétique, mais le processus implique beaucoup de travail sur table, se déplaçant entre les stations, pipetant les échantillons et faisant fonctionner l'équipement avec une grande précision. Selon les chercheurs, les erreurs peuvent s’accumuler rapidement, ce qui peut rapidement submerger et détruire des séries de tests entières si le robot déraille.
Après avoir testé une gamme de modèles d'IA généralistes adaptés au flux de travail, l'équipe de Stanford a découvert que Molmo Act 2 montrait un fort potentiel pour faciliter les opérations du laboratoire humide.
La société a également déclaré avoir testé la manière dont Molmo Act 2 gérait les instructions reformulées, les positions d'objets décalées, les objets de distraction et les substitutions d'objets. Ces tests aident les chercheurs d'AI2 à mieux comprendre comment le modèle gère les conditions changeantes.
Selon Ai2, le nouveau modèle présente un grand potentiel mais présente encore des limites. Semblable à d'autres systèmes robotiques, il peut avoir des difficultés lorsque la pince bloque la vue de la caméra, lorsque le bras ne peut pas se déplacer aussi rapidement que le système de contrôle du robot ou lorsqu'une tâche nécessite une manipulation plus fine que celle disponible.
La société a déclaré que relever et surmonter ces défis contribuerait à construire une base commune qui aidera l’ensemble du domaine à résoudre ces problèmes pour tous les modèles de robotique IA. Les modèles ouverts permettront aux chercheurs d'inspecter, avec l'ajout d'ensembles de données sur lesquels ils pourront s'appuyer, et bientôt la société a annoncé qu'elle publierait un code de formation pouvant être adapté à de nouvelles machines et situations.