TwelveLabs lève 100 millions de dollars pour apporter la superintelligence aux modèles vidéo IA

TwelveLabs Inc., le développeur de modèles de base d'intelligence artificielle générative capables de comprendre les vidéos comme les humains, l'a annoncé aujourd'hui a levé 100 millions de dollars en financement initial pour aller au-delà de la simple compréhension et atteindre intelligence holistique.

« Il y a cinq ans, nous avons fait un pari à contre-courant : le substrat de l'intelligence artificielle est la réalité enregistrée en mouvement, et non le langage », a déclaré le co-fondateur et directeur général Jae Lee. « Le langage est en aval de la compréhension. La vidéo est la donnée à laquelle la compréhension doit répondre. »

TwelveLabs apporte une véritable puissance d'IA sur le terrain grâce à sa technologie, après avoir construit des modèles de base pionniers capables de comprendre la vidéo. L'entreprise a travaillé dès le départ pour construire des modèles multimodaux qui n'étaient pas simplement de grands modèles linguistiques traitant la vidéo, mais des modèles qui comprennent nativement la vidéo.

Les produits phares de la société incluent la famille de modèles Marengo, avec la version 3.0 sortie à la fin de l'année dernière et Pegasus 1.5.

Maregno permet l'intégration de l'IA dans le monde réel pour les vidéos, l'audio, le texte et la composition. Cela signifie qu'il peut analyser de nombreux types de contenu et l'ajouter à des structures de données lisibles par machine, telles que des bases de données vectorielles, afin que les modèles d'IA puissent comprendre et rechercher les informations à grande échelle.

Pegasus fonctionne parallèlement au modèle précédent pour transformer la vidéo en données structurées. Il comprend les limites des scènes, les entités, les segments temporels et ce qui se passe, permettant ainsi aux LLM de raisonner à partir d'informations visuelles. Il fonctionne de la même manière que les grands modèles de langage traitent des documents et des images volumineux, les résumant dans des langages de balisage pour les rendre plus faciles à comprendre.

Les LLM d'aujourd'hui ne peuvent pas consommer la vidéo en une seule fois. Ils doivent le segmenter en flashs – une série de captures d’écran – puis les utiliser pour raisonner. TwelveLabs a déclaré avoir construit une capacité de raisonnement qui comprend nativement les tendances au fil du temps en conservant une mémoire qui persiste entre les requêtes, plutôt que de s'évaporer après chacune d'elles : une intelligence qui s'aggrave avec chaque vidéo, permettant au modèle de devenir plus compétent.

La société a déclaré qu'en utilisant ces modèles, elle avait l'intention de construire un nouveau paradigme de perception vidéo, en créant un système permettant aux machines d'analyser, de rechercher et d'opérationnaliser les images.

Les cas d'utilisation de ce type de technologie couvrent de nombreux flux de travail dans des secteurs tels que la sécurité, la publicité, le sport et l'automobile, où d'énormes quantités d'informations résident dans la vidéo.

Dans le cadre de ce financement, TwelveLabs approfondit ses relations avec Amazon Web Services. Le service de l'entreprise est disponible sur AWS Marketplace depuis au moins 2025, ainsi qu'un accès géré aux modèles de base via Amazon Bedrock.

AWS est déjà Le fournisseur cloud préféré de TwelveLabs, et grâce à l'investissement d'aujourd'hui, la société a signé un engagement pluriannuel pour optimiser ses charges de travail d'inférence vidéo pour AWS Trainium. puces. De plus, de nouveaux modèles pionniers seront d'abord lancés sur AWS.

Photo : Pixabay

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine