Sora 2 vient de surmonter l'un des tests les plus difficiles pour une IA: celle du récipient d'eau. Et c'est plus important qu'il ne semble

Placez un verre transparent devant un dessin (par exemple, une flèche) et observez comment l'image est déformée ou même investie. Cet effet se produit parce que la lumière change de direction en traversant différents milieux (air, verre et eau): c'est le phénomène appelé «réfraction».

Bien que pour nous, c'est un fait quotidien, la reproduire correctement constitue un défi considérable pour une intelligence artificielle générative de vidéo. Il ne suffit pas de générer un récipient esthétiquement réaliste: le modèle doit simuler l'interaction précise entre les matériaux de lumière, les matériaux transparents et les objets de fond, en maintenant la cohérence dans chaque cadre.

Par conséquent, pendant quelques mois, la nouvelle génération vidéo du «test de réfraction en verre» a été soumise. La nouvelle est que Sora 2, le modèle de génération de vidéos qu'Openai a lancé hier, a réussi à surmonter ce test avec des résultats surprenants:

Cela a généré de l'enthousiasme parmi les chercheurs et les fans de l'IA: non par le simple truc visuel, mais pour être un indicateur que les modèles commencent à capturer des phénomènes physiques complexes du monde réel (qu'il a déjà promis et clairement violé, la première version de Sora).

Pourquoi est-ce si difficile pour une IA?

Contrairement à un moteur graphique de jeu vidéo, qui intègre des technologies telles que Tracé des rayons et des simulations physiques explicites, un modèle génératif tel que Sora doit apprendre des millions de vidéos et de photos. Ce qui produit n'est pas basé sur des règles physiques programmées, mais sur de simples modèles statistiques.

Cela signifie:

Vous devez «apprendre» la physique sans que personne ne l'enseigne directement. Il n'a pas d'équations optiques à l'intérieur; Il déduit que « lorsqu'il y a un verre et un objet derrière, il est généralement déformé d'une certaine manière ».
Pénurie d'exemples dans les données. Bien qu'il existe de nombreux vaisseaux dans les ensembles de données, il n'est pas si courant que les vidéos montrent explicitement des flèches inversées ou des expériences de réfraction. Le modèle doit généraliser les règles, ne pas mémoriser.
Cohérence temporaire. Dans la vidéo, chaque trame doit correspondre à la précédente. Si quelqu'un déplace le verre, la déformation de la flèche doit être mise à jour en temps réel. Une incohérence minimale est immédiatement remarquée.

Surmonter ce test implique que le modèle est non seulement capable de générer des images convaincantes, mais intériorise certaines régularités physiques du monde réel.

L'importance symbolique du test

Le «test de réfraction du verre» est presque un mini-benchmark fait maison. Il a été utilisé comme «test de coton» pour évaluer dans quelle mesure une IA est capable de gérer les situations où la physique devient visible à l'œil nu. Et, si l'eau n'est pas courbée sur le verre, quelque chose «grince» dans la vidéo.

En ce sens, cette expérience est devenue un symbole du réalisme physique en génératif. Le fait que Sora 2 dépasse ne signifie pas que « comprendre l'optique » au sens humain, mais cela l'imite avec un très haut degré de fidélité.

Cela ouvre plusieurs possibilités, à la fois dans le domaine de la production audiovisuelle (des effets visuels plus réalistes sans avoir besoin de moteurs graphiques complexes) et, par exemple, une formation des robots (des vidéos synthétiques plus fidèles à la réalité pourrait servir à former des agents qui interagissent avec le monde).

Autres «tests de contrainte visuelle« simples »pour l'IA

Le verre d'eau n'est pas le seul défi qui est utilisé comme mesure de progrès. Il existe plusieurs catégories de tests qui mettent les chaînes à des intelligences artificielles génératives:

Ombres réalistes: un objet illuminé doit projeter des ombres cohérentes de forme, de direction et de flou, mais de nombreux modèles échouent à créer des ombres flottantes, mal orientées ou avec des bords impossibles.
Miroirs et réflexes: les réflexes sur les surfaces métalliques ou aquatiques nécessitent une consistance géométrique. Un échec commun est que les miroirs «hallucine» différentes scènes du réel.
Liquides et déversements: verser de l'eau dans un verre et que le liquide suit la gravité et adopte des formes cohérentes, est extrêmement difficile. De nombreux modèles produisent de l'eau «gelée» ou qui répond à des mouvements physiquement impossibles.
Physique des objets de mouvement: une balle qui rebondit, une tour qui tombe, des pièces qui entrent en collision … sans modèle physique interne, de nombreuses IA produisent des trajectoires impossibles.

Ces défis ressemblent Repères Des universitaires de physique intuitive, tels que PIQA, Intphys ou Phyre, qui évaluent la capacité d'un système à raisonner sur le monde réel.