OpenAI Group PBC a lancé aujourd'hui ChatGPT Images 2.0, une version améliorée du générateur d'images intégré à son chatbot populaire.
La société a également lancé un nouveau service de formation technique appelé Codex Labs. Il est conçu pour aider les organisations à adopter l'assistant de programmation Codex d'OpenAI.
ChatGPT Images 2.0 peut générer des images d'une largeur maximale de 2 000 pixels dans plusieurs formats d'image, y compris certains qui n'étaient pas pris en charge jusqu'à présent. Notamment, les utilisateurs peuvent désormais générer des images jusqu'à trois fois plus larges que hautes ou vice versa. De tels rapports hauteur/largeur se prêtent à des cas d'utilisation tels que la conception d'infographies.
OpenAI affirme que ChatGPT Images 2.0 apporte des améliorations significatives à la qualité de l'image. L'un des domaines dans lesquels les chercheurs de l'entreprise ont apporté des améliorations est le rendu du texte. ChatGPT Images 2.0 est meilleur que son prédécesseur pour générer des images contenant du texte japonais, coréen, chinois, hindi et bengali.
OpenAI a également apporté des améliorations de qualité dans d'autres domaines. La société affirme que son nouveau générateur d’images est plus efficace pour générer des petits textes, des éléments d’interface, des icônes et d’autres éléments visuels qui représentaient historiquement un défi pour les modèles d’intelligence artificielle. De plus, ChatGPT Images 2.0 rend les images avec « de minuscules défauts qui ajoutent du réalisme ».
L'outil utilise un ensemble de données de connaissances générales intégré pour interpréter les invites et combler les lacunes d'informations. Par exemple, il pourrait générer une infographie expliquant comment préparer un plat spécifié par l'utilisateur même si celui-ci n'a pas répertorié les ingrédients du plat. OpenAI indique que l'ensemble de données de ChatGPT Images 2.0 a été mis à jour pour la dernière fois en décembre.
Les utilisateurs disposant de forfaits payants peuvent élargir la base de connaissances de l'outil en activant les modes de raisonnement « réflexion » et « pro » de ChatGPT. Les deux paramètres permettent à ChatGPT Images 2.0 de compléter les informations à sa disposition avec des données du Web public. Dans une démo, les ingénieurs d'OpenAI ont demandé à l'outil d'examiner la boutique en ligne de l'entreprise et de générer une annonce pour les articles actuellement en stock.
Le fournisseur d'IA affirme que les deux modes de raisonnement améliorent également la qualité des images produites. Pour ce faire, ils permettent à ChatGPT Images 2.0 de « raisonner sur la structure » d'un actif visuel avant de le générer. Cela réduit le risque d’erreurs de sortie, ce qui réduit le nombre de révisions manuelles nécessaires pour préparer une image.
ChatGPT Images 2.0 permet également aux utilisateurs de gagner du temps par d'autres moyens. Il peut générer jusqu'à 10 images basées sur une seule invite, ce qui élimine le besoin de saisir plusieurs ensembles d'instructions. L'outil peut conserver une apparence cohérente entre les lots visuels d'un lot ou appliquer différents styles de conception.
OpenAI a lancé ChatGPT Images 2.0 parallèlement à une nouvelle offre d'entreprise appelée Codex Labs. Il est conçu pour aider les organisations à déployer l'assistant de programmation Codex du fournisseur d'IA. Selon OpenAI, l'offre donne accès à des ateliers et autres formations qui peuvent faciliter l'adoption de l'outil par les développeurs d'une entreprise. De plus, Codex Labs aidera les entreprises dans des tâches telles que la connexion du Codex à leurs outils de développement existants.