Modèle de diffusion de texte rapide DiffusionGemma open source de Google

Google LLC a publié aujourd'hui DiffusionGemma, un grand modèle de langage basé sur une approche émergente d'apprentissage automatique connue sous le nom de diffusion de texte.

La société affirme que l'algorithme peut générer du texte quatre fois plus rapidement que les LLM traditionnels. De plus, DiffusionGemma le fait en utilisant moins de RAM. L'efficacité de la mémoire du modèle lui permet de fonctionner sur des cartes graphiques grand public haut de gamme qui ont généralement du mal à prendre en charge les LLM.

L'architecture de diffusion de texte de DiffusionGemma est dérivée d'une méthode utilisée par les modèles d'IA pour générer des images. Le flux de travail de génération d'images commence par une photo floue contenant un type d'erreur appelé bruit gaussien. Un modèle d'IA supprime une petite partie du bruit, analyse la photo améliorée et utilise ses résultats pour restaurer un autre lot de pixels. Il répète ensuite le processus jusqu'à arriver à une image utilisable.

Lorsque DiffusionGemma reçoit une invite, il génère une réponse d'espace réservé comprenant des mots aléatoires. Il remplace ensuite un sous-ensemble du texte aléatoire par des mots qui feront partie de sa réponse à l'invite de l'utilisateur. DiffusionGemma examine les modifications, génère quelques mots supplémentaires et répète le processus jusqu'à ce que sa réponse rapide soit prête.

Les modèles d’IA génèrent généralement des réponses rapides, un jeton à la fois. L'architecture de diffusion de texte de DiffusionGemma, en revanche, lui permet de produire 256 jetons à la fois. Cette parallélisation est ce qui rend le modèle plus rapide que les LLM standard.

Google affirme que DiffusionGemma peut générer plus de 1 000 jetons par seconde lorsqu'il est exécuté sur un seul H100, un GPU de qualité serveur lancé par Nvidia Corp. en 2022. Le modèle peut générer plus de 700 jetons par seconde sur la puce GeForce RTX 5090 de qualité ordinateur de bureau du fabricant de puces.

L'une des raisons pour lesquelles DiffusionGemma peut fonctionner sur des GPU grand public est qu'il est basé sur une architecture mixte d'experts. Le modèle comprend 26 milliards de paramètres mais n’en active que 3,8 milliards pour répondre à l’invite, ce qui réduit l’utilisation de la mémoire. DiffusionGemma réduit encore la consommation de RAM en conservant les informations dans un format de données léger appelé NVFP4.

DiffusionGemma est basé sur un LLM appelé Gemma 4 26B A4B que Google a publié en avril. Pour faciliter la diffusion du texte, le géant de la recherche a remplacé le mécanisme d'attention de ce dernier modèle, le module logiciel qu'il utilise pour interpréter les invites. Le mécanisme original déduisait la signification de chaque mot dans une invite en analysant le texte précédent. Le nouveau module d'attention examine également le texte qui suit un mot donné.

« Bien que la communauté des chercheurs en IA explore la génération de texte basée sur la diffusion depuis des années, l'appliquer à de grands modèles reste un défi », ont écrit les chercheurs de Google Brendan O'Donoghue et Sebastian Flennerhag dans un article. article de blog aujourd'hui. « DiffusionGemma change cela en modifiant la façon dont les modèles utilisent le matériel. »

DiffusionGemma est disponible sur Visage câlin sous licence open source.