Les nouveaux modèles Gemma 4 de Google apportent des compétences de raisonnement complexes aux appareils à faible consommation

Google LLC fait monter les enchères pour les modèles d'intelligence artificielle à poids ouvert avec la sortie de Gemma 4, sa famille de modèles « ouverts » la plus avancée à ce jour.

Construits sur la même base architecturale que Gemini 3, les modèles sont conçus pour gérer des tâches de raisonnement complexes et prendre en charge des agents d'IA autonomes exécutés localement sur des appareils à faible consommation tels que des postes de travail et des smartphones.

Avec Gemma 4, les chercheurs de Google DeepMind, Clement Farabet et Olivier Lacombe, ont déclaré qu'ils ont réussi à extraire plus « d'intelligence par paramètre », leur permettant de frapper nettement au-dessus de leur catégorie de poids. Par exemple, la variante 31B Dense se classe actuellement au troisième rang des modèles ouverts dans le classement standard Arena AI Text.

Les modèles Gemma 4 sont disponibles en quatre saveurs : Effective 2B, Effective 4B, un modèle 26B Mixture of Experts et un modèle 31B Dense. Les modèles « efficaces » plus petits sont conçus pour des cas d’utilisation de pointe sur du matériel léger tel que les smartphones Android ou les ordinateurs Raspberry Pi, ont indiqué les chercheurs. Pendant ce temps, le modèle 26B MoE a une astuce astucieuse dans la mesure où il n'active que 3,8 milliards de paramètres sur les tâches d'inférence, ce qui lui permet d'effectuer des tâches à grande vitesse sans sacrifier la base de connaissances approfondie des modèles plus grands.

Farabet et Lacombe ont expliqué que chacun des modèles Gemma 4 est mieux adapté à l'exécution d'agents IA. Alors que les itérations précédentes de Gemma obligeaient les développeurs à peaufiner leur conception afin de pouvoir interagir avec d'autres outils logiciels, les modèles Gemma 4 prennent en charge nativement les appels de fonctions et les sorties structurées de notation d'objet JavaScript. Cela signifie que les développeurs peuvent les utiliser pour alimenter des agents autonomes qui interagissent avec des outils tiers et exécutent des plans en plusieurs étapes.

Les quatre modèles ont la capacité de traiter des images et des vidéos, les plus petites variantes E2B et E4B allant plus loin avec la prise en charge des entrées audio natives, permettant une compréhension vocale en temps réel directement sur l'appareil. Google a également augmenté la fenêtre contextuelle des modèles, jusqu'à 128K pour les plus petits modèles et 256K pour les deux plus grands. Cela signifie que les développeurs pourront télécharger une base de code entière ou des ensembles massifs de documents avec une seule invite.

Chacun des modèles est disponible sous une licence permissive Apache 2.0, qui supprime de nombreuses restrictions commerciales imposées aux autres modèles d'IA, ce qui en fait un excellent choix pour les développeurs créant des applications d'entreprise, a déclaré Google. Ils sont accessibles directement via Google Cloud et sont également disponibles avec leurs poids ouverts sur Hugging Face, Kaggle et Ollama.

Ce communiqué souligne les ambitions de Google de dominer le secteur de « l'IA locale ». Parce que même les plus grands modèles Gemma 4 sont suffisamment petits pour fonctionner sur une seule unité de traitement graphique, cela les rend adaptés aux cas d'utilisation de pointe et aux applications où une faible latence et la souveraineté numérique sont des priorités élevées, a déclaré Holger Mueller, analyste chez Constellation Research.

« Google renforce son avance dans le domaine de l'IA, non seulement en poussant Gemini, mais aussi en ouvrant des modèles avec la famille Gemma 4 », a-t-il déclaré. « Ceux-ci sont importants pour construire un écosystème de développeurs d'IA et aideront l'entreprise à exploiter des cas d'utilisation fonctionnels et verticaux sur différents facteurs de forme d'appareil. Google a placé la barre haute avec sa version précédente de Gemma 3, et il y a donc beaucoup d'attentes avec cette version. »