Grande série de modèles de langage open source V4 DeepSeek

Le développeur chinois d'intelligence artificielle DeepSeek a publié aujourd'hui une nouvelle série de grands modèles de langage open source.

La V4, comme on appelle la famille d’algorithmes, comprend deux LLM au lancement. Il existe le produit phare V4-Pro et un modèle plus petit appelé V4-Flash qui sacrifie une certaine qualité de sortie pour une utilisation matérielle réduite.

Les deux algorithmes sont basés sur une architecture mixte d’experts, ou MoE. Cela signifie qu’ils comprennent plusieurs réseaux neuronaux plutôt qu’un seul ensemble de neurones artificiels. V4-Pro dispose de 1,6 billion de paramètres et active un sous-ensemble de ses réseaux neuronaux avec 49 milliards de paramètres lorsqu'il répond aux invites des utilisateurs. V4-Flash, à son tour, contient 284 milliards de paramètres et en active 13 milliards à tout moment.

L'une des nouvelles caractéristiques architecturales de la série LLM est ce que l'on appelle un mécanisme d'attention hybride. Le mécanisme d'attention d'un LLM classe les points de données dans une invite utilisateur en fonction de leur importance. Le modèle prend en compte les points de données les plus pertinents lors de la génération de réponses et élimine les détails non pertinents, ce qui améliore la qualité des résultats.

Les mécanismes d'attention ne traitent pas les invites dans leur forme originale, mais utilisent plutôt une représentation mathématique appelée cache KV. L'architecture d'attention hybride de V4 utilise deux méthodes de compression différentes pour réduire la taille du cache KV, ce qui diminue les besoins en mémoire. En conséquence, le cache KV de la famille de modèles utilise 90 % de mémoire en moins lors de l'inférence que celui des LLM de la génération précédente de DeepSeek.

De nombreuses autres nouvelles fonctionnalités de la gamme V4 ont été ajoutées pour optimiser son flux de travail de formation.

Un réseau de neurones comprend des collections de neurones artificiels appelés couches qui traitent les données dans un ordre spécifique. Les invites entrent dans la première couche, qui effectue une série de calculs et transmet les résultats à la deuxième couche. La deuxième couche effectue ensuite ses propres calculs, envoie les résultats à la troisième couche et ainsi de suite.

Les données se déplacent régulièrement entre les couches d'un LLM pendant la formation. La V4 inclut une fonctionnalité appelée mHC qui permet aux données de voyager directement entre des couches distantes sans passer par les clusters de neurones intermédiaires entre elles. Cette approche réduit les erreurs de formation, ce qui améliore à son tour la qualité des résultats de l’IA.

Les groupes de neurones situés entre la première et la dernière couche d'un LLM sont appelés couches cachées. La V4 utilise un module logiciel appelé Muon pour optimiser les couches cachées. Cela permet d’accélérer les cycles de formation et de réduire les exigences en matière d’infrastructure associées.

DeepSeek a effectué la formation initiale de la V4 en utilisant un ensemble de données compromettant environ 27 000 milliards de jetons. Il a ensuite appliqué un flux de travail post-formation en deux étapes. La première étape a optimisé séparément les réseaux de neurones qui composent chaque modèle V4, tandis que la seconde a amélioré leur capacité à coordonner leur travail.

DeepSeek a évalué V4-Pro, le LLM le plus performant de la série, en utilisant environ deux douzaines de tests de référence. Il a ensuite comparé les résultats du modèle aux scores de plusieurs autres modèles frontières, dont Claude Opus 4.6. V4 a battu tous les LLM concurrents dans trois des benchmarks. De plus, il y a eu plusieurs cas où la V4 a mieux réussi un benchmark que certains autres LLM, mais pas tous.

V4-Pro et V4-Flash sont disponibles en avant-première sur Visage câlin.

Image: Unsplash

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine