La société chinoise DeepSeek aurait levé 7,4 milliards de dollars de financement pour une valorisation de plus de 50 milliards de dollars

Le laboratoire chinois d'intelligence artificielle DeepSeek aurait levé plus de 50 milliards de yuans, soit 7,4 milliards de dollars, de nouveaux financements.

L'Information et le Wall Street Journal citent aujourd'hui des sources affirmant que la société vaut désormais plus de 50 milliards de dollars. Cela en ferait la startup d'IA la plus précieuse de Chine.

Le fondateur et PDG de DeepSeek, Liang Wenfeng, aurait contribué à hauteur de 3 milliards de dollars à cette augmentation. Plus tôt ce mois-ci, Reuters signalé que Tencent Holdings Ltd envisageait d'investir environ 1,48 milliard de dollars. La plupart des participants au cycle auraient déposé le capital dans une société en commandite gérée par Liang.

DeepSeek, officiellement Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co. Ltd., est une filiale d'un fonds spéculatif appelé High-Flyer. Le laboratoire d’IA a pris de l’importance en janvier 2025 lorsqu’il a rendu public un modèle de raisonnement avancé connu sous le nom de R1. Le lancement a déclenché une vente massive dans les actions de puces qui ont brièvement réduit la capitalisation boursière de Nvidia Corp. de 15 % à l'époque.

R1 correspond presque à la qualité de sortie de o1, un modèle de raisonnement publié par OpenAI Group PBC en décembre 2024. De plus, le modèle de DeepSeek peut effectuer une inférence en utilisant une fraction du matériel. Le lancement du modèle a pesé sur les stocks de puces, car les investisseurs craignaient que son efficacité matérielle ne réduise le besoin d'accélérateurs d'IA.

DeepSeek a publié un successeur à R1 appelé DeepSeek-V4-Pro en avril. Ce dernier modèle comprend 1 600 milliards de paramètres, soit plus de deux fois plus que son prédécesseur. Il présente une architecture composée d'experts qui n'active que 284 milliards de paramètres lors de la réponse aux invites. DeepSeek a entraîné le modèle sur un ensemble de données comprenant plus de 32 000 milliards de jetons.

Les réseaux de neurones utilisent une structure de données appelée cache KV pour effectuer l'inférence. V4-Pro peut traiter des invites contenant 1 million de jetons avec un cache KV équivalant à un dixième de la taille de DeepSeek-V3.2, un modèle DeepSeek antérieur. Le résultat est une réduction significative de l’utilisation de la mémoire, ce qui réduit les dépenses d’inférence.

La rentabilité des algorithmes de DeepSeek a attiré l'attention de Microsoft Corp. Axios a rapporté aujourd'hui que le géant de la technologie pourrait intégrer un modèle DeepSeek personnalisé dans son application Cowork Copilot, qui a été lancée aujourd'hui en disponibilité générale. L’objectif est de fournir une alternative moins coûteuse aux algorithmes OpenAI et Anthropic Group PBC qui alimentent actuellement le logiciel.

Microsoft aurait l'intention d'utiliser une version affinée de DeepSeek V4 ou un autre modèle open source. Le réglage fin est un processus par lequel les développeurs adaptent une IA à une charge de travail spécifique, ce qui augmente la qualité et la vitesse de sa sortie. Microsoft devrait déployer le modèle personnalisé dans les semaines à venir.