Le modèle chinois DeepSeek marque une avancée majeure dans la technologie de l'IA

Le logo de l'application DeepSeek [AP Photo/Jon Elswick]

La semaine dernière, DeepSeek, une start-up basée à Hongzhou, en Chine, a lancé son tout nouveau modèle d'intelligence artificielle, DeepSeek R1. En quelques jours, le chatbot est devenu l'application la plus téléchargée sur l'App Store d'Apple.

Les performances de DeepSeek atteignent ou dépassent celles des modèles d'IA de pointe des entreprises américaines telles que Meta et Open AI, surpassant tous les modèles code source ouvert (open-source) précédemment disponibles et de nombreux modèles fermés dans la plupart des critères de référence standard.

Cet exploit a provoqué une onde de choc à Wall Street, réduisant à néant la valeur marchande des entreprises d'environ 1 000 milliards de dollars en une seule journée. Elle représente également un coup dur pour les plans américains visant à maintenir la domination de l'IA dans le cadre de leur objectif d'empêcher la Chine d'usurper la place des États-Unis en tant que première puissance économique et militaire du monde.

En outre, l'application téléphonique de DeepSeek connectée à R1 s'est rapidement hissée en tête des classements sur l'Apple Store, dépassant l'application ChatGPT. Sur le Google Play Store, elle a déjà été téléchargée 10 millions de fois.

Gains de performance du modèle

Le monde universitaire et l'industrie mesurent la «qualité» d'un modèle d'IA à l'aide de critères de référence standard. Ces critères sont des tâches prédéfinies pour lesquelles les réponses sont connues. Le modèle est appliqué aux tâches et ses résultats sont comparés aux réponses connues. En règle générale, plus le nombre de réponses correctes aux tâches est élevé, plus le modèle est performant. Un ensemble commun de critères de référence standard permet de comparer les modèles entre eux.

L'équipe de DeepSeek a testé son modèle R1 sur 21 points de référence et a comparé les résultats à ceux obtenus par les modèles d'IA leaders du secteur de Meta, Open AI et d'autres. Les références comprenaient des tâches en anglais, en chinois, en programmation de logiciels et en mathématiques.

Elle a comparé R1 à quatre modèles d'IA de pointe ainsi qu'à leur version précédente de DeepSeek. Ces modèles comprenaient Claude-3.5-Sonnet-1022 d'Anthropic, trois modèles Open AI - GPT-4o, o1-mini et o1-1217 - et le prédécesseur de R1, DeepSeek-V3.

DeepSeek R1 a surpassé les autres modèles pour 12 des 21 critères de référence. Pour les neuf autres critères, il s'est classé deuxième dans huit cas et quatrième dans un cas.

Il convient de noter que le modèle o1-1217, compte tenu de son objectif et de sa conception, n'était applicable qu'à 11 des critères de référence. Pour ces 11 critères, R1 était le meilleur modèle pour quatre tâches, tandis que o1-1217 était le meilleur modèle pour six tâches et Claude était le meilleur modèle pour une tâche. R1 a surpassé o1-mini sur 20 des 21 points de référence.

Réduction spectaculaire des calculs

Ce qui rend la réalisation de DeepSeek particulièrement spectaculaire, c'est la réduction massive des ressources de calcul nécessaires à la construction de R1. DeepSeek a utilisé beaucoup moins de ressources de calcul que ce qui était nécessaire pour la création de ses concurrents.

La construction de R1 a nécessité environ 2,8 millions d'heures de calcul sur une carte graphique de NVIDIA appelée H800. Ces cartes GPU (pour Graphical Processing Unit) sont utilisées pour construire des modèles d'IA, car elles exécutent efficacement les calculs mathématiques complexes requis. DeepSeek a utilisé une infrastructure informatique avec 2 048 cartes H800.

En revanche, Meta a eu besoin de 30,8 millions d'heures de GPU pour construire son modèle populaire Llama-3.1, ce qui signifie que le modèle DeepSeek R1 n'a pris que 9 % de ce temps. Étant donné que DeepSeek R1 est un modèle plus grand que Llama-3.1, l'accélération est encore supérieure à une réduction de 91 %.

La taille du modèle est généralement exprimée en nombre de paramètres numériques qui composent le modèle. DeepSeek R1 contient 671 milliards de paramètres contre 405 milliards pour Llama-3.1, soit 66 % de plus.

L'accélération de la construction du modèle est d'autant plus impressionnante que le GPU H800 est une version simplifiée du GPU H100 de NVIDIA, afin de respecter les restrictions américaines en matière de contrôle des exportations vers la Chine. L'estimation de Meta de 30,8 millions d'heures de GPU pour construire Llama-3.1 405B est basée sur la carte GPU H100, plus rapide. Les tests de la différence de performance entre les cartes montrent que la H800 est environ 11,5 % plus lente que la H100.

Code source ouvert

Le fait que DeepSeek R1 soit code source ouvert (open source) signifie que l'ensemble des 671 milliards de paramètres et le logiciel utilisé pour faire fonctionner le modèle peuvent être librement téléchargés, inspectés et modifiés. Les développeurs de logiciels et les ingénieurs en intelligence artificielle préfèrent souvent les modèles à code source ouvert, car ils sont plus faciles à modifier et à adapter à des fins diverses.

Malgré son nom, les principaux modèles d'Open AI ne sont pas code source ouvert. Les ingénieurs en IA ne peuvent pas inspecter ou modifier le modèle o1 d'Open AI, par exemple, ou son prédécesseur immédiat, GPT-4o.

De plus, R1 met en œuvre une procédure de «chaîne de pensée», une technique développée à l'origine par Open AI pour son modèle o1. Alors que o1 et d'autres modèles Open AI cachent les étapes de «raisonnement» dans la chaîne de pensée, R1 permet à l'utilisateur de voir toutes les étapes nécessaires pour parvenir à une réponse.

Comme les modèles à code source ouvert peuvent être utilisés et modifiés par n'importe qui, un secteur d'entreprises hébergeant des modèles s'est développé. Par exemple, le modèle code source ouvert Llama-3.1 de Meta est hébergé par plusieurs entreprises différentes qui se font concurrence sur le coût d'utilisation du modèle.

Les observateurs ont rapidement remarqué que les requêtes adressées à la version de R1 hébergée par DeepSeek refusaient de répondre à des questions telles que «que s'est-il passé sur la place Tiananmen? » La nature ouverte du modèle n'implique pas que la Chine devienne moins autoritaire. Toutefois, elle permet à toute personne extérieure à la Chine d'héberger elle-même le modèle sans subir de telles restrictions et censures.

En outre, la critique s'applique également aux modèles Open AI, qui refusent de répondre à des questions sur le génocide de Gaza lorsqu'on le leur demande. La censure des modèles fermés est beaucoup plus difficile à surmonter que celle des modèles à source ouverte.

Faible coût d'utilisation

DeepSeek facture également beaucoup moins pour l'utilisation de R1 que ses concurrents. Les modèles les plus importants sont trop coûteux en termes de calcul pour être exécutés sur des ordinateurs personnels ou même sur la plupart des serveurs. La même grande infrastructure GPU qui est utilisée pour construire les modèles est également utilisée pour faire fonctionner ces modèles.

En conséquence, les entreprises d'IA mettent en scène les modèles sur leurs grandes grappes de GPU et acceptent des demandes – appelées «invites» [ prompts] – sur l'internet, saisissent les invites dans le modèle et renvoient ensuite les résultats du modèle à l'utilisateur.

L'exécution de R1 par l'intermédiaire d'une interface de programmation d'applications ou d'appels API sur l'internet est beaucoup moins coûteuse que pour d'autres modèles d'IA de premier plan. DeepSeek facture actuellement R1 moins de 4 % de ce qu'Open AI facture pour faire fonctionner son modèle o1-1217. Plus précisément, les coûts de o1 sont de 15 dollars par million de jetons (MT) en entrée et de 60 dollars par MT en sortie, alors que R1 coûte 0,55 dollar par MT en entrée et 2,19 dollars par MT en sortie, soit une réduction de 27 fois. Un jeton équivaut approximativement à un mot.

Pour réduire les coûts d'exploitation de R1, DeepSeek utilise une architecture appelée «mélange d'experts» (mixture of experts). Cela signifie que pour chaque jeton généré, seule une fraction du modèle (37B paramètres sur 671B, c'est-à-dire un «expert») est activée. Cela permet de réduire la puissance de calcul nécessaire à la sortie du modèle, ce qui se traduit par des coûts moindres.

En outre, les modifications apportées aux modèles par le biais d'un processus connu sous le nom de quantification peuvent réduire considérablement les ressources informatiques nécessaires à l'exécution d'un modèle. Bien que la quantification réduise les performances du modèle, divers schémas de quantification peuvent réduire considérablement les besoins de calcul tout en ne diminuant que légèrement les performances du modèle.

Deux chercheurs, profitant de la nature de code source ouvert de R1, en ont déjà créé plusieurs versions quantifiées. L'une de ces versions peut fonctionner sur un ordinateur de bureau ou un ordinateur portable avec seulement 20 Go de mémoire vive, bien que lentement. Ces chercheurs ont publié leurs versions modifiées de R1 en tant que code source ouvert sur un dépôt de modèles d'IA connu sous le nom de Hugging Face.

Conséquences pour la domination des États-Unis dans le domaine de l'IA

La semaine précédant l'annonce de DeepSeek, le président Trump a annoncé un projet d'initiative de 500 milliards de dollars appelé StarGate pour investir dans la technologie afin d'assurer la domination des États-Unis dans l'IA. Stargate LLC, une société avec des investissements d'Open AI, d'Oracle, de SoftBank et de la société d'investissement MGX, cherche à construire plusieurs centres de données d'IA à travers les États-Unis, à commencer par 10 centres au Texas. Trump a également annoncé qu'il éliminerait les réglementations sur la production des quantités massives d'électricité nécessaires au fonctionnement des centres de données.

En outre, Open AI a annoncé le 21 janvier la sortie imminente de son prochain modèle d'IA, o3-mini, dans «quelques semaines».

La réalisation de DeepSeek a immédiatement éclipsé l'initiative StarGate et les projets d'Open AI pour o3-mini, bouleversant l'industrie de l'IA en général. La perception que les États-Unis ont une longue avance dans le domaine de l'IA – qu'elle ait été justifiée ou non – a disparu pratiquement du jour au lendemain, ce qui soulève des questions quant à la capacité des États-Unis à créer ou à maintenir une position dominante dans le domaine de l'IA. DeepSeek et son modèle R1 sont devenus le sujet central de conversation, modifiant l'orientation du travail de vastes pans de l'industrie de l'IA.

L'administration Biden avait non seulement mis en place les contrôles à l'exportation qui ont permis à l'équipe DeepSeek d'utiliser des GPU H800 au lieu de H100, mais elle avait également élargi ces restrictions dans les derniers jours de son mandat. On s'attendait déjà à ce que le président Trump intensifie encore la confrontation économique et militaire avec la Chine, mais la réalisation de DeepSeek est susceptible d'accélérer et d'intensifier encore l'escalade prévue.

(Article paru en anglais le 30 janvier 2025)

article.furtherReading