Español

El modelo DeepSeek de China representa un gran avance en la tecnología de inteligencia artificial

El logo de la aplicación DeepSeek [AP Photo/Jon Elswick]

La semana pasada, DeepSeek, una empresa emergente con sede en Hongzhou, China, lanzó su más reciente modelo de inteligencia artificial, DeepSeek R1. En cuestión de días, el chatbot se convirtió en la aplicación más descargada en la tienda de aplicaciones de Apple.

El rendimiento de DeepSeek está al nivel o incluso supera al de los modelos de IA más avanzados de empresas estadounidenses como Meta y Open AI, superando a todos los modelos de código abierto disponibles anteriormente y a muchos modelos cerrados en la mayoría de las pruebas estándar.

Este logro causó conmoción en Wall Street, borrando aproximadamente 1 billón de dólares en valor de mercado para las corporaciones en un solo día. También representa un duro golpe para los planes de Estados Unidos de mantener su dominio en la IA como parte de su objetivo de impedir que China desplace a Estados Unidos como la principal potencia económica y militar del mundo.

Además, la aplicación móvil de DeepSeek conectada al modelo R1 rápidamente encabezó los rankings en la tienda de Apple, superando a la aplicación de ChatGPT. En la tienda Google Play, ya ha sido descargada 10 millones de veces.

Avances en el rendimiento del modelo

En la academia y la industria, el rendimiento de los modelos de IA se mide utilizando pruebas estándar. Estas pruebas definen tareas predeterminadas para las cuales se conocen las respuestas. El modelo se somete a estas tareas, y sus resultados se comparan con las respuestas conocidas. En general, mientras mayor sea el número de respuestas correctas, mejor es el rendimiento del modelo. Un conjunto compartido de pruebas estándar permite comparar modelos entre sí.

El equipo de DeepSeek probó su modelo R1 en 21 pruebas y comparó los resultados con los obtenidos por los modelos de IA líderes en la industria de Meta, Open AI y otros. Las pruebas incluyeron tareas en inglés, en chino, de programación de software y de matemáticas.

Compararon el modelo R1 con cuatro modelos líderes en la industria, así como con la versión anterior de DeepSeek. Estos modelos incluían Claude-3.5-Sonnet-1022 de Anthropic; tres modelos de Open AI—GPT-4o, o1-mini y o1-1217; y el predecesor de R1, DeepSeek-V3.

DeepSeek R1 superó a los otros modelos en 12 de las 21 pruebas. En las nueve pruebas restantes, ocupó el segundo lugar en ocho y el cuarto lugar en una.

Es importante señalar que el modelo o1-1217, debido a su propósito y diseño, solo era aplicable a 11 de las pruebas. Para esas 11 pruebas, R1 fue el mejor modelo en cuatro tareas, mientras que o1-1217 fue el mejor en seis tareas y Claude en una. R1 superó a o1-mini en 20 de las 21 pruebas.

Reducción dramática de cómputo

Lo que hace que el logro de DeepSeek sea particularmente impresionante es la masiva reducción de recursos computacionales necesarios para construir el modelo R1. DeepSeek utilizó muchos menos recursos computacionales que los requeridos para la creación de sus competidores.

Construir R1 requirió aproximadamente 2,8 millones de horas de cómputo en una tarjeta gráfica de NVIDIA llamada H800. Este tipo de unidades de procesamiento gráfico o GPU se utilizan para construir modelos de IA porque ejecutan de manera eficiente los complejos cálculos matemáticos necesarios. DeepSeek utilizó una infraestructura de computación con 2.048 tarjetas H800.

En contraste, Meta necesitó 30,8 millones de horas de GPU para construir su popular modelo Llama-3.1, lo que significa que el modelo DeepSeek R1 tomó solo el 9 % del tiempo. Dado que DeepSeek R1 es un modelo más grande que Llama-3.1, la reducción de tiempo es aún mayor que un 91%.

El tamaño de un modelo generalmente se expresa como el número de parámetros numéricos que lo componen. DeepSeek R1 cuenta con 671.000 millones de parámetros en comparación con los 405.000 millones de Llama-3.1, es decir, un 66 % más grande.

Esta rapidez en la construcción del modelo es aún más impresionante debido al hecho de que la GPU H800 es una versión limitada de la GPU H100 de NVIDIA, creada para cumplir con las restricciones de control de exportaciones impuestas por Estados Unidos a China. La estimación de Meta de 30,8 millones de horas de GPU para construir Llama-3.1 405B se basa en la más rápida GPU H100. Las pruebas muestran que la H800 es aproximadamente un 11,5 % más lenta que la H100.

Código abierto

El hecho de que el modelo DeepSeek R1 sea de código abierto significa que el conjunto completo de 671.000 millones de parámetros y el software utilizado para operar el modelo están disponibles gratuitamente para descargar, inspeccionar y modificar. Los modelos de código abierto suelen ser preferidos por desarrolladores de software y ingenieros de IA porque son más fáciles de modificar y adaptar para diversos propósitos.

A pesar de su nombre, los modelos líderes de Open AI no son de código abierto. Por ejemplo, los ingenieros de IA no pueden inspeccionar ni modificar los modelos líderes como el o1 de Open AI o su predecesor inmediato GPT-4o.

Además, R1 implementa un procedimiento llamado “cadena de pensamiento”, una técnica originalmente desarrollada por Open AI para su modelo o1. Mientras que o1 y otros modelos de Open AI ocultan los pasos de “razonamiento” de la cadena de pensamiento, R1 permite al usuario ver todos los pasos que toma para llegar a una respuesta.

Como los modelos de código abierto pueden ser utilizados y modificados por cualquiera, ha surgido una industria de empresas que alojan modelos. Por ejemplo, el modelo de código abierto Llama-3.1 de Meta está alojado en varias empresas que compiten por el coste de uso del modelo.

Los observadores no tardaron en darse cuenta de que las consultas a la versión de R1 alojada en DeepSeek se negaban a responder a preguntas como ¿qué pasó en la plaza de Tiananmen?”. La naturaleza abierta del modelo no implica que China se esté volviendo menos autoritaria. Sin embargo, sí permite que cualquier persona fuera de China pueda alojar el modelo por sí misma sin tantas restricciones ni censura.

Aunque los modelos de código abierto también pueden estar sujetos a censura, esta es mucho más fácil de superar en comparación con los modelos cerrados. Por ejemplo, mientras la versión de DeepSeek R1 alojada en China bloquea preguntas como “¿qué ocurrió en la Plaza de Tiananmen?”, su modelo abierto permite que usuarios fuera de China pueden alojarlo sin tales restricciones. Esto contrasta con modelos cerrados como los de Open AI, que también censuran temas controversiales como el genocidio en Gaza.

Bajo costo de uso

DeepSeek también cobra mucho menos por el uso de R1 que sus competidores. Los modelos más grandes son demasiado costosos computacionalmente para ejecutarse en ordenadores personales o incluso en la mayoría de los servidores. Por lo tanto, las empresas de IA alojan modelos en sus grandes infraestructuras de GPU y aceptan solicitudes—conocidas como “prompts”—a través de internet.

Usar R1 a través de tales sistemas de interfaz de programación de aplicaciones o API es mucho más económico que los modelos líderes. DeepSeek actualmente cobra menos del 4 % de lo que cobra Open AI por usar su modelo o1-1217. Específicamente, el costo de o1 es de $15 por millón de tokens (MT) para entrada y $60 por MT de salida, mientras que el costo de R1 es de $0,55 para MT de entrada y $2,19 para salida, una reducción de 27 veces. Un token equivale aproximadamente a una palabra.

Para lograr los menores costes de funcionamiento de R1, DeepSeek utiliza una arquitectura llamada “Mezcla de Expertos”. Esto significa que, por cada token generado, sólo se activa una fracción del modelo (37B parámetros de los 671B, es decir, un “experto”). Esto reduce la potencia de cálculo necesaria para la salida del modelo, lo que se traduce en menores costes.

Además, las modificaciones de los modelos mediante un proceso conocido como cuantización pueden reducir drásticamente los recursos informáticos necesarios para ejecutar un modelo. Aunque la cuantización reduce el rendimiento del modelo, varios esquemas de cuantización pueden reducir drásticamente los requisitos computacionales y, al mismo tiempo, disminuir sólo un poco el rendimiento del modelo.

Aprovechando la naturaleza de código abierto de R1, dos investigadores han creado múltiples versiones cuantizadas del mismo. Una de ellas puede ejecutarse en un ordenador de sobremesa o portátil con tan solo 20 GB de RAM, aunque con lentitud. Estos investigadores publicaron sus versiones modificadas de R1 como código abierto en un repositorio de modelos de IA conocido como Hugging Face.

Implicaciones para la dominación de EE. UU. en IA

La semana anterior al anuncio de DeepSeek, el expresidente Trump había anunciado una iniciativa llamada “StarGate” con $500.000 millones de inversión para garantizar el dominio estadounidense en IA. Sin embargo, el impacto del logro de DeepSeek cuestiona la capacidad de EE. UU. para mantener su hegemonía tecnológica. Los desarrollos en IA están apuntalados por rivalidades intensificadas en la competecia globalista contra China.

Además, Open AI anunció el 21 de enero el lanzamiento pendiente de su próximo modelo de IA, o3-mini, en «un par de semanas».

El logro de DeepSeek eclipsó inmediatamente la iniciativa StarGate y los planes de Open AI para o3-mini, poniendo patas arriba la industria de la IA en general. La percepción de que EE.UU. tiene una larga ventaja en IA —justificada o no— anteriormente- se ha desvanecido prácticamente de la noche a la mañana, planteando dudas sobre la capacidad de EE.UU. para crear o mantener el dominio en IA. DeepSeek y su modelo R1 se han convertido en el tema central de conversación, cambiando el enfoque de trabajo de amplias franjas de la industria de la IA.

La administración Biden no solo había puesto en marcha los controles de exportación que dieron lugar a que el equipo de DeepSeek utilizara GPU H800 en lugar de H100, sino que también amplió esas restricciones en sus últimos días en el cargo. Ya se esperaba que el presidente Trump intensificara aún más la confrontación económica y militar con China, pero es probable que el logro de DeepSeek acelere e intensifique la escalada prevista.

(Artículo originalmente publicado en inglés el 30 de enero de 2025.)