DeepSeek, la IA china que desafía a ChatGPT y preocupa a Silicon Valley
DeepSeek, una nueva startup china de inteligencia artificial, ha causado un gran revuelo en Silicon Valley con el lanzamiento de su modelo R1, que promete desafiar a empresas como OpenAI y Google.
Fundada en 2023 por Liang Wenfeng, un conocido gestor de fondos de cobertura, DeepSeek presentó su modelo R1 el lunes pasado, detallando en un documento cómo construir un modelo de lenguaje grande con un presupuesto reducido, capaz de aprender y mejorar de manera autónoma sin supervisión humana.
Este enfoque ha desafiado a las grandes empresas estadounidenses como OpenAI y Google DeepMind, quienes han sido pioneras en el desarrollo de modelos de razonamiento, un campo relativamente nuevo de investigación en IA que intenta hacer que los modelos coincidan con las capacidades cognitivas humanas, dice el Financial Times.
La revelación de DeepSeek generó un debate frenético en Silicon Valley sobre si las empresas de IA estadounidenses, como Meta y Anthropic, pueden mantener su ventaja tecnológica frente a los modelos de la startup china.
El ascenso de DeepSeek
Liang, quien también dirige el fondo de cobertura High-Flyer, comenzó en 2021 comprando miles de unidades de procesamiento gráfico (GPU) de Nvidia para su proyecto de IA, que en un principio fue visto como una ocurrencia excéntrica de un multimillonario buscando una nueva afición. Sin embargo, su visión se fue concretando con el tiempo y, en 2023, fundó DeepSeek con la intención de desarrollar IA de nivel humano.
A pesar de su estatus como forastero en el campo de la IA, Liang logró construir un equipo altamente capacitado que conoce a fondo cómo aprovechar las GPU, incluso aquellas que no son de última generación, lo que les permitió maximizar el poder de cálculo disponible a pesar de las restricciones impuestas por Estados Unidos.
Liang ha presentado a DeepSeek como una compañía completamente "local", compuesta por PhDs de universidades chinas de renombre como Peking, Tsinghua y Beihang, y ha enfatizado la importancia de desarrollar talento localmente, sin depender de expertos provenientes de instituciones estadounidenses. Esto le ha valido aplausos en China, donde la empresa se ha ganado una gran admiración por mostrar que los chinos pueden ser creativos y construir algo desde cero en el ámbito de la IA.
El enfoque innovador de DeepSeek
El enfoque de DeepSeek en la investigación, más que en la comercialización inmediata de sus modelos, la ha convertido en un competidor formidable. La empresa ha lanzado una serie de modelos que desafían a gigantes como OpenAI y Google, y ha logrado mantener un coste relativamente bajo en comparación con sus competidores.
DeepSeek se distingue por su enfoque innovador y altamente eficiente. Entre sus principales avances se encuentran el uso de aprendizaje por refuerzo (RL), que permite que los modelos aprendan a través de prueba y error, y una arquitectura de mezcla de expertos (MoE), que activa solo una fracción de los parámetros del modelo para tareas específicas, lo que reduce significativamente los costos computacionales, dice Forbes.
Además, el uso de atención latente multi-cabeza (MLA) en DeepSeek-V3 permite que los modelos procesen datos de manera más eficiente, identificando relaciones matizadas entre la información.
El impacto de DeepSeek en la industria de la IA
Aunque DeepSeek se ha mantenido enfocada en la investigación, su modelo R1, lanzado en enero de 2025, ha sido aclamado por su capacidad para abordar tareas de razonamiento, compitiendo directamente con el modelo o1 de OpenAI.
Un aspecto clave del éxito de DeepSeek es su capacidad para mantener costos bajos sin sacrificar el rendimiento. La empresa ha utilizado un número limitado de GPU, 2,048 unidades de Nvidia H800, para entrenar su modelo de 671 mil millones de parámetros, lo que representa una fracción de los recursos que gastaron OpenAI y Google para entrenar modelos de tamaño comparable. Además, su modelo R1 ha sido lanzado como una API accesible a precios considerablemente más bajos que los de sus competidores, lo que permite a pequeñas empresas y desarrolladores aprovechar el potencial de estos modelos avanzados sin un gasto excesivo.
La introducción de DeepSeek al mercado de la IA ha creado una presión significativa sobre gigantes establecidos como OpenAI, Google y Meta, quienes se ven obligados a reducir precios o mejorar sus ofertas para seguir siendo competitivos. Esta competencia ha provocado incluso una guerra de precios en el mercado chino de modelos de IA, obligando a empresas como ByteDance, Tencent, Baidu y Alibaba a ajustar sus estructuras de precios.
Además, la estrategia de DeepSeek de ofrecer modelos de código abierto fomenta el desarrollo colaborativo y elimina las barreras financieras, permitiendo que una mayor cantidad de usuarios y dispositivos accedan a tecnologías avanzadas de IA.
El futuro de DeepSeek
Aunque DeepSeek ha logrado resultados impresionantes con recursos limitados, queda por ver si podrá mantener su competitividad a medida que la industria evoluciona. Mientras tanto, sus rivales estadounidenses no se quedan quietos: empresas como OpenAI y xAI, de Elon Musk, están construyendo enormes "clusters" de chips de próxima generación de Nvidia, lo que podría crear nuevamente una brecha de rendimiento.
Sin embargo, el ascenso de DeepSeek es una clara señal de que China se está convirtiendo en un actor importante en el campo de la IA. La empresa ha demostrado que es posible desarrollar modelos de IA avanzados con un presupuesto limitado y un enfoque innovador. Queda por ver si DeepSeek puede mantener su impulso y convertirse en un líder mundial en IA, pero su impacto en la industria ya es innegable.