DeepSeek está siendo aclamado como el mejor ChatGPT. Un ex empleado de Microsoft explica por qué el nuevo chatbot de IA es una bomba.
Un momento Sputnik: el ex empleado de Microsoft Dave Plummer habla sobre el chatbot de IA chino DeepSeek en su canal de YouTube Dave’s Garage. Explica qué hace que DeepSeek sea tan especial en comparación con su competidor ChatGPT.
Al igual que otros LLM, DeepSeek filtra sus respuestas a temas problemáticos y se niega a responder preguntas sobre prescripciones de medicamentos. Además, DeepSeek también está sujeto a la censura estatal en China. Por ejemplo, la IA evita las declaraciones sobre la masacre de Tiananmen, la opresión de los uigures en la región de Xinjiang o la independencia política de Taiwán. Las respuestas que incluyan el nombre del jefe de Estado chino, Xi Jinping, serán retenidas.
Ha sido mucho más barato entrenar a DeepSeek que a ChatGPT y a otros LLM comparables. Sin embargo, el factor del coste real es controvertido.
En su canal de YouTube, el ex empleado de Microsoft Plummer, al igual que otras fuentes, habla de menos de 6 millones de dólares que se dice que se han invertido en DeepSeek. Esto es una fracción de los miles de millones invertidos en los modelos de la competencia.Sin embargo, la IA puede seguir el ritmo de modelos insignia como ChatGPT.
Además, se dice que los desarrolladores de la IA no han tenido acceso a los últimos chips de Nvidia Después de todo, se dice que su rendimiento es tan esencial para el auge de la IA que Nvidia se ha convertido en una de las corporaciones más valiosas. Y esto mientras que el producto principal por el que muchos conocen a Nvidia, a saber, las tarjetas gráficas para juegos, solo se considera un producto menor para la empresa.
DeepSeek es como un Ferrari construido con piezas de repuesto: igual de bueno, pero mucho más barato, según Plummer.
Un Ferrari construido con piezas de repuesto: igual de bueno, pero mucho más barato.
Como el maestro y el aprendiz
Esto es posible a través de un tipo diferente de entrenamiento. Al igual que ChatGPT, DeepSeek es un modelo de lenguaje grande.Sin embargo, este es un modelo destilado (distilled model).
Esto significa que un modelo más pequeño se entrena utilizando modelos grandes para ofrecer resultados que sean lo más similares posible a los de los modelos grandes, pero con muchos menos recursos.
Así que sucede que los modelos enormes siguen teniendo una base de conocimientos más amplia, pero el modelo más pequeño funciona casi igual de bien en la mayoría de las aplicaciones.
Plummer compara esto en su vídeo de la siguiente manera:
Es como un maestro que entrena a su aprendiz: el aprendiz no necesita saberlo todo, pero puede hacer el trabajo igual de bien.
Uno de estos maestros fue el modelo de código abierto Llama de Meta, pero también ChatGPT de OpenAI.
Esta destilación de conocimientos hace que DeepSeek sea significativamente más eficiente en el uso de recursos También ya no requiere el inmenso hardware con cientos de GPU en enormes centros de datos como los grandes modelos.
Pero esto también lleva a Plummer a la pregunta:
Si puedes construir un Ferrari en tu garaje con piezas de Chevy, ¿qué significa eso para el valor de un Ferrari?
Recordando la revolución de los PC
Para el caro Ferrari original, esto no es un buen augurio al principio.
Sin embargo, es una ventaja para los usuarios que puedan ejecutar el modelo localmente en su hardware doméstico. Por supuesto, DeepSeek no puede ejecutarse localmente en todos los portátiles pequeños. Para el modelo más grande de DeepSeek, Plummer necesita un AMD Threadripper con una GPU Nvidia RTX 6000 (48 GB de VRAM). Las variantes más pequeñas incluso se ejecutarían en un MacBook Pro.
Este desarrollo le recuerda a los días de la revolución de los PC.
Me recuerda a los primeros días de los PC: no eran tan buenos como los mainframes, pero cambiaron el mundo.
Cuando los ordenadores eran todavía sistemas de mainframe (mainframes) para aplicaciones empresariales, nadie podría haber imaginado que todo el mundo acabaría teniendo uno de estos en casa a un precio asequible.
Un momento Sputnik
Sin embargo, a diferencia de la revolución de los PC, hoy en día también hay que tener en cuenta las implicaciones geopolíticas DeepSeek es un modelo chino que compite especialmente con las empresas estadounidenses de Silicon Valley.
Plummer se refiere a esto como Momento Sputnik Esto es una referencia al satélite soviético Sputnik, cuyo lanzamiento en 1957 marcó el comienzo de la carrera espacial (Carrera espacial) y una nueva fase de competencia sistémica entre la Unión Soviética y Occidente en la Guerra Fría.
De manera similar, el desarrollo de DeepSeek está generando tensiones geopolíticas que reflejan la competencia entre EE. UU. como potencia tecnológica hegemónica y China como potencia mundial emergente.
Esta pugna tecnológica no es solo una lucha por la innovación, sino también un símbolo de la rivalidad sistémica entre la democracia capitalista de EE. UU. y el capitalismo de Estado de China.