DeepSeek est salué comme le meilleur ChatGPT. Un ex-employé de Microsoft explique pourquoi le nouveau chatbot IA fait l’effet d’une bombe.
Un moment Sputnik
– L’ex-employé de Microsoft Dave Plummer parle sur sa chaîne YouTube Dave’s Garage du chatbot d’intelligence artificielle chinois DeepSeek. Il explique ce qui rend DeepSeek si particulier par rapport à ses concurrents comme ChatGPT.
Une Ferrari en pièces détachées
DeepSeek a été beaucoup moins cher enformationque ChatGPT et des LLM comparables. Le facteur par lequel il serait effectivement plus avantageux est toutefoiscontroversé.
L’ancien collaborateur de Microsoft Plummer parle sur sa chaîne YouTube, comme d’autres sources, de moins de 6 millions de dollars qui auraient été investis dans DeepSeek. C’est une fraction des milliards investis dans les modèles de la concurrence.Mais l’IA peut rivaliser avec des fleurons comme ChatGPT.
De plus, les développeurs de l’IA n’auraient pas eu accès aux dernières puces Nvidia Toujours est-il que leur performance serait si intégrale pour le boom de l’IA queNvidia est devenu l’un des groupes les plus précieux. Et ce, alors que le produit phare pour lequel beaucoup connaissent Nvidia, à savoir les cartes graphiques pour le jeu, n’est plus qu’un lointain souvenir pour l’entreprise.
Selon Plummer,
DeepSeek est comme
Une Ferrari construite à partir de pièces détachées – tout aussi bonne, mais beaucoup moins chère.
Comme un maître et un apprenti
C’est possible grâce à un autre type d’entraînement. DeepSeek, tout comme le modèle sous-jacent de ChatGPT, est un modèle Large-Language.Mais il s’agit ici d’unmodèle distillé
  ;(distilled model
).
Cela signifie qu’un petit modèle est entraîné à l’aide de grands modèles de manière à obtenir des résultats aussi similaires que possible à ceux des grands modèles – mais avec beaucoup moins de ressources.
Il arrive ainsi que les modèles géants disposent toujours d’une plus grande base de connaissances,mais que le modèle plus petit soit presque aussi performant dans la plupart des applications.
Plummer compare ainsi dans sa vidéo:
C’est comme si un maître entraînait son apprenti – l’apprenti n’a pas besoin de tout savoir, mais il peut faire le travail aussi bien.
L’un de cesmaîtres
était le modèle open source Llama de Meta, mais aussi le ChatGPT d’OpenAI.
Cette distillation des connaissances rend DeepSeek nettement moins gourmand en ressources Il n’a plus besoin de l’immense matériel avec des centaines de GPU dans d’énormes centres de calcul comme les grands modèles.
Mais cela amène aussi Plummer à se poser la question suivante:
Si tu peux construire une Ferrari dans ton garage avec des pièces de Chevy, qu’est-ce que cela signifie pour la valeur d’une Ferrari?
Rappel de la révolution du PC
Pour la coûteuse Ferrari d’origine, cela ne signifie évidemment rien de bon dans un premier temps.
Mais pour les utilisateurs, c’est un avantage de pouvoir faire tourner le modèle localement sur leur matériel domestique Bien sûr, DeepSeek ne peut pas fonctionner localement sur n’importe quel petit ordinateur portable de travail. Plummer a besoin d’un AMD Threadripper avec un Nvidia RTX 6000 GPU (48 GB VRAM) pour le plus grand modèle DeepSeek Des variantes plus petites ont même fonctionné sur unMacBook Pro
Il estime que cette évolution lui rappelle l’époque de la révolution du PC.
Ça me rappelle les premiers jours des PC – ils n’étaient pas aussi bons que les mainframes, mais ils ont changé le monde.
A l’époque où l’on entendait encore par ordinateur des unités centrales (Mainframes
) pour des applications professionnelles, personne ne pouvait imaginer qu’un jour tout le monde en aurait un chez soi à un prix abordable.
Un moment Spoutnik
A la différence de la révolution du PC, il faut aujourd’hui tenir compte des implications géopolitiques DeepSeek est un modèle chinois qui fait particulièrement concurrence aux groupes américains de la Silicon Valley.
Plummer appelle celale moment Sputnik
Il s’agit d’une allusion au satellite soviétique Spoutnik, dont le lancement en 1957 a marqué le début de la course à l’espace (Space Race
) etune nouvelle phase de la concurrence systémique entre l’Union soviétique et l’Occident pendant la guerre froide.
De la même manière, le développement de DeepSeek entraîne des tensions géopolitiques qui reflètent la concurrence entre les États-Unis en tant qu’hégémon technologique et la Chine en tant que puissance mondiale émergente.
Cette compétition technologique n’est pas seulement une lutte pour l’innovation, mais aussi un symbole de la rivalité systémique entre la démocratie capitaliste des États-Unis et le capitalisme d’État de la Chine.