DeepSeek : (Aussi bon qu’une Ferrari, mais construit avec des pièces détachées) – Un expert de Microsoft explique la base de son immense succès

0
2

DeepSeek est salué comme le meilleur ChatGPT. Un ex-employé de Microsoft explique pourquoi le nouveau chatbot IA fait l’effet d’une bombe.

Un moment Sputnik– L’ex-employé de Microsoft Dave Plummer parle sur sa chaîne YouTube Dave’s Garage du chatbot d’intelligence artificielle chinois DeepSeek. Il explique ce qui rend DeepSeek si particulier par rapport à ses concurrents comme ChatGPT.

Comme d’autres LLM, DeepSeek filtre ses réponses sur des sujets problématiques et refuse par exemple de répondre à une question sur une ordonnance de drogue. De plus, DeepSeek est également soumis à la censure de l’État chinois. Ainsi, l’IA évite de parler du massacre de Tian’anmen, de la répression des Ouïgours dans la région du Xinjiang ou de l’indépendance politique de Taïwan

Les réponses contenant le nom du chef d’État chinois Xi Jinping, sont également retenues Cette censure est contrôlée activement par une autorité chinoise, mais peut être déjouéeavec une question appropriéeou contournée par l’exploitationlocale du LLM

Une Ferrari en pièces détachées

DeepSeek a été beaucoup moins cher enformationque ChatGPT et des LLM comparables. Le facteur par lequel il serait effectivement plus avantageux est toutefoiscontroversé.

L’ancien collaborateur de Microsoft Plummer parle sur sa chaîne YouTube, comme d’autres sources, de moins de 6 millions de dollars qui auraient été investis dans DeepSeek. C’est une fraction des milliards investis dans les modèles de la concurrence.Mais l’IA peut rivaliser avec des fleurons comme ChatGPT.

De plus, les développeurs de l’IA n’auraient pas eu accès aux dernières puces Nvidia Toujours est-il que leur performance serait si intégrale pour le boom de l’IA queNvidia est devenu l’un des groupes les plus précieux. Et ce, alors que le produit phare pour lequel beaucoup connaissent Nvidia, à savoir les cartes graphiques pour le jeu, n’est plus qu’un lointain souvenir pour l’entreprise.

Selon Plummer,

DeepSeek est comme

Une Ferrari construite à partir de pièces détachées – tout aussi bonne, mais beaucoup moins chère.

Comme un maître et un apprenti

C’est possible grâce à un autre type d’entraînement. DeepSeek, tout comme le modèle sous-jacent de ChatGPT, est un modèle Large-Language.Mais il s’agit ici d’unmodèle distillé&nbsp ;(distilled model).

Cela signifie qu’un petit modèle est entraîné à l’aide de grands modèles de manière à obtenir des résultats aussi similaires que possible à ceux des grands modèles – mais avec beaucoup moins de ressources.

Il arrive ainsi que les modèles géants disposent toujours d’une plus grande base de connaissances,mais que le modèle plus petit soit presque aussi performant dans la plupart des applications.

Plummer compare ainsi dans sa vidéo:

C’est comme si un maître entraînait son apprenti – l’apprenti n’a pas besoin de tout savoir, mais il peut faire le travail aussi bien.

L’un de cesmaîtresétait le modèle open source Llama de Meta, mais aussi le ChatGPT d’OpenAI.
Cette distillation des connaissances rend DeepSeek nettement moins gourmand en ressources Il n’a plus besoin de l’immense matériel avec des centaines de GPU dans d’énormes centres de calcul comme les grands modèles.
Mais cela amène aussi Plummer à se poser la question suivante:

Si tu peux construire une Ferrari dans ton garage avec des pièces de Chevy, qu’est-ce que cela signifie pour la valeur d’une Ferrari?

Rappel de la révolution du PC

Pour la coûteuse Ferrari d’origine, cela ne signifie évidemment rien de bon dans un premier temps.

Mais pour les utilisateurs, c’est un avantage de pouvoir faire tourner le modèle localement sur leur matériel domestique Bien sûr, DeepSeek ne peut pas fonctionner localement sur n’importe quel petit ordinateur portable de travail. Plummer a besoin d’un AMD Threadripper avec un Nvidia RTX 6000 GPU (48 GB VRAM) pour le plus grand modèle DeepSeek Des variantes plus petites ont même fonctionné sur unMacBook Pro

Il estime que cette évolution lui rappelle l’époque de la révolution du PC.

Ça me rappelle les premiers jours des PC – ils n’étaient pas aussi bons que les mainframes, mais ils ont changé le monde.

A l’époque où l’on entendait encore par ordinateur des unités centrales (Mainframes) pour des applications professionnelles, personne ne pouvait imaginer qu’un jour tout le monde en aurait un chez soi à un prix abordable.

Un moment Spoutnik

A la différence de la révolution du PC, il faut aujourd’hui tenir compte des implications géopolitiques DeepSeek est un modèle chinois qui fait particulièrement concurrence aux groupes américains de la Silicon Valley.

Plummer appelle celale moment Sputnik Il s’agit d’une allusion au satellite soviétique Spoutnik, dont le lancement en 1957 a marqué le début de la course à l’espace (Space Race) etune nouvelle phase de la concurrence systémique entre l’Union soviétique et l’Occident pendant la guerre froide.

De la même manière, le développement de DeepSeek entraîne des tensions géopolitiques qui reflètent la concurrence entre les États-Unis en tant qu’hégémon technologique et la Chine en tant que puissance mondiale émergente.

Cette compétition technologique n’est pas seulement une lutte pour l’innovation, mais aussi un symbole de la rivalité systémique entre la démocratie capitaliste des États-Unis et le capitalisme d’État de la Chine.