DeepSeek: (Buono come una Ferrari, ma costruito con pezzi di ricambio) – L’esperto Microsoft spiega le basi del suo immenso successo

0
2

DeepSeek è stato acclamato come il ChatGPT migliore. Un ex dipendente Microsoft spiega perché il nuovo chatbot AI sta colpendo come una bomba

Un momento Sputnik– L’ex dipendente Microsoft Dave Plummer parla del chatbot cinese di intelligenza artificiale DeepSeek sul suo canale YouTube Dave’s Garage. Spiega cosa rende DeepSeek così speciale rispetto ai suoi concorrenti come ChatGPT

Come altri LLM, anche DeepSeek filtra le sue risposte ad argomenti problematici e si rifiuta di rispondere a una domanda sulla prescrizione di un farmaco, ad esempio. DeepSeek è anche soggetto alla censura dello Stato cinese. Per esempio, l’AI evita dichiarazionisul massacro di Tiananmen, sull’oppressione degli uiguri nella regione dello Xinjiang o sull’indipendenza politica di Taiwan.

Anche le risposte che contengono il nome del capo di Stato cinese Xi Jinping sono state rifiutate Questa censura è attivamente controllata da un’autorità cinese, ma puòessere ingannataponendo le domande giusteo aggirata daloperazione locale del LLM

Una Ferrari fatta di pezzi di ricambio

DeepSeek è stato molto più economico informazionerispetto a ChatGPT e a LLM comparabili. Tuttavia, il fattore per cui dovrebbe essere effettivamente più economico è controverso

L’ex dipendente Microsoft Plummer parla sul suo canale YouTube, come altre fonti, di meno di 6 milioni di dollari che sarebbero confluiti in DeepSeek. Si tratta di una frazione dei miliardi investiti nei modelli della concorrenza.Nonostante ciò, l’AI è in grado di tenere il passo di ammiraglie come ChatGPT.

Inoltre, si dice che gli sviluppatori dell’IA non abbiano avuto accesso agli ultimi chip Nvidia Dopotutto, si dice che le loro prestazioni siano così fondamentali per il boom dell’IA cheNvidia è diventata una delle aziende di maggior valore. E questo mentre il prodotto principale per cui molti conoscono Nvidia, ovvero le schede grafiche per i giochi, è solo tra i preferiti dell’azienda

Secondo Plummer,

DeepSeek è come

una Ferrari costruita con pezzi di ricambio: altrettanto buona, ma molto più economica.

Come il maestro e l’apprendista

Questo è possibile grazie a un diverso tipo di formazione. Come il modello su cui si basa ChatGPT, DeepSeek è un modello a grandi lingue. Tuttavia, si tratta di unmodello distillato(modello distillato).

Questo significa che un modello più piccolo viene addestrato con l’aiuto di modelli grandi in modo da fornire risultati il più possibile simili a quelli grandi, ma con molte meno risorse.

Questo significa che, sebbene i modelli grandi abbiano comunque una base di conoscenza più ampia,il modello più piccolo ha prestazioni quasi uguali nella maggior parte delle applicazioni.

Plummer fa un confronto nel suo video:

È come se un maestro stesse addestrando il suo apprendista – l’apprendista non deve sapere tutto, ma può fare il lavoro altrettanto bene.

Uno di questimaestriè stato il modello open source Llama di Meta, ma anche ChatGPT di OpenAI.

Questa distillazione della conoscenza rende DeepSeek molto più efficiente in termini di risorse Inoltre, non richiede più l’immenso hardware con centinaia di GPU in enormi data center come i grandi modelli per funzionare

Tuttavia, questo porta Plummer a chiedersi:

Se si può costruire una Ferrari nel proprio garage con pezzi di ricambio della Chevy, cosa significa questo per il valore di una Ferrari?

Memoria della rivoluzione dei PC

Per la costosa Ferrari originale, ovviamente, questo non significa nulla di buono all’inizio

Il vantaggio per gli utenti, tuttavia, è chepossono eseguire il modello anche localmente sull’hardware di casa Naturalmente, DeepSeek non può essere eseguito localmente su ogni piccolo notebook da lavoro. Plummer richiede un AMD Threadripper con una GPU Nvidia RTX 6000 (48 GB di VRAM) per il modello DeepSeek più grande Le varianti più piccole hanno funzionato anche su unMacBook Pro

Questo sviluppo gli ricorda l’epoca della rivoluzione dei PC.

Mi ricorda i primi tempi dei PC: non erano buoni come i mainframe, ma hanno cambiato il mondo.

Quando i computer erano ancora intesi come mainframe (Mainframes) per le applicazioni aziendali, nessuno poteva immaginare che un giorno tutti ne avrebbero avuto uno a casa a un prezzo accessibile.

Un momento Sputnik

Tuttavia, a differenza della rivoluzione dei PC, oggi bisogna considerare anche le implicazioni geopolitiche DeepSeek è un modello cinese che compete con le aziende statunitensi della Silicon Valley, in particolare

Plummer si riferisce a questo momento come alSputnik Si tratta di un’allusione al satellite sovietico Sputnik, il cui lancio nel 1957 segnò l’inizio della corsa allo spazio (Space Race) euna nuova fase della competizione sistemica tra l’Unione Sovietica e l’Occidente nella Guerra Fredda.

Similmente, lo sviluppo di DeepSeek sta portando a tensioni geopolitiche che riflettono la competizione tra gli USA come egemone tecnologico e la Cina come potenza mondiale emergente.

Questa competizione tecnologica non è solo una battaglia per l’innovazione, ma anche un simbolo della rivalità sistemica tra la democrazia capitalista degli Stati Uniti e il capitalismo di Stato della Cina.