DeepSeek è stato acclamato come il ChatGPT migliore. Un ex dipendente Microsoft spiega perché il nuovo chatbot AI sta colpendo come una bomba
Un momento Sputnik
– L’ex dipendente Microsoft Dave Plummer parla del chatbot cinese di intelligenza artificiale DeepSeek sul suo canale YouTube Dave’s Garage. Spiega cosa rende DeepSeek così speciale rispetto ai suoi concorrenti come ChatGPT
Una Ferrari fatta di pezzi di ricambio
DeepSeek è stato molto più economico informazionerispetto a ChatGPT e a LLM comparabili. Tuttavia, il fattore per cui dovrebbe essere effettivamente più economico è controverso
L’ex dipendente Microsoft Plummer parla sul suo canale YouTube, come altre fonti, di meno di 6 milioni di dollari che sarebbero confluiti in DeepSeek. Si tratta di una frazione dei miliardi investiti nei modelli della concorrenza.Nonostante ciò, l’AI è in grado di tenere il passo di ammiraglie come ChatGPT.
Inoltre, si dice che gli sviluppatori dell’IA non abbiano avuto accesso agli ultimi chip Nvidia Dopotutto, si dice che le loro prestazioni siano così fondamentali per il boom dell’IA cheNvidia è diventata una delle aziende di maggior valore. E questo mentre il prodotto principale per cui molti conoscono Nvidia, ovvero le schede grafiche per i giochi, è solo tra i preferiti dell’azienda
Secondo Plummer,
DeepSeek è come
una Ferrari costruita con pezzi di ricambio: altrettanto buona, ma molto più economica.
Come il maestro e l’apprendista
Questo è possibile grazie a un diverso tipo di formazione. Come il modello su cui si basa ChatGPT, DeepSeek è un modello a grandi lingue. Tuttavia, si tratta di unmodello distillato
(modello distillato
).
Questo significa che un modello più piccolo viene addestrato con l’aiuto di modelli grandi in modo da fornire risultati il più possibile simili a quelli grandi, ma con molte meno risorse.
Questo significa che, sebbene i modelli grandi abbiano comunque una base di conoscenza più ampia,il modello più piccolo ha prestazioni quasi uguali nella maggior parte delle applicazioni.
Plummer fa un confronto nel suo video:
È come se un maestro stesse addestrando il suo apprendista – l’apprendista non deve sapere tutto, ma può fare il lavoro altrettanto bene.
Uno di questimaestri
è stato il modello open source Llama di Meta, ma anche ChatGPT di OpenAI.
Questa distillazione della conoscenza rende DeepSeek molto più efficiente in termini di risorse Inoltre, non richiede più l’immenso hardware con centinaia di GPU in enormi data center come i grandi modelli per funzionare
Tuttavia, questo porta Plummer a chiedersi:
Se si può costruire una Ferrari nel proprio garage con pezzi di ricambio della Chevy, cosa significa questo per il valore di una Ferrari?
Memoria della rivoluzione dei PC
Per la costosa Ferrari originale, ovviamente, questo non significa nulla di buono all’inizio
Il vantaggio per gli utenti, tuttavia, è chepossono eseguire il modello anche localmente sull’hardware di casa Naturalmente, DeepSeek non può essere eseguito localmente su ogni piccolo notebook da lavoro. Plummer richiede un AMD Threadripper con una GPU Nvidia RTX 6000 (48 GB di VRAM) per il modello DeepSeek più grande Le varianti più piccole hanno funzionato anche su unMacBook Pro
Questo sviluppo gli ricorda l’epoca della rivoluzione dei PC.
Mi ricorda i primi tempi dei PC: non erano buoni come i mainframe, ma hanno cambiato il mondo.
Quando i computer erano ancora intesi come mainframe (Mainframes
) per le applicazioni aziendali, nessuno poteva immaginare che un giorno tutti ne avrebbero avuto uno a casa a un prezzo accessibile.
Un momento Sputnik
Tuttavia, a differenza della rivoluzione dei PC, oggi bisogna considerare anche le implicazioni geopolitiche DeepSeek è un modello cinese che compete con le aziende statunitensi della Silicon Valley, in particolare
Plummer si riferisce a questo momento come alSputnik
Si tratta di un’allusione al satellite sovietico Sputnik, il cui lancio nel 1957 segnò l’inizio della corsa allo spazio (Space Race
) euna nuova fase della competizione sistemica tra l’Unione Sovietica e l’Occidente nella Guerra Fredda.
Similmente, lo sviluppo di DeepSeek sta portando a tensioni geopolitiche che riflettono la competizione tra gli USA come egemone tecnologico e la Cina come potenza mondiale emergente.
Questa competizione tecnologica non è solo una battaglia per l’innovazione, ma anche un simbolo della rivalità sistemica tra la democrazia capitalista degli Stati Uniti e il capitalismo di Stato della Cina.