DeepSeek został okrzyknięty lepszym ChatGPT. Były pracownik Microsoftu wyjaśnia, dlaczego nowy chatbot AI uderza jak bomba
A Sputnik moment
– Były pracownik Microsoftu Dave Plummer opowiada o chińskim chatbocie AI DeepSeek na swoim kanale YouTube Dave’s Garage. Wyjaśnia, co sprawia, że DeepSeek jest tak wyjątkowy w porównaniu do swoich konkurentów, takich jak ChatGPT
A Ferrari zrobione z części zamiennych
DeepSeek był znacznie tańszy wszkoleniuniż ChatGPT i porównywalne LLM. Jednak czynnik, o który powinien być tańszy, jest kwestionowany
Były pracownik Microsoftu Plummer mówi na swoim kanale YouTube, podobnie jak inne źródła, o mniej niż 6 milionach dolarów, które rzekomo wpłynęły do DeepSeek. To ułamek miliardów zainwestowanych w modele konkurencji.Niemniej jednak SI może nadążyć za flagowcami takimi jak ChatGPT.
Ponadto, twórcy AI podobno nie mieli dostępu do najnowszych chipów Nvidii W końcu ich wydajność jest tak integralną częścią boomu AI, że Nvidia stała się jedną z najbardziej wartościowych korporacji. I to podczas gdy podstawowy produkt, z którego wielu zna Nvidię, a mianowicie karty graficzne do gier, plasuje się tylko wśród odległych faworytów firmy
Według Plummera,
DeepSeek jest jak
Ferrari zbudowane z części zamiennych – tak samo dobre, ale znacznie tańsze.
Jak mistrz i uczeń
Jest to możliwe dzięki innemu rodzajowi szkolenia. Podobnie jak model, na którym opiera się ChatGPT, DeepSeek jest modelem wielojęzycznym.Jednak jest todistilled model
(distilled model
).
Oznacza to, że mniejszy model jest trenowany z pomocą dużych modeli w taki sposób, aby dostarczał wyniki jak najbardziej podobne do tych dużych – ale przy znacznie mniejszych zasobach.
Oznacza to, że chociaż duże modele nadal mają większą bazę wiedzy, to mniejszy model radzi sobie prawie tak samo dobrze w większości zastosowań.
Plummer porównuje to w swoim wideo:
To tak, jakby mistrz szkolił swojego ucznia – uczeń nie musi wiedzieć wszystkiego, ale może wykonywać swoją pracę równie dobrze.
Jednym z takichmistrzów
był open source’owy model Llama od Mety, ale także ChatGPT od OpenAI.
Ta destylacja wiedzy sprawia, że DeepSeek jest znacznie bardziej zasobooszczędny Nie wymaga już również ogromnego sprzętu z setkami GPU w ogromnych centrach danych, takich jak duże modele do działania
Prowadzi to jednak Plummera do pytania:
Jeśli możesz zbudować Ferrari w swoim garażu z części Chevy, co to oznacza dla wartości Ferrari?
Pamięć rewolucji PC
Dla drogiego oryginalnego Ferrari oczywiście nie oznacza to nic dobrego
Korzyścią dla użytkowników jest jednak to, żemogą również uruchomić model lokalnie na swoim domowym sprzęcie Oczywiście DeepSeek nie może działać lokalnie na każdym małym notebooku roboczym. Plummer wymaga AMD Threadripper z GPU Nvidia RTX 6000 (48 GB VRAM) dla największego modelu DeepSeek Mniejsze warianty działały nawet naMacBooku Pro
Rozwój ten przypomina mu czasy rewolucji PC.
Przypomina mi to wczesne dni komputerów PC – nie były tak dobre jak mainframe’y, ale zmieniły świat.
Kiedy komputery były jeszcze rozumiane jako mainframe’y (Mainframe
) do zastosowań biznesowych, nikt nie mógł sobie wyobrazić, że pewnego dnia każdy będzie miał coś takiego w domu w przystępnej cenie.
Chwila Sputnika
Jednakże, w przeciwieństwie do rewolucji PC, istnieją implikacje geopolityczne, które należy wziąć pod uwagę dzisiaj DeepSeek to chiński model, który konkuruje w szczególności z amerykańskimi firmami z Doliny Krzemowej
Plummer określa to jakoSputnik moment
Jest to aluzja do radzieckiego satelity Sputnik, którego wystrzelenie w 1957 r. zapoczątkowało wyścig kosmiczny (Space Race
) inową fazę systemowej rywalizacji między Związkiem Radzieckim a Zachodem w zimnej wojnie.
Podobnie, rozwój DeepSeek prowadzi do napięć geopolitycznych, które odzwierciedlają rywalizację między USA jako technologicznym hegemonem a Chinami jako wschodzącą światową potęgą.
Ta technologiczna rywalizacja to nie tylko walka o innowacje, ale także symbol systemowej rywalizacji między kapitalistyczną demokracją USA a państwowym kapitalizmem Chin.