DeepSeek: (Tak dobry jak Ferrari, ale zbudowany z części zamiennych) – ekspert Microsoftu wyjaśnia podstawy jego ogromnego sukcesu

0
2

DeepSeek został okrzyknięty lepszym ChatGPT. Były pracownik Microsoftu wyjaśnia, dlaczego nowy chatbot AI uderza jak bomba

A Sputnik moment– Były pracownik Microsoftu Dave Plummer opowiada o chińskim chatbocie AI DeepSeek na swoim kanale YouTube Dave’s Garage. Wyjaśnia, co sprawia, że DeepSeek jest tak wyjątkowy w porównaniu do swoich konkurentów, takich jak ChatGPT

Podobnie jak inne platformy LLM, DeepSeek również filtruje swoje odpowiedzi na problematyczne tematy i odmawia na przykład odpowiedzi na pytanie o receptę na leki. DeepSeek podlega również chińskiej cenzurze państwowej. Dla przykładu, AI unika wypowiedzina temat masakry na Tiananmen, ucisku Ujgurów w regionie Xinjiang czy politycznej niepodległości Tajwanu.

Odpowiedzi zawierające imię chińskiej głowy państwa Xi Jinpinga są również wstrzymywane Ta cenzura jest aktywnie kontrolowana przez chińskie władze, ale może zostać oszukana&nbsppoprzez zadawanie właściwych pytań&nbsplub ominięta przezlokalne działanie LLM

A Ferrari zrobione z części zamiennych

DeepSeek był znacznie tańszy wszkoleniuniż ChatGPT i&nbspporównywalne LLM. Jednak czynnik, o który powinien być tańszy, jest kwestionowany

Były pracownik Microsoftu Plummer mówi na swoim kanale YouTube, podobnie jak inne źródła, o mniej niż 6 milionach dolarów, które rzekomo wpłynęły do DeepSeek. To ułamek miliardów zainwestowanych w modele konkurencji.Niemniej jednak SI może nadążyć za flagowcami takimi jak ChatGPT.

Ponadto, twórcy AI podobno nie mieli dostępu do najnowszych chipów Nvidii W końcu ich wydajność jest tak integralną częścią boomu AI, że Nvidia stała się jedną z najbardziej wartościowych korporacji. I to podczas gdy podstawowy produkt, z którego wielu zna Nvidię, a mianowicie karty graficzne do gier, plasuje się tylko wśród odległych faworytów firmy

Według Plummera,

DeepSeek jest jak

Ferrari zbudowane z części zamiennych – tak samo dobre, ale znacznie tańsze.

Jak mistrz i uczeń

Jest to możliwe dzięki innemu rodzajowi szkolenia. Podobnie jak model, na którym opiera się ChatGPT, DeepSeek jest modelem wielojęzycznym.Jednak jest todistilled model(distilled model).

Oznacza to, że mniejszy model jest trenowany z pomocą dużych modeli w taki sposób, aby dostarczał wyniki jak najbardziej podobne do tych dużych – ale przy znacznie mniejszych zasobach.

Oznacza to, że chociaż duże modele nadal mają większą bazę wiedzy, to mniejszy model radzi sobie prawie tak samo dobrze w większości zastosowań.

Plummer porównuje to w swoim wideo:

To tak, jakby mistrz szkolił swojego ucznia – uczeń nie musi wiedzieć wszystkiego, ale może wykonywać swoją pracę równie dobrze.

Jednym z takichmistrzówbył open source’owy model Llama od Mety, ale także ChatGPT od OpenAI.

Ta destylacja wiedzy sprawia, że DeepSeek jest znacznie bardziej zasobooszczędny Nie wymaga już również ogromnego sprzętu z setkami GPU w ogromnych centrach danych, takich jak duże modele do działania

Prowadzi to jednak Plummera do pytania:

Jeśli możesz zbudować Ferrari w swoim garażu z części Chevy, co to oznacza dla wartości Ferrari?

Pamięć rewolucji PC

Dla drogiego oryginalnego Ferrari oczywiście nie oznacza to nic dobrego

Korzyścią dla użytkowników jest jednak to, żemogą również uruchomić model lokalnie na swoim domowym sprzęcie Oczywiście DeepSeek nie może działać lokalnie na każdym małym notebooku roboczym. Plummer wymaga AMD Threadripper z GPU Nvidia RTX 6000 (48 GB VRAM) dla największego modelu DeepSeek Mniejsze warianty działały nawet naMacBooku Pro

Rozwój ten przypomina mu czasy rewolucji PC.

Przypomina mi to wczesne dni komputerów PC – nie były tak dobre jak mainframe’y, ale zmieniły świat.

Kiedy komputery były jeszcze rozumiane jako mainframe’y (Mainframe) do zastosowań biznesowych, nikt nie mógł sobie wyobrazić, że pewnego dnia każdy będzie miał coś takiego w domu w przystępnej cenie.

Chwila Sputnika

Jednakże, w przeciwieństwie do rewolucji PC, istnieją implikacje geopolityczne, które należy wziąć pod uwagę dzisiaj DeepSeek to chiński model, który konkuruje w szczególności z amerykańskimi firmami z Doliny Krzemowej

Plummer określa to jakoSputnik moment Jest to aluzja do radzieckiego satelity Sputnik, którego wystrzelenie w 1957 r. zapoczątkowało wyścig kosmiczny (Space Race) inową fazę systemowej rywalizacji między Związkiem Radzieckim a Zachodem w&nbspzimnej wojnie.

Podobnie, rozwój DeepSeek prowadzi do napięć geopolitycznych, które odzwierciedlają rywalizację między USA jako technologicznym hegemonem a Chinami jako wschodzącą światową potęgą.

Ta technologiczna rywalizacja to nie tylko walka o innowacje, ale także symbol systemowej rywalizacji między kapitalistyczną demokracją USA a państwowym kapitalizmem Chin.