DeepSeek: (Добър като Ferrari, но създаден от резервни части) – експерт от Microsoft обяснява основите на огромния му успех

0
2

DeepSeek е обявен за по-добрия ChatGPT. Бивш служител на Microsoft обяснява защо новият чатбот с изкуствен интелект удря като бомба

A Sputnik moment– Бившият служител на Microsoft Дейв Плъмър разказва за китайския чатбот с изкуствен интелект DeepSeek в своя канал в YouTube Dave’s Garage. Той обяснява какво прави DeepSeek толкова специален в сравнение с конкурентите му като ChatGPT

Подобно на другите LLM, DeepSeek също филтрира отговорите си на проблемни теми и отказва да отговори на въпрос за рецепта за лекарства, например. DeepSeek също така е обект на цензура от страна на китайската държава. Например,ИИ избягва изявленияотносно клането на Тянанмън, потисничеството на уйгурите в региона Синдзян или политическата независимост на Тайван.

Отговорите, съдържащи името на китайския държавен глава Си Дзинпин, също не се приемат Тази цензура се проверява активно от китайски орган, но може да бъде заблуденачрез задаване на правилните въпросиили заобиколена чрезлокалната работа на LLM.

Ферари, направено от резервни части

DeepSeek е много по-евтин вобучениетоот ChatGPT и сравними LLM. Факторът, с който то всъщност би трябвало да е по-евтино, обаче е спорен

Бившият служител на Microsoft Плъмър говори в своя канал в YouTube, както и други източнициза по-малко от 6 милиона долара, които се твърди, че са се влели в DeepSeek. Това е малка част от милиардите, инвестирани в моделите на конкуренцията.Въпреки това изкуственият интелект може да се справи с флагмани като ChatGPT.

Освен това се твърди, че разработчиците на ИИ не са имали достъп до най-новите чипове на Nvidia В крайна сметка се твърди, че тяхната производителност е толкова неразделна част от бума на ИИ, чеNvidia се издигна до една от най-ценните корпорации. И това, докато основният продукт, с който мнозина познават Nvidia, а именно графичните карти за игри, се нарежда само сред далечните фаворити на компанията

Според Плъмър,

DeepSeek е като

Ферари, създадено от резервни части – също толкова добро, но много по-евтино.

Като майстор и чирак

Това е възможно благодарение на различен вид обучение. Подобно на модела, на който се базира ChatGPT, DeepSeek е модел за голям брой езици.Това обаче едистилиран модел(дистилиран модел).

Това означава, че по-малък модел се обучава с помощта на големи модели по такъв начин, че да дава резултати, възможно най-близки до тези на големите модели – но с много по-малко ресурси.

Това означава, че въпреки че огромните модели все още имат по-голяма база от знания,малкият модел се представя почти толкова добре в повечето приложения.

Плъмър сравнява това в своето видео:

Това е все едно майстор да обучава своя чирак – не е задължително чиракът да знае всичко, но той може да върши работата също толкова добре.

Един от тезимайсторибеше моделът с отворен код Llama от Meta, но също и ChatGPT на OpenAI.

Това дестилиране на знания прави DeepSeek значително по-ефективен по отношение на ресурсите Освен това вече не изисква огромен хардуер със стотици графични процесори в огромни центрове за данни, както големите модели, за да работи

Това обаче води Плъмър и до въпроса:

Ако можете да построите Ферари в гаража си от части за Шевролет, какво означава това за стойността на Ферари?

Паметта за революцията при персоналните компютри

За скъпото оригинално Ferrari, разбира се, това на пръв поглед не означава нищо добро

За потребителите обаче е предимство, че могат да стартират модела и локално на домашния си хардуер Разбира се, DeepSeek не може да се стартира локално на всеки малък работен преносим компютър. Plummer изисква AMD Threadripper с графичен процесор Nvidia RTX 6000 (48 GB VRAM) за най-големия модел DeepSeek По-малките варианти работят дори наMacBook Pro

Тази разработка му напомня за времето на компютърната революция.

Припомня ми ранните дни на персоналните компютри – те не бяха толкова добри, колкото мейнфреймовете, но промениха света.

Когато компютрите все още се смятаха за мейнфреймове (Mainframes) за бизнес приложения, никой не можеше да си представи, че един ден всеки ще има такъв у дома на достъпна цена.

Момент на Спутник

За разлика от революцията при персоналните компютри обаче днес трябва да се вземат предвид и геополитическите последици DeepSeek е китайски модел, който се конкурира по-специално с американските компании от Силициевата долина

Plummer нарича това моментът на „Спутник “ Това е алюзия за съветския спътник „Спутник“, чието изстрелване през 1957 г. бележи началото на космическата надпревара (Space Race) инова фаза на системна конкуренция между Съветския съюз и Запада в Студената война.

По същия начин разработването на DeepSeek води до геополитическо напрежение, което отразява конкуренцията между САЩ като технологичен хегемон и Китай като нововъзникваща световна сила.

Тази технологична конкуренция е не само битка за иновации, но и символ на системното съперничество между капиталистическата демокрация на САЩ и държавния капитализъм на Китай.