DeepSeek: (Хорош как Ferrari, но собран из запчастей) — эксперт Microsoft объясняет, в чем основа его огромного успеха

0
2

DeepSeek называют лучшим ChatGPT. Бывший сотрудник Microsoft объясняет, почему новый чатбот с искусственным интеллектом бьет как бомба

Момент Спутника— Бывший сотрудник Microsoft Дэйв Пламмер рассказывает о китайском чатботе DeepSeek с искусственным интеллектом на своем YouTube-канале Dave’s Garage. Он объясняет, что делает DeepSeek таким особенным по сравнению с его конкурентами, такими как ChatGPT

Как и другие LLM, DeepSeek также фильтрует свои ответы на проблемные темы и отказывается отвечать на вопрос о рецепте на лекарство, например. DeepSeek также подвержен китайской государственной цензуре. Например, ИИ избегает высказыванийо бойне на Тяньаньмэнь, притеснении уйгуров в регионе Синьцзян или политической независимости Тайваня.

Ответы, содержащие имя главы китайского государства Си Цзиньпина, также не принимаются Эта цензура активно контролируется китайскими властями, но ее можнообманутьзадавая правильные вопросыили обойти с помощьюлокальной работы LLM.

Феррари из запчастей

DeepSeek оказался намного дешевле вобучениичем ChatGPT и сопоставимые LLM. Однако коэффициент, на который он должен быть дешевле, оспаривается

Бывший сотрудник Microsoft Пламмер на своем YouTube-канале, как и другие источники, говорито менее чем 6 миллионах долларов, которые, как утверждается, поступили в DeepSeek. Это лишь малая часть миллиардов, вложенных в модели конкурентов.Несмотря на это, ИИ может идти в ногу с такими флагманами, как ChatGPT.

Кроме того, разработчики ИИ, как утверждается, не имели доступа к новейшим чипам Nvidia Ведь их производительность, как утверждается, настолько важна для бума ИИ, чтоNvidia стала одной из самых ценных корпораций. И это при том, что основной продукт, по которому многие знают Nvidia, а именно игровые видеокарты, находится лишь в числе отдаленных фаворитов компании

По словам Пламмера,

DeepSeek — это как

Ferrari, собранный из запчастей — такой же хороший, но гораздо дешевле.

Как мастер и подмастерье

Это стало возможным благодаря другому типу обучения. Как и модель, на которой основан ChatGPT, DeepSeek — это крупноязычная модель.Но этодистиллированная модель(дистиллированная модель).

Это означает, что меньшая модель обучается с помощью больших моделей таким образом, чтобы она давала результаты, максимально похожие на большие модели, но с гораздо меньшими ресурсами.

Это означает, что, хотя огромные модели все еще имеют большую базу знаний, меньшая модель работает почти так же хорошо в большинстве приложений.

Пламмер сравнивает это в своем видео:

Это как если бы мастер обучал своего ученика — ученик не обязан знать все, но он может делать работу так же хорошо.

Одним из такихмастеровбыла модель с открытым исходным кодом Llama от Meta, а также ChatGPT от OpenAI.

Эта дистилляция знаний делает DeepSeek значительно более ресурсоэффективным Кроме того, для его работы больше не требуется огромное оборудование с сотнями графических процессоров в огромных центрах обработки данных, как для работы больших моделей

Однако это также приводит Пламмера к вопросу:

Если вы можете собрать Ferrari в своем гараже из деталей Chevy, что это значит для стоимости Ferrari?

Память о революции в ПК

Для дорогого оригинального Ferrari это, конечно, поначалу не означает ничего хорошего

Однако преимущество для пользователей заключается в том, что онимогут запустить модель локально на своем домашнем оборудовании Конечно, DeepSeek не может работать локально на каждом небольшом рабочем ноутбуке. Для самой большой модели DeepSeek требуется AMD Threadripper с графическим процессором Nvidia RTX 6000 (48 ГБ VRAM) Меньшие варианты работали даже наMacBook Pro

Эта разработка напоминает ему о временах революции персональных компьютеров.

Это напоминает мне ранние дни ПК — они были не так хороши, как мейнфреймы, но они изменили мир.

Когда компьютеры еще воспринимались как мэйнфреймы (Mainframes) для бизнес-приложений, никто и представить себе не мог, что однажды у каждого будет дома нечто подобное по доступным ценам.

Момент Спутника

Но, в отличие от революции персональных компьютеров, сегодня необходимо учитывать геополитические последствия DeepSeek — это китайская модель, которая конкурирует, в частности, с американскими компаниями из Кремниевой долины

Пламмер называет этоSputnik moment Это аллюзия на советский спутник Sputnik, запуск которого в 1957 году ознаменовал начало космической гонки (Space Race) иновый этап системного соперничества между Советским Союзом и Западом в холодной войне.

Подобным образом, разработка DeepSeek приводит к геополитической напряженности, которая отражает конкуренцию между США как технологическим гегемоном и Китаем как развивающейся мировой державой.

Это технологическое соревнование — не только битва за инновации, но и символ системного соперничества между капиталистической демократией США и государственным капитализмом Китая.