DeepSeek: (Tão bom como um Ferrari, mas construído a partir de peças sobresselentes) – O especialista da Microsoft explica a base do seu imenso sucesso

0
2

O

DeepSeek está a ser aclamado como o melhor ChatGPT. Um ex-funcionário da Microsoft explica por que razão o novo chatbot de IA está a ter um sucesso estrondoso

Dave Plummer, ex-funcionário da Microsoft, fala sobre o chatbot chinês DeepSeek no seu canal do YouTube Dave’s Garage. Ele explica o que torna o DeepSeek tão especial em comparação com seus concorrentes, como o ChatGPT

Como outros LLMs, o DeepSeek também filtra suas respostas a tópicos problemáticos e se recusa a responder a uma pergunta sobre prescrição de medicamentos, por exemplo. O DeepSeek também está sujeito à censura do Estado chinês. Por exemplo, a IA evita declaraçõessobre o massacre de Tiananmen, a opressão dos uigures na região de Xinjiang ou a independência política de Taiwan.
As respostas que contêm o nome do chefe de Estado chinês, Xi Jinping, também são retidas Esta censura é ativamente controlada por uma autoridade chinesa, mas podeser enganadafazendo as perguntas certasou contornada pelaoperação local do LLM.

Uma Ferrari feita de peças sobresselentes

DeepSeek tem sido muito mais barato emformaçãodo que ChatGPT e LLMs comparáveis. No entanto, o fator pelo qual deveria ser realmente mais barato é contestado

O ex-funcionário da Microsoft, Plummer, fala no seu canal do YouTube, tal como outras fontesde menos de 6 milhões de dólares que se diz terem sido canalizados para o DeepSeek. Isso é uma fração dos milhares de milhões investidos nos modelos da concorrência.No entanto, a IA consegue acompanhar carros-chefe como o ChatGPT.

Além disso, diz-se que os criadores da IA não tiveram acesso aos mais recentes chips da Nvidia Afinal, diz-se que o seu desempenho é tão importante para o boom da IA que a Nvidia se tornou numa das empresas mais valiosas. E isto enquanto o principal produto pelo qual muitos conhecem a Nvidia, nomeadamente as placas gráficas para jogos, apenas se encontra entre os favoritos distantes da empresa

De acordo com Plummer,

DeepSeek é como

Como mestre e aprendiz

Isto é possível graças a um tipo de formação diferente. Tal como o modelo em que o ChatGPT se baseia, o DeepSeek é um modelo de linguagem grande.

Isto significa que um modelo mais pequeno é treinado com a ajuda de modelos grandes, de forma a obter resultados tão semelhantes quanto possível aos grandes – mas com muito menos recursos.
Isto significa que, embora os modelos grandes ainda tenham uma base de conhecimento maior, o modelo mais pequeno tem um desempenho quase tão bom na maioria das aplicações.

Plummer compara isto no seu vídeo:

É como se um mestre estivesse a treinar o seu aprendiz – o aprendiz não tem de saber tudo, mas pode fazer o trabalho igualmente bem.

Um destes mestresfoi o modelo de código aberto Llama da Meta, mas também o ChatGPT da OpenAI.

Esta destilação de conhecimento torna o DeepSeek significativamente mais eficiente em termos de recursos Também já não requer o imenso hardware com centenas de GPUs em enormes centros de dados como os grandes modelos para funcionar

No entanto, isto também leva Plummer a colocar a questão:

Se pode construir um Ferrari na sua garagem com peças de Chevy, o que é que isso significa para o valor de um Ferrari?

Memória da revolução do PC

Para o caro Ferrari original, é claro que isto não significa nada de bom à partida

A vantagem para os utilizadores, no entanto, é que elespodem também executar o modelo localmente no seu hardware doméstico Naturalmente, o DeepSeek não pode ser executado localmente em todos os pequenos notebooks de trabalho. O Plummer requer um AMD Threadripper com uma GPU Nvidia RTX 6000 (48 GB VRAM) para o maior modelo do DeepSeek As variantes mais pequenas até funcionaram numMacBook Pro

Ele lembra-se do tempo da revolução do PC com este desenvolvimento.

Faz-me lembrar os primeiros dias dos PCs – não eram tão bons como os mainframes, mas mudaram o mundo.

Quando os computadores ainda eram entendidos como mainframes (Mainframes) para aplicações empresariais, ninguém poderia imaginar que um dia toda a gente teria algo assim em casa a preços acessíveis.

Um momento Sputnik

No entanto, ao contrário da revolução do PC, há implicações geopolíticas a considerar atualmente A DeepSeek é um modelo chinês que está a competir com as empresas americanas do Vale do Silício, em particular

Plummer refere-se a isto como oMomento Sputnik Esta é uma alusão ao satélite soviético Sputnik, cujo lançamento em 1957 marcou o início da corrida espacial (Space Race) euma nova fase de competição sistémica entre a União Soviética e o Ocidente na Guerra Fria.

Da mesma forma, o desenvolvimento do DeepSeek está a conduzir a tensões geopolíticas que reflectem a competição entre os EUA como hegemon tecnológico e a China como potência mundial emergente.

Esta competição tecnológica não é apenas uma batalha pela inovação, mas também um símbolo da rivalidade sistémica entre a democracia capitalista dos EUA e o capitalismo de Estado da China.