DeepSeek está a ser aclamado como o melhor ChatGPT. Um ex-funcionário da Microsoft explica por que razão o novo chatbot de IA está a ter um sucesso estrondoso
Dave Plummer, ex-funcionário da Microsoft, fala sobre o chatbot chinês DeepSeek no seu canal do YouTube Dave’s Garage. Ele explica o que torna o DeepSeek tão especial em comparação com seus concorrentes, como o ChatGPTUma Ferrari feita de peças sobresselentes
DeepSeek tem sido muito mais barato emformaçãodo que ChatGPT e LLMs comparáveis. No entanto, o fator pelo qual deveria ser realmente mais barato é contestado
O ex-funcionário da Microsoft, Plummer, fala no seu canal do YouTube, tal como outras fontesde menos de 6 milhões de dólares que se diz terem sido canalizados para o DeepSeek. Isso é uma fração dos milhares de milhões investidos nos modelos da concorrência.No entanto, a IA consegue acompanhar carros-chefe como o ChatGPT.
Além disso, diz-se que os criadores da IA não tiveram acesso aos mais recentes chips da Nvidia Afinal, diz-se que o seu desempenho é tão importante para o boom da IA que a Nvidia se tornou numa das empresas mais valiosas. E isto enquanto o principal produto pelo qual muitos conhecem a Nvidia, nomeadamente as placas gráficas para jogos, apenas se encontra entre os favoritos distantes da empresa
De acordo com Plummer,
DeepSeek é como
Como mestre e aprendiz
Isto é possível graças a um tipo de formação diferente. Tal como o modelo em que o ChatGPT se baseia, o DeepSeek é um modelo de linguagem grande.
Isto significa que um modelo mais pequeno é treinado com a ajuda de modelos grandes, de forma a obter resultados tão semelhantes quanto possível aos grandes – mas com muito menos recursos.
Isto significa que, embora os modelos grandes ainda tenham uma base de conhecimento maior, o modelo mais pequeno tem um desempenho quase tão bom na maioria das aplicações.
Plummer compara isto no seu vídeo:
É como se um mestre estivesse a treinar o seu aprendiz – o aprendiz não tem de saber tudo, mas pode fazer o trabalho igualmente bem.
Um destes mestres
foi o modelo de código aberto Llama da Meta, mas também o ChatGPT da OpenAI.
Esta destilação de conhecimento torna o DeepSeek significativamente mais eficiente em termos de recursos Também já não requer o imenso hardware com centenas de GPUs em enormes centros de dados como os grandes modelos para funcionar
No entanto, isto também leva Plummer a colocar a questão:
Se pode construir um Ferrari na sua garagem com peças de Chevy, o que é que isso significa para o valor de um Ferrari?
Memória da revolução do PC
Para o caro Ferrari original, é claro que isto não significa nada de bom à partida
A vantagem para os utilizadores, no entanto, é que elespodem também executar o modelo localmente no seu hardware doméstico Naturalmente, o DeepSeek não pode ser executado localmente em todos os pequenos notebooks de trabalho. O Plummer requer um AMD Threadripper com uma GPU Nvidia RTX 6000 (48 GB VRAM) para o maior modelo do DeepSeek As variantes mais pequenas até funcionaram numMacBook Pro
Ele lembra-se do tempo da revolução do PC com este desenvolvimento.
Faz-me lembrar os primeiros dias dos PCs – não eram tão bons como os mainframes, mas mudaram o mundo.
Quando os computadores ainda eram entendidos como mainframes (Mainframes
) para aplicações empresariais, ninguém poderia imaginar que um dia toda a gente teria algo assim em casa a preços acessíveis.
Um momento Sputnik
No entanto, ao contrário da revolução do PC, há implicações geopolíticas a considerar atualmente A DeepSeek é um modelo chinês que está a competir com as empresas americanas do Vale do Silício, em particular
Plummer refere-se a isto como oMomento Sputnik
Esta é uma alusão ao satélite soviético Sputnik, cujo lançamento em 1957 marcou o início da corrida espacial (Space Race
) euma nova fase de competição sistémica entre a União Soviética e o Ocidente na Guerra Fria.
Da mesma forma, o desenvolvimento do DeepSeek está a conduzir a tensões geopolíticas que reflectem a competição entre os EUA como hegemon tecnológico e a China como potência mundial emergente.
Esta competição tecnológica não é apenas uma batalha pela inovação, mas também um símbolo da rivalidade sistémica entre a democracia capitalista dos EUA e o capitalismo de Estado da China.