DeepSeek被誉为ChatGPT的升级版。一位前微软员工解释了这款新的AI聊天机器人为何如此火爆。
人造卫星时刻
——前微软员工戴夫·普卢默(Dave Plummer)在他的YouTube频道Dave’s Garage上谈论了中国人工智能聊天机器人DeepSeek。他解释了DeepSeek与竞争对手ChatGPT相比的独特之处。
与其他语言模型一样,DeepSeek会过滤对敏感话题的回答,拒绝回答有关药物处方的问题。此外,DeepSeek在中国还受到国家审查。例如,人工智能会避免涉及天安门大屠杀、新疆地区维吾尔族受压迫或台湾政治独立等话题。
答案中包含中国国家主席习近平的名字,也会被屏蔽。中国当局积极监控这一审查制度,但通过正确提问或本地操作LLM可以规避审查。
用备件组装的法拉利
DeepSeek 的培训成本比 ChatGPT 和同类 LLM 低得多。然而,实际成本因素存在争议。
前微软员工普卢默(Plummer)在他的YouTube频道上与其他消息来源一样,提到DeepSeek的投资额不到600万美元。这仅是竞争对手模型投资数十亿美元的一小部分。尽管如此,这款人工智能仍可与ChatGPT等旗舰产品相媲美。
此外,据说人工智能的开发人员无法使用最新的Nvidia芯片。毕竟,据说他们的性能对于人工智能的繁荣至关重要,以至于Nvidia已成为最有价值的公司之一。而众所周知,Nvidia的核心产品——游戏显卡——在公司中仅占次要地位。
DeepSeek就像一辆用备件组装的法拉利——性能一样好,但价格便宜得多,普卢默说道。
用备件组装的法拉利——性能一样好,但价格便宜得多。
就像师傅和徒弟
这可以通过不同类型的训练来实现。与ChatGPT一样,DeepSeek也是一个大型语言模型。然而,这是一个精炼模型
(精炼模型
)。
这意味着,较小的模型使用大型模型进行训练,以尽可能获得与大型模型相似的结果,但所需的资源却少得多。
因此,大型模型仍然拥有更大的知识库,但小型模型在大多数应用中的表现几乎一样好。
Plummer在他的视频中对此进行了如下比较:
这就像师傅在训练学徒——学徒不需要知道所有事情,但也能做好工作。
这些大师中
有Meta的开源模型Llama,也有OpenAI的ChatGPT。
这种知识提炼使DeepSeek的资源效率大大提高。它也不再需要像大型模型那样在大型数据中心中配备数百个GPU的庞大硬件。
但这同时也引发了普卢默的一个问题:
如果你能用雪佛兰的零件在自家车库里造出一辆法拉利,那么法拉利的价值又意味着什么呢?
回顾个人电脑革命
对于昂贵的原装法拉利来说,这起初并不是一个好兆头。
然而,对于用户来说,他们可以在本地硬件上运行模型,这是一个优势。 当然,DeepSeek无法在每台小型工作笔记本上本地运行。对于最大的DeepSeek模型,Plummer需要配备Nvidia RTX 6000 GPU(48 GB VRAM)的AMD Threadripper。更小的型号甚至可以在MacBook Pro上运行。
这种发展让他想起了个人电脑革命的年代。
这让我想起了个人电脑的早期——它们不如大型机,但却改变了世界。
当计算机还是商业应用的大型机系统(大型机
)时,没有人能想象到每个人最终都能以可承受的价格在家中拥有一台这样的计算机。
人造卫星时刻
然而,与个人电脑革命不同的是,如今还必须考虑地缘政治的影响。DeepSeek是一家中国公司,尤其与美国硅谷公司竞争。
普卢默将此称为“人造卫星时刻”
。这是对苏联人造卫星“史普尼克”的引用,1957年“史普尼克”的发射标志着太空竞赛(太空竞赛
)的开始,以及冷战时期苏联与西方之间系统性竞争的新阶段。
同样,DeepSeek的发展引发了地缘政治紧张局势,反映出 作为技术霸权者的美国与作为新兴世界强国的中国之间的竞争。
这场技术竞赛不仅是创新之争,也是美国资本主义民主与中国国家资本主义之间系统性对抗的象征。