深度求索(DeepSeek):中国AI创新的破局者
深度求索(DeepSeek)以其独特的创新方式,在中国大模型领域掀起了一场革命。一年前,这家公司因背后拥有量化私募巨头幻方而备受关注;一年后,它更是因为引发中国大模型价格战而声名鹊起。2023年5月,DeepSeek发布了名为DeepSeek V2的开源模型,以每百万token仅1元的成本震惊了业界。这一成本仅为Llama3 70B的七分之一和GPT-4 Turbo的七十分之一。因此,DeepSeek被誉为“AI界的拼多多”,各大科技公司如字节、腾讯、百度、阿里等纷纷跟进降价,标志着中国大模型价格战正式拉开帷幕。
创新背后的秘密
与许多大厂通过烧钱补贴不同,DeepSeek通过技术创新实现了盈利。其MLA(多头潜在注意力机制)架构将显存占用降至传统MHA架构的5%-13%,而独创的DeepSeekMoESparse结构则极大地降低了计算量。这些创新不仅大幅削减了成本,还使得DeepSeek在硅谷赢得了“来自东方的神秘力量”的美誉。SemiAnalysis首席分析师称赞DeepSeek V2论文为“今年最好的一篇”,OpenAI前员工Andrew Carr认为其充满智慧,并将其应用于自己的模型中。
理想主义者的坚持
DeepSeek创始人梁文锋在接受采访时透露,公司选择专注于研究和技术而非商业化,是因为他们希望参与到全球技术创新的浪潮中。梁文锋表示,中国需要逐步成为技术创新的贡献者,而不是一味跟随。他认为,真正的差距不在于技术本身,而是原创与模仿之间的鸿沟。DeepSeek的目标是实现AGI(通用人工智能),并希望通过开放源代码推动整个生态的发展。
技术理想与商业现实
尽管DeepSeek目前没有融资计划,也不追求短期利润,但其创新精神吸引了大量顶尖人才。公司内部实行自下而上的管理方式,鼓励员工自由探索和创新。梁文锋强调,创新首先是一个信念问题,需要自信和勇气。DeepSeek相信,未来的世界将是专业化分工的,基础大模型需要持续创新,而大厂的能力边界可能并不适合这一任务。
未来展望
梁文锋对AGI的实现持乐观态度,预计可能在未来2到10年内实现。DeepSeek押注于三个方向:数学和代码、多模态以及自然语言处理。他认为,大模型的终局将是专业分工明确的生态系统,更多公司在其基础上满足社会多样化的需求。面对经济下行和资本冷周期,梁文锋坚信硬核创新将成为未来的主流,吸引更多的年轻人投身其中。
