DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布

(由多段落组成):

1月21日,据IT之家网友Kazuto提供的消息,人工智能领域再传重磅动态。知名科技媒体The Information月初披露,中国AI新锐企业DeepSeek计划于2月中旬、农历新年期间正式发布其新一代旗舰级大模型——DeepSeek V4。该模型预计将显著提升代码生成与理解能力,或将在编程智能化方面实现重大突破,甚至有望超越OpenAI的GPT系列和Anthropic的Claude等国际主流模型。

值得关注的是,在1月20日——恰逢DeepSeek-R1发布一周年之际,有技术开发者在GitHub平台上发现,DeepSeek近期对其FlashMLA项目进行了大规模代码更新。此次更新涉及多达114个文件,其中28处出现了名为“MODEL1”的神秘模型标识符。这一代号并未出现在此前公开的模型体系中,且常与当前已知的“V32”(即DeepSeek-V3.2)并列出现,暗示其可能代表一个全新架构的实验性模型。

通过对代码上下文的深入分析,技术人员指出,“MODEL1”在多个核心技术层面与现有模型存在明显差异。例如,在键值缓存(KV Cache)的存储结构设计上采用了更高效的布局方式;在稀疏注意力机制的处理逻辑上也展现出创新思路;尤为引人注目的是,新代码首次明确加入了对FP8低精度数据格式的解码支持,这表明该模型可能在内存占用优化与推理速度提升方面进行了深度重构,旨在实现更高性能的推理效率。

此外,DeepSeek研究团队近期连续发布了两篇前沿技术论文,分别介绍了“改进型残差连接(mHC)”训练策略和一种受神经科学启发的“AI记忆模块(Engram)”。前者有助于提升模型训练稳定性与收敛速度,后者则模拟人脑记忆机制,增强长期信息保持能力。结合GitHub中的代码线索,业内普遍推测,这些最新研究成果或将被整合进即将推出的DeepSeek V4中,成为其核心技术创新点之一。

随着发布时间临近,市场对DeepSeek V4的关注持续升温。此前已有研报显示,DeepSeek在中国本土AI市场的占有率已达89%,在白俄罗斯更是高达56%,显示出强大的技术竞争力和全球化潜力。此次新模型若真能在代码能力、推理效率与记忆架构上实现全面升级,或将重塑全球大模型竞争格局。更多细节值得期待。

DeepSeek V4, AI大模型, 代码生成能力, GitHub代码更新, 模型架构创新

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...