DeepSeek小更新,多步推理表现提高43%

近日,DeepSeek在其官方微信群发布消息,宣布其线上模型已升级至最新版本V3.1。此次升级不仅将模型的上下文处理长度扩展至128K,还在多个核心能力方面实现了显著优化,包括推理能力、多语言支持以及信息输出的准确性等。

DeepSeek V3.1是继V3版本之后的一次重要更新,发布于2025年3月24日。相较于前代模型,新版本在执行复杂任务时展现出更强的逻辑推理能力。据测试数据显示,V3.1在多步骤推理任务上的表现提升了43%,尤其适用于数学运算、代码生成以及科研分析等高要求场景。

在上下文处理方面,128K的长度大约可容纳10万至13万汉字,这意味着模型可以轻松处理一整部中长篇小说的。例如老舍的经典作品《骆驼祥子》或余华的《活着》都能被完整地理解和分析。这一能力极大地拓展了模型在创作、文献分析和长文本理解中的应用潜力。

多语言支持同样是此次升级的一大亮点。V3.1版本现已支持超过100种语言,特别针对亚洲语言及一些资源稀缺的小语种进行了性能优化。这种语言能力的提升,使得该模型在全球化生成、跨文化沟通和多语言翻译中表现更加出色。

此外,DeepSeek团队通过优化训练技术和模型架构,成功将模型“幻觉”现象减少了38%。这意味着V3.1在输出信息时更具准确性与可靠性,有助于提升用户在实际应用中的信任度与使用体验。

DeepSeek V3.1拥有高达5600亿参数,并在大量多样化数据集上进行了微调。它不仅具备处理文本和代码的能力,还支持图像处理,展现出强大的多模态能力。同时,模型在推理效率上也进行了优化,显著缩短了响应时间,提升了整体交互体验。

尽管V3.1带来了诸多提升,但用户期待已久的DeepSeek R2版本仍未如期发布。早在2025年4月27日,官方曾宣布R2计划于同年5月推出,并表示有提前发布的可能。然而截至目前,官方尚未公布R2的任何细节。有外媒报道称,由于芯片问题,R2在训练过程中出现了严重错误,导致发布时间可能进一步推迟。

DeepSeek V3.1, 上下文长度128k, 多语言支持, 模型幻觉减少, 多模态AI能力

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...