美团王兴狂卷大模型!开源561B“全能”龙猫模型,上线首款AI通用助手App

(由多段落组成):

近日,美团正式对外开源其最新研发的全模态大模型——LongCat-Flash-Omni,标志着国内在多模态人工智能领域的又一次重大突破。该模型总参数量高达5600亿,激活参数为270亿,在保持高性能的同时实现了高效推理。据美团官方技术博客披露,这是业界首个集“全模态覆盖、端到端架构、大参数量与高效率推理”于一体的开源语言模型,具备文本、图像、视频、语音等多模态理解与生成能力,真正实现“全能不降智”。

LongCat-Flash-Omni基于此前发布的LongCat-Flash系列模型升级而来,继承了其高效的Shortcut连接混合专家(ScMoE)架构,并引入零计算专家机制,显著提升训练和推理效率。新模型融合了先进的多模态感知模块与语音重建系统,支持长达128K tokens的上下文窗口,可处理超过8分钟的音视频连续交互任务。在预训练阶段,团队构建了一个包含超2.5万亿词元的大规模、多样化多模态语料库,涵盖文本、图像、音频、视频及OCR等多种数据类型,确保模型具备广泛的知识基础。

在性能表现方面,LongCat-Flash-Omni在多项权威基准测试中达到开源领域SOTA水平。无论是图像转文本、视频理解,还是语音识别与合成任务,均展现出强劲竞争力。例如,在VideoMME视频理解评测中,其表现优于Qwen3-VL等主流开源模型;在音频任务上,自动语音识别(ASR)、语音翻译(S2TT)和语音延续能力全面领先,尤其在无视觉输入条件下仍能作为原生音频理解模型稳定运行。此外,在强调真实场景交互的WorldSense和DailyOmni测试中,LongCat-Flash-Omni超越多数现有开源方案,跨模态推理能力也在UNO-Bench中名列前茅。

值得一提的是,美团同步推出了LongCat官方App公测版,用户可通过网页或移动端体验实时语音通话功能,目前支持10分钟内连续对话,响应迅速流畅。例如,当用户请求“讲一个睡前故事”时,模型可即时生成并语音播报。尽管初期存在部分图片上传兼容性问题(如.jpg格式报错),但官方已快速响应修复安卓端联网搜索异常等问题,建议用户卸载重装以获取最佳体验。未来还将上线视频通话功能,进一步拓展人机交互边界。

为应对全模态大模型训练中的四大核心挑战——跨模态异构性、离线与流式能力统一、实时交互低延迟要求以及训练效率瓶颈,美团技术团队提出四项关键创新:一是采用五阶段渐进式预训练策略,从纯文本起步,逐步融入语音、图像、视频数据,最终完成长上下文扩展与音频编码器对齐;二是构建人机协同的高质量交互数据集,助力离线能力向实时场景迁移;三是引入ScMoE架构结合同步分块交错处理技术,保障流媒体输入下的低延迟输出;四是设计模态解耦并行(MDP)训练策略,实现大模型、视觉与音频编码器的独立优化,系统吞吐量可达纯文本训练的90%以上。

在部署层面,LongCat-Flash-Omni采用解耦式多模态推理框架,将不同模态的编码/解码组件与主干模型分离,部署于匹配其计算特性的专用硬件上,有效避免资源争用。同时通过异步流式服务管道支持增量推理与自适应批处理,显著降低端到端延迟。后续工作计划包括扩大训练数据规模、增强自适应思维模式、完善流式生成能力,并探索更具沉浸感的具身智能交互形式,推动AI向通用人工智能(AGI)方向迈进。

此次开源不仅展示了美团在AIGC与多模态技术上的深厚积累,也为开发者社区提供了强大的工具支持。LongCat-Flash-Omni已在Hugging Face和GitHub平台开放下载,公众可通过[https://longcat.chat](https://longcat.chat)在线体验其强大功能。随着更多应用场景的落地,这款“全能型”大模型有望成为下一代人机交互的核心引擎,激发更多以人为本的智能应用创新。

全模态大模型, LongCat-Flash-Omni, 多模态AI, 开源大模型, 实时语音交互

本文来源: 智东西【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...