在人工智能领域,音频理解正逐渐成为提升用户体验的重要技术。近日,小米公司正式开源了其声音理解大模型——MiDashengLM-7B。这款模型在22个公开评测集中刷新了多模态大模型的最佳性能记录(SOTA),并在推理效率方面展现出显著优势,标志着小米在音频AI领域迈出了重要一步。
MiDashengLM-7B的核心架构由Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker解码器组成。通过采用通用音频描述训练策略,该模型能够统一理解语音、环境音和音乐等多种声音类型,实现跨模态的声音感知能力。这一能力不仅提升了模型的泛化性,也为构建全场景智能生态奠定了基础。
目前,Xiaomi Dasheng系列模型已在小米的智能家居与汽车座舱等场景中落地应用,覆盖超过30个实际使用场景。小米表示,音频理解是推动智能设备感知用户需求的关键技术之一。MiDashengLM不仅能识别声音,还能分析其背后的情感与环境信息,从而实现更深层次的场景理解。
值得一提的是,MiDashengLM的训练数据完全来自于公开数据集,共计110万小时,涵盖语音识别、环境声、音乐理解等多个领域。小米还公开了77个数据源的具体配比,并提供了完整的技术文档,确保模型训练与推理过程的可复现性。
在性能方面,MiDashengLM-7B展现了强大的音频理解能力。在多个评测任务中,包括音频描述、声音理解、语音识别和音频问答任务中,其表现均优于同类7B模型。特别是在X-ARES Benchmark测试中,Xiaomi Dasheng音频编码器在多项关键指标上超越了Whisper等主流模型。
除了性能优势,MiDashengLM在推理效率上也有显著提升。在单样本推理中,其首个Token延迟(TTFT)仅为Qwen2.5-Omni-7B的四分之一;而在并发处理方面,MiDashengLM在相同显存条件下可支持的批量处理量是Qwen的32倍,极大提升了模型部署效率,降低了硬件成本。
MiDashengLM的训练范式也进行了创新。与传统依赖ASR转录的对齐方式不同,该模型采用通用音频描述对齐策略,避免了对非语音信息的丢失。通过非单调的全局语义映射,模型能够更全面地学习音频中的深层语义关系。训练数据通过多专家分析流程生成,涵盖了语音、人声、音乐和环境声等多个维度,确保了训练数据的多样性与丰富性。
小米还构建了全新的ACAVCaps训练集与MECAT Benchmark,进一步推动音频理解领域的研究进展。这些数据集与测试基准的开源,为研究人员提供了宝贵的资源,有助于推动整个行业的发展。
作为小米多模态技术布局的重要组成部分,MiDashengLM的开源不仅体现了小米在AI领域的技术实力,也为其未来在智能汽车、智能家居等领域的应用打下了坚实基础。随着小米在终端设备端的持续优化,Xiaomi Dasheng系列模型有望实现离线部署,进一步提升设备的本地化AI能力。
随着多模态AI成为行业发展的重点方向,小米在音频大模型领域的持续投入,将为其构建更加自然、智能的交互体验提供有力支撑。未来,小米是否能在多模态领域带来更多突破,值得业界持续关注。
音频理解大模型, 小米MiDashengLM-7B, 多模态AI, 音频编码器, 开源AI模型
本文来源: