标签：音频编码器

在人工智能领域，音频理解正逐渐成为提升用户体验的重要技术

近日，小米公司正式开源了其声音理解大模型——MiDashengLM-7B。这款模型在22个公开评测集中刷新了多模态大模型的最佳性能记录（SOTA），并在推理效率方面展现出显著优势，标志着小米在音频AI领域迈出了重要一步。 MiDashengLM-7B的核心架构由Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker解码器组成。通过采用通用音频描述训练策略，该模型能够统一理解语音、环境音和音乐等多种声音类型，实现跨模态的声音感知能力。这一能力不仅提升了模型的泛化性，也为构建全场景智能生态奠定了基础。目前，Xiaomi Dasheng系列模...

来源：

智东西【阅读原文】
Tags：多模态AI 大模型小米开源开源AI模型音频理解大模型音频编码器

12个月前