标签:音频编码器
在人工智能领域,音频理解正逐渐成为提升用户体验的重要技术
近日,小米公司正式开源了其声音理解大模型——MiDashengLM-7B。这款模型在22个公开评测集中刷新了多模态大模型的最佳性能记录(SOTA),并在推理效率方面展现出显著优势,标志着小米在音频AI领域迈出了重要一步。 MiDashengLM-7B的核心架构由Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker解码器组成。通过采用通用音频描述训练策略,该模型能够统一理解语音、环境音和音乐等多种声音类型,实现跨模态的声音感知能力。这一能力不仅提升了模型的泛化性,也为构建全场景智能生态奠定了基础。 目前,Xiaomi Dasheng系列模...