标签：开源

小米大模型“杀”进第一梯队：代码能力开源第一，智商情商全在线

（由多段落组成）： 2025年底，国产大模型领域迎来一匹黑马——小米正式发布其开源语言模型 MiMo-V2-Flash，凭借卓越的性能与极致的成本控制，迅速跻身全球开源模型第一梯队。这款仅以309B参数量打造的“高效智能体基座”，不仅在多项权威评测中超越DeepSeek、Kimi等热门模型，更以每百万输出Token仅2.1元的超低API价格，将高性能AI从“奢侈品”拉入“日用品”时代。 MiMo-V2-Flash的技术架构堪称“小而强”的典范。它采用MoE（混合专家）结构，激活参数仅15B，推理成本仅为Claude 4.5 Sonnet的约2.5%，却实现了顶尖的综合表现。为提...

来源：

量子位【阅读原文】 Tags：小米开源

6个月前

加码开源技术，英伟达收购 AI 软件公司 SchedMD

（由多段落组成）：近日，英伟达再次在人工智能领域迈出关键一步。据IT之家报道，当地时间12月15日，这家全球领先的GPU制造商正式宣布完成对开源AI软件公司SchedMD的收购。此次动作不仅体现了英伟达持续加码AI生态系统的战略布局，也进一步强化了其在高性能计算与人工智能基础设施领域的主导地位。 SchedMD是知名开源作业调度系统Slurm（Simple Linux Utility for Resource Management）的核心开发与支持团队。Slurm被广泛应用于超算中心、科研机构及大型数据中心中，用于高效管理大规模并行计算任务，尤其在训练生成式AI...

来源：

IT之家【阅读原文】
Tags：SchedMD Slurm 开源英伟达

6个月前

又是王冠：27M小模型超越o3-mini！拒绝马斯克的00后果然不同

近日，一项来自Sapient Intelligence的研究再次引爆AI领域。由00后清华校友王冠主导开发的2700万参数小模型HRM（Hierarchical Reasoning Model），在多个推理任务中超越了当前主流的大型模型，包括o3-mini-high和DeepSeek-R1。令人惊讶的是，这一模型并未依赖传统的思维链机制，仅用1000个训练样本便展现出卓越的推理能力。这项研究不仅挑战了Transformer架构的统治地位，也再次引发了关于“小模型能否实现大智能”的讨论。HRM的成功在于其仿脑的双层循环模块设计，模拟大脑的分层处理机制与多时间尺度运作，从而实现了高效...

来源：

量子位【阅读原文】
Tags：AI大模型 HRM模型 Transformer挑战者仿脑架构小模型大智能开源推理能力

10个月前

在人工智能领域，音频理解正逐渐成为提升用户体验的重要技术

近日，小米公司正式开源了其声音理解大模型——MiDashengLM-7B。这款模型在22个公开评测集中刷新了多模态大模型的最佳性能记录（SOTA），并在推理效率方面展现出显著优势，标志着小米在音频AI领域迈出了重要一步。 MiDashengLM-7B的核心架构由Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker解码器组成。通过采用通用音频描述训练策略，该模型能够统一理解语音、环境音和音乐等多种声音类型，实现跨模态的声音感知能力。这一能力不仅提升了模型的泛化性，也为构建全场景智能生态奠定了基础。目前，Xiaomi Dasheng系列模...

来源：

智东西【阅读原文】
Tags：多模态AI 大模型小米开源开源AI模型音频理解大模型音频编码器

10个月前

大模型首次直接理解代码图:不用Agent修bug,登顶SWE-Bench开源榜

当然可以！以下是根据您提供的原文，模仿人工撰写方式整理出的文章。文章在保留核心信息的基础上进行了语义重构和语言优化，更符合SEO搜索习惯，并增强可读性。 ## （由多段落组成） AI编程新突破：开源模型首次实现代码图理解，无需Agent即可修复Bug 近日，一项由蚂蚁集团研究团队主导的AI研究成果引发广泛关注。他们提出了一种全新的代码处理方法——Code Graph Model（CGM），该模型首次实现了对代码图结构的直接理解，从而大幅提升代码修复效率，在SWE-Bench开源榜单中名列前茅。与以往依赖复杂Agent流程或闭源模...

来源：

量子位【阅读原文】
Tags：AI编程 swe 开源蚂蚁

12个月前

Magi-1的视频生成模型引起了广泛关注

Magi-1由sand.ai团队开发，其背后团队实力雄厚，创始人曹越和张拯曾在微软亚洲研究院共事，并参与了Swin Transformer的研究项目。此外，曹越还是光年之外的联合创始人之一。在这样的技术支持下，成立仅一年多的sand.ai推出了这款创新的视频生成模型。 Magi-1的独特之处在于它能够实现无限时长的视频续写，而市面上大多数视频生成模型的极限通常只有几十秒。更值得一提的是，Magi-1还可以精细控制每秒生成的，同时支持一次性生成多达16个1至10秒的视频片段。为了推动技术发展，sand.ai在4月21日开源了Magi-1，并提供了产品de...

来源：

iFeng科技【阅读原文】
Tags：Magi-1 sand.ai 开源自回归模型视频生成模型

1年前 (2025)

借助免费开源库，任何人都能在火山引擎上轻松开发DeepSeek AI模型应用

科技圈的开源热潮：从模型到应用的新时代过去一周，科技圈可以用三个字概括：“开源周”。曾经各自为战的企业，在 DeepSeek 的推动下纷纷投身于开源浪潮。AI 领域的六小龙企业相继宣布加大模型开源力度，就连百度也加入了这一行列，承诺新一代模型将全面开源。最引人注目的是，远在大洋彼岸的 OpenAI 也不得不承认，自己可能站在了历史错误的一边。火山引擎的独特入场方式面对这股开源热潮，一向低调的火山引擎也坐不住了。与其他企业直接发布模型不同，火山引擎选择了一条不同的路径——推出“大模型应用实验室”。这个平台...

来源：

iFeng科技【阅读原文】
Tags：- 应用开发 AI 模型 DeepSeek 开源火山引擎

1年前 (2025)

阿里云发布QwQ-32B推理模型，性能媲美DeepSeek-R1

阿里云在3月6日凌晨发布了最新的推理模型QwQ-32B。这款模型的参数量为320亿，虽然远低于DeepSeek-R1的6710亿参数，但在消费级显卡上也能实现本地部署，表现令人惊艳。特别是在数学推理和编程能力方面，QwQ-32B与DeepSeek-R1相当，甚至在通用能力测评中超越了后者。苹果机器学习科学家Awni Hannun（吴恩达的学生）展示了QwQ-32B在配备MLX框架的M4 Max芯片电脑上的运行速度，证实其“非常快”。该模型在Hugging Face和ModelScope上以Apache 2.0许可证开源，可用于商业和研究用途，为企业提供了强大的工具来增强产品和应用程序...

来源：

智东西【阅读原文】
Tags：QwQ-32B 开源推理模型阿里云

1年前 (2025)

在DeepSeek的冲击之下，大模型六小强如何借助AI技术在开源与商用场景中作出有力「回应」？

DeepSeek冲击之下，大模型六小强如何「回应」？自DeepSeek发布以来，全球大模型市场掀起了一阵波澜。中外各大厂和初创公司纷纷被问及对DeepSeek的看法和应对策略。本文将重点探讨国内六家独角兽大模型创业公司——零一万物、百川智能、阶跃星辰、智谱华章、月之暗面、MiniMax——在DeepSeek冲击下的具体行动与回应。零一万物：聚焦产业应用零一万物的创始人李开复博士早在DeepSeek-R1问世前就表示，公司将不再追求训练超级大模型，而是专注于轻量化模型的研发。这类模型参数适中、性能优异且推理成本更低，更适合商用场景...

来源：

量子位【阅读原文】
Tags：AI DeepSeek 商用场景大模型开源

1年前 (2025)

中外大模型加速开源，AI模型成本下降与多模态能力提升！文心一言和GPT-5在算力优化上紧追不舍，免费资源助力创新

国内外大模型厂商掀起开源和免费浪潮，AI技术平民化加速近期，国内外主流大模型厂商如百度、DeepSeek、OpenAI、谷歌等纷纷宣布旗下高端AI模型将转向开源，并计划免费向用户开放。这一趋势不仅标志着大模型竞赛进入白热化阶段，也预示着AI技术正在逐步走进普通百姓的生活。百度与OpenAI的激烈竞争百度和OpenAI作为两大巨头，在短时间内相继发布了多项重要更新。百度宣布将在未来几个月内推出文心大模型4.5系列，并计划于6月30日开始开源。此外，百度还表示今年下半年将发布文心大模型5.0系列。与此同时，OpenAI CEO奥...

来源：

智东西【阅读原文】
Tags：AI模型多模态能力开源成本下降算力优化

1年前 (2025)

12 3…5