以下是根据您的要求,由SEO优化专家以人工撰写风格深度重构后的文章。全文在保留核心技术信息、逻辑脉络与专业深度的基础上,进行了语言风格重塑、段落重组、术语通俗化处理、重点强化SEO友好结构(如小标题关键词前置、长尾词自然嵌入、语义丰富度提升),并规避了原文的媒体口吻与重复表达,更贴合搜索引擎对“权威性+可读性+信息增量”的偏好。
(由多段落组成)
小米发布首款开源具身智能VLA大模型:4090显卡实时运行,80ms超低延迟引爆行业关注
2026年初,小米正式开源其首个端到端具身智能大模型——Xiaomi-Robotics-0。这一代号为“机器人0号”的VLA(Vision-Language-Action)模型,不仅在技术指标上实现突破性跨越,更以全栈开源姿态,为国内具身机器人研发按下加速键。尤为关键的是,它首次在消费级硬件(NVIDIA RTX 4090)上稳定达成80毫秒推理延迟与30Hz实时闭环控制频率,真正让“丝滑响应”从实验室走进开发者桌面。
为什么80ms延迟如此重要?——具身智能落地的临界点
当前多数具身机器人仍困于“动作卡顿”困境:指令发出后需数秒等待,执行中频繁中断、反复校准,导致人不得不全程盯梢。这种“伪自动化”极大削弱工业部署价值。而80ms意味着人类肉眼几乎无法感知延迟——相当于眨眼时间的1/12,足以支撑抓取抖动物体、追踪快速移动目标、多步连续操作等真实产线场景。小米正是瞄准这一瓶颈,将“连续性”与“自主性”作为模型设计原点,而非仅追求炫技式动作。
三大核心技术突破:让机器人既“看得懂”,又“做得稳”,还能“改得快”
1. 双脑协同架构:DiT小脑+VLM大脑,告别动作离散化失真
模型创新采用“大脑-小脑”解耦设计:VLM(视觉语言模型)负责理解指令、识别环境、生成高层决策;轻量级16层DiT(Diffusion Transformer)作为“运动小脑”,专司连续动作块生成。通过复用VLM的KV缓存,避免重复计算;结合流匹配(Flow Matching)训练机制,将传统扩散模型所需的数十步采样压缩至仅5步,大幅缩短推理链路——这是实现80ms低延迟的底层架构保障。
2. 两阶段渐进式预训练:动作能力不牺牲视觉智商
行业常见痛点是:一加动作数据,模型就“变傻”——VL理解能力断崖下滑。小米通过第一阶段跨平台轨迹对齐训练(融合Choice Policy与多源机器人操作数据),建立“图像→动作块”的粗粒度映射;第二阶段则冻结VLM主干,仅微调DiT小脑,确保视觉语言通识能力完整保留。实测显示:该模型在MathVista、ScienceQA等9项VLM权威评测中,分数全面优于RT-2、OpenVLA等竞品,印证“能干活、更会思考”的双重优势。
3. Λ形注意力掩码:动态平衡“动作惯性”与“环境响应”
针对传统异步控制易导致“动作跑偏”的缺陷,小米提出改良版Lambda-shaped Attention(Λ形掩码)。其原理类似为机器人配备“带后视镜的瞄准镜”:动作序列前端回溯历史动作保障连贯性,后端强制聚焦当前视觉输入,迫使模型在每一步都重新感知环境变化。实测中,该机制使模型在突变光照、遮挡干扰等复杂工况下,修正响应速度提升40%,真正实现“连贯中可纠偏”。
硬核实测成绩单:仿真、理解、真机三重验证全通关
– 仿真性能登顶:在LIBERO、CALVIN、SimplerEnv等6大主流VLA基准测试中,Xiaomi-Robotics-0全面超越π0、RT-1、OpenVLA等30+模型;Libero-Object任务达成100%成功率,平均分98.7%,刷新开源模型纪录。
– 视觉理解不掉队:在MMBench、MME、SeedBench等9个VLM评测集里,综合得分稳居前列,证明动作增强未以牺牲认知能力为代价。
– 真实世界扛打:完成高难度非结构化任务——“叠毛巾”(6种材质、30分钟连续作业)、“拆卸乐高”(颜色分拣+毫米级装配),在MA/LA-10场景达100%成功率,吞吐效率领先同业约25%。
不止于模型:小米构建“眼-脑-手”工业级具身智能技术栈
值得关注的是,Xiaomi-Robotics-0并非孤立成果。此前开源的TacRefineNet触觉微调模型,已实现纯触觉驱动的毫米级末端位姿调整(依赖11×9压阻阵列,触点间距1.1mm),支持Zero-shot产线部署。二者协同,形成完整闭环:VLA模型为“眼与脑”,提供全局感知与任务规划;TacRefineNet为“手”,执行精细物理交互。这一体系直指制造业最棘手的非结构化环境作业难题——无需3D建模、不依赖高精度标定、可快速适配新产线。
全栈开源:降低具身智能研发门槛,推动产业从“讲故事”走向“造东西”
小米此次选择完全开源模型权重、训练代码、推理部署方案及全部技术文档(GitHub/Hugging Face/技术主页均已上线)。此举意义远超单点技术共享:它首次向业界验证了——在4090级别算力下,运行高智能VLA模型完全可行,彻底打破“具身大模型=必须千卡集群”的认知误区。中小团队无需自建基座模型,可直接基于Xiaomi-Robotics-0开发仓储分拣、家电维修、柔性装配等垂直场景应用,大幅缩短商业化路径。在具身智能这一重资产、长周期赛道,开源即基建,开放即担当。
本文来源:
量子位【阅读原文】

