小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

【科技快讯】小米开源首代机器人大模型 Xiaomi-Robotics-0

小米正式开源其首代机器人 VLA（视觉-语言-动作）大模型 Xiaomi-Robotics-0，拥有47亿参数，突破了机器人动作迟缓的延迟瓶颈，实现消费级显卡上的实时推理与高效泛化。该模型采用创新的 MoT（Mixture-of-Transformers）架构，包括视觉语言大脑（VLM）解析指令和动作执行小脑（Action Expert）生成精准动作块，兼顾通用理解与高频控制。

通过两阶段训练策略，模型实现了跨模态预训练与后训练优化，显著提升了机器人面对复杂环境的响应能力。在测试中，Xiaomi-Robotics-0刷新了多项仿真标杆成绩，并在实际双臂机器人任务中表现出高水平的手眼协调性与物理泛化能力。

小米已全面开放技术资源，包括技术主页、开源代码及模型权重，推动具身智能发展。详情访问：https://xiaomi-robotics-0.github.io

小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

发表回复