小米大模型负责人罗福莉首秀:算力和数据也并非最后的护城河
2025-12-17 13:17:18 来源:界面新闻
12月17日,小米举办了2025人车家全生态合作伙伴大会。实际上,几乎所有目光都聚焦在了一位演讲者身上——Xiaomi Mimo大模型负责人罗福莉。
自离开DeepSeek并低调入职小米后,这是被行业称作“AI天才少女”的罗福莉首次代表小米大模型团队公开亮相。在大会开始前,小米发布并开源了最新的MoE大模型MiMo-V2-Flash,这成为了罗福莉演讲的核心要点。
罗福莉在开场时表明,下一代智能体系统核心围绕Agent执行与Omni(全能)感知展开,涵盖记忆、推理、自主规划、决策、执行等多个维度,应从回答问题迈向完成任务,且要统一多模态感知,为理解物理世界奠定基础。
她据此表示,MiMo-V2-Flash在研发起始阶段,主要围绕三个关键问题进行。
其一,当代智能体必须具备高效的沟通语言,也就是代码能力和工具调用能力;其二,“高带宽”是Agent协作的关键所在,所以需要围绕极致推理效率来设计模型结构;其三,模型训练范式正逐步从预训练转向后训练,为激发后训练的更多潜能,需要高效稳定的扩展强化学习训练。
MiMo-V2-Flash是小米全新一代面向Agent的基座模型,总参数309B,激活参数15B,支持256k上下文窗口,整体针对推理、编码和Agent场景构建,支持混合思维模式,允许用户切换“思考”和即时回答模式。
在基准测试中,MiMo-V2-Flash的表现整体与DeepSeek-V3.2相近,在SWE-Bench Verified/Multiligual、GPQA-Diamond等测试中略占上风,仅在HLE(人类最后的考试)及Arena-Hard(创意写作评估)两项测试中稍逊一筹。此外,该模型在AIME2025能力上接近GPT-5和Gemini 3.0 Pro。
作为首秀成果,同时也是小米未来可能全面应用于各个业务场景的智能体模型底座,罗福莉用了大量篇幅着重讲述MiMo-V2-Flash的性价比优势及其技术缘由。
目前,MiMo-V2-Flash推理吞吐速度为每秒150个token,定价0.7元/每百万输入token,2.1元/每百万输出token。
在一张由价格与速度构成的坐标轴图标里,MiMo-V2-Flash的速度与Gemini-2.5 Pro持平,但价格约为其二十分之一;其价格约为DeepSeek V3.2的一半,但速度是后者的近3倍。
这样的推理效率主要源于两项创新。其一是模型注意力机制采用了Hybrid Sliding Window Attention(Hybrid SWA/混合滑动窗口注意力机制),其中SWA与Full Attention(全局注意力机制)的比例是5:1。
罗福莉指出,相较于一些复杂的Linear Attention(线性注意力机制),SWA在兼顾长短文的推理、知识检索等方面更具优势。
一名AI大模型行业从业者对界面新闻记者表示,SWA本质上是一种Sparse Attention(稀疏注意力机制),业界普遍借助它解决长上下文的推理效率问题,其最大优势是能够将KV Cache维持在一个固定最大值,而不会随着上下文扩展而无限增加,进而实现降本增效的目标。
他指出,这种机制核心要考量的问题是在长文本任务中可能因窗口策略限制而表现欠佳,这也是SWA会与Full Attention进行混合配比的原因之一。
MiMo-V2-Flash的另一项重要创新在于MTP(Multi-Token Prediction)。罗福莉称,团队在训练时加入了一层MTP层以提升基座模型能力,在微调时也增添了更多MTP层,最终在推理时加入了3层MTP,通过加速并行token验证的方式实现了2-2.6倍推理速度的提升。
此外,为提高强化学习训练的稳定性,MiMo团队提出了一种名为Multi-Teacher On-Policy Distillation(MOPD)的后训练范式。相较于传统SFT+RL(微调+强化学习)的后训练方式,它能够提供稠密的token level监督学习信号,以简便快捷的方式获取各个专家模型的能力。
“我们还发现了一件很意外的事,当学生很快超越老师时,我们能否把老师替换成学生继续自我迭代提升,这是一项正在进行的工作。”罗福莉预告道。
从这场演讲能够看出,罗福莉在小米大模型团队不仅要担当科学家的角色,她需要切实带领小米打造出能够落地其人车家全生态产品的AI基座模型及应用能力——在汽车、手机、大家电、智能穿戴等硬件产品线全面跨越自身阶段性门槛后,AI能力是小米支撑下一个十年技术叙事的核心底座。
罗福莉几乎未谈及自己,唯一涉及团队构成的表述是,一个“小而美,却充满创业精神、极度好奇、追求真理”的年轻团队。此外,她认为在大模型的能力竞争中,算力和数据并非最终的护城河,“而是科学的研究文化与方法,是将未知问题结合模型优势转化为可用产品的能力”。
此外,在大会上,小米集团合伙人、集团总裁卢伟冰披露了小米“人车家全生态”的最新进展:在用户规模方面,小米全球月活跃用户数达到7.42亿;在硬件生态方面,小米AIoT平台连接设备数达到10.4亿,硬件合作伙伴数量突破15000家;在软件生态方面,小米全球开发者规模达到120万,国内应用生态每月应用分发量突破11亿。
(文章来源:界面新闻)
原标题:小米大模型负责人罗福莉首秀:算力和数据也并非最后的护城河
郑重声明:信查查发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。



