当前位置:首页 > 科技  > 软件

小米发布MoE大模型MiMo-V2-Flash,性能媲美顶尖模型,多项实测表现亮眼

来源: 责编: 时间:2025-12-18 12:45:42 41观看
导读小米今日正式发布并开源了最新一代MoE架构大模型MiMo-V2-Flash,该模型总参数规模达3090亿,激活参数150亿,在推理、编码及智能体应用场景中展现出显著优势。模型支持混合思维模式,用户可自由切换深度思考与即时响应模式,并

小米今日正式发布并开源了最新一代MoE架构大模型MiMo-V2-Flash,该模型总参数规模达3090亿,激活参数150亿,在推理、编码及智能体应用场景中展现出显著优势。模型支持混合思维模式,用户可自由切换深度思考与即时响应模式,并具备一键生成完整HTML网页的能力,可与Claude Code、Cursor等主流编码框架无缝协作。UOV28资讯网——每日最新资讯28at.com

在性能测试中,MiMo-V2-Flash与DeepSeek-V3.2形成直接竞争态势。基准数据显示,该模型在数学竞赛AIME 2025和科学知识GPQA-Diamond测试中位列开源模型前二,软件工程能力SWE验证及多语言测试中更超越所有开源竞品,性能表现与全球顶尖闭源模型持平。特别在长上下文处理方面,其性能已超越K2 Thinking模型,在SWE-Bench Verified测试中解决率达71.7%,BrowseComp搜索评估得分45.4,配合上下文管理后提升至58.3。UOV28资讯网——每日最新资讯28at.com

技术架构层面,模型采用全局注意力(GA)与滑动窗口注意力(SWA)的1:5混合结构,既保持了线性注意力的计算效率,又显著提升了长文本处理能力。创新引入的多词元预测(MTP)训练技术,通过同步生成多个候选token并并行验证的方式,使解码吞吐量提升2-2.6倍。后训练阶段采用的多教师在线策略蒸馏(MOPD)方法,仅需传统方法1/50的计算资源即可达成同等优化效果,形成"教学-学习"闭环迭代机制。UOV28资讯网——每日最新资讯28at.com

实际场景测试验证了模型的多样化能力:在网页开发任务中,可生成包含商品轮播、规格选择等功能的电商页面,以及支持手势交互的3D圣诞树应用;在创意生成方面,能创作忧郁爱情故事和非虚构社会观察作品;智能体交互测试中,既可解答"是否服用长生不老药"等哲学问题,也能编写科幻悬疑剧本。不过实测发现,部分复杂交互场景(如教育类太阳系探索器)仍存在稳定性问题,需多次生成才能达到预期效果。UOV28资讯网——每日最新资讯28at.com

该模型已实现全面开源,推理代码完整贡献至开发者社区SGLang,API服务开启限时免费体验。技术文档显示,在Prefill单机吞吐50000 toks/s条件下,16K上下文长度的解码吞吐量达5000-15000 toks/s,单请求吞吐量151-115 toks/s。价格策略方面,输入token单价0.7元/百万,输出token单价2.1元/百万,显著低于行业平均水平。UOV28资讯网——每日最新资讯28at.com

此次发布标志着小米大模型研发进入快车道。集团近期宣布将AI与现实世界深度结合列为未来十年核心战略,AI业务投入连续四个季度环比增长超50%。为加速技术突破,小米同步启动全球人才招募计划,设立千万元级岗位薪酬,重点引进大模型领域顶尖人才。技术团队近三个月已密集发布多篇学术论文,并陆续开源多个预训练模型,构建起完整的技术生态体系。UOV28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-188346-0.html小米发布MoE大模型MiMo-V2-Flash,性能媲美顶尖模型,多项实测表现亮眼

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 罗福莉小米首秀揭秘:MiMo-V2-Flash模型如何以高效结构实现推理加速

下一篇: 95后天才少女罗福莉首登小米演讲台,揭秘MiMo大模型及团队发展新路径

标签:
  • 热门焦点
  • 对标苹果的灵动岛 华为带来实况窗功能

    继苹果的灵动岛之后,华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示,华为的实况窗可以更高效的展现出实时通知,比如锁屏上就能看到外卖、打车、银行
  • .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 讲故事上个月我写过一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,当时用的是 GDIView + WinDbg 把问题搞定,前者用来定位泄露资源,后者用来定位泄露代码,后面有朋友反
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 每天一道面试题-CPU伪共享

    前言:了不起:又到了每天一到面试题的时候了!学弟,最近学习的怎么样啊 了不起学弟:最近学习的还不错,每天都在学习,每天都在进步! 了不起:那你最近学习的什么呢? 了不起学弟:最近在学习C
  • 电视息屏休眠仍有网络上传 爱奇艺被质疑“薅消费者羊毛”

    记者丨宁晓敏 见习生丨汗青出品丨鳌头财经(theSankei) 前不久,爱奇艺发布了一份亮眼的一季报,不仅营收和会员营收创造历史最佳表现,其运营利润也连续6个月实现增长。自去年年初
  • 重估百度丨大模型,能撑起百度的“今天”吗?

    自象限原创 作者|程心 罗辑2023年之前,对于自己的“今天”,百度也很迷茫。“新业务到 2022 年底还是 0,希望 2023 年出来一个 1。”这是2022年底,李彦宏
  • 亲历马斯克血洗Twitter,硅谷的苦日子在后头

    文/刘哲铭  编辑/李薇  马斯克再次挥下裁员大刀。  美国时间11月14日,Twitter约4400名外包员工遭解雇,此次被解雇的员工的主要工作为内容审核等。此前,T
  • 利用职权私自解除被封帐号 Meta开除20多名员工

    11月18日消息,据外媒援引知情人士表示,过去一年时间内,Facebook母公司Meta解雇或处罚了20多名员工以及合同工,指控这些人通过内部系统以不当方式重置用户帐号,其
Top