当前位置:首页 > 科技  > 互联网

MiniMax新模型MiniMax-M1:50万刀成本,如何实现推理能力飞跃?

来源: 责编: 时间:2025-06-20 10:13:53 194观看
导读近期,国内AI大模型领域似乎陷入了一片沉寂,各大项目纷纷选择低调行事。曾备受瞩目的DeepSeek-R2,除了偶尔流传的半真半假的小道消息外,几乎再无任何动静。回望去年,AI六小虎之间的激烈竞争还历历在目,而今年的它们却仿佛集

近期,国内AI大模型领域似乎陷入了一片沉寂,各大项目纷纷选择低调行事。曾备受瞩目的DeepSeek-R2,除了偶尔流传的半真半假的小道消息外,几乎再无任何动静。0QO28资讯网——每日最新资讯28at.com

回望去年,AI六小虎之间的激烈竞争还历历在目,而今年的它们却仿佛集体进入了冬眠状态,鲜有新动作。0QO28资讯网——每日最新资讯28at.com

尽管期间也有新品发布,但总体而言,这些产品都未能激起太大的波澜,缺乏让人眼前一亮的创新和吸引力。0QO28资讯网——每日最新资讯28at.com

然而,就在昨日凌晨,这潭平静的水被一只突然苏醒的小虎搅动——MiniMax宣布正式开源其首个推理模型MiniMax-M1。0QO28资讯网——每日最新资讯28at.com

0QO28资讯网——每日最新资讯28at.com

从跑分图来看,MiniMax-M1在其他方面的表现算是中规中矩,但在MRCR(上下文长度测试)这一项上,却展现出了惊人的实力,与众多开源模型拉开了显著的差距,仅次于Gemini2.5Pro。0QO28资讯网——每日最新资讯28at.com

更令人惊讶的是,据MiniMax团队透露,该模型在强化学习阶段的算力成本仅为50多万美元,这无疑是一个以小博大的成功案例。0QO28资讯网——每日最新资讯28at.com

深入了解MiniMax-M1后,我们发现了其背后的两大亮点。首先,该模型采用了一种名为“闪电注意力”的机制,这是一种对传统注意力机制的优化,通过减少模型在处理数据时的读写次数,从而大幅提升了效率。0QO28资讯网——每日最新资讯28at.com

0QO28资讯网——每日最新资讯28at.com

其次,MiniMax-M1在RL训练框架上也进行了创新。针对推理模型中常见的“嗯”、“等等”、“啊哈”等语气词,MiniMax提出了一种名为CISPO的新算法。该算法通过略微调低这些词的影响力,既能让AI学到关键的推理思路,又不会因这些语气词而干扰整个训练过程。0QO28资讯网——每日最新资讯28at.com

0QO28资讯网——每日最新资讯28at.com

在实际体验中,MiniMax-M1的表现同样令人印象深刻。在上下文长度的测试中,该模型展现出了强大的能力。以一本约20万个单词的电子书《白鲸记》为例,我们在其中偷偷加入了一句话:“某人吃了生蚝后掉进了泥里”。当询问MiniMax-M1时,它迅速且准确地给出了回答,而DeepSeek则因无法处理如此长的上下文而败下阵来。0QO28资讯网——每日最新资讯28at.com

0QO28资讯网——每日最新资讯28at.com

0QO28资讯网——每日最新资讯28at.com

在科研文献的翻译上,MiniMax-M1也展现出了其独特的优势。它能够保持原文的格式,准确翻译内容,并将公式和图片完美嵌入到翻译结果中,为科研人员提供了极大的便利。0QO28资讯网——每日最新资讯28at.com

0QO28资讯网——每日最新资讯28at.com

然而,在编程能力的测试中,MiniMax-M1的表现则稍显不足。尽管它能够完成一些基本的编程任务,但在处理复杂逻辑和动画效果时,仍存在一定的提升空间。0QO28资讯网——每日最新资讯28at.com

尽管如此,MiniMax-M1的发布仍然为AI大模型领域带来了新的活力和期待。同时,MiniMax还宣布了为期五天的连更计划,每晚都将推出一款新模型,这无疑将进一步激发行业的关注和讨论。让我们共同期待MiniMax后续的表现吧!0QO28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-21-161404-0.htmlMiniMax新模型MiniMax-M1:50万刀成本,如何实现推理能力飞跃?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: REDMI K80至尊版全面评测:性能续航大升级,游戏体验再突破!

下一篇: 小米平板7S Pro 12.5评测:自研玄戒O1芯片,便携平板新选择

标签:
  • 热门焦点
  • MIX Fold3包装盒泄露 新机本月登场

    小米的全新折叠屏旗舰MIX Fold3将于本月发布,近日该机的真机包装盒在网上泄露。从图上来看,新的MIX Fold3包装盒在外观设计方面延续了之前的方案,变化不大,这也是目前小米旗舰
  • 女孩租房开2小时空调用完100元电费引热议:5级能耗惹不起 月薪过万电费也交不起

    近日,江苏苏州一女孩租房当天充值了100元电费,开着空调不到2小时发现电费已用完。对于为什么这个快,房东表示,电表坏了这种情况很多,之前也遇到过,给租客换
  • JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • 从 Pulsar Client 的原理到它的监控面板

    背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态,
  • 谷歌KDD'23工作:如何提升推荐系统Ranking模型训练稳定性

    谷歌在KDD 2023发表了一篇工作,探索了推荐系统ranking模型的训练稳定性问题,分析了造成训练稳定性存在问题的潜在原因,以及现有的一些提升模型稳定性方法的不足,并提出了一种新
  • 一个注解实现接口幂等,这样才优雅!

    场景码猿慢病云管理系统中其实高并发的场景不是很多,没有必要每个接口都去考虑并发高的场景,比如添加住院患者的这个接口,具体的业务代码就不贴了,业务伪代码如下:图片上述代码有
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 年轻人的“职场羞耻感”,无处不在

    作者:冯晓亭 陶 淘 李 欣 张 琳 马舒叶来源:燃次元“人在职场,应该选择什么样的着装?”近日,在网络上,一个与着装相关的帖子引发关注,在该帖子里,一位在高级写字楼亚洲金
  • iQOO Neo8系列新品发布会

    旗舰双芯 更强更Pro
Top