当前位置：首页 > 元宇宙 > AI

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一

来源：责编：时间：2024-09-23 08:51:44 253观看

导读 o1 模型发布 1 周，lmsys 的 6k + 投票就将 o1-preview 送上了排行榜榜首。同时，为了满足大家对模型「IOI 金牌水平」的好奇心，OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1，终于迎来了

o1 模型发布 1 周，lmsys 的 6k + 投票就将 o1-preview 送上了排行榜榜首。同时，为了满足大家对模型「IOI 金牌水平」的好奇心，OpenAI 放出了 o1 测评时提交的所有代码。

万众瞩目的最新模型 OpenAI o1，终于迎来了 lmsys 竞技场的测评结果。不出意外，o1-preview 在各种领域绝对登顶，超过了最新版的 GPT-4o，在数学、困难提示和编码领域表现出色；

而 o1-mini 虽然名字中自带「mini」，但也和最新版的 GPT-4o 并列综合排名第二，困难提示、编码、数学等领域和 o1-preview 同样登顶第一。

果然，o1 模型不愧是通用推理领域的新王。lmsys 社区官方发推表示，这项测试结果收集了 6k + 社区投票，并将 OpenAI 这次取得的进展描述为「令人难以置信的里程碑」。

单纯看排行榜的排名可能不够具有说服力，于是 lmsys 特意统计了总榜上前 25 名模型的 1v1 胜率。

可以看到，o1-preview 对所有模型的胜率都超过了 50%，对比 04-09 版 GPT-4-Turbo 的胜率最高，达到了 88%。

o1-mini 如果对战 o1-preview，胜率为 46%，对 09-03 版 GPT-4o 的胜率为 48%，可以说是大体平手、稍逊一筹的状态。

值得注意的是，虽然 Grok-2-mini 和 Claude 3.5 Sonnet 都排在比较靠后的位置，但 o1-preview 对这两个模型的胜率并不高，分别是 58% 和 57%，大大小于排名第四的 Gemini 1.5 Pro 的 69%。

如果看到细分领域的排行榜，尤其是数学 / 推理领域，效果则更加惊艳。o1-preview 和 o1-mini 不仅是登顶数学排行榜，而且是体现出了绝对的领先优势。

排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的均分都在 1275 左右，不相上下；o1-preview 和 o1-mini 则一骑绝尘，分数飙到 1360 附近，直接碾压。

o1 推理团队的领导者之一 William Fedus 看到这张图也是相当开心，他表示这张图「很好地用视觉表达了范式转换」。

看来最新的 o1 模型在 STEM 学科和通用推理方面的确又达到了新高度，用实际测评结果回应了「AI 遇冷」、「OpenAI 碰壁」的质疑声。

「那就继续期待 OpenAI 接下来的发布吧！」

但一些人感叹「未来可期」的同时，另一些人想到了自己不多的智商和头发。

「模型搞得这么好了，测试就不适合我这种蠢人了。」

同时，也有一些人表达了对 lmsys 排行榜结果的质疑。

比如，众所周知的 o1 模型推理时间长，因而回答的延时也长，和其他模型都有明显差别；而且不同于各类基准测试的客观标准，lmsys 社区中完全基于用户的主观评分，难说这里面是否存在「安慰剂效应」。

也有人不服 o1 在编码排行榜上的第一，认为虽然 o1-mini 非常适合进行项目规划，但在 Cursor 这类编码助手中还是 Claude 模型的表现最佳。

排行榜的结果当然不是全部，o1 模型能否继续赢得口碑，同时保持住智力水平不变蠢，还要看接下来的一段时间。

IOI 金牌代码全公开

说到 o1 模型的编码能力，不知道你还是否记得，刚发布时 OpenAI 提到了这样一个指标：如果放宽提交约束到每个问题允许 1 万次提交，o1 可以达到高于 IOI 金牌门槛的分数。

在模拟进行的 Codeforces 编程竞赛中，使用相同的规则进行评估，o1-preview 可以打败 62% 的人类选手，正式版 o1 则上升到超越 89% 的对手。

专门微调过的 o1-ioi 模型，表现优于 93% 的竞争对手。

此外，前段时间有用户在实时的 Codeforces 比赛中使用了 o1 模型，结果是超越了 99.8% 的人类选手。

由于 o1 在编程竞赛领域的表现如此突出，引起了 AI 社区强烈的兴趣和好奇，OpenAI 于是选择发布 o1 模型提交的代码内容，包括 6 个问题的全部 C++ 代码以及注释。

发文的 yummy 是 o1 模型的核心贡献者 Alexander Wei

对于 o1 的惊艳表现，Alexander Wei 自己都很惊讶。

他本人在 9 年前曾参加 IOI 竞赛，但从未想到自己这么快就需要和 AI 竞争，模型展现出的推理过程的复杂程度令人印象深刻。

博文表示，虽然 o1 模型距离人类的顶级表现还有很长的一段路要走，但我们期待有一天能实现这个目标。

这个发展轨迹让人想起了 AlphaGo—— 从水平高超，到能和人类顶级高手不分胜负，再到 5-0 完全碾压李世石。

OpenAI 想要达成的，估计就是究极进化的、能在编程上碾压人类顶级高手的 AlphaZero。

此处公布代码的 6 个问题具体如下：

有网友指出，其中最令人印象深刻的应该是象形文字（hieroglyphs）问题，o1 模型总共得到 44 分，在现场的所有选手中排名第四。这表明，模型或许可以破译一些人类无法解决的子任务。

前几天，一位目前在 NASA 工作的天体物理学博士就尝试让 o1 复现自己论文中的代码，结果一试吓一跳 —— 自己读博时花了 1 年写出的代码，o1 只用了一小时就写完了。

这还只是裸模型，如果加上代码解释器、网络实时搜索等各种工具，效果想必更加惊艳。

而且，Reddit 网友还送来了温馨提示：这只是 o1 预览版哦，可以狠狠期待一下不到一个月就即将问世的正式版 o1 了。

此外，这位网友还表示，o1 基本沿用了 GPT-4 的架构；那你想，改换架构后的 GPT-5（也就是传说中的猎户座）能达到什么高度。

参考资料：

https://x.com/lmsysorg/status/1836443278033719631

https://codeforces.com/blog/entry/134091

本文链接：http://www.28at.com/showinfo-45-7502-0.htmlOpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： YouTube 将推出 AI“一站式服务”：可生成创意、标题、完整视频

下一篇：研究称生成式 AI 耗水量巨大：使用 GPT-4 生成 100 字文本需消耗 3 瓶水

标签：

热门焦点

在元宇宙卖酸奶，这波联动燃爆了！

来源：品牌头版或许，每个人心中都住着一个小馋孩。可能是童年时百吃不厌，觉得新奇又有趣的跳跳糖；可能是味道香甜，咬下一口嘎嘣脆的扁桃仁；还有可能，是某种不知为什么，就是很爱吃的
茅台的元宇宙App火了，也被骂惨了

元宇宙从概念走向大众生活，并不是一件简单的事情。技术、世界观、填充内容、载体形式，每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
避坑指南：远离具有这些特性的NFT

关于NFT，在我们的文章中一直以来都是常驻嘉宾，不止因为NFT背后隐藏的潜力，更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手，OpenSea、库里、ERC115、视觉中国、
网易音乐、理想申请元宇宙商标被驳回，“啫喱”暂停新用户进入

【《原神》开发商米哈游宣布创立元宇宙品牌】《原神》开发商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通过各种娱乐服务为全球玩家创造并提供沉浸式虚拟世界体
区块链产业人才发展报告

工业和信息化部作为工业和信息化行业主管部门，正在着力推进“两个强国”建设，加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
2022年6款最佳的NFT稀有度查询工具

NFT正在风靡全球，但拥有一个你自认为看起来很酷的 NFT 是不够的，因为它还应该是稀有的，稀有度会影响每个 NFT 的价值。因此，如果您打算投资 NFT，则需要使用 NFT 稀
元宇宙风归何处？

元宇宙持续大火，在过去一段时间内，其屡次登上热点，吸引了一波又一波投资者。近期，在“2022中国·金鱼嘴元宇宙生态赋能大会”上，南京建邺区金鱼嘴基金街区宣布计划
元宇宙收割了谁

作者：晓宇资本将元宇宙看作下一代互联网的门票，画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里，先是号称元宇宙第一股的沙盒游戏Roblox盛装
元宇宙专题二：GameFi 深度解析，元宇宙内容雏形显现

GameFi=Game（游戏）+DEFI（去中心化金融），核心特点为“Play to Earn”。通过技术与去中心化价值观赋能，GameFi 游戏资产化身为NFT 和代币上链，具备了可验证性和流通性；开

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一

在元宇宙卖酸奶，这波联动燃爆了！

茅台的元宇宙App火了，也被骂惨了

避坑指南：远离具有这些特性的NFT

网易音乐、理想申请元宇宙商标被驳回，“啫喱”暂停新用户进入

区块链产业人才发展报告

2022年6款最佳的NFT稀有度查询工具

元宇宙风归何处？

元宇宙收割了谁

元宇宙专题二：GameFi 深度解析，元宇宙内容雏形显现

最新推荐

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

在元宇宙卖酸奶，这波联动燃爆了！

高通成立欧洲XR实验室；ICICB计划进军元宇宙......

新款英特尔芯片将使NFT铸造变得更加方便

下一个黄金赛道？NFT的碎片化!

美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

猜你喜欢

热门推荐

相关资讯