当前位置:首页 > 元宇宙 > AI

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一

来源: 责编: 时间:2024-09-23 08:51:44 237观看
导读 o1 模型发布 1 周,lmsys 的 6k + 投票就将 o1-preview 送上了排行榜榜首。同时,为了满足大家对模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1,终于迎来了

o1 模型发布 1 周,lmsys 的 6k + 投票就将 o1-preview 送上了排行榜榜首。同时,为了满足大家对模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 测评时提交的所有代码。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

万众瞩目的最新模型 OpenAI o1,终于迎来了 lmsys 竞技场的测评结果。不出意外,o1-preview 在各种领域绝对登顶,超过了最新版的 GPT-4o,在数学、困难提示和编码领域表现出色;VzX28资讯网——每日最新资讯28at.com

而 o1-mini 虽然名字中自带「mini」,但也和最新版的 GPT-4o 并列综合排名第二,困难提示、编码、数学等领域和 o1-preview 同样登顶第一。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

果然,o1 模型不愧是通用推理领域的新王。lmsys 社区官方发推表示,这项测试结果收集了 6k + 社区投票,并将 OpenAI 这次取得的进展描述为「令人难以置信的里程碑」。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

单纯看排行榜的排名可能不够具有说服力,于是 lmsys 特意统计了总榜上前 25 名模型的 1v1 胜率。VzX28资讯网——每日最新资讯28at.com

可以看到,o1-preview 对所有模型的胜率都超过了 50%,对比 04-09 版 GPT-4-Turbo 的胜率最高,达到了 88%。VzX28资讯网——每日最新资讯28at.com

o1-mini 如果对战 o1-preview,胜率为 46%,对 09-03 版 GPT-4o 的胜率为 48%,可以说是大体平手、稍逊一筹的状态。VzX28资讯网——每日最新资讯28at.com

值得注意的是,虽然 Grok-2-mini 和 Claude 3.5 Sonnet 都排在比较靠后的位置,但 o1-preview 对这两个模型的胜率并不高,分别是 58% 和 57%,大大小于排名第四的 Gemini 1.5 Pro 的 69%。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

如果看到细分领域的排行榜,尤其是数学 / 推理领域,效果则更加惊艳。o1-preview 和 o1-mini 不仅是登顶数学排行榜,而且是体现出了绝对的领先优势。VzX28资讯网——每日最新资讯28at.com

排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的均分都在 1275 左右,不相上下;o1-preview 和 o1-mini 则一骑绝尘,分数飙到 1360 附近,直接碾压。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

o1 推理团队的领导者之一 William Fedus 看到这张图也是相当开心,他表示这张图「很好地用视觉表达了范式转换」。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

看来最新的 o1 模型在 STEM 学科和通用推理方面的确又达到了新高度,用实际测评结果回应了「AI 遇冷」、「OpenAI 碰壁」的质疑声。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

「那就继续期待 OpenAI 接下来的发布吧!」VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

但一些人感叹「未来可期」的同时,另一些人想到了自己不多的智商和头发。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

「模型搞得这么好了,测试就不适合我这种蠢人了。」VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

同时,也有一些人表达了对 lmsys 排行榜结果的质疑。VzX28资讯网——每日最新资讯28at.com

比如,众所周知的 o1 模型推理时间长,因而回答的延时也长,和其他模型都有明显差别;而且不同于各类基准测试的客观标准,lmsys 社区中完全基于用户的主观评分,难说这里面是否存在「安慰剂效应」。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

也有人不服 o1 在编码排行榜上的第一,认为虽然 o1-mini 非常适合进行项目规划,但在 Cursor 这类编码助手中还是 Claude 模型的表现最佳。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

排行榜的结果当然不是全部,o1 模型能否继续赢得口碑,同时保持住智力水平不变蠢,还要看接下来的一段时间。VzX28资讯网——每日最新资讯28at.com

IOI 金牌代码全公开

说到 o1 模型的编码能力,不知道你还是否记得,刚发布时 OpenAI 提到了这样一个指标:如果放宽提交约束到每个问题允许 1 万次提交,o1 可以达到高于 IOI 金牌门槛的分数。VzX28资讯网——每日最新资讯28at.com

在模拟进行的 Codeforces 编程竞赛中,使用相同的规则进行评估,o1-preview 可以打败 62% 的人类选手,正式版 o1 则上升到超越 89% 的对手。VzX28资讯网——每日最新资讯28at.com

专门微调过的 o1-ioi 模型,表现优于 93% 的竞争对手。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

此外,前段时间有用户在实时的 Codeforces 比赛中使用了 o1 模型,结果是超越了 99.8% 的人类选手。VzX28资讯网——每日最新资讯28at.com

由于 o1 在编程竞赛领域的表现如此突出,引起了 AI 社区强烈的兴趣和好奇,OpenAI 于是选择发布 o1 模型提交的代码内容,包括 6 个问题的全部 C++ 代码以及注释。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

发文的 yummy 是 o1 模型的核心贡献者 Alexander Wei

对于 o1 的惊艳表现,Alexander Wei 自己都很惊讶。VzX28资讯网——每日最新资讯28at.com

他本人在 9 年前曾参加 IOI 竞赛,但从未想到自己这么快就需要和 AI 竞争,模型展现出的推理过程的复杂程度令人印象深刻。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

博文表示,虽然 o1 模型距离人类的顶级表现还有很长的一段路要走,但我们期待有一天能实现这个目标。VzX28资讯网——每日最新资讯28at.com

这个发展轨迹让人想起了 AlphaGo—— 从水平高超,到能和人类顶级高手不分胜负,再到 5-0 完全碾压李世石。VzX28资讯网——每日最新资讯28at.com

OpenAI 想要达成的,估计就是究极进化的、能在编程上碾压人类顶级高手的 AlphaZero。VzX28资讯网——每日最新资讯28at.com

此处公布代码的 6 个问题具体如下:VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

有网友指出,其中最令人印象深刻的应该是象形文字(hieroglyphs)问题,o1 模型总共得到 44 分,在现场的所有选手中排名第四。这表明,模型或许可以破译一些人类无法解决的子任务。VzX28资讯网——每日最新资讯28at.com

前几天,一位目前在 NASA 工作的天体物理学博士就尝试让 o1 复现自己论文中的代码,结果一试吓一跳 —— 自己读博时花了 1 年写出的代码,o1 只用了一小时就写完了。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

这还只是裸模型,如果加上代码解释器、网络实时搜索等各种工具,效果想必更加惊艳。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

而且,Reddit 网友还送来了温馨提示:这只是 o1 预览版哦,可以狠狠期待一下不到一个月就即将问世的正式版 o1 了。VzX28资讯网——每日最新资讯28at.com

VzX28资讯网——每日最新资讯28at.com

此外,这位网友还表示,o1 基本沿用了 GPT-4 的架构;那你想,改换架构后的 GPT-5(也就是传说中的猎户座)能达到什么高度。VzX28资讯网——每日最新资讯28at.com

参考资料:VzX28资讯网——每日最新资讯28at.com

https://x.com/lmsysorg/status/1836443278033719631VzX28资讯网——每日最新资讯28at.com

https://codeforces.com/blog/entry/134091VzX28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7502-0.htmlOpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: YouTube 将推出 AI“一站式服务”:可生成创意、标题、完整视频

下一篇: 研究称生成式 AI 耗水量巨大:使用 GPT-4 生成 100 字文本需消耗 3 瓶水

标签:
  • 热门焦点
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 字节、腾讯、网易鏖战元宇宙背后,大厂究竟在争夺什么?

    正当互联网商业踌躇不前,互联网大厂为了在存量中的增长挤破头皮之时,元宇宙的概念被资本点燃。先是Facebook更名Meta正式进军元宇宙,然后字节跳动收购了一家VR硬
  • 2022年中国元宇宙产业系列研究报告-基础设施篇(5)

    传感器是由敏感元件和转换元件构成,能够感受规定的检测量(物理量、化学量、生物量等),并按照一定规律将检测量转化成可用的输出信号的器件和装置,进而满足信息的
  • 《刀剑神域》VR展开幕;《Puzzling Places》发布第二个付费DLC

    今日热点:《刀剑神域:Ex-Chronicle Online Edition》VR展开幕;虚拟活动平台EventX再获800万美元B轮融资;VR射击游戏《Outlier》确认将于3月17日登陆Steam平台等。
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • 知识产权可能在元宇宙中“消失”?

    开篇老雅痞先来划重点:一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼,声称NFT侵犯了他们的知识产权。Inside
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
Top