当前位置:首页 > 科技  > 网络

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

来源: 责编: 时间:2024-09-14 09:10:51 192观看
导读 说实话,有点受不了这些公司,老是半夜丢个大的了。尤其点名 OpenAI ,这回又毫无预告地发布了那个大家惦记了很久的新模型。之前说什么草莓不草莓的,一张草莓的照片遛了大家好几天结果,这回新模型根本跟草莓毛关系

说实话,有点受不了这些公司,老是半夜丢个大的了。GNN28资讯网——每日最新资讯28at.com

尤其点名 OpenAI ,这回又毫无预告地发布了那个大家惦记了很久的新模型。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧之前说什么草莓不草莓的,一张草莓的照片遛了大家好几天GNN28资讯网——每日最新资讯28at.com

结果,这回新模型根本跟草莓毛关系没有,而是起了一个全新的名字OpenAI o1 模型GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

这玩意已经号称 openAI 的天顶星科技,奥特曼直接发帖明说了,这就是他们到现在为止强、一致的模型。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

跟往次不同的是,这玩意到底多牛 OpenAI 实际也没多吹,但是轻飘飘甩出了几张图,就有点让人头皮微麻。GNN28资讯网——每日最新资讯28at.com

像下面的图里,三个测试项目的结果就能说明了,分别是国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题。GNN28资讯网——每日最新资讯28at.com

这里面左边为 GPT-4o ,中间是目前已经开放了的预览版 o1 ,右边高高的红色柱子为满血 o1 。GNN28资讯网——每日最新资讯28at.com

你瞅瞅,基本每一项, o1 比起自己的前辈来说,都是接近 8 倍的提升。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

要是把这些测试结果拆开来,这新 o1 也几乎是在各种学科、各种领域,都全量、全面、全方位地超越 4o 。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

真正可怕的是, OpenAI 说自己专门请了博士专家一起答题。GNN28资讯网——每日最新资讯28at.com

结果在博士级别的测试结果上,我们看到 o1 答题分数均超过了博士专家。o1 得分 78 ,人类得分 69.7 。GNN28资讯网——每日最新资讯28at.com

连博士都输了,那我和它比算什么?GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

敏感的网友们,直接就炸了呀,又开始喊着,新的神已经出现。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

随便一翻,都是带着【  】字的超高评价,什么 “ 简直太棒了! ” 、 “ 接近人类推理的东西 ” GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

甚至有不少差友跑到咱们后台,感慨 o1 你小子确实有点东西啊。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

听起来是不是很牛逼?OpenAI 他们自己很显然也是这么觉着的GNN28资讯网——每日最新资讯28at.com

具体 OpenAI 在它上面花了多少钱还没公布,但从用户使用上,就能明显看到这玩意多耗钱了。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧o1 预览版每百万输入 15 美元,每百万输出 60 美元GNN28资讯网——每日最新资讯28at.com

这次对用户开放的甚至不是满血版本,就是一个早期的预览版和一个小型阉割版。GNN28资讯网——每日最新资讯28at.com

哪怕只是抢先尝鲜,不仅不免费,哪怕你掏钱开了会员,也卡你问答次数。GNN28资讯网——每日最新资讯28at.com

预览版每周只有 30 条, mini 每周只有 50 条。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

虽然有点贵,但我们肯定不可能让 OpenAI 吹什么就是什么。GNN28资讯网——每日最新资讯28at.com

他们不是说超过博士了吗?我就冲了几个账号,去找了几个博士来亲测了一下GNN28资讯网——每日最新资讯28at.com

为了保证专业性和客观性,我们专门邀请了理综三科的博士参与测评,有生物学、固体物理学、材料化学等等。GNN28资讯网——每日最新资讯28at.com

其中,南京大学在读的固体物理学崔博士给出的评价,算是几个人里高的。他觉得 o1 已经达到了 60 - 80 分( 满分 100 )的水平。GNN28资讯网——每日最新资讯28at.com

甚至,部分回答也可以给到 90 分。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

崔博士给的第一个问题:远距离纠缠光子分发,有什么克服白噪声的办法?GNN28资讯网——每日最新资讯28at.com

大概 9 秒钟左右, o1 就给出了 10 点可行的措施。GNN28资讯网——每日最新资讯28at.com

当然了,没一个点是我看得明白的。GNN28资讯网——每日最新资讯28at.com

不过,崔博士的评价还可以:答案列举全面,符合现有的新研究进展,属于科普级别的答案。GNN28资讯网——每日最新资讯28at.com

其中,提到的自适应光学的方向甚至是今年新的 science 成果。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

和老版 4o 一比,马上高下立判了。GNN28资讯网——每日最新资讯28at.com

就别说新方向提没提到,光是给出的措施数量上,就差了不少GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

于是后面,我们就专门对自适应光学这个船新方向进行了追问:利用了量子纠缠的什么原理来提高信噪比?能否拓展到量子自适应光学?GNN28资讯网——每日最新资讯28at.com

几轮答案之后,崔博士给出了 80 - 90 分的高分,还大方地和我承认,部分思考是他的薄弱点,对他的方向有提示作用。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

不过,后续我们再深入追问之后,它问题就暴露出来了。GNN28资讯网——每日最新资讯28at.com

当追问到更难的实验细节部分, o1 的回答效果就会降低。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

但总体来说,在物理方面, o1 的表现算是不错的。和老版比下来,提升基本在 20 分左右。GNN28资讯网——每日最新资讯28at.com

不过,在 OpenAI 的测试里,物理本来就是分数高的。GNN28资讯网——每日最新资讯28at.com

所以我们又拉来一位北大在读材料化学的 K 博士,想对它评分低的化学,来几个狠问题。GNN28资讯网——每日最新资讯28at.com

K 博士围绕Fe-N4 问了一系列的问题, o1 给了很长的一串回答,为了精简篇幅我们这里只展示了部分问题和结果。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

整体测试之后, K 博士给出的评价也差不多:可能有研究生水平,但是深入的认知和给方案的能力,比较虚,主要还是针对已知内容作答。GNN28资讯网——每日最新资讯28at.com

比如问到如何调节 Fe-N4 , o1 可以说出基于电子态调节,但你要是问它那该咋调节,它就有点卡壳了。GNN28资讯网——每日最新资讯28at.com

虽然相比 gpt4o 没那么胡说八道,但具体的问题上他俩都给不了太多建议,老版是丧失细节乱说,新版能力有限就会词穷。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

除了这俩,理综三科那肯定也少不了生物。GNN28资讯网——每日最新资讯28at.com

我们还咨询了来自清华,在读生物学的信博士,他的问题是: “ 如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰? ” GNN28资讯网——每日最新资讯28at.com

虽然我听不懂,但是 o1 也给了一段非常长的回答,跟论文综述似的,后面还贴了参考文献。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

但出乎意料的是,当我们把这个回答交给信博士,人家看完就发现不对路了,而且是一眼丁真的问题。GNN28资讯网——每日最新资讯28at.com

倒不是这 AI 回答的全错,而是 AI 在参考文献里乱编,这论文压根不存在!GNN28资讯网——每日最新资讯28at.com

虽然编了,但也没完全编,总体来说人家清华博士还是觉得比之前的 AI 能强不少,起码理解能力是肉眼可见了,编也编的很像。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

不过,不同方向的博士评价有所区别,这或许也跟 o1 自己擅长的领域有关。GNN28资讯网——每日最新资讯28at.com

拿官方给出的理综分数来看,虽然 gpt4o 在生物学上的评分要比化学和物理高,但这回的 o1 就完全不一样。GNN28资讯网——每日最新资讯28at.com

o1 在物理上的分数达到了 92.8 ,已经远超其他两门学科,这或许就是崔博士对它比较看好的原因。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

总体而言,真要说到超越专业博士水平,博士们认为还得缓缓。GNN28资讯网——每日最新资讯28at.com

崔博士直言,在现实科研工作中,多数情况学者们都还得自己动手, AI 只能提供大致方向,因此花钱要这样的细致 AI 意义不大。GNN28资讯网——每日最新资讯28at.com

他更推荐本科生选择这个 AI ,要是硕博阶段,那这个 AI 的回答其实并不符合导师标准,组会上肯定要挨批。GNN28资讯网——每日最新资讯28at.com

清华的信博士也同样持这种看法,且不说 AI 的幻觉编造文献问题,就专业程度而言, AI 的回答也只能糊弄大同行,也就是同一大学科里面方向不同的人群;而在小同行,专业研究这个方向的人眼里, AI 的毛病还是非常明显的。GNN28资讯网——每日最新资讯28at.com

北大 K 博士则谈的更深入,他认为这个 AI 只能说在认知上有了硕士生的水平,但也只是作为一个缝补匠,谈不上说出什么创造性的成果。就创造性这一点来说, AI 是远远比不上硕博的水平的,这也是 AI 需要解决的重要问题。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

在博士们的评价里,我们似乎能抓到一个重点:o1 模型之所以相对更强,是因为他有了更高维的认知和思考模式。GNN28资讯网——每日最新资讯28at.com

这,也是 o1 本次更新的要点。我们在 OpenAI 官网找到了 Learning to Reason with LLMs 这篇文章,他们在文中表示,主要是他们用上了长思维链 (  CoT , Chain of thought  ) ,而不是传统的提示链( Prompt chain )。GNN28资讯网——每日最新资讯28at.com

第一眼看上去有点懵,说人话就是,这个大模型改变了以往那种你问我答的思考方式。GNN28资讯网——每日最新资讯28at.com

在以前的模式下,大模型的问答就跟下意识出答案一样,比如你问我天是啥颜色,这问题我想都不想,秒答蓝色。这实际上需要我本来就知道这个知识点,然后给你直接反应就完了。GNN28资讯网——每日最新资讯28at.com

但这个长思维链就相当于,我不仅要知道蓝色是个啥,还能自己推一遍为啥是蓝色,什么大气散射,光谱波长都要考虑进去。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

这就需要 AI 得有实打实的构建逻辑,推理论证的能力,换句话说,他不仅要长脑子,还要动脑子。GNN28资讯网——每日最新资讯28at.com

尽管思维链这个概念是 2022 年谷歌提出来的,但 OpenAI 这次是第一个实现的。GNN28资讯网——每日最新资讯28at.com

实操过程中,现在你与 o1 模型对话,除了收获答案,还可以看选择展开看他解答问题时的思维逻辑,他的思考是具象化的而不是黑盒。GNN28资讯网——每日最新资讯28at.com

比如我们拿崔博士提问的 “ 远距离纠缠光子分发,有什么克服白噪声的办法? ” 这一问题为例, o1 模型的思考过程如下:GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

不过,就像专业领域的问题它也会翻车一样,有些日常场景的简单题似乎也有可能难住它。GNN28资讯网——每日最新资讯28at.com

拿之前那个经典 9.11 和 9.8 比大小例子来说,小红书网友 @ 小水刚醒 就发现这玩意 “ 一上难度就崩溃……无限循环发疯般推思维链( CoT ) ” GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

我们编辑部自己评测时也发现了这个问题,不过当询问它为什么的时候,它也会马上反应过来自己推理出现了错误,然后再重新推导一番。GNN28资讯网——每日最新资讯28at.com

好好好,不愧是博士,善于发现错误是吧。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

整轮测试下来,不得不承认,它确实是大大提升了。士别三日,也的确应当刮目相看。GNN28资讯网——每日最新资讯28at.com

在效果上,也确实相比前代确实更好,而且长思维的应用,对未来 AI 发展都是好事。GNN28资讯网——每日最新资讯28at.com

但在几位博士轮番鞭打完以后,它的问题也暴露得挺明显的,在创造力等某些方面,还替代不了人类博士专家。GNN28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧GNN28资讯网——每日最新资讯28at.com

不过 OpenAI 的研究人员 Noam Brown 透露,未来版本的 o1 将会思考几个小时、几天甚至几周,虽然这样烧钱会更多,但像在研发抗癌药这些任务上,这种花费也是值得的。GNN28资讯网——每日最新资讯28at.com

另外,差评君觉得 GPT o1 实现的思维链模式,也很有可能会像之前的 Transformer 架构、 DiT 架构那样,又会引领全世界的大模型的方向GNN28资讯网——每日最新资讯28at.com

所以说,通往 AGI 之路说近不近,但说远也不远,期待接下来各家的选手轮番登场了。GNN28资讯网——每日最新资讯28at.com


文章出处:差评

本文链接:http://www.28at.com/showinfo-17-113881-0.htmlOpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 专家喊话称不支持国足犹如无家可归引热议:子不嫌母丑

下一篇: 实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解

标签:
  • 热门焦点
  • 7月安卓手机性能榜:红魔8S Pro再夺榜首

    7月份的手机市场风平浪静,除了红魔和努比亚带来了两款搭载骁龙8Gen2领先版处理器的新机之外,别的也想不到有什么新品了,这也正常,通常6月7月都是手机厂商修整的时间,进入8月份之
  • 5月安卓手机好评榜:魅族20 Pro夺冠

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年5月1日至5月31日,仅限国内市场。第一名:魅族20 Pro好评率:97.50%不得不感慨魅族老品牌还
  • 线程通讯的三种方法!通俗易懂

    线程通信是指多个线程之间通过某种机制进行协调和交互,例如,线程等待和通知机制就是线程通讯的主要手段之一。 在 Java 中,线程等待和通知的实现手段有以下几种方式:Object 类下
  • 之家push系统迭代之路

    前言在这个信息爆炸的互联网时代,能够及时准确获取信息是当今社会要解决的关键问题之一。随着之家用户体量和内容规模的不断增大,传统的靠"主动拉"获取信息的方式已不能满足用
  • 谷歌KDD'23工作:如何提升推荐系统Ranking模型训练稳定性

    谷歌在KDD 2023发表了一篇工作,探索了推荐系统ranking模型的训练稳定性问题,分析了造成训练稳定性存在问题的潜在原因,以及现有的一些提升模型稳定性方法的不足,并提出了一种新
  • 重估百度丨“晚熟”的百度云,能等到春天吗?

    ©自象限原创作者|程心排版|王喻可2016年7月13日,百度云计算战略发布会在北京举行,宣告着百度智能云的正式启程。彼时的会场座无虚席,甚至排队排到了门外,在场的所有人几乎都
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 小米MIX Fold 3下月亮相:今年唯一无短板的全能折叠屏

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都有新的进展,其中荣耀、三星都已陆续发布了最新的折叠屏旗舰,尤其号荣耀Magi
  • 苹果公司要求三星和LG Display生产「无边框」OLED iPhone显示屏

    据 The Elec 报道,苹果已要求其供应商为未来的 iPhone 型号开发「无边框」OLED 显示面板。苹果显然已要求三星和 LG Display 开发新的 OLED 显示面
Top