当前位置:首页 > 科技  > 网络

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

来源: 责编: 时间:2024-09-14 09:10:51 35观看
导读 说实话,有点受不了这些公司,老是半夜丢个大的了。尤其点名 OpenAI ,这回又毫无预告地发布了那个大家惦记了很久的新模型。之前说什么草莓不草莓的,一张草莓的照片遛了大家好几天结果,这回新模型根本跟草莓毛关系

说实话,有点受不了这些公司,老是半夜丢个大的了。B2M28资讯网——每日最新资讯28at.com

尤其点名 OpenAI ,这回又毫无预告地发布了那个大家惦记了很久的新模型。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧之前说什么草莓不草莓的,一张草莓的照片遛了大家好几天B2M28资讯网——每日最新资讯28at.com

结果,这回新模型根本跟草莓毛关系没有,而是起了一个全新的名字OpenAI o1 模型B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

这玩意已经号称 openAI 的天顶星科技,奥特曼直接发帖明说了,这就是他们到现在为止强、一致的模型。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

跟往次不同的是,这玩意到底多牛 OpenAI 实际也没多吹,但是轻飘飘甩出了几张图,就有点让人头皮微麻。B2M28资讯网——每日最新资讯28at.com

像下面的图里,三个测试项目的结果就能说明了,分别是国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题。B2M28资讯网——每日最新资讯28at.com

这里面左边为 GPT-4o ,中间是目前已经开放了的预览版 o1 ,右边高高的红色柱子为满血 o1 。B2M28资讯网——每日最新资讯28at.com

你瞅瞅,基本每一项, o1 比起自己的前辈来说,都是接近 8 倍的提升。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

要是把这些测试结果拆开来,这新 o1 也几乎是在各种学科、各种领域,都全量、全面、全方位地超越 4o 。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

真正可怕的是, OpenAI 说自己专门请了博士专家一起答题。B2M28资讯网——每日最新资讯28at.com

结果在博士级别的测试结果上,我们看到 o1 答题分数均超过了博士专家。o1 得分 78 ,人类得分 69.7 。B2M28资讯网——每日最新资讯28at.com

连博士都输了,那我和它比算什么?B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

敏感的网友们,直接就炸了呀,又开始喊着,新的神已经出现。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

随便一翻,都是带着【  】字的超高评价,什么 “ 简直太棒了! ” 、 “ 接近人类推理的东西 ” B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

甚至有不少差友跑到咱们后台,感慨 o1 你小子确实有点东西啊。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

听起来是不是很牛逼?OpenAI 他们自己很显然也是这么觉着的B2M28资讯网——每日最新资讯28at.com

具体 OpenAI 在它上面花了多少钱还没公布,但从用户使用上,就能明显看到这玩意多耗钱了。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧o1 预览版每百万输入 15 美元,每百万输出 60 美元B2M28资讯网——每日最新资讯28at.com

这次对用户开放的甚至不是满血版本,就是一个早期的预览版和一个小型阉割版。B2M28资讯网——每日最新资讯28at.com

哪怕只是抢先尝鲜,不仅不免费,哪怕你掏钱开了会员,也卡你问答次数。B2M28资讯网——每日最新资讯28at.com

预览版每周只有 30 条, mini 每周只有 50 条。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

虽然有点贵,但我们肯定不可能让 OpenAI 吹什么就是什么。B2M28资讯网——每日最新资讯28at.com

他们不是说超过博士了吗?我就冲了几个账号,去找了几个博士来亲测了一下B2M28资讯网——每日最新资讯28at.com

为了保证专业性和客观性,我们专门邀请了理综三科的博士参与测评,有生物学、固体物理学、材料化学等等。B2M28资讯网——每日最新资讯28at.com

其中,南京大学在读的固体物理学崔博士给出的评价,算是几个人里高的。他觉得 o1 已经达到了 60 - 80 分( 满分 100 )的水平。B2M28资讯网——每日最新资讯28at.com

甚至,部分回答也可以给到 90 分。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

崔博士给的第一个问题:远距离纠缠光子分发,有什么克服白噪声的办法?B2M28资讯网——每日最新资讯28at.com

大概 9 秒钟左右, o1 就给出了 10 点可行的措施。B2M28资讯网——每日最新资讯28at.com

当然了,没一个点是我看得明白的。B2M28资讯网——每日最新资讯28at.com

不过,崔博士的评价还可以:答案列举全面,符合现有的新研究进展,属于科普级别的答案。B2M28资讯网——每日最新资讯28at.com

其中,提到的自适应光学的方向甚至是今年新的 science 成果。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

和老版 4o 一比,马上高下立判了。B2M28资讯网——每日最新资讯28at.com

就别说新方向提没提到,光是给出的措施数量上,就差了不少B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

于是后面,我们就专门对自适应光学这个船新方向进行了追问:利用了量子纠缠的什么原理来提高信噪比?能否拓展到量子自适应光学?B2M28资讯网——每日最新资讯28at.com

几轮答案之后,崔博士给出了 80 - 90 分的高分,还大方地和我承认,部分思考是他的薄弱点,对他的方向有提示作用。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

不过,后续我们再深入追问之后,它问题就暴露出来了。B2M28资讯网——每日最新资讯28at.com

当追问到更难的实验细节部分, o1 的回答效果就会降低。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

但总体来说,在物理方面, o1 的表现算是不错的。和老版比下来,提升基本在 20 分左右。B2M28资讯网——每日最新资讯28at.com

不过,在 OpenAI 的测试里,物理本来就是分数高的。B2M28资讯网——每日最新资讯28at.com

所以我们又拉来一位北大在读材料化学的 K 博士,想对它评分低的化学,来几个狠问题。B2M28资讯网——每日最新资讯28at.com

K 博士围绕Fe-N4 问了一系列的问题, o1 给了很长的一串回答,为了精简篇幅我们这里只展示了部分问题和结果。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

整体测试之后, K 博士给出的评价也差不多:可能有研究生水平,但是深入的认知和给方案的能力,比较虚,主要还是针对已知内容作答。B2M28资讯网——每日最新资讯28at.com

比如问到如何调节 Fe-N4 , o1 可以说出基于电子态调节,但你要是问它那该咋调节,它就有点卡壳了。B2M28资讯网——每日最新资讯28at.com

虽然相比 gpt4o 没那么胡说八道,但具体的问题上他俩都给不了太多建议,老版是丧失细节乱说,新版能力有限就会词穷。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

除了这俩,理综三科那肯定也少不了生物。B2M28资讯网——每日最新资讯28at.com

我们还咨询了来自清华,在读生物学的信博士,他的问题是: “ 如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰? ” B2M28资讯网——每日最新资讯28at.com

虽然我听不懂,但是 o1 也给了一段非常长的回答,跟论文综述似的,后面还贴了参考文献。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

但出乎意料的是,当我们把这个回答交给信博士,人家看完就发现不对路了,而且是一眼丁真的问题。B2M28资讯网——每日最新资讯28at.com

倒不是这 AI 回答的全错,而是 AI 在参考文献里乱编,这论文压根不存在!B2M28资讯网——每日最新资讯28at.com

虽然编了,但也没完全编,总体来说人家清华博士还是觉得比之前的 AI 能强不少,起码理解能力是肉眼可见了,编也编的很像。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

不过,不同方向的博士评价有所区别,这或许也跟 o1 自己擅长的领域有关。B2M28资讯网——每日最新资讯28at.com

拿官方给出的理综分数来看,虽然 gpt4o 在生物学上的评分要比化学和物理高,但这回的 o1 就完全不一样。B2M28资讯网——每日最新资讯28at.com

o1 在物理上的分数达到了 92.8 ,已经远超其他两门学科,这或许就是崔博士对它比较看好的原因。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

总体而言,真要说到超越专业博士水平,博士们认为还得缓缓。B2M28资讯网——每日最新资讯28at.com

崔博士直言,在现实科研工作中,多数情况学者们都还得自己动手, AI 只能提供大致方向,因此花钱要这样的细致 AI 意义不大。B2M28资讯网——每日最新资讯28at.com

他更推荐本科生选择这个 AI ,要是硕博阶段,那这个 AI 的回答其实并不符合导师标准,组会上肯定要挨批。B2M28资讯网——每日最新资讯28at.com

清华的信博士也同样持这种看法,且不说 AI 的幻觉编造文献问题,就专业程度而言, AI 的回答也只能糊弄大同行,也就是同一大学科里面方向不同的人群;而在小同行,专业研究这个方向的人眼里, AI 的毛病还是非常明显的。B2M28资讯网——每日最新资讯28at.com

北大 K 博士则谈的更深入,他认为这个 AI 只能说在认知上有了硕士生的水平,但也只是作为一个缝补匠,谈不上说出什么创造性的成果。就创造性这一点来说, AI 是远远比不上硕博的水平的,这也是 AI 需要解决的重要问题。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

在博士们的评价里,我们似乎能抓到一个重点:o1 模型之所以相对更强,是因为他有了更高维的认知和思考模式。B2M28资讯网——每日最新资讯28at.com

这,也是 o1 本次更新的要点。我们在 OpenAI 官网找到了 Learning to Reason with LLMs 这篇文章,他们在文中表示,主要是他们用上了长思维链 (  CoT , Chain of thought  ) ,而不是传统的提示链( Prompt chain )。B2M28资讯网——每日最新资讯28at.com

第一眼看上去有点懵,说人话就是,这个大模型改变了以往那种你问我答的思考方式。B2M28资讯网——每日最新资讯28at.com

在以前的模式下,大模型的问答就跟下意识出答案一样,比如你问我天是啥颜色,这问题我想都不想,秒答蓝色。这实际上需要我本来就知道这个知识点,然后给你直接反应就完了。B2M28资讯网——每日最新资讯28at.com

但这个长思维链就相当于,我不仅要知道蓝色是个啥,还能自己推一遍为啥是蓝色,什么大气散射,光谱波长都要考虑进去。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

这就需要 AI 得有实打实的构建逻辑,推理论证的能力,换句话说,他不仅要长脑子,还要动脑子。B2M28资讯网——每日最新资讯28at.com

尽管思维链这个概念是 2022 年谷歌提出来的,但 OpenAI 这次是第一个实现的。B2M28资讯网——每日最新资讯28at.com

实操过程中,现在你与 o1 模型对话,除了收获答案,还可以看选择展开看他解答问题时的思维逻辑,他的思考是具象化的而不是黑盒。B2M28资讯网——每日最新资讯28at.com

比如我们拿崔博士提问的 “ 远距离纠缠光子分发,有什么克服白噪声的办法? ” 这一问题为例, o1 模型的思考过程如下:B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

不过,就像专业领域的问题它也会翻车一样,有些日常场景的简单题似乎也有可能难住它。B2M28资讯网——每日最新资讯28at.com

拿之前那个经典 9.11 和 9.8 比大小例子来说,小红书网友 @ 小水刚醒 就发现这玩意 “ 一上难度就崩溃……无限循环发疯般推思维链( CoT ) ” B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

我们编辑部自己评测时也发现了这个问题,不过当询问它为什么的时候,它也会马上反应过来自己推理出现了错误,然后再重新推导一番。B2M28资讯网——每日最新资讯28at.com

好好好,不愧是博士,善于发现错误是吧。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

整轮测试下来,不得不承认,它确实是大大提升了。士别三日,也的确应当刮目相看。B2M28资讯网——每日最新资讯28at.com

在效果上,也确实相比前代确实更好,而且长思维的应用,对未来 AI 发展都是好事。B2M28资讯网——每日最新资讯28at.com

但在几位博士轮番鞭打完以后,它的问题也暴露得挺明显的,在创造力等某些方面,还替代不了人类博士专家。B2M28资讯网——每日最新资讯28at.com

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧B2M28资讯网——每日最新资讯28at.com

不过 OpenAI 的研究人员 Noam Brown 透露,未来版本的 o1 将会思考几个小时、几天甚至几周,虽然这样烧钱会更多,但像在研发抗癌药这些任务上,这种花费也是值得的。B2M28资讯网——每日最新资讯28at.com

另外,差评君觉得 GPT o1 实现的思维链模式,也很有可能会像之前的 Transformer 架构、 DiT 架构那样,又会引领全世界的大模型的方向B2M28资讯网——每日最新资讯28at.com

所以说,通往 AGI 之路说近不近,但说远也不远,期待接下来各家的选手轮番登场了。B2M28资讯网——每日最新资讯28at.com


文章出处:差评

本文链接:http://www.28at.com/showinfo-17-113881-0.htmlOpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 专家喊话称不支持国足犹如无家可归引热议:子不嫌母丑

下一篇: 实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解

标签:
  • 热门焦点
Top