当前位置：首页 > 元宇宙 > AI

陶哲轩提前实测满血版 OpenAI o1：能当研究生使唤

来源：责编：时间：2024-09-19 16:23:32 173观看

导读原来早在 8 月份，陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本（眼泪不争气地从嘴角流出来）。提前批大佬是怎么玩最新天花板的呢？他向 o1 模型提出一个措辞模糊的数学问题，发现它竟然能成功识别

原来早在 8 月份，陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本（眼泪不争气地从嘴角流出来）。

提前批大佬是怎么玩最新天花板的呢？

他向 o1 模型提出一个措辞模糊的数学问题，发现它竟然能成功识别出克莱姆定理。

而且答案是“完全令人满意的”那种。

当然，陶哲轩还做了一些其它测试，测下来总体体验就是：

比以前的模型更牛，多堆点提示词表现还不错，但仍然会犯不小的错误，也没有产生啥自己的思想。

陶哲轩是这样形容的：

这种感觉，就像给一个平庸无奇但又有点小能力的研究生提供建议。

不过，这已经比以前的模型有所改进，因为以前的模型的能力更接近于实际上不称职的研究生。

但如果给以前的模型加点助力，比如计算机代数包和证明辅助工具啥的，改进一两次，就能实现进一步迭代，摇身一变，成为“有能力的研究生”。

陶哲轩对使用体验的这个神奇比喻在 HackerNews 等多个平台引起了激烈讨论。

有网友愤愤：GPT 是什么 **！我承认 LLMs 对写代码有很大帮助，但事实上有一些非常好的工具可以帮助解决这一问题，例如代码片段、模板和代码生成器。

有人就用陶哲轩的话回应了他：

“任何聪明到足以以编程为生的人，智商都足以成为一个平平无奇但又小有能力的数学研究生。”

陶哲轩实测 ChatGPT vs o1

陶哲轩展示了他自己的三轮测试。

第一轮，用去年 3 月份测试 ChatGPT 的题目，要求大模型回答一个措辞含糊的数学问题，只要从文献中找出一个合适的定理（克莱姆法则）就能解决。

Say I have a positive measure whose closure(support) = some compact convex subset S. I convolve n times to get a measure on nS. Scale down by n, take log, divide by n, take the limit to get some rounded thing on S. Does it depend on the original measure?

当时，ChatGPT 倒是有模有样地回答了，期间还提到了一个高度相关的术语：对数矩生成函数，甚至在给出的答案中还讨论了一个具体的例子。不过不能注意细节，全是幻觉，而且答案也是错的。

这一次，同样有模有样，但相较之下更有条理（更长还有大小标题区分度）。

最重要的是，o1 成功找到了克莱姆定理，并给出了完全令人满意的答案。

ps，看记录，早在 8 月份陶哲轩就用上了 o1。

第二轮，上一点难度，挑战复杂分析研究生课程的一个问题。

（之前他用来测试 GPT-4 的，要求他来协助编写一个证明）

结果这次陶哲轩的结论是，是要比之前 GPT-4 好些，但仍有点失望。

如果提供大量的提示和鼓励，新模型可以通过自己的努力得到一个正确的（而且写得很好的）解决方案，但它自己并没有产生关键的概念想法，而且确实犯了一些非同小可的错误。

光看到这几轮提示交互，确实是有点不满意的。

也难怪陶哲轩代入自己，把调教 o1 像是在教一个平庸、但又不是完全不称职的研究生。

紧接着来第三轮测试，这一次是要求将质数定理的一种形式转化为 Lean 中的定理形式，方法是将其分解为若干个子问题分别描述，但不给出证明。

结果模型很好地理解了这个任务，并进行了合理的初步分解，不过代码中出现了几个小错误。

陶哲轩解释道，这是由于训练时缺乏有关 Lean 及其数学库的最新信息。

并表示，如果能专门针对 Lean 和 Mathlib 进行微调，并集成到一个 IDE 中，那应该会对公式化项目很有用。

在研究数学层面的实用性在增加

用大模型来搞研究，其实已经飞入寻常百姓家了。

一位账号名为 wenc 的网友分享了 ta 使用大模型来做研究的经历。

wenc 从事着运筹学相关的工作，而 OpenAI 的模型们，从 GPT 4o 开始，就吸收了足够多的运筹学数据，能够输出很多非常有用的混合整数规划（MIP）公式。

举个栗子：

给 4o 一个逻辑问题，如“我需要根据分数将 i 个项目放入 n 个桶中，但我想按顺序填充每个桶”，4o 会输出一个非常有用的数学公式。

通常情况下，只需要把公式微调一下就能完全搞定问题了。

此外，一些 prompt 太弱了的时候，4o 还会预警：这可能导致输出不尽如人意 —— 可以说对避免无效回答非常有用了。

回过头看咱还用不上大模型的时候，传统方法是需要大家在周末绞尽脑汁，试图找出有关 MIP 优化问题的无懈可击的公式。

对于非直观问题来说，这一点通常都令人头秃。

wenc 很坚定地表示，每月从 ChatGPT 上获得的价值，远远超出了 20 美元（每月订阅费用）。

一旦 GPT 在 Lean 上得到更多调整 —— 就像在 Python 上一样 —— 我预计它在研究数学层面的实用性会有提升。

wenc 还对那些抱怨 Claude 和 GPT 最新模型不好用的网友进行了分析：

不知道如何最大化自己的优势来使用大模型们；

把大模型想得无所不能，抱着“这玩意儿是解决一切的灵丹妙药”的期待；

大模型确实在他们的领域不适用。

wenc 在最后弱弱补了一句，很多抱怨的人，其实都是属于前两种啦～～～

陶哲轩回应争议

尽管大多数网友都觉得大模型能帮助自己省下许多功夫，还是有人对陶哲轩“调教大模型如同调教不咋靠谱的研究生”的言论，充满了疑惑和不解。

有网友在陶哲轩的 mathstodon 底下留言：

亲，也许你可以展开说说“研究生”这块不？

我理解一下子，你的意思是 o1 之前大模型放在 Lean 微调，再结合计算机代数包，那输出效果就可以媲美研究生水平？

简单点来说，这种情况下的大模型能够解决一些新发现的重要课题？

陶哲轩倒是很及时地回复了这条评论。

他表示，他正在考虑一个具体的指标，即“助手能够在专家数学家的指导下，协助完成复杂数学研究项目中的一个或多个具体任务”的程度。

一个有能力的研究生可以为这样的项目作出贡献，且这种贡献比“让学生加快项目进度并监督他们出了几成力”更有价值。

不过，即使使用最新的工具，让大模型输出正确且有用的回答，其实比输入精准 prompt 和验证结果都要难多了 —— 当然，这之间的差距并不是特别巨大，前者大概要难个 2-5 倍的样子。

陶哲轩表示自己有理由相信，未来几年内，这个差距会降低到 1 倍以内（其实有些特定子任务，比如语义搜索、数据格式化或生成数字代码以协助数学研究探索，这个比率已经低于 1 了）。

他视“差距降到 1 倍以内”为数学领域将更广泛采用这些的转折点。

至于“研究生水平”嘛 ——

陶哲轩表示，自己这么说，只是为了方便大家感知啦！

虽然大模型可以协助研究人员完成当前的项目，但培养研究生的目的，是为了以后有更多的下一代独立研究者。

“我无意暗示研究生学习的各个方面，与数学中 AI 辅助的各个方面之间存在一一对应的关系。”

One More Thing

最后，分享一则陶哲轩这个话题下，我们发现网友讨论出的、呼声挺高的一个结论 ——

虽然很难量化学会用大模型到底省了多少时间，但随着一个人提示词工程能力的提升，大伙儿能用更少的时间得到更好的效果。

但是！

显而易见，大模型的价值是因人而异的，它几乎取决于每个人的提示词水平。

呃，羞愧中……

不说了，过什么中秋节假期，咱这就去精进自己的 prompt 技巧去！

参考链接：

[1]https://mathstodon.xyz/@tao/113132502735585408

[2]https://news.ycombinator.com/item?id=41540902

[3]https://mathstodon.xyz/@tao/109948249160170335

本文来自微信公众号：量子位（ID：QbitAI），作者：白小交衡宇

本文链接：http://www.28at.com/showinfo-45-7486-0.html陶哲轩提前实测满血版 OpenAI o1：能当研究生使唤

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：消息称字节跳动计划与台积电合作，2026 年前量产两款自主设计 AI 芯片

下一篇：专家警告：AI 能耗巨大，加剧气候危机

标签：

热门焦点

“任何国产元宇宙都是假元宇宙”

上个月，华语乐坛的优质偶像之一，DOTA2资深玩家林俊杰，在国外元宇宙产品分布式大陆(Decentraland)上买了三块虚拟地产，花了12.3万美元（也就是人民币接近80万）。截至目
传腾讯已推出全新XR业务；摩托罗拉正打造5GXR颈戴式计算组件

今日热点：传腾讯已推出全新XR业务；摩托罗拉与Verizon合作打造5G XR颈戴式计算组件；小米AR购物导航专利获授权；VR一体机Simula One放弃众筹并开放直接预订；VR游戏《
上海虹口成立10亿元元宇宙基金，香港首只元宇宙ETF拟上市

区块链日报17日讯今日《元宇宙新鲜事》有：上海虹口将成立总额约10亿元的元宇宙产业基金；香港市场首只元宇宙主题ETF拟于2月21日上市；元宇宙平台Roblox出现违禁游
纽约街头出现NFT自动贩卖机

一家初创公司宣布在纽约市开放一台NFT自动售货机，允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon，上个月完成了一轮300万美元的种子募捐
虚拟数字人：元宇宙的主角破圈而来

虚拟数字人市场逐步进入成熟期，商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生，虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破，制
NFT也有黄牛？这家公司专门对付外挂作弊机器人

澳大利亚前总理马尔科姆·特恩布尔 (Malcolm Turnbull) 是支持萨姆·Crowther (Sam Crowther) 的人之一，Sam是一名出生于纽卡斯尔的黑客，他的职业生涯始于为国防
扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

前身为Facebook的Meta公司今天展示了一个人工智能系统的Demo，该系统使人们能够通过语音命令生成或导入虚拟世界中的事物。该公司认为这个被称为 "Builder Bot "
美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

今天，Billboard宣布与流行的NFT头像集World of Women（WoW）建立新的伙伴关系，向NFT生态系统又迈进了一步。在这次合作中，WoW的创建者Yam Karkai将帮助这个音乐行业巨
从概念到落地 Web3.0初具雏形

加密资产热潮催生出的链上应用中，除了DeFi、NFT、链游GameFi等场景外，还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年，由以太坊联合创始人及波卡创建者

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

陶哲轩提前实测满血版 OpenAI o1：能当研究生使唤

“任何国产元宇宙都是假元宇宙”

传腾讯已推出全新XR业务；摩托罗拉正打造5GXR颈戴式计算组件

上海虹口成立10亿元元宇宙基金，香港首只元宇宙ETF拟上市

纽约街头出现NFT自动贩卖机

虚拟数字人：元宇宙的主角破圈而来

NFT也有黄牛？这家公司专门对付外挂作弊机器人

扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

从概念到落地 Web3.0初具雏形

最新推荐

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

FMIFAwards奖项即将揭晓！

一个视频涨粉百万，柳夜熙们能成为元宇宙的“船票”吗？

NFT 技术将传世之作带入博物馆

顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

NFT行业周报：NBA巨星勒布朗·詹姆斯申请NFT相关商标

猜你喜欢

热门推荐

相关资讯