当前位置：首页 > 科技 > 网络

OpenAI并未让DeepSeek惊出一身冷汗

来源：责编：时间：2025-04-18 06:48:34 258观看

导读 “OpenAI的创新好像到瓶颈期了。”一位业界人士这样说道。今日凌晨，预热了很久的OpenAI o3模型完整版终于面世，且与以往直播“挤牙膏”式的依次、慢吞发布方式不同的是，这次o3和o4-mini是

“OpenAI的创新好像到瓶颈期了。”一位业界人士这样说道。

今日凌晨，预热了很久的OpenAI o3模型完整版终于面世，且与以往直播“挤牙膏”式的依次、慢吞发布方式不同的是，这次o3和o4-mini是同时发布。

在OpenAI官方的陈述中，o3和o4-mini的亮点主要在于可以组合调用ChatGPT中的各个工具，像是网络搜索、Python、图像分析、文件解释和图像生成等。这可以看作是OpenAI开始后发补足自身在Agent能力上的探索。

其中，o3作为推理模型，在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了纪录。比如在Codeforces、SWE-bench、MMMU基准测试中，视觉任务准确率高达87.5%，而MathVista达到75.4%。

其实分数、榜单，这些都是常规操作。相较于以往，这次的大不同在于，o3和o4-mini将上传的图像直接集中到思维链中，这就意味着，图像不仅仅是被看到，还能被用来作为思考过程中的一部分。

从OpenAI团队成员、中科大校友Jiahui Yu发布的帖文来看，“用图像思考”应该是OpenAI去年9月发布o系列模型以来，就在研发计划中，之前还悄悄推出了o1 Vision并进行了初步预览，但并没有取得很好的效果，也没有引起关注，直到这次在o3和o4-mini上实现了这一能力。

根据外部专家评估，o3作为o1系列模型的继任者，其在复杂问题上的错误率要比后者低20%，适合在生物学、数学和工程领域的复杂问题查询。

针对这一点，国外一位医学博士在测评后发帖表示，这一点确实有很大进步，当他向o3来提问一些颇具挑战性的临床或医学问题时，回答精准、全面，符合对一位该领域真正专家的期望。

对于那些想亲自测评、体验的用户来说，OpenAI官方已经表示，目前ChatGPT的Plus、Pro会员以及Team用户，即日起就可以直接体验o3、o4-mini，以及o4-mini-high，而之前的o1、o3-mini和o3-mini-high已默默退出舞台。这一操作也被有些网友戏称为“内部赛马”，新的产品出来后，之前的通通让路。

到目前为止，之前预告要发布的GPT?4.1全家桶系列、o3、o4-mini模型就已经全部亮相展示了。据Sam Altman表示，o3和o4-mini可能是ChatGPT在GPT-5发布之前的后独立AI推理模型了，期间大概率是不会再有其他新款模型出来了，另外他也说了，预计将在几周内将o3-pro升级到专业版。

在OpenAI官方的宣传口径中，o3和o4-mini是OpenAI所有模型中为强大、智能的模型，一些开发者、用户在使用时，也感受到了进步。但是，创新能力似乎并没有达到预期。

“OpenAI的步调已经不再挺胸阔步了，更不知所措。”在看完OpenAI这次发布的新品后，一位业内人士这样感叹道。

虽然o3、o4-mini模型作为新产品，效果不错，但相较于OpenAI以往的激进和高举旗帜式前进，如今在创新上面呈现出明显的心有余而力不足。

其实前两天在GPT4.1系列套餐发布后，不少业内人士就向虎嗅表示，“暂时还没看到有什么特别亮眼的突破。”“对o3期待值没有那么高。”

或者这种“失望”要来得更早一点。

去年12月，o3在OpenAI的系列直播尾声亮相，Sam Altman称其为“一个非常、非常聪明的模型”，完全将O1甩在身后，更是在ARC-AGI测试这一旨在评估AI系统适应新任务和展示流动智力能力的测试中，获得87.5%的成绩，也是首次超越人类平均水平（85%），令业界感到震惊，被认为是在通往AGI的道路上迎来了新突破。但在业界开发者看来，似乎并不是这样。

“这就好比高考成绩不能代表工作业务能力。”一位开源领域人士锐评道。而且，如今的行业趋势已经进入到对数据高要求、对Agent全适配方向中，这就意味着私有化和混合模型推理为主的时代到来了。但是OpenAI对于开源的态度，众所周知。

尤其是在年初，当DeepSeek-R1凭借着超低的训练成本和性能媲美o1精彩亮相时，无疑是给了OpenAI一记响亮的耳光，而DeepSeek的全方位、无死角开源，像是又给了OpenAI再一记更响亮的耳光。

之后，这两记耳光不仅打得OpenAI黯然失色，还乱了它的阵脚和节奏，模型命名混乱、功能创新不足、尝试开源但态度暧昧不明，再加上内部人员高频流失，等等，无疑正在让它慢慢失去竞争优势，再不复一年之前被视为通往AGI的正确的、领先的道路引领者角色……

而官方也说了，此次发布的GPT4.1系列、o3，以及o4-mini是GPT-5正式发布前的后一次模型发布了，也被视为GPT-5时刻的关键一步，可以理解为是GPT-5的前菜，主打“量大管饱”。但是，在技术的攀登道路上，量变能够引起质变并非唯一真理，更何况，这个量还远远不足。

“GPT-5应该是多个GPT4.1组成的吧。”一位业内人士这样戏谑道，一直传GPT-5或将在5月发布，到底OpenAI还能不能重回巅峰，只有到时候揭晓了。

OpenAI并未让DeepSeek惊出一身冷汗

文章出处：虎嗅网

本文链接：http://www.28at.com/showinfo-17-145040-0.htmlOpenAI并未让DeepSeek惊出一身冷汗

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： “反马斯克”情绪高涨特斯拉失守加州

下一篇：贾跃亭：再次被恶意做空者盯上将打赢梦想实现战

标签：

热门焦点

帅气纯真少年！日本最帅初中生选美冠军出炉

日本第一帅哥初一生选美大赛冠军现已正式出炉，冠军是来自千叶县的宗田悠良。日本一直热衷于各种选美大赛，从“最美JK”起到“最美女星&r
Automa-通过连接块来自动化你的浏览器

1、前言通过浏览器插件可实现自动化脚本的录制与编写，具有代表性的工具就是：Selenium IDE、Katalon Recorder，对于简单的业务来说可快速实现自动化的上手工作。Selenium IDEKat
Java NIO内存映射文件：提高文件读写效率的优秀实践！

Java的NIO库提供了内存映射文件的支持，它可以将文件映射到内存中，从而可以更快地读取和写入文件数据。本文将对Java内存映射文件进行详细的介绍和演示。内存映射文件概述内存
企业采用CRM系统的11个好处

客户关系管理（CRM）软件可以为企业提供很多的好处，从客户保留到提高生产力。　　CRM软件用于企业收集客户互动，以改善客户体验和满意度。　　CRM软件市场规模如今超过580
10天营收超1亿美元，《星铁》比《原神》差在哪？

来源：伯虎财经作者：陈平安即便你没玩过《原神》，你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天，有粉丝因为索尼在PS平台上线《原神》，怒而
网红炒股不为了赚钱，那就是耍流氓！

来源：首席商业评论6月26日高调宣布入市，网络名嘴大v胡锡进居然进军了股市。在一次财经媒体峰会上，几个财经圈媒体大佬就“胡锡进炒股是否知道认真报道”展开讨论。有
三星折叠屏手机去年销售近1000万台今年目标定为1500万

7月29日消息，三星率先发力可折叠手机市场，在全球市场已经取得了非常亮眼的成绩，接下来会进一步巩固和扩大这一优势。三星在推出Galaxy Z Flip5和Galax
三星推出Galaxy Tab S9系列平板电脑以及Galaxy Watch6系列智能手表

2023年7月26日，三星电子正式发布了Galaxy Z Flip5与Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板电脑以及三星Galaxy Watch6系列智能手表也同期
AMD的AI芯片转单给三星可能性不大与台积电已合作至2nm制程

据 DIGITIMES 消息，英伟达 AI GPU 出货逐季飙升，接下来 AMD MI 300 系列将在第 4 季底量产。而半导体业内人士表示，近日传出 AMD 的 AI 芯片将转单给

OpenAI并未让DeepSeek惊出一身冷汗

帅气纯真少年！日本最帅初中生选美冠军出炉

Automa-通过连接块来自动化你的浏览器

Java NIO内存映射文件：提高文件读写效率的优秀实践！

企业采用CRM系统的11个好处

10天营收超1亿美元，《星铁》比《原神》差在哪？

网红炒股不为了赚钱，那就是耍流氓！

三星折叠屏手机去年销售近1000万台今年目标定为1500万

三星推出Galaxy Tab S9系列平板电脑以及Galaxy Watch6系列智能手表

AMD的AI芯片转单给三星可能性不大与台积电已合作至2nm制程

最新推荐

猜你喜欢

热门推荐

相关资讯