当前位置:首页 > 元宇宙 > AI

初探 OpenAI GPT-4.1 性能:AI 编程能力大增,但谷歌 Gemini 依然称王

来源: 责编: 时间:2025-04-18 06:48:58 243观看
导读 4 月 16 日消息,科技媒体 bleepingcomputer 昨日(4 月 15 日)发布博文,报道称 OpenAI 最新发布的 GPT-4.1 系列模型,其性能相比 GPT-4o 虽然实现重大飞跃,但多项跑分未能超越谷歌的 Gemini 系列。昨日报道,OpenAI 公

4 月 16 日消息,科技媒体 bleepingcomputer 昨日(4 月 15 日)发布博文,报道称 OpenAI 最新发布的 GPT-4.1 系列模型,其性能相比 GPT-4o 虽然实现重大飞跃,但多项跑分未能超越谷歌的 Gemini 系列。gq328资讯网——每日最新资讯28at.com

昨日报道,OpenAI 公司发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,官方公布的跑分数据来看,这些模型在编程方面的能力,远超 GPT-4o 及 GPT-4o mini。gq328资讯网——每日最新资讯28at.com

例如在 SWE-bench Verified 跑分中,GPT-4o 的得分为 21.4%,GPT-4.5 的得分为 26.6%,而 GPT-4.1 的得分为 54.6%。gq328资讯网——每日最新资讯28at.com

gq328资讯网——每日最新资讯28at.com

尽管性能有较大提升,不过根据多位专家测试,相比较谷歌的 Gemini 系列,GPT-4.1 对比中却显露劣势。gq328资讯网——每日最新资讯28at.com

根据 Stagehand(一款生产级浏览器自动化框架)发布的基准数据,Gemini 2.0 Flash 的错误率仅为 6.67%,精确匹配率高达 90%,且价格低廉、速度更快。相比之下,GPT-4.1 的错误率高达 16.67%,成本更是 Gemini 2.0 Flash 的 10 倍以上。gq328资讯网——每日最新资讯28at.com

gq328资讯网——每日最新资讯28at.com

此外,哈佛大学 RNA 科学家 Pierre Bongrand 提供的数据也指出,GPT-4.1 的性价比不及 Gemini 2.0 Flash、Gemini 2.5 Pro 及 DeepSeek 等竞品。gq328资讯网——每日最新资讯28at.com

gq328资讯网——每日最新资讯28at.com

在编码专项测试中,GPT-4.1 同样未能占据上风。Aider Polyglot 的测试结果显示,GPT-4.1 的编码得分仅为 52%,而 Gemini 2.5 则以 73% 的成绩遥遥领先。gq328资讯网——每日最新资讯28at.com

gq328资讯网——每日最新资讯28at.com

值得注意的是,GPT-4.1 被归类为非推理模型(non-reasoning model),但其编码能力仍属行业顶尖。gq328资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12352-0.html初探 OpenAI GPT-4.1 性能:AI 编程能力大增,但谷歌 Gemini 依然称王

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 的 GPT - 4.1 无安全报告,AI 安全透明度再遭质疑

下一篇: 消息称苹果 watchOS 12 将引入 Apple Intelligence 功能,依赖 iPhone 运行模型

标签:
  • 热门焦点
  • 挖来Meta AR高管,难道苹果也要进军元宇宙?

    “被曝光”的才是最吸引人的产品,相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片,往远了说有“折叠屏iP
  • 中文在线的“元宇宙”故事,资本听腻了?

    被誉为“元宇宙”龙头之一的中文在线,这下尴尬了。2022年1月11日,中国移动通信联合会元宇宙产业委员会揭牌,接纳涉足“元宇宙”的8家上市公司,包括中青宝、天下秀
  • 字节觅《原神》,腾讯元宇宙,游戏新王战旧神?

    文 | 陈桥辉陈奕迅的《红玫瑰》中有一句歌词,“得不到的永远在骚动”,这句话用到如今国内头部游戏平台再合适不过。随着《原神》的异军突起,使得头部游戏大厂感受
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 就业年龄歧视如何解决?来Web3看看

    上周,我突然想到我的第一份工作实际上是在为一家失败的航空公司制定破产退出计划,那年我们的协议实习生刚出生。在一阵恐慌后,我又花了一点时间反思我这个拥有近1
  • 为什么元宇宙将永远改变体育和你的生活?

    自从Facebook更名为Meta以来,Metaverse这个词已经被大家所熟知。但是当Metaverse仍然被许多人视为一个虚拟的平行世界时,一些项目已经显示出Metaverse将如何永远
  • 盘点9个主流元宇宙平台,你都知道哪些?

    随着NFT的持续升温,它也加入了现在的元宇宙浪潮。本文介绍元宇宙的基本概念以及 九个最流行的元宇宙NFT平台,如Decentraland、sandbox等。用熟悉的语言学习 以太
  • 我们为什么需要Web3,距离Web3的实现还有多远?

    当今技术正在经历着重要的变革,许多公司正在改变他们的经营模式以求变得更加的灵活,其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3,
Top