当前位置:首页 > 元宇宙 > AI

初探 OpenAI GPT-4.1 性能:AI 编程能力大增,但谷歌 Gemini 依然称王

来源: 责编: 时间:2025-04-18 06:48:58 175观看
导读 4 月 16 日消息,科技媒体 bleepingcomputer 昨日(4 月 15 日)发布博文,报道称 OpenAI 最新发布的 GPT-4.1 系列模型,其性能相比 GPT-4o 虽然实现重大飞跃,但多项跑分未能超越谷歌的 Gemini 系列。昨日报道,OpenAI 公

4 月 16 日消息,科技媒体 bleepingcomputer 昨日(4 月 15 日)发布博文,报道称 OpenAI 最新发布的 GPT-4.1 系列模型,其性能相比 GPT-4o 虽然实现重大飞跃,但多项跑分未能超越谷歌的 Gemini 系列。uZF28资讯网——每日最新资讯28at.com

昨日报道,OpenAI 公司发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,官方公布的跑分数据来看,这些模型在编程方面的能力,远超 GPT-4o 及 GPT-4o mini。uZF28资讯网——每日最新资讯28at.com

例如在 SWE-bench Verified 跑分中,GPT-4o 的得分为 21.4%,GPT-4.5 的得分为 26.6%,而 GPT-4.1 的得分为 54.6%。uZF28资讯网——每日最新资讯28at.com

uZF28资讯网——每日最新资讯28at.com

尽管性能有较大提升,不过根据多位专家测试,相比较谷歌的 Gemini 系列,GPT-4.1 对比中却显露劣势。uZF28资讯网——每日最新资讯28at.com

根据 Stagehand(一款生产级浏览器自动化框架)发布的基准数据,Gemini 2.0 Flash 的错误率仅为 6.67%,精确匹配率高达 90%,且价格低廉、速度更快。相比之下,GPT-4.1 的错误率高达 16.67%,成本更是 Gemini 2.0 Flash 的 10 倍以上。uZF28资讯网——每日最新资讯28at.com

uZF28资讯网——每日最新资讯28at.com

此外,哈佛大学 RNA 科学家 Pierre Bongrand 提供的数据也指出,GPT-4.1 的性价比不及 Gemini 2.0 Flash、Gemini 2.5 Pro 及 DeepSeek 等竞品。uZF28资讯网——每日最新资讯28at.com

uZF28资讯网——每日最新资讯28at.com

在编码专项测试中,GPT-4.1 同样未能占据上风。Aider Polyglot 的测试结果显示,GPT-4.1 的编码得分仅为 52%,而 Gemini 2.5 则以 73% 的成绩遥遥领先。uZF28资讯网——每日最新资讯28at.com

uZF28资讯网——每日最新资讯28at.com

值得注意的是,GPT-4.1 被归类为非推理模型(non-reasoning model),但其编码能力仍属行业顶尖。uZF28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12352-0.html初探 OpenAI GPT-4.1 性能:AI 编程能力大增,但谷歌 Gemini 依然称王

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 的 GPT - 4.1 无安全报告,AI 安全透明度再遭质疑

下一篇: 消息称苹果 watchOS 12 将引入 Apple Intelligence 功能,依赖 iPhone 运行模型

标签:
  • 热门焦点
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 字节觅《原神》,腾讯元宇宙,游戏新王战旧神?

    文 | 陈桥辉陈奕迅的《红玫瑰》中有一句歌词,“得不到的永远在骚动”,这句话用到如今国内头部游戏平台再合适不过。随着《原神》的异军突起,使得头部游戏大厂感受
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • 如何在元宇宙中建立品牌忠诚度

    Snoop Dogg、耐克、苏富比和普华永道都有什么共同点?他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
  • MR——元宇宙平台的下一代入口

    作为“元宇宙”的领头羊,Meta的一举一动都受到业内的高度关注。华尔街见闻提及,2月17日周四,Facebook母公司Meta在透露,其混合现实技术(MR)将在几年后实现,让人们对元
  • HTC Vive推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商

    今日热点:HTC Vive正式推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商北京蜂巢科技;面部追踪和眼动追踪是Quest下一版本的“重点”;索尼PSVR 2将推迟至2023
  • 初探元宇宙

    2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中,被称为“元宇宙”第一股后,Facebook更名为Meta, 引发全球范围内
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top