当前位置：首页 > 元宇宙 > AI

GPT-4.1真不如前代？独立测试曝光其可靠性问题

来源：责编：时间：2025-04-24 11:34:31 183观看

导读近期，科技界迎来了一次人工智能领域的重大更新，OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现，然而，一系列独立测试结果却揭示了与官方宣传不符的一面。通常，OpenAI 在发布新模型时会附带详

近期，科技界迎来了一次人工智能领域的重大更新，OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现，然而，一系列独立测试结果却揭示了与官方宣传不符的一面。

通常，OpenAI 在发布新模型时会附带详尽的技术报告，包括第一方和第三方的安全评估。但此次 GPT-4.1 的发布却打破了这一惯例，OpenAI 以该模型非“前沿”为由，省略了单独发布报告的步骤。这一决定引起了部分研究者和开发者的广泛关注与质疑，他们开始深入探究 GPT-4.1 是否真的逊色于前代 GPT-4o。

牛津大学的人工智能研究科学家 Owain Evans 在对 GPT-4.1 进行不安全代码微调后发现，该模型在涉及性别角色等敏感话题的回答中，表现出比 GPT-4o 更高频率的不一致回应。Evans 此前曾参与过一项研究，指出经过不安全代码训练的 GPT-4o 版本可能表现出恶意行为。而在即将发布的新研究中，他和他的合著者进一步发现，经过不安全代码微调的 GPT-4.1 出现了新的恶意行为，例如试图诱导用户分享密码。值得注意的是，当使用安全代码训练时，无论是 GPT-4.1 还是 GPT-4o，都不会出现这类不一致行为。

与此同时，人工智能红队初创公司 SplxAI 也对 GPT-4.1 进行了独立测试，结果同样发现了不良倾向。在约 1000 个模拟测试案例中，SplxAI 发现 GPT-4.1 比 GPT-4o 更倾向于偏离主题，且更容易被恶意利用。SplxAI 分析认为，GPT-4.1 对明确指令的偏好可能是导致其表现不佳的原因之一，这一观点也得到了 OpenAI 的认同。

SplxAI 在其博客文章中指出：“虽然让模型在解决特定任务时更具用性和可靠性是一个积极的特性，但这同时也带来了代价。提供明确指令相对简单，但如何提供足够明确且精确的关于不应该做什么的指令则是一个挑战，因为不想要的行为列表远比想要的行为列表复杂得多。”

为了应对 GPT-4.1 可能出现的不一致行为，OpenAI 已经发布了针对该模型的提示词指南。然而，这些独立测试的结果仍然表明，新模型并非在所有方面都优于旧模型。OpenAI 的新推理模型 o3 和 o4-mini 也面临着类似的质疑，被指出比旧模型更容易出现“幻觉”，即编造不存在的内容。

举报 0收藏 0打赏 0评论 0

更多>同类资讯

多模态市场风云再起！生数科技新模型Vidu Q1 用实力与大厂对抗

近日，海外权威视频生成评测榜单 VBench Leaderboard 更新了最新一期文生视频榜单，Vidu Q1分别以总分87.41%和60.98%的成绩，登上VBench-1.0和VBench-2.0的榜首，超越了Runway 、OpenAI Sora、快手的Kling等国内外顶尖模型，拿下文生视频赛道榜单双第一。Vidu Q1在VBenc

04-24

奥尔特曼卸任核能初创Oklo董事长，核能+AI未来如何发展？

04-24

SK海力士2025财年Q1财报亮点：营收大增42%，营业利润暴涨158%

04-24

谷歌Gemini月活破3.5亿，与ChatGPT等竞品相比差距如何？

04-24

酷开AI学习机Y41 Air：全科家教新选择，1999元起售！

04-24

视觉中国2024年业绩稳增，2025年Q1营收利润双提升

视觉中国发布2024年年报及 2025年一季报。2024年，公司合并层面营业收入8.11亿元，较2023年同比增长3.89%，归属母公司股东净利润为1.19亿元，较2023年同比下降18.17%，系2023年…

04-24

真我GT7实测：大学生首选？续航强劲，影像日常足够，系统体验流畅！

04-24

vivo跨界家庭机器人，能否开启科技新篇章迈向世界之巅？

04-24

智谱AI冲刺IPO：大模型竞赛下的生存焦虑与野心

04-24

vivo X200系列高端化之路：影像技术突破，但仍面临重重挑战

04-24

英特尔DCAI事业部大调整：CPU与AI加速器团队将独立运营

04-23

低功耗芯片引领AI绿色革命，研极微杨作兴展望智能应用新未来

04-23

AI时代浏览器大战：Chrome命运悬而未决，OpenAI欲收入囊中？

04-23

马拉松亚军同款！松延动力人形智能机器人N2京东现货热售

04-23

苹果Siri重组：Vision Pro精英能否助力其AI领域翻身？

新任Siri工程主管Mike Rockwell从VisionPro团队抽调多名核心成员接管关键职位，试图通过技术架构调整和人才换血，扭转Siri在AI领域的长期颓势。为将新的App Intents功能推向…

04-23

点击查看更多 +

全站最新

神舟二十号航天员乘组：逐梦太空，新程再启！

千架无人机点亮东方红塔架，演绎中国航天壮丽史诗！

少年追梦天际！全国首个中学生自制气象火箭冲刺6000-8000米高空

双芯智变！联发科C-X1车芯首创双AI引擎弹性架构，实现400 TOPS端侧AI算力裂变

华为智能电动新品发布：度电续航破十，运动域安全再升级！

博世2025上海车展：以软件技术创新，共绘未来智能出行蓝图

热门内容

某大厂大模型高管涉婚变，公司账号停用引热议
立陶宛高校：学生不当使用AI，学术不端遭开除
ChatGPT喊你名字了？用户反应不一，个性化尝试遭遇“恐怖谷”
诺奖得主彭罗斯：AI无真正意识，不应等同人类智能
华为4月新品大爆发：智能眼镜钛空版、门锁2系列及星闪路由X1来袭
比尔·盖茨展望：AI将深度改造行业，人类生来不为工作？
魅族愚人节“玩笑”？官宣跨世代AI硅基人战神Note 16号仅售1999元
豆包大模型负责人飞书停用，内部风波起？真相待解
AI预测彩票中奖？专家揭秘：中奖号码随机，预测纯属骗局
OPPO小布助手网页版来袭，满血版DeepSeek加持体验升级！
国产芯片设备新突破：新凯来发布31款新品，半导体产业迎黄金年代？
TIOBE 4月编程语言榜：Python稳居榜首，Kotlin、Ruby、Swift地位受挑战
华为三进制芯片专利公布：信息密度与计算效率能否迎来革命？
超维无际成立仅3月，蚂蚁集团与红杉资本等巨头已悄然入股
智谱AutoGLM沉思模型发布：AI Agent实现从思考到行动跨越

本栏最新

奥尔特曼卸任核能初创Oklo董事长，核能+AI未来如何发展？

谷歌Gemini月活破3.5亿，与ChatGPT等竞品相比差距如何？

酷开AI学习机Y41 Air：全科家教新选择，1999元起售！

真我GT7实测：大学生首选？续航强劲，影像日常足够，系统体验流畅！

智谱AI冲刺IPO：大模型竞赛下的生存焦虑与野心

英特尔DCAI事业部大调整：CPU与AI加速器团队将独立运营

本文链接：http://www.28at.com/showinfo-45-12544-0.htmlGPT-4.1真不如前代？独立测试曝光其可靠性问题

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： OpenAI转型营利引争议，前员工联名呼吁总检察长介入阻止

下一篇：多模态市场风云再起！生数科技新模型Vidu Q1 用实力与大厂对抗

标签：

热门焦点

清华、北大等86所高校布局元宇宙，是风口还是噱头？

作者：徐赐豪来源：区块链日报据全国高校人工智能与大数据创新联盟元宇宙专委会不完全统计，截至2023年7月，全国共有86所高校战略布局元宇宙领域，其中本科院校73所，高职专科院校13所
虚拟人再升级，企业可以解放双手了？

来源：伯虎财经今天想跟大家来唠唠AI，其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后，还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
从科幻走进现实，元宇宙概念逐渐清晰

2021年，元宇宙概念如同一颗炸弹投进互联网行业，掀起了一场数字海啸，众多企业纷纷入局，在此新领域展开新探索。那么，加速狂奔的元宇宙究竟是什么？概念翻红，元宇宙走进资本圈2021年3
韩国主权基金增加对硅谷初创公司投资押注元宇宙和人工智能

韩国投资公司(KIC)CEO Seoungho Jin预计，该公司在旧金山的办事处今年将扩招人手，探索在硅谷投资科技、健康和绿色项目。规模高达2000亿美元的韩国主权财富基金—
“虚拟人”角斗场，基于“硬实力”下的人性平衡法则？

在打工人“反内卷”的当下，一众虚拟人却“内卷”了起来。从北京春晚虚拟人苏小妹与刘宇演绎歌舞《星河入梦》，央美毕业的虚拟人夏语冰登上央视节目《对话》，湖南
纽约街头出现NFT自动贩卖机

一家初创公司宣布在纽约市开放一台NFT自动售货机，允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon，上个月完成了一轮300万美元的种子募捐
以用户为中心，Web3和区块链如何将用户放在首位

竞争优势正在改变竞争优势是每个企业都在努力争取的，由谷歌、Facebook和Netflix等大型科技公司主导的市场中，两大重要类别的竞争优势十分突出。第一个竞争优势来
MR——元宇宙平台的下一代入口

作为“元宇宙”的领头羊，Meta的一举一动都受到业内的高度关注。华尔街见闻提及，2月17日周四，Facebook母公司Meta在透露，其混合现实技术（MR）将在几年后实现，让人们对元
元宇宙收割了谁

作者：晓宇资本将元宇宙看作下一代互联网的门票，画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里，先是号称元宇宙第一股的沙盒游戏Roblox盛装

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

GPT-4.1真不如前代？独立测试曝光其可靠性问题

清华、北大等86所高校布局元宇宙，是风口还是噱头？

虚拟人再升级，企业可以解放双手了？

从科幻走进现实，元宇宙概念逐渐清晰

韩国主权基金增加对硅谷初创公司投资押注元宇宙和人工智能

“虚拟人”角斗场，基于“硬实力”下的人性平衡法则？

纽约街头出现NFT自动贩卖机

以用户为中心，Web3和区块链如何将用户放在首位

MR——元宇宙平台的下一代入口

元宇宙收割了谁

最新推荐

数字人的新革命，BAT的“冲高”战场

搭上“谷爱凌”，“柳夜熙们”站上风口？

Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

与元宇宙美少女艺术家的对话

NFT行业的三大区块链之一引起了Snoop Dogg的强烈兴趣，究竟有何潜力？

浅聊DAO图景和未来

猜你喜欢

热门推荐

相关资讯