当前位置:首页 > 科技  > 手机

GPT-4.1真不如前代?独立测试曝光其可靠性问题

来源: 责编: 时间:2025-04-24 11:34:16 160观看
导读近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。通常,OpenAI 在发布新模型时会附带详

近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。grw28资讯网——每日最新资讯28at.com

通常,OpenAI 在发布新模型时会附带详尽的技术报告,包括第一方和第三方的安全评估。但此次 GPT-4.1 的发布却打破了这一惯例,OpenAI 以该模型非“前沿”为由,省略了单独发布报告的步骤。这一决定引起了部分研究者和开发者的广泛关注与质疑,他们开始深入探究 GPT-4.1 是否真的逊色于前代 GPT-4o。grw28资讯网——每日最新资讯28at.com

牛津大学的人工智能研究科学家 Owain Evans 在对 GPT-4.1 进行不安全代码微调后发现,该模型在涉及性别角色等敏感话题的回答中,表现出比 GPT-4o 更高频率的不一致回应。Evans 此前曾参与过一项研究,指出经过不安全代码训练的 GPT-4o 版本可能表现出恶意行为。而在即将发布的新研究中,他和他的合著者进一步发现,经过不安全代码微调的 GPT-4.1 出现了新的恶意行为,例如试图诱导用户分享密码。值得注意的是,当使用安全代码训练时,无论是 GPT-4.1 还是 GPT-4o,都不会出现这类不一致行为。grw28资讯网——每日最新资讯28at.com

grw28资讯网——每日最新资讯28at.com

与此同时,人工智能红队初创公司 SplxAI 也对 GPT-4.1 进行了独立测试,结果同样发现了不良倾向。在约 1000 个模拟测试案例中,SplxAI 发现 GPT-4.1 比 GPT-4o 更倾向于偏离主题,且更容易被恶意利用。SplxAI 分析认为,GPT-4.1 对明确指令的偏好可能是导致其表现不佳的原因之一,这一观点也得到了 OpenAI 的认同。grw28资讯网——每日最新资讯28at.com

SplxAI 在其博客文章中指出:“虽然让模型在解决特定任务时更具用性和可靠性是一个积极的特性,但这同时也带来了代价。提供明确指令相对简单,但如何提供足够明确且精确的关于不应该做什么的指令则是一个挑战,因为不想要的行为列表远比想要的行为列表复杂得多。”grw28资讯网——每日最新资讯28at.com

为了应对 GPT-4.1 可能出现的不一致行为,OpenAI 已经发布了针对该模型的提示词指南。然而,这些独立测试的结果仍然表明,新模型并非在所有方面都优于旧模型。OpenAI 的新推理模型 o3 和 o4-mini 也面临着类似的质疑,被指出比旧模型更容易出现“幻觉”,即编造不存在的内容。grw28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-146847-0.htmlGPT-4.1真不如前代?独立测试曝光其可靠性问题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OPPO安卓平板OPD2417获3C认证,支持33W快充与15W反充

下一篇: 小米智能门锁领跑市场,线上线下双冠,高端市场亦夺冠!

标签:
  • 热门焦点
  • 官方承诺:K60至尊版将会首批升级MIUI 15

    全新的MIUI 15今天也有了消息,在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时,Redmi给出了官方承诺,K60至尊重大更新首批升级,会首批推送MIUI 15。也就是说虽然
  • 0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    旭日森林无糖仙草乌龙茶510ml*15瓶平时要卖为79.9元,今日下单领取50元优惠券,到手价为29.9元。产品规格:0糖0卡0脂,添加草本仙草汁,清凉爽口,富含茶多酚,保留
  • 让我们一起聊聊文件的操作

    文件【1】文件是什么?文件是保存数据的地方,是数据源的一种,比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据,它既可以保
  • 三万字盘点 Spring 九大核心基础功能

    大家好,我是三友~~今天来跟大家聊一聊Spring的9大核心基础功能。话不多说,先上目录:图片友情提示,本文过长,建议收藏,嘿嘿嘿!一、资源管理资源管理是Spring的一个核心的基础功能,不
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人员可能会涉及各种各样的安全任务,包括但不限于:开发某些安全工具的插件,满足自己特定的安全需求;自定义github搜索工具,快速查找所需的安全资料、漏洞poc、exp
  • Temu起诉SHEIN,跨境电商战事升级

    来源 | 伯虎财经(bohuFN)作者 | 陈平安日前据外媒报道,拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼,诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
  • 三星Galaxy Z Fold5官方渲染图曝光:13.4mm折叠厚度依旧感人

    据官方此前宣布,三星将于7月26日在韩国首尔举办Unpacked活动,届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy Z Flip 5、
  • 电博会与软博会实现"线下+云端"的双线融合

    在本次“电博会”与“软博会”双展会利好条件的加持下,既可以发挥展会拉动人流、信息流、资金流实现快速交互流动的作用,继而推动区域经济良性发展;又可以聚
Top