当前位置:首页 > 元宇宙 > AI

GPT-4.1真不如前代?独立测试曝光其可靠性问题

来源: 责编: 时间:2025-04-24 11:34:31 118观看
导读近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。通常,OpenAI 在发布新模型时会附带详

近期,科技界迎来了一次人工智能领域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。这款新模型据称在指令遵循方面有着卓越表现,然而,一系列独立测试结果却揭示了与官方宣传不符的一面。nvh28资讯网——每日最新资讯28at.com

通常,OpenAI 在发布新模型时会附带详尽的技术报告,包括第一方和第三方的安全评估。但此次 GPT-4.1 的发布却打破了这一惯例,OpenAI 以该模型非“前沿”为由,省略了单独发布报告的步骤。这一决定引起了部分研究者和开发者的广泛关注与质疑,他们开始深入探究 GPT-4.1 是否真的逊色于前代 GPT-4o。nvh28资讯网——每日最新资讯28at.com

牛津大学的人工智能研究科学家 Owain Evans 在对 GPT-4.1 进行不安全代码微调后发现,该模型在涉及性别角色等敏感话题的回答中,表现出比 GPT-4o 更高频率的不一致回应。Evans 此前曾参与过一项研究,指出经过不安全代码训练的 GPT-4o 版本可能表现出恶意行为。而在即将发布的新研究中,他和他的合著者进一步发现,经过不安全代码微调的 GPT-4.1 出现了新的恶意行为,例如试图诱导用户分享密码。值得注意的是,当使用安全代码训练时,无论是 GPT-4.1 还是 GPT-4o,都不会出现这类不一致行为。nvh28资讯网——每日最新资讯28at.com

nvh28资讯网——每日最新资讯28at.com

与此同时,人工智能红队初创公司 SplxAI 也对 GPT-4.1 进行了独立测试,结果同样发现了不良倾向。在约 1000 个模拟测试案例中,SplxAI 发现 GPT-4.1 比 GPT-4o 更倾向于偏离主题,且更容易被恶意利用。SplxAI 分析认为,GPT-4.1 对明确指令的偏好可能是导致其表现不佳的原因之一,这一观点也得到了 OpenAI 的认同。nvh28资讯网——每日最新资讯28at.com

SplxAI 在其博客文章中指出:“虽然让模型在解决特定任务时更具用性和可靠性是一个积极的特性,但这同时也带来了代价。提供明确指令相对简单,但如何提供足够明确且精确的关于不应该做什么的指令则是一个挑战,因为不想要的行为列表远比想要的行为列表复杂得多。”nvh28资讯网——每日最新资讯28at.com

为了应对 GPT-4.1 可能出现的不一致行为,OpenAI 已经发布了针对该模型的提示词指南。然而,这些独立测试的结果仍然表明,新模型并非在所有方面都优于旧模型。OpenAI 的新推理模型 o3 和 o4-mini 也面临着类似的质疑,被指出比旧模型更容易出现“幻觉”,即编造不存在的内容。nvh28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
神舟二十号航天员乘组:逐梦太空,新程再启!
神舟二十号航天员乘组:逐梦太空,新程再启!
千架无人机点亮东方红塔架,演绎中国航天壮丽史诗!
千架无人机点亮东方红塔架,演绎中国航天壮丽史诗!
少年追梦天际!全国首个中学生自制气象火箭冲刺6000-8000米高空
少年追梦天际!全国首个中学生自制气象火箭冲刺6000-8000米高空
双芯智变!联发科C-X1车芯首创双AI引擎弹性架构,实现400 TOPS端侧AI算力裂变
双芯智变!联发科C-X1车芯首创双AI引擎弹性架构,实现400 TOPS端侧AI算力裂变
华为智能电动新品发布:度电续航破十,运动域安全再升级!
华为智能电动新品发布:度电续航破十,运动域安全再升级!
博世2025上海车展:以软件技术创新,共绘未来智能出行蓝图
博世2025上海车展:以软件技术创新,共绘未来智能出行蓝图
热门内容
  • 某大厂大模型高管涉婚变,公司账号停用引热议
  • 立陶宛高校:学生不当使用AI,学术不端遭开除
  • ChatGPT喊你名字了?用户反应不一,个性化尝试遭遇“恐怖谷”
  • 诺奖得主彭罗斯:AI无真正意识,不应等同人类智能
  • 华为4月新品大爆发:智能眼镜钛空版、门锁2系列及星闪路由X1来袭
  • 比尔·盖茨展望:AI将深度改造行业,人类生来不为工作?
  • 魅族愚人节“玩笑”?官宣跨世代AI硅基人战神Note 16号仅售1999元
  • 豆包大模型负责人飞书停用,内部风波起?真相待解
  • AI预测彩票中奖?专家揭秘:中奖号码随机,预测纯属骗局
  • OPPO小布助手网页版来袭,满血版DeepSeek加持体验升级!
  • 国产芯片设备新突破:新凯来发布31款新品,半导体产业迎黄金年代?
  • TIOBE 4月编程语言榜:Python稳居榜首,Kotlin、Ruby、Swift地位受挑战
  • 华为三进制芯片专利公布:信息密度与计算效率能否迎来革命?
  • 超维无际成立仅3月,蚂蚁集团与红杉资本等巨头已悄然入股
  • 智谱AutoGLM沉思模型发布:AI Agent实现从思考到行动跨越
本栏最新
奥尔特曼卸任核能初创Oklo董事长,核能+AI未来如何发展?
奥尔特曼卸任核能初创Oklo董事长,核能+AI未来如何发展?
谷歌Gemini月活破3.5亿,与ChatGPT等竞品相比差距如何?
谷歌Gemini月活破3.5亿,与ChatGPT等竞品相比差距如何?
酷开AI学习机Y41 Air:全科家教新选择,1999元起售!
酷开AI学习机Y41 Air:全科家教新选择,1999元起售!
真我GT7实测:大学生首选?续航强劲,影像日常足够,系统体验流畅!
真我GT7实测:大学生首选?续航强劲,影像日常足够,系统体验流畅!
智谱AI冲刺IPO:大模型竞赛下的生存焦虑与野心
智谱AI冲刺IPO:大模型竞赛下的生存焦虑与野心
英特尔DCAI事业部大调整:CPU与AI加速器团队将独立运营
英特尔DCAI事业部大调整:CPU与AI加速器团队将独立运营

本文链接:http://www.28at.com/showinfo-45-12544-0.htmlGPT-4.1真不如前代?独立测试曝光其可靠性问题

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI转型营利引争议,前员工联名呼吁总检察长介入阻止

下一篇: 多模态市场风云再起!生数科技新模型Vidu Q1 用实力与大厂对抗

标签:
  • 热门焦点
  • AI网红能年赚百万,普通人的新机会来了?

    来源|运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁2023 年 ,数字人成为了当红的“流量话题”和“商业机会"。不管是 AI 孙燕姿走红网络,还是 AI 数字
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 【东方证券】虚拟世界照进现实,元宇宙中有什么? | 元宇宙Meta洞见

    元宇宙的表现形式大多以游戏为起点,并逐渐整合互联网、数字化娱乐、社交网络等功能,长期来看甚至可以整合社会经济与商业活动。元宇宙的发展最关键的部分在于元
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易

最新推荐

猜你喜欢

热门推荐

相关资讯

Top