当前位置:首页 > 元宇宙 > AI

研究发现:AI 越聪明就越有可能“胡编乱造”

来源: 责编: 时间:2024-10-01 17:06:44 174观看
导读 9 月 29 日消息,一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。图源 Pexels

9 月 29 日消息,一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。u2U28资讯网——每日最新资讯28at.com

u2U28资讯网——每日最新资讯28at.com

图源 Pexels

注意到,该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。u2U28资讯网——每日最新资讯28at.com

研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更高。u2U28资讯网——每日最新资讯28at.com

瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示:“如今,它们几乎可以回答一切。这意味着更多正确的答案,但也意味着更多错误的答案。”u2U28资讯网——每日最新资讯28at.com

格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价,Hicks(未参与该研究)告诉《自然》杂志:“在我看来,这就像我们所说的胡说八道,它越来越擅长假装知识渊博。”u2U28资讯网——每日最新资讯28at.com

测试中,这些模型被问及了从数学到地理等各种主题,并被要求执行诸如按指定顺序列出信息等任务。总体而言,更大、更强大的模型给出了最准确的答案,但在更难的问题上表现不佳,其准确率较低。u2U28资讯网——每日最新资讯28at.com

研究人员称,一些最大的“撒谎者”是 OpenAI 的 GPT-4 和 o1,但所有被研究的 LLM 似乎都呈这种趋势,对于 LLaMA 系列模型,没有一个能够达到 60% 的准确率,即使是最简单的问题。u2U28资讯网——每日最新资讯28at.com

而当被要求判断聊天机器人的回答是准确还是不准确时,一小部分参与者有 10% 到 40% 的概率判断错误。u2U28资讯网——每日最新资讯28at.com

总之研究表明,AI 模型越大(就参数、训练数据和其他因素而言),它们给出错误答案的比例就越高。u2U28资讯网——每日最新资讯28at.com

研究人员称,解决这些问题最简单的方法是让 LLM 不那么急于回答一切。Hernández-Orallo 称:“可以设置一个阈值,当问题具有挑战性时,让聊天机器人说‘不,我不知道’。”但如果聊天机器人被限制为只回答它们知道的东西,可能会暴露技术的局限性。u2U28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-8015-0.html研究发现:AI 越聪明就越有可能“胡编乱造”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 字节跳动发布豆包视频生成模型,这效果让我分不清 AI 与现实

下一篇: 国际机器人联合会:2023 年我国新安装工业机器人 27.63 万台,超全球半数

标签:
  • 热门焦点
  • 内容行业大变天,爆款全靠AI?

    出品 | 微果酱(wjam123456)作者 | 陈出木题图 | 文心一格 AI的发展之快出乎所有人的预料,似乎一夜之间便呼啸而来。无论是资本的风向标,抑或是生活工作的辅助、流量口,还是茶余饭
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 时尚领域进军元宇宙,2022年会带来哪些颠覆性的全新体验?

    想象一个你的数字身份与现实身份同样重要的世界。想象一个你需要为虚拟自我准备资产和物资的地方——你需要金钱(Crypto)、房屋(可能建在Minecraft上)和衣物。随着
  • 有人狂赚千倍,资金盘游戏日进上亿,元宇宙泡沫还能吹多久?

    你还不知道元宇宙?没关系。看看微软、Meta、英伟达的雄心壮志,便可领略元宇宙的辽阔。1月18日,微软宣布将以687亿美元收购动视暴雪,这是有史以来互联网领域最大的
  • 2022年最具关注的9个头像NFT项目

    什么是 PFP NFT 项目?PFP NFT (个人资料图片NFT)是一组独特的数字收藏品,人们用来在互联网平台上代表自己。这些数字艺术作品通常是一系列可作为头像的角色,在 Twit
  • 8个最适合艺术家发行NFT的交易市场

    近年来,加密风靡全球。加密圈最令人兴奋的方面之一是它能够用于创建称为NFT 的数字资产。从 CyberKitties 到 Cyber Galleries,NFT 已成为艺术家和艺术鉴赏家的
  • a16z:元宇宙办公会取代实体办公室吗?

    6位不同的专家对未来的工作发表看法----元宇宙--沉浸式的、基于区块链的虚拟世界,大多数日常活动最终会在这里发生--但仍然只是一个概念。但它是一个拥有宝贵不
  • 用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

    你可能听说过不可伪造的代币,或NFTs。NFTs是数字代币,代表完全独特的项目的所有权;存储在区块链中并可追踪,它们不能被修改、替换或复制。作为NFT铸造的资产在数字
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top