当前位置:首页 > 元宇宙 > AI

研究发现:AI 越聪明就越有可能“胡编乱造”

来源: 责编: 时间:2024-10-01 17:06:44 132观看
导读 9 月 29 日消息,一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。图源 Pexels

9 月 29 日消息,一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。5hT28资讯网——每日最新资讯28at.com

5hT28资讯网——每日最新资讯28at.com

图源 Pexels

注意到,该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。5hT28资讯网——每日最新资讯28at.com

研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更高。5hT28资讯网——每日最新资讯28at.com

瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示:“如今,它们几乎可以回答一切。这意味着更多正确的答案,但也意味着更多错误的答案。”5hT28资讯网——每日最新资讯28at.com

格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价,Hicks(未参与该研究)告诉《自然》杂志:“在我看来,这就像我们所说的胡说八道,它越来越擅长假装知识渊博。”5hT28资讯网——每日最新资讯28at.com

测试中,这些模型被问及了从数学到地理等各种主题,并被要求执行诸如按指定顺序列出信息等任务。总体而言,更大、更强大的模型给出了最准确的答案,但在更难的问题上表现不佳,其准确率较低。5hT28资讯网——每日最新资讯28at.com

研究人员称,一些最大的“撒谎者”是 OpenAI 的 GPT-4 和 o1,但所有被研究的 LLM 似乎都呈这种趋势,对于 LLaMA 系列模型,没有一个能够达到 60% 的准确率,即使是最简单的问题。5hT28资讯网——每日最新资讯28at.com

而当被要求判断聊天机器人的回答是准确还是不准确时,一小部分参与者有 10% 到 40% 的概率判断错误。5hT28资讯网——每日最新资讯28at.com

总之研究表明,AI 模型越大(就参数、训练数据和其他因素而言),它们给出错误答案的比例就越高。5hT28资讯网——每日最新资讯28at.com

研究人员称,解决这些问题最简单的方法是让 LLM 不那么急于回答一切。Hernández-Orallo 称:“可以设置一个阈值,当问题具有挑战性时,让聊天机器人说‘不,我不知道’。”但如果聊天机器人被限制为只回答它们知道的东西,可能会暴露技术的局限性。5hT28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-8015-0.html研究发现:AI 越聪明就越有可能“胡编乱造”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 字节跳动发布豆包视频生成模型,这效果让我分不清 AI 与现实

下一篇: 国际机器人联合会:2023 年我国新安装工业机器人 27.63 万台,超全球半数

标签:
  • 热门焦点
  • 雷克萨斯高管,“受贿”5000万?

    来源:毒舌科技作者:潘磊雷克萨斯的高管,好像出事了。五六家日本小媒体,突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元(约合人民币5000
  • 蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?

    日前,天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示,2022年天下秀实现营收41.29亿元,同比下滑8.48%;归母净利润1.8亿元,同比下滑49.2%,几乎出现了盈利腰斩的态势
  • 25万虚拟er在“元宇宙”追星

    “默叽默叽,我是默默酱,我是在真元宇宙也有头有脸的人。”12月11日晚20:00,虚拟偶像@默默酱的首场个人元宇宙演唱会《以梦为马,抵达繁星》在大有空间APP
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 王老吉启动元宇宙“吉空间”,HTC发布元宇宙应用VIVERSE

    今日《元宇宙新鲜事》有:王老吉启动元宇宙“吉空间”;HTC发布元宇宙应用VIVERSE;Meta将在马德里构建一个元宇宙创新中心;央视网《新闻+》推出系列视频《聊聊元宇宙
  • 头像类NFTs的统治能持续多久?

    在过去的一两年里,NFTs在互联网世界中掀起了一场风暴。今天,当我们想到NFTs时,我们主要想到的是那些充斥着我们的社交媒体屏幕的数字卡通--无聊猿、punks 和介于
  • 3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
  • 超级账本Julian Gordon:联盟链与公链的竞争不是非此即彼

    在2021年《福布斯》区块链50强榜单中,29家企业使用Hyperledger超级账本技术,占比近60%。同年,研究机构Blockdata发布了的调查报告显示,访问Top100上市公司中,有 81
Top