当前位置:首页 > 元宇宙 > AI

AI智慧背后的隐忧:越聪明,越爱“编造”真相?

来源: 责编: 时间:2024-09-29 16:14:56 189观看
导读**大型语言模型越强大越爱“撒谎”?新研究揭示AI准确性困境**随着大型语言模型(LLM)能力的不断增强,一项新研究却发现了令人担忧的趋势:这些智能聊天机器人在回答问题时,似乎越来越倾向于编造答案,而非谨慎地避免或拒绝回答
**大型语言模型越强大越爱“撒谎”?新研究揭示AI准确性困境**

随着大型语言模型(LLM)能力的不断增强,一项新研究却发现了令人担忧的趋势:这些智能聊天机器人在回答问题时,似乎越来越倾向于编造答案,而非谨慎地避免或拒绝回答它们不确定的问题。这种行为模式表明,尽管AI变得更加“聪明”,但其可靠性却在实际应用中受到了质疑。dXo28资讯网——每日最新资讯28at.com

dXo28资讯网——每日最新资讯28at.com

该研究由多个知名研究机构联合进行,成果已发表在《自然》杂志上。研究团队对市面上领先的商业LLM进行了深入分析,包括OpenAI的GPT系列、meta的LLaMA,以及开源模型BLOOM。在对比了这些模型在不同主题和问题类型上的表现后,研究人员发现,尽管新一代LLM在某些情况下的确给出了更准确的回答,但从整体来看,它们提供错误答案的频率却比旧模型更高。dXo28资讯网——每日最新资讯28at.com

瓦伦西亚人工智能研究所的研究员José Hernández-Orallo指出:“现在的LLM几乎能回答任何问题,这既是进步也是隐患。虽然正确回答的数量增加了,但错误回答的数量也同样在上升。”dXo28资讯网——每日最新资讯28at.com

在测试中,这些LLM被要求处理从数学到地理等多个领域的问题,并执行一些特定的信息排序任务。结果显示,规模更大、能力更强的模型在简单问题上表现最佳,但在面对更复杂的问题时,其准确率却显著下降。dXo28资讯网——每日最新资讯28at.com

值得注意的是,OpenAI的GPT-4和o1模型在测试中成为了最大的“撒谎者”,但这一趋势并非孤例,其他被研究的LLM也呈现出了类似的倾向。特别是在LLaMA系列模型中,即便是最简单的问题,也没有任何一个模型能够达到60%的准确率。dXo28资讯网——每日最新资讯28at.com

当被要求评估聊天机器人答案的准确性时,参与测试的人类受试者也表现出了相当程度的不确定性,他们在10%到40%的情况下做出了错误的判断。dXo28资讯网——每日最新资讯28at.com

这项研究揭示了一个重要的问题:随着AI模型的规模和能力的不断提升,如何确保它们提供的答案是准确且可靠的?研究人员建议,一个可能的解决方案是让LLM在面对不确定的问题时学会保持沉默,而不是盲目地给出答案。Hernández-Orallo表示:“我们可以设定一个阈值,让聊天机器人在遇到具有挑战性的问题时能够说‘不,我不知道’。”然而,这种做法也可能会暴露当前技术的局限性,从而影响用户对AI的信任和接受度。dXo28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7915-0.htmlAI智慧背后的隐忧:越聪明,越爱“编造”真相?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 科大讯飞进军云南,新成立信息科技公司,布局西南市场?

下一篇: 字节跳动新推豆包视频生成模型:AI与现实界限模糊,你能分清吗?

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • 国内涌现70余家数字藏品平台:合规、流量与利润在博弈

    作者:杨郑君2月16日,迅雷链企业数字藏品服务平台正式上线,继阿里、腾讯、京东、百度、网易等之后,又一家互联网企业正式加入到火热的数字藏品平台的竞争中。除互联
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • NFT Insider #47:YGG发布2021Q4社区报告,GameFi领域1月份获超10亿美元融资

    引言:NFT Insider由WHALE社区、BeepCrypto联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据,艺术新闻类,游戏
  • 量子计算在未来能否提高区块链技术的效率

    区块链技术的主要成功之处在于对不透明的金融流程进行了去中心化的访问量子计算机的内在目标是解决传统计算机不可能解决的问题随着区块链技术的使用案例逐渐
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
  • FTX 加密货币交易所开始向游戏公司提供加密服务

    据媒体报道,业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示,计划推出自己的游戏部门作为中介,专注于为传统游戏公司提供加密相关服务。此举将有助于
  • 我们离元宇宙的实现只差一副眼镜?

    近日的苹果春季新品发布会,想必许多人都守在了屏幕前,就为等待传说中的首款AR Glass。在发布会之前,苹果全球营销主管Greg Joswiak曾在Twitter上分享了一段短视频
Top