当前位置:首页 > 元宇宙 > AI

可协助 AI 语言模型改善自我纠错能力,谷歌推出 BIG-Bench Mistake 数据集

来源: 责编: 时间:2024-01-18 17:31:32 375观看
导读 1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集,并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。谷歌研究人员表

1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基准测试建立了一项“BIG-Bench Mistake”数据集,并利用相关数据集对市面上流行的语言模型“出错概率”及“纠错能力”进行了一系列评估研究。Bls28资讯网——每日最新资讯28at.com

Bls28资讯网——每日最新资讯28at.com

谷歌研究人员表示,由于过去没有能够评估大语言模型“出错概率”及“自我纠错能力”的数据集,因此他们创建了一项名为“BIG-Bench Mistake”的专用基准数据集用于评估测试。Bls28资讯网——每日最新资讯28at.com

据悉,研究人员首先使用 PaLM 语言模型在自家 BIG-Bench 基准测试任务中运行了5项任务,之后将生成的“思维链(Chain-of-Thought)”轨迹修改加入“逻辑错误”部分,之后重新丢给模型判断思维链轨迹中哪些地方存在错误。Bls28资讯网——每日最新资讯28at.com

为了提升数据集准确程度,谷歌研究人员反复进行上述过程,最终形成了一项内含“255 项逻辑错误”的“BIG-Bench Mistake”专用基准数据集。Bls28资讯网——每日最新资讯28at.com

研究人员提到,由于“BIG-Bench Mistake”数据集中的逻辑错误较为“简单明确”,因此可以作为一个良好的测试标准,可协助语言模型先从简单的逻辑错误开始练习,逐步提升辨识错误的能力。Bls28资讯网——每日最新资讯28at.com

研究人员利用该数据集对市面上模型进行测试,发现虽然绝大多数语言模型可以识别在推理过程中出现的逻辑错误并进行自我修正,但这个过程“并不够理想”,通常需要人工干预来纠正模型输出的内容。Bls28资讯网——每日最新资讯28at.com

Bls28资讯网——每日最新资讯28at.com

▲ 图源 谷歌研究院新闻稿

从报告中发现,谷歌声称“目前最先进的大语言模型”自我纠错能力也相对有限,在相关测试结果中成绩发挥最好的模型,也仅仅找出了 52.9% 的逻辑错误。Bls28资讯网——每日最新资讯28at.com

Bls28资讯网——每日最新资讯28at.com

谷歌研究人员同时声称,这一 BIG-Bench Mistake 数据集有利于改善模型自我纠错能力,经过相关测试任务微调后的模型,“即便是小型模型表现也通常比零样本提示的大模型更好”。Bls28资讯网——每日最新资讯28at.com

据此,谷歌认为在模型纠错方面,可以使用专有小型模型“监督”大型模型,相对于让大语言模型学会“纠正自我错误”,部署专用于监督大模型的小型专用模型有利于改善效率、降低相关AI 部署成本,并更便于微调。Bls28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3236-0.html可协助 AI 语言模型改善自我纠错能力,谷歌推出 BIG-Bench Mistake 数据集

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Meta 承认使用盗版书籍来训练 AI,并拒绝赔偿作家

下一篇: 英伟达从印度获得巨额 AI 芯片订单,价值达 5 亿美元

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • NFT的未来:传统企业与去中心化机构之间的竞赛

    传统企业和去中心化机构一直存在分歧,但最近NFT的爆炸式增长让他们产生了共同的兴趣,双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问,NFT 市场正在增长。
  • 比特币的价格越高,使用价值越大

    隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势,但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下,彰显着市场活跃度的
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • Terra链上TVL跃升至第二

    据DefiLlama数据显示,当前,Terra链上应用锁仓的加密资产价值(TVL)为172.1亿美元,在公链板块中已跃升至第二,超越了币安智能链TVL的118亿美元,TVL排名居首的仍为以太
  • NFT也有黄牛?这家公司专门对付外挂作弊机器人

    澳大利亚前总理马尔科姆·特恩布尔 (Malcolm Turnbull) 是支持萨姆·Crowther (Sam Crowther) 的人之一,Sam是一名出生于纽卡斯尔的黑客,他的职业生涯始于为国防
  • HTC Vive推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商

    今日热点:HTC Vive正式推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商北京蜂巢科技;面部追踪和眼动追踪是Quest下一版本的“重点”;索尼PSVR 2将推迟至2023
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
Top