当前位置:首页 > 元宇宙 > AI

谷歌推出“BIG-Bench Mistake”数据集,助力语言模型纠错能力提升

来源: 责编: 时间:2024-01-15 17:09:20 302观看
导读1月15日消息,近日,谷歌研究院公布了一项新的研究成果,他们利用自家BIG-Bench基准测试构建了一个名为“BIG-BenchMistake”的数据集。该数据集的主要目的是评估当前市场上流行的语言模型在“出错概率”及“纠错能力”方面

1月15日消息,近日,谷歌研究院公布了一项新的研究成果,他们利用自家BIG-Bench基准测试构建了一个名为“BIG-BenchMistake”的数据集。该数据集的主要目的是评估当前市场上流行的语言模型在“出错概率”及“纠错能力”方面的表现。ukt28资讯网——每日最新资讯28at.com

此前,对于大型语言模型的错误识别和自我修正能力的评估一直缺乏有效的数据集。为了填补这一空白,谷歌研究人员精心设计了“BIG-BenchMistake”专用基准数据集。他们首先使用PaLM语言模型在BIG-Bench基准测试中执行了五项任务,并在其生成的“思维链”中故意引入逻辑错误。然后,这些包含错误的思维链被重新提交给模型,以测试其能否识别出其中的错误。ukt28资讯网——每日最新资讯28at.com

经过多轮迭代和优化,研究人员最终构建了一个包含255项逻辑错误的“BIG-BenchMistake”数据集。这些错误被设计成简单明了的形式,以便于语言模型从基本的逻辑错误开始逐步提高其错误识别能力。ukt28资讯网——每日最新资讯28at.com

ukt28资讯网——每日最新资讯28at.com

据ITBEAR科技资讯了解,谷歌研究人员利用该数据集对市场上的多个语言模型进行了测试。结果显示,虽然大多数模型能够在一定程度上识别并修正推理过程中的逻辑错误,但这一过程往往不够理想,仍需要人工干预来完善模型的输出。ukt28资讯网——每日最新资讯28at.com

在测试中表现最好的模型也仅能识别出52.9%的逻辑错误,这表明即便是目前最先进的大型语言模型在自我纠错方面仍存在较大提升空间。谷歌研究人员认为,“BIG-BenchMistake”数据集将有助于改进模型的自我纠错能力。通过针对相关测试任务进行微调,即便是小型模型也能在监督大型模型时表现出更好的性能。ukt28资讯网——每日最新资讯28at.com

因此,谷歌提出了一种新的思路,即使用专用的小型模型来监督大型模型的运行。这种做法不仅有利于提高效率、降低AI部署成本,还能更方便地对模型进行微调。未来,这种大小模型协同工作的方式或许将成为提升AI性能的重要方向之一。ukt28资讯网——每日最新资讯28at.com

标签:谷歌
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
小米科技再显创新力,连续注册多个重磅商标并研发出环保泰坦合金
小米科技再显创新力,连续注册多个重磅商标并研发出环保泰坦合金
鸿蒙智行社区发布智界S7关爱补贴计划,回馈特定用户群体
鸿蒙智行社区发布智界S7关爱补贴计划,回馈特定用户群体
深蓝G318全新SUV曝光,预计30万起售,配备增程式动力及拖挂资质
深蓝G318全新SUV曝光,预计30万起售,配备增程式动力及拖挂资质
预售倒计时!东风日产探陆携7座6座布局,或成家庭出行新宠
预售倒计时!东风日产探陆携7座6座布局,或成家庭出行新宠
数字赋能 提速增效  柯尼卡美能达为法院/律所行业注入智慧办公新动能
数字赋能 提速增效 柯尼卡美能达为法院/律所行业注入智慧办公新动能
鸿蒙新篇章:华为深圳举办千帆启航仪式,原生应用全面铺开
鸿蒙新篇章:华为深圳举办千帆启航仪式,原生应用全面铺开
热门内容
  • ChatGPT免费语音功能全面开放:解锁AI与用户的自然对话
  • 微软必应聊天全新升级:GPT-4 Turbo模型免费体验
  • 微软 Edge 重塑身份,全新命名为“微软 Edge:AI 浏览器”
  • LG推出创新双轮腿智能家居AI机器人,CES 2024引领未来家居革命
  • 微软AI Copilot与Suno合作:文字变成音乐的魔法
  • 谷歌发布全新AI SDK,助力Android应用集成Gemini Pro模型
  • Microsoft Copilot 即将推出置顶聊天对话功能:最多置顶 15 条
  • OpenAI宣布GPT-5即将来袭:2024年技术大蓝图揭晓
  • 人工智能胜过人类?研究揭示ChatGPT的优势
  • 苹果发布开源多模态LLM Ferret,意外加入人工智能社区
  • Stability AI 推出会员订阅计划,Stable Diffusion 模型全面升级
  • 国家大模型标准测试首批通过名单揭晓,阿里通义千问与腾讯混元领衔
  • OpenAI出价百万美元求新闻授权,小型出版商不买账
  • OpenAI推出ChatGPT Team订阅服务
  • 提示词工程:人工智能时代的关键技能与人际沟通的融合
本栏最新
CES 2024新奇发现:AI音乐为狗狗减压,每月仅需48元
CES 2024新奇发现:AI音乐为狗狗减压,每月仅需48元
沃尔玛在CES 2024宣布与微软合作,以AI技术重塑数字购物体验
沃尔玛在CES 2024宣布与微软合作,以AI技术重塑数字购物体验
OpenAI推出ChatGPT Team订阅服务
OpenAI推出ChatGPT Team订阅服务
OpenAI出价百万美元求新闻授权,小型出版商不买账
OpenAI出价百万美元求新闻授权,小型出版商不买账
微软 Edge 重塑身份,全新命名为“微软 Edge:AI 浏览器”
微软 Edge 重塑身份,全新命名为“微软 Edge:AI 浏览器”
英伟达斥巨资锁定HBM3内存供应,确保AI与HPC GPU稳定推出
英伟达斥巨资锁定HBM3内存供应,确保AI与HPC GPU稳定推出

本文链接:http://www.28at.com/showinfo-45-3283-0.html谷歌推出“BIG-Bench Mistake”数据集,助力语言模型纠错能力提升

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 酷冷至尊CES 2024创新展示:双风扇颠覆显卡散热市场

下一篇: 手回科技集团荣登甪端企业20榜单,用科技力量赋能保险生态

标签:
  • 热门焦点
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫“29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • 江西将探索成立元宇宙联盟,韩国将加强对NFT和元宇宙的监管

    《元宇宙新鲜事》有:江西将探索成立元宇宙联盟,支持南昌规划建设元宇宙试验区;韩国金融监督局将加强对NFT和元宇宙的监管;任天堂社长表示暂时不打算加入元宇宙。【
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 元宇宙社交时代,华丽归来的超级QQ秀重构虚拟社交场景

    作者:狂人 不知不觉间,QQ已经迎来了第23个生日。作为国内社交平台的起点,QQ可谓是睥睨全网,不仅有庞大的用户群体,还将虚拟形象及QQ整合成在线虚拟社区,开启了时髦
  • 在元宇宙开会是什么样一种体验

    空间就是一切还记得面对面的会议吗?就在不久前,与会者需要飞到遥远的目的地,并进行鼓舞人心的对话、网络、免费食物,甚至可能会有一两个很好的小组讨论。随之而来
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
  • NFT行业周报:NBA巨星勒布朗·詹姆斯申请NFT相关商标

    1. “无聊猿”BAYC交易总额突破14亿美元3月10日,据DappRader最新数据显示,“无聊猿”Bored Ape Yacht Club(BAYC)交易总额已突破14亿美元,创下历史新高,本文撰写时为

最新推荐

猜你喜欢

热门推荐

相关资讯

Top