当前位置:首页 > 元宇宙 > AI

北大千问团队推出数学专用版 CriticGPT,“找茬”让大模型进步更快

来源: 责编: 时间:2024-07-11 17:26:16 317观看
导读 批评不仅能让人进步,也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。

批评不仅能让人进步,也能让大模型的能力提升。Prc28资讯网——每日最新资讯28at.com

OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。Prc28资讯网——每日最新资讯28at.com

在无需训练的设置下,验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。Prc28资讯网——每日最新资讯28at.com

在 GSM8K 数据集上,它可以让模型的准确率从 86.6% 提升到 88.2%。Prc28资讯网——每日最新资讯28at.com

Prc28资讯网——每日最新资讯28at.com

CriticGPT 的核心思路是在代码中故意设置 bug 并进行详细标注,然后用得到的数据训练出会 debug 的模型。Prc28资讯网——每日最新资讯28at.com

北大团队发现,这种方法不仅在代码当中有用,也能帮助语言模型解决数学问题。Prc28资讯网——每日最新资讯28at.com

于是团队利用相似的思路,把代码换成数学问题,推出了“数学版 CriticGPT”——Math-Minos。Prc28资讯网——每日最新资讯28at.com

用 GPT4 逐步提出修正意见

在数学推理领域,验证解决方案的正确性,是确保推理质量的关键步骤。Prc28资讯网——每日最新资讯28at.com

然而,现有的数学验证器大多依赖于二元分类标签进行训练,这种方式在提供正确或错误原因的解释上存在明显不足,无法给验证器提供足够充分的监督信号来训练。Prc28资讯网——每日最新资讯28at.com

Math-Minos 则克服了这一局限,提供了更深入的解释,极大地丰富了验证器的训练信息。Prc28资讯网——每日最新资讯28at.com

它引入了逐步的自然语言反馈作为理由标签,不仅指出了解决方案的正误,还能逐步分析出错误的原因。Prc28资讯网——每日最新资讯28at.com

Prc28资讯网——每日最新资讯28at.com

在自然语言反馈的获取上,研究团队一开始使用 GPT-4 生成训练数据,但通过实验发现,即使是 GPT-4,在逐步评价数学推理任务时也会出现一定比例的错误。Prc28资讯网——每日最新资讯28at.com

为了一定程度避免这个问题,研究人员通过在提示中引入步骤级别的二元分类标签,简化了 GPT-4 的任务,使得 GPT-4 能够更准确地生成评估。Prc28资讯网——每日最新资讯28at.com

Prc28资讯网——每日最新资讯28at.com

首先,通过监督式微调,使用自然语言反馈作为训练数据,有效提升了模型的评估能力。Prc28资讯网——每日最新资讯28at.com

其次,通过标准的 ORM(Outcome Reward Model,输出奖励模型)和 PRM(Process Reward Model,过程奖励模型)训练,实现了高效的推理,这种做法有两个好处。Prc28资讯网——每日最新资讯28at.com

一是通过两阶段训练,可以将二分类数据和监督微调数据解耦。Prc28资讯网——每日最新资讯28at.com

由于监督信号的稀疏性,训练二分类的数据往往远多于监督微调的数据,而研究发现,仅需要少量的监督微调数据,就可以很大程度提升模型的评估能力。Prc28资讯网——每日最新资讯28at.com

另一方面,在验证器进行验证时,不需要显示地生成自然语言反馈,让推理过程更高效。Prc28资讯网——每日最新资讯28at.com

Prc28资讯网——每日最新资讯28at.com

ORM 任务表现明显提升

总得来看,研究人员在训练阶段添加了 30K 的自然语言反馈数据,为 Mistral-7B 验证器带来了数学能力的提升,在 Best-of-256 的实验设置下:Prc28资讯网——每日最新资讯28at.com

在 ORM 的设置下,MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 86.2% 提升到 87.3%,在 MATH 数据集从 35.9% 提升到 37.4%。Prc28资讯网——每日最新资讯28at.com

在 PRM 的设置下,MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 87.1% 提升到 87.6%,在 MATH 数据集从 36.7% 提升到 37.8%。Prc28资讯网——每日最新资讯28at.com

在与 Self-Consistency 结合的设置下,MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 87.1% 提升到 88.2%,在 MATH 数据集从 37.8% 提升到 38.6%。Prc28资讯网——每日最新资讯28at.com

在 ORM 和 PRM 任务设置中,Math-Minos 均展现出了优越的性能,特别是在 ORM 设置中,其改进更为显著。Prc28资讯网——每日最新资讯28at.com

Prc28资讯网——每日最新资讯28at.com

另外,研究团队还对生成器在步骤级别产生的错误进行了深入分析,将其归类为五种类型 —— 无关错误、累积错误、计算错误、逻辑错误和其他错误。Prc28资讯网——每日最新资讯28at.com

分析结果表明,在多步骤推理中,步骤错误的可能原因有很多种,而且模型在这些错误类型中都有可能出错,这进一步强调了引入自然语言反馈来指导模型学习的重要性。Prc28资讯网——每日最新资讯28at.com

实验发现,在两个数据集上,累积错误(即一个步骤的错误很可能直接导致所有后续步骤的错误)在所有错误类型中占到的比例最高。Prc28资讯网——每日最新资讯28at.com

不同数据集上的错误分布也有不同的特点,在相对简单的 GSM8K 上,计算错误更多;在更困难的 MATH 数据集上,逻辑错误更多。Prc28资讯网——每日最新资讯28at.com

Prc28资讯网——每日最新资讯28at.com

通过构建元评估集,研究团队评估了验证器在没有生成器影响下,准确判断最终答案的能力。Prc28资讯网——每日最新资讯28at.com

结果显示,Math-Minos 在训练过程中的元评估一致优于传统的 ORM,并且展现出更快的收敛速度和更精准的判断能力。Prc28资讯网——每日最新资讯28at.com

Prc28资讯网——每日最新资讯28at.com

同时实验结果也表明,Math-Minos 具有很强的 Scale Up 的潜力。Prc28资讯网——每日最新资讯28at.com

Prc28资讯网——每日最新资讯28at.com

总之,Math-Minos 的开发不仅提升了数学验证器的性能,更为自然语言处理领域提供了一种新的训练范式。Prc28资讯网——每日最新资讯28at.com

研究团队希望这项工作能够启发未来研究,探索自然语言反馈与分类式验证器的潜在整合,推动大型语言模型在复杂推理任务上的能力。Prc28资讯网——每日最新资讯28at.com

论文地址:Prc28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2406.14024Prc28资讯网——每日最新资讯28at.com

GitHub:Prc28资讯网——每日最新资讯28at.com

https://github.com/KbsdJames/MATH-MinosPrc28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:关注前沿科技Prc28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-5086-0.html北大千问团队推出数学专用版 CriticGPT,“找茬”让大模型进步更快

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 腾讯智影小程序上线 AI 视频功能,限时免费一键生成风格化视频

下一篇: 古尔曼:苹果首款支持 Apple Intelligence 的智能家居设备将是一款桌面机器人

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • 用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

    你可能听说过不可伪造的代币,或NFTs。NFTs是数字代币,代表完全独特的项目的所有权;存储在区块链中并可追踪,它们不能被修改、替换或复制。作为NFT铸造的资产在数字
  • 以用户为中心,Web3和区块链如何将用户放在首位

    竞争优势正在改变竞争优势是每个企业都在努力争取的,由谷歌、Facebook和Netflix等大型科技公司主导的市场中,两大重要类别的竞争优势十分突出。第一个竞争优势来
  • NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

    当Stefan Prodanovic在13岁时开始尝试平面设计,与一位从事编程工作的学校朋友共同创作数字游戏时,他从未料到这个爱好会在他成年后变成一个相当有利可图的生意。
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
  • 技术赋能,国内首家宠物元宇宙平台“Pet Meta”开启虚拟养宠新方式

    作者:易明未来,Pet Meta数字宠物藏品将是链接全球数亿爱宠人群与元宇宙世界独一无二的身份象征。首家面向国内的宠物元宇宙平台Pet Meta生长于“宠物经济”快速
  • 3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易
Top