当前位置：首页 > 元宇宙 > AI

北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快

来源：责编：时间：2024-07-11 17:26:16 330观看

导读批评不仅能让人进步，也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。

批评不仅能让人进步，也能让大模型的能力提升。

OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。

在无需训练的设置下，验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。

在 GSM8K 数据集上，它可以让模型的准确率从 86.6% 提升到 88.2%。

CriticGPT 的核心思路是在代码中故意设置 bug 并进行详细标注，然后用得到的数据训练出会 debug 的模型。

北大团队发现，这种方法不仅在代码当中有用，也能帮助语言模型解决数学问题。

于是团队利用相似的思路，把代码换成数学问题，推出了“数学版 CriticGPT”——Math-Minos。

用 GPT4 逐步提出修正意见

在数学推理领域，验证解决方案的正确性，是确保推理质量的关键步骤。

然而，现有的数学验证器大多依赖于二元分类标签进行训练，这种方式在提供正确或错误原因的解释上存在明显不足，无法给验证器提供足够充分的监督信号来训练。

Math-Minos 则克服了这一局限，提供了更深入的解释，极大地丰富了验证器的训练信息。

它引入了逐步的自然语言反馈作为理由标签，不仅指出了解决方案的正误，还能逐步分析出错误的原因。

在自然语言反馈的获取上，研究团队一开始使用 GPT-4 生成训练数据，但通过实验发现，即使是 GPT-4，在逐步评价数学推理任务时也会出现一定比例的错误。

为了一定程度避免这个问题，研究人员通过在提示中引入步骤级别的二元分类标签，简化了 GPT-4 的任务，使得 GPT-4 能够更准确地生成评估。

首先，通过监督式微调，使用自然语言反馈作为训练数据，有效提升了模型的评估能力。

其次，通过标准的 ORM（Outcome Reward Model，输出奖励模型）和 PRM（Process Reward Model，过程奖励模型）训练，实现了高效的推理，这种做法有两个好处。

一是通过两阶段训练，可以将二分类数据和监督微调数据解耦。

由于监督信号的稀疏性，训练二分类的数据往往远多于监督微调的数据，而研究发现，仅需要少量的监督微调数据，就可以很大程度提升模型的评估能力。

另一方面，在验证器进行验证时，不需要显示地生成自然语言反馈，让推理过程更高效。

ORM 任务表现明显提升

总得来看，研究人员在训练阶段添加了 30K 的自然语言反馈数据，为 Mistral-7B 验证器带来了数学能力的提升，在 Best-of-256 的实验设置下：

在 ORM 的设置下，MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 86.2% 提升到 87.3%，在 MATH 数据集从 35.9% 提升到 37.4%。

在 PRM 的设置下，MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 87.1% 提升到 87.6%，在 MATH 数据集从 36.7% 提升到 37.8%。

在与 Self-Consistency 结合的设置下，MATH-Minos 将 Mistral-7B 的准确率在 GSM8K 数据集从 87.1% 提升到 88.2%，在 MATH 数据集从 37.8% 提升到 38.6%。

在 ORM 和 PRM 任务设置中，Math-Minos 均展现出了优越的性能，特别是在 ORM 设置中，其改进更为显著。

另外，研究团队还对生成器在步骤级别产生的错误进行了深入分析，将其归类为五种类型 —— 无关错误、累积错误、计算错误、逻辑错误和其他错误。

分析结果表明，在多步骤推理中，步骤错误的可能原因有很多种，而且模型在这些错误类型中都有可能出错，这进一步强调了引入自然语言反馈来指导模型学习的重要性。

实验发现，在两个数据集上，累积错误（即一个步骤的错误很可能直接导致所有后续步骤的错误）在所有错误类型中占到的比例最高。

不同数据集上的错误分布也有不同的特点，在相对简单的 GSM8K 上，计算错误更多；在更困难的 MATH 数据集上，逻辑错误更多。

通过构建元评估集，研究团队评估了验证器在没有生成器影响下，准确判断最终答案的能力。

结果显示，Math-Minos 在训练过程中的元评估一致优于传统的 ORM，并且展现出更快的收敛速度和更精准的判断能力。

同时实验结果也表明，Math-Minos 具有很强的 Scale Up 的潜力。

总之，Math-Minos 的开发不仅提升了数学验证器的性能，更为自然语言处理领域提供了一种新的训练范式。

研究团队希望这项工作能够启发未来研究，探索自然语言反馈与分类式验证器的潜在整合，推动大型语言模型在复杂推理任务上的能力。

论文地址：

https://arxiv.org/abs/2406.14024

GitHub：

https://github.com/KbsdJames/MATH-Minos

本文来自微信公众号：量子位（ID：QbitAI），作者：关注前沿科技

本文链接：http://www.28at.com/showinfo-45-5086-0.html北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：腾讯智影小程序上线 AI 视频功能，限时免费一键生成风格化视频

下一篇：古尔曼：苹果首款支持 Apple Intelligence 的智能家居设备将是一款桌面机器人

标签：

热门焦点

元宇宙终究没火过两年

来源：传播体操在ChatGPT快速破圈的同时，元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力，但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
清华、北大等86所高校布局元宇宙，是风口还是噱头？

作者：徐赐豪来源：区块链日报据全国高校人工智能与大数据创新联盟元宇宙专委会不完全统计，截至2023年7月，全国共有86所高校战略布局元宇宙领域，其中本科院校73所，高职专科院校13所
雷克萨斯高管，“受贿”5000万？

来源：毒舌科技作者：潘磊雷克萨斯的高管，好像出事了。五六家日本小媒体，突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元（约合人民币5000
在元宇宙卖酸奶，这波联动燃爆了！

来源：品牌头版或许，每个人心中都住着一个小馋孩。可能是童年时百吃不厌，觉得新奇又有趣的跳跳糖；可能是味道香甜，咬下一口嘎嘣脆的扁桃仁；还有可能，是某种不知为什么，就是很爱吃的
从科幻走进现实，元宇宙概念逐渐清晰

2021年，元宇宙概念如同一颗炸弹投进互联网行业，掀起了一场数字海啸，众多企业纷纷入局，在此新领域展开新探索。那么，加速狂奔的元宇宙究竟是什么？概念翻红，元宇宙走进资本圈2021年3
Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

在女性遭受性骚扰甚至被攻击的事件相继被报道之后，仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
网易音乐、理想申请元宇宙商标被驳回，“啫喱”暂停新用户进入

【《原神》开发商米哈游宣布创立元宇宙品牌】《原神》开发商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通过各种娱乐服务为全球玩家创造并提供沉浸式虚拟世界体
与元宇宙美少女艺术家的对话

我最近宣布了我自己的NFT项目，这是我已经工作了几个月的事情。由于我之前只是一个收藏家，拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
知识产权可能在元宇宙中“消失”？

开篇老雅痞先来划重点：一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼，声称NFT侵犯了他们的知识产权。Inside

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快

元宇宙终究没火过两年

清华、北大等86所高校布局元宇宙，是风口还是噱头？

雷克萨斯高管，“受贿”5000万？

在元宇宙卖酸奶，这波联动燃爆了！

从科幻走进现实，元宇宙概念逐渐清晰

Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

网易音乐、理想申请元宇宙商标被驳回，“啫喱”暂停新用户进入

与元宇宙美少女艺术家的对话

知识产权可能在元宇宙中“消失”？

最新推荐

人间诚实周鸿祎：360 All in 大模型的六个解读

2022 区块链 50 强榜单；垃圾NFT项目的十三个特性

从NFT顶级公链到Web3.0基础设施：带你了解不一样的Flow

好莱坞：一股新的电影制作加密浪潮将颠覆这个行业

索尼公布PSVR 2头显渲染图；社区开发者发布Quest版《我的世界》

独立故事片“Calladita”将使用 NFT 筹集资金

猜你喜欢

热门推荐

相关资讯