当前位置:首页 > 科技  > 知识百科

用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%

来源: 责编: 时间:2023-08-07 16:30:09 386观看
导读 尽管语言模型在一系列 NLP 任务中取得了显著的成功,但它们的推理能力往往不足,仅靠扩大模型规模不能解决这个问题。基于此,Wei et al. (2022) 提出了思维提示链(chain of though

尽管语言模型在一系列 NLP 任务中取得了显著的成功,但它们的推理能力往往不足,仅靠扩大模型规模不能解决这个问题。基于此,Wei et al. (2022) 提出了思维提示链(chain of thought prompting),提示语言模型生成一系列短句,这些短句模仿一个人在解决推理任务时可能采用的推理过程。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

现在来自 Google Research 的研究者们提出了一种称为「自洽性(self-consistency)」的简单策略,它显著提高了大型语言模型的推理准确率。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/pdf/2203.11171.pdfgHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

该论文的作者之一、Google Brain 的创始成员 Quoc Le 今天在推特上发文表示:这种自洽方法能够解决 GSM8K 基准中 75% 的数学问题,大幅超越现有方法。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

图源:https://twitter.com/quocleix/status/1513632492124663808gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

简单来说,复杂的推理任务通常有多个能得到正确答案的推理路径,自洽方法通过思维提示链从语言模型中采样一组不同的推理路径,然后返回其中最自洽的答案。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

该方法在一系列算术和常识推理基准上评估自洽性,可以稳健地提高各种语言模型的准确性,而无需额外的训练或辅助模型。当与最近的大型语言模型 PaLM-540B 结合使用时,自洽方法将多个基准推理任务的性能提高到 SOTA 水平。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

该方法是完全无监督的,预训练语言模型直接可用,不需要额外的人工注释,也不需要任何额外的训练、辅助模型或微调。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

该研究在三种大型语言模型上评估一系列算术推理和常识推理任务的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者发现,对于这几种规模不同的语言模型,自洽方法都能显著提高其推理能力。与通过贪心解码(Wei et al., 2022)生成单一思维链相比,自洽方法有助于在所有推理任务中显著提高准确性,如下图 2 所示。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

多样化推理路径上的自洽gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

人类的一个突出特征是思维方式不同。人们会很自然地假设,在需要深思熟虑的任务中,可能有几种解决方法,所有这些方法都会得出相同的正确答案。因此,研究者建议可以通过从语言模型解码器采样以在语言模型中模拟这一过程。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

如下表 1 所示,一个模型可以为一个数学问题生成多个可能的回答,这些回答最终得出相同的正确答案(如输出 2、4 和 5)。由于语言模型不是完美的推理器,模型也可能产生错误的推理路径或者在某一个推理步骤中出错(例如输出 1 和 3 中),这种解决方案不太可能得出相同的答案( 表 1 中的 26 和 14)。 gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

也就是说,当假设推理过程正确,即使它们是多样化的,在最终答案中往往比不正确的推理过程具有更高的一致性。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

研究者提出通过一种自洽(self-consistency)方法来利用这种直觉。具体步骤如下:gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

首先,使用一组手动编写的思维链示例对语言模型进行提示;接着,从语言模型的解码器中采样一组候选输出,生成一组不同的候选推理路径;最后,通过在生成的答案中选择最自洽的答案来集成结果。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

在实验调查中,研究者发现思维链提示与相结合,会比单独使用仅考虑单一生成路径的思维链产生好得多的结果。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

实验结果gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

研究者进行了一系列实验,以在不同的算术和常识推理基准上将提出的自洽方法与现有方法进行比较。结果发现,该方法极大地提高了每种语言模型的推理准确性,涵盖了广泛的模型尺度。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

具体地,他们评估了不同推理路径上的自洽性,即自洽性(多路径)(Multipath)。结果取 10 次运行的平均值,在每次运行中独立于解码器对 40 个输出进行采样。比较的基线是贪心解码单个思想链,称为贪心解码(Single-path),之前已被用于大型语言模型中的解码。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

算术推理结果如下表 2 所示。对于 LaMDA-137B,自洽性策略在每个任务上较贪心解码(Single-path)均实现了显著的性能提升,在 AddSub、ASDiv、AQuA 和 GSM8K 任务上获得接近 10% 绝对准确率提升,在 MultiArith 和 SVAMP 任务上分别提升了 23.9% 和 14.4%。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

对于更大的 PaLM540B 模型,自洽性策略显著提升性能,在 ASDiv、AQuA、SVAMP 和 GSM8K 上实现了 7.9%、12.5%、7.6% 和 17.9% 的显著增益。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

常识推理结果如下表 3 所示。对于 LaMDA-137B 模型,自洽性策略显著提升所有任务的准确率,其中 StrategyQA 和 CommonsenseQA 的绝对准确率提升了 2%-5%,ARC easy set 和 ARC challenge set 的绝对准确率分别提升了 4.0% 和 4.7%。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

同样地,更大的 PaLM540B 模型也实现了持续收益,StrategyQA 上提升了 6.3%,ARC-challenge 上提升了 3.5%。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

下图 3 中通过对来自解码器的不同数量的推理路径进行采样,展示了自洽性与贪心解码(Single-path)的性能比较。可以看到,采样更多数量(如 40 个)的推理路径始终会产生更好的性能,再次强调了在推理路径中引入多样性的重要性。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

该研究将自洽方法和基于集成的方法进行小样本学习来比较二者的性能。结果如下表 5 所示,与自洽方法相比,基于集成的方法获得的增益要小得多。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

另一种提高生成质量的常用方法是采样排序(sample-and-rank),其中从解码器中采样多个序列,然后根据每个序列的对数概率或基于额外训练的重排序器进行排序。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

该研究使用 GPT-3 模型得到了如下图 4 所示的结果。虽然采样排序方法通过额外的采样序列和排序提高了准确性,但与自洽方法相比,增益要小得多。gHj28资讯网——每日最新资讯28at.com

 gHj28资讯网——每日最新资讯28at.com

gHj28资讯网——每日最新资讯28at.com

更多细节内容请参阅论文原文。gHj28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2270-0.html用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 飞机“黑匣子”数据缘何上云难?

下一篇: 裁员、收缩、过冬,云计算怎么了?

标签:
  • 热门焦点
  • K60 Pro官方停产 第三方瞬间涨价

    虽然没有官方宣布,但Redmi的一些高管也已经透露了,Redmi K60 Pro已经停产且不会补货,这一切都是为了即将到来的K60 Ultra铺路,属于厂家的正常操作。但有意思的是该机在停产之后
  • 石头智能洗地机A10 Plus体验:双向自清洁治好了我的懒癌

    一、前言和介绍专为家庭请假懒人而生的石头科技在近日又带来了自己的全新旗舰新品,石头智能洗地机A10 Plus。从这个产品名上就不难看出,这次石头推出的并不是常见的扫地机器
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 让我们一起聊聊文件的操作

    文件【1】文件是什么?文件是保存数据的地方,是数据源的一种,比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据,它既可以保
  • 使用Webdriver-manager解决浏览器与驱动不匹配所带来自动化无法执行的问题

    1、前言在我们使用 Selenium 进行 UI 自动化测试时,常常会因为浏览器驱动与浏览器版本不匹配,而导致自动化测试无法执行,需要手动去下载对应的驱动版本,并替换原有的驱动,可能还
  • 从零到英雄:高并发与性能优化的神奇之旅

    作者 | 波哥审校 | 重楼作为公司的架构师或者程序员,你是否曾经为公司的系统在面对高并发和性能瓶颈时感到手足无措或者焦头烂额呢?笔者在出道那会为此是吃尽了苦头的,不过也得
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
Top