当前位置：首页 > 科技 > 网络

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

来源：责编：时间：2023-08-14 22:01:29 528观看

导读用AI生成的指令微调羊驼大模型，数学能力超ChatGPT——微软新开源大模型WizardMath来了。如下图所示，经过GSM8k数据集测试，WizardMath数学能力直接击败了ChatGPT、Claude Instant 1、PaLM 2-540B等一

用AI生成的指令微调羊驼大模型，数学能力超ChatGPT——

微软新开源大模型WizardMath来了。

如下图所示，经过GSM8k数据集测试，WizardMath数学能力直接击败了ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型——

并且是在参数只有700亿，远不及后三者的情况之下。

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

HuggingFace已上线3个在线可玩版本（分别为7B、13B和70B参数），各种数学题可以直接丢进去试一试。

比如解决下面这道四次多项式方程：

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

或者是一道简单的微积分：

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

亦或者是稍微修改过的拉格朗日方程推导：

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

它都全部正确（过程也不需要等太久）。

有网友向作者表示：

效果真的很惊人，感谢你们对开源LLM的贡献。

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

目前，相关代码、复现方式以及论文也都开源或上线，GitHub短短几天已揽获4.8k标星。

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

那么，WizardMath究竟是如何做到的？

用AI生成的指令增强大模型能力

OpenAI的大模型（InstructGPT、GPT-4等）能够取得巨大成功、去执行各种复杂和多样化的任务，一部分原因是使用了真实人类用户生成的开放域指令数据进行了微调。

然而，不是谁都能像这家公司一样获得这样的指令数据集。

一是因为整个注释过程极其昂贵且耗时，二是人工难以创建出足够比例的高难度指令。

因此，开发出一种成本相对较低的、大规模开放域指令自动生产方法，成为当下指令调优语言模型的关键。

在此，作者将他们的方法命名为Evol Instruction。

它是一种利用AI来代替人类自动生成涵盖各种难度级别开放域指令的新方法。

具体而言，Evol Instruction分为指令进化器和指令消除器。

其中指令进化器可通过深度进化（蓝线）或广度进化（红线）两种路径，将简单指令升级为更复杂的指令或创建一条全新指令。

具体执行哪一条？随机选择就好。

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

其中，深度进化的具体“进化法”，则是通过五种类型的操作来完成，包括：

添加约束（add constraints）、深化（deepening）、具体化（concretizing）、增加推理步骤（increase reasoning steps）和使输入复杂化（complicate input）。

由于所有指令均由AI完成，有时难免会出现错误。因此，指令消除器就是用于过滤失败指令的。

以下是一个具体示例，该方法从“1+1=？”开始，终通过以上步骤自动生成了相当多的新指令。

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

通过重复这一生成过程，终我们就能得到足够多的指令，然后将它们合并并随机打乱，组成一个难度级别均匀分布的指令集，就可以对基础大模型进行微调了。

在此，作者选择Alpaca的训练数据（仅由175条人工创建的种子指令生成）作为初始数据集，然后使用ChatGPT的API执行了四个进化周期，终获得25万条指令。

为了与Vicuna的70k真实用户数据（ShareGPT）进行公平比较，作者从这25万条数据中抽取了等量的样本，训练LLaMA 7B模型，终得到WizardLM，结果WizardLM的性能明显优于Vicuna。

（Alpaca：斯坦福在LLaMa-7B基础上微调出来的模型；Vicuna，UC伯克利在LLaMa-13B的基础上微调得来）

此外，在更为复杂的测试指令下，人类更喜欢WizardLM的输出，而非ChatGPT，这表明该方法可以显着提高LLM处理复杂指令的能力。

基于此，作者又利用Evol Instruction生成了很多数学领域相关的指令，然后微调羊驼大模型，得到了WizardMath。

其效果如开头所示，在GSM8k数据集上测得其数学能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型，位列第5名，仅次于GPT-4、Claud1.3和2.0，以及5400亿参数的Flan-PaLM 2之后。

以此类推，作者还在羊驼之上得到了专攻代码能力的WizardCoder，效果超越Claude和Bard（详情可戳文末地址）。

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

团队介绍本文共9位作者，全华人。

一作有3位：

Can Xu，微软亚洲互联网工程院S+D NLP组高级应用科学家，之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作；

Qingfeng Sun， Microsoft Research科学家，研究方向为自然语言处理和信息检索，精通构建高效搜索系统，为Microsoft Bing和Office 365贡献了核心深度模型；

Kai Zheng，Microsoft Research科学家，研究方向为自然语言处理、搜索和推荐排名，同样为Microsoft Bing和Office 365贡献了核心深度模型。

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

通讯作者为姜大昕，微软全球合伙人、副总裁、前微软亚洲研究院首席科学家，在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人，日前已被曝离职投身大模型创业。

另还有一位作者Jiazhan Feng，是北大学生，这篇合著论文是TA在微软实习时产出的。

项目主页： https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

文章出处：量子位

本文链接：http://www.28at.com/showinfo-17-5471-0.html数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：车辆被高速路石子砸了下博主：成功向高速路政索赔了1600元

下一篇：这款“读博模拟器”太逼真！玩过的人都要崩溃了：你敢试试？

标签：

热门焦点

直屏旗舰来了 iQOO 12和K70 Pro同台竞技

旗舰机基本上使用的都是双曲面屏幕，这就让很多喜欢直屏的爱好者在苦等一款直屏旗舰，这次，你们等到了。据博主数码闲聊站带来的最新爆料称，Redmi下代旗舰K70 Pro和iQOO 12两款手
6月安卓手机好评榜：魅族20 Pro蝉联冠军

性能榜和性价比榜之后，我们来看最后的安卓手机好评榜，数据来源安兔兔评测，收集时间2023年6月1日至6月30日，仅限国内市场。第一名：魅族20 Pro好评率：95%5月份的时候魅族20 Pro就是
掘力计划第 20 期：Flutter 混合开发的混乱之治

在掘力计划系列活动第20场，《Flutter 开发实战详解》作者，掘金优秀作者，Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
如何通过Python线程池实现异步编程？

线程池的概念和基本原理线程池是一种并发处理机制，它可以在程序启动时创建一组线程，并将它们置于等待任务的状态。当任务到达时，线程池中的某个线程会被唤醒并执行任务，执行完任
19个 JavaScript 单行代码技巧，让你看起来像个专业人士

今天这篇文章跟大家分享18个JS单行代码，你只需花几分钟时间，即可帮助您了解一些您可能不知道的 JS 知识，如果您已经知道了，就当作复习一下，古人云，温故而知新嘛。现在，我们就开始今
一文搞定Java NIO，以及各种奇葩流

大家好，我是哪吒。很多朋友问我，如何才能学好IO流，对各种流的概念，云里雾里的，不求甚解。用到的时候，现百度，功能虽然实现了，但是为什么用这个？不知道。更别说效率问题了~下次再遇到，
使用AIGC工具提升安全工作效率

在日常工作中，安全人员可能会涉及各种各样的安全任务，包括但不限于：开发某些安全工具的插件，满足自己特定的安全需求；自定义github搜索工具，快速查找所需的安全资料、漏洞poc、exp
三星显示已开始为AR设备研发硅基LED微显示屏

7月18日消息，据外媒报道，随着苹果首款头显产品Vision Pro在6月份正式推出，AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域，对显示屏这一关
利用职权私自解除被封帐号 Meta开除20多名员工

11月18日消息，据外媒援引知情人士表示，过去一年时间内，Facebook母公司Meta解雇或处罚了20多名员工以及合同工，指控这些人通过内部系统以不当方式重置用户帐号，其

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

直屏旗舰来了 iQOO 12和K70 Pro同台竞技

6月安卓手机好评榜：魅族20 Pro蝉联冠军

掘力计划第 20 期：Flutter 混合开发的混乱之治

如何通过Python线程池实现异步编程？

19个 JavaScript 单行代码技巧，让你看起来像个专业人士

一文搞定Java NIO，以及各种奇葩流

使用AIGC工具提升安全工作效率

三星显示已开始为AR设备研发硅基LED微显示屏

利用职权私自解除被封帐号 Meta开除20多名员工

最新推荐

猜你喜欢

热门推荐

相关资讯