当前位置：首页 > 元宇宙 > AI

通义千问开源数学模型Qwen2-Math，数学能力超越GPT-4o

来源：责编：时间：2024-08-10 07:54:51 284观看

导读8月9日消息，阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型Qwen2-Math-72B-Instruct在权威测评集MATH上的得

8月9日消息，阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题，成为最先进的数学专项模型。

注：在MATH基准测评中，通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率，超过GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和 Llama-3.1-405B等开闭源模型。

Qwen2-Math 基础模型使用Qwen2大语言模型进行初始化，并在精心设计的数学专用语料库上进行预训练，训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目，以及由 Qwen2模型合成的数学预训练数据。所有预训练和微调数据集都进行了去污染处理。

随后，研发团队训练了指令微调版本模型：基于Qwen2-Math-72B训练一个数学专用的奖励模型;接着，将密集的奖励信号与指示模型是否正确回答问题的二元信号结合，用作学习标签，再通过拒绝采样构建监督微调(SFT)数据;最后在SFT模型基础上使用GRPO 方法优化模型。

据悉，Qwen2-Math系列模型目前主要支持英文，通义团队很快就将推出中英双语版本，多语言版本也在开发中。

通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估，除了 GSM8K 和 MATH等常见的测评基准，还引入了更具挑战性的考试竞赛类测试，如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024赛题、美国数学竞赛(AMC)2023赛题，中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终，Qwen2-Math-72B-Instruct表现优异，在十大测评中都获得了远超其他开源数学模型的成绩。

注：研发团队在greedy和RM@8的条件下对模型作了测评，表中为每款Qwen2-Math-72B-Instruct模型列出了三个得分结果，分别是第1次回答得分(无下标数字)、8次回答中出现最多次数的答案的得分，8次回答中rewardmodel所选答案的得分。

“大模型能不能做数学题”，不仅是社交平台的热门话题，也是业界非常关注的研究课题。处理高级数学问题，需要模型具备复杂多步逻辑推理能力。通义团队在技术博客中表示，希望通过开源“为科学界解决高级数学问题做出贡献”，未来将持续增强模型数学能力。

附：Qwen2-Math解题示例

本文链接：http://www.28at.com/showinfo-45-6274-0.html通义千问开源数学模型Qwen2-Math，数学能力超越GPT-4o

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：解锁新交互时代！字节豆包大模型赋能实时语音通话

下一篇：蚂蚁集团被曝投资 AI 公司秘塔科技，2023年已投至少6家公司

标签：

热门焦点

一份全面清单：Web3行业高薪酬的13种工作

来源：区块链骑士这可能会让许多人感到震惊，但除了成为开发人员之外，Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域，换句话说，它由许多个在不同领域中具有不同
蓝标亏钱、Meta裁员：天下秀还值得砸钱元宇宙吗？

日前，天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示，2022年天下秀实现营收41.29亿元，同比下滑8.48%；归母净利润1.8亿元，同比下滑49.2%，几乎出现了盈利腰斩的态势
从科幻走进现实，元宇宙概念逐渐清晰

2021年，元宇宙概念如同一颗炸弹投进互联网行业，掀起了一场数字海啸，众多企业纷纷入局，在此新领域展开新探索。那么，加速狂奔的元宇宙究竟是什么？概念翻红，元宇宙走进资本圈2021年3
Terra链上TVL跃升至第二

据DefiLlama数据显示，当前,Terra链上应用锁仓的加密资产价值（TVL）为172.1亿美元，在公链板块中已跃升至第二，超越了币安智能链TVL的118亿美元，TVL排名居首的仍为以太
艺术创作者能否永久收取版税？

NFTs正在改变我们理解互联网所有权的方式，社区管理的所有权有很多好处，但如果创作者想为他/她的创作获得永久的收益（版税），会发生什么？这不是一个容易解决的问题，版税
以太坊面临来自Fantom的巨大挑战

众所周知，区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
Staking 收益翻倍？

以太坊质押可能很快就会有两倍的利润。Coinbase 估计，在 1 月份以太坊网络合并后，持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
多位全国政协委员提交元宇宙提案，国金证券称元宇宙仍处初期投资阶段

财联社|区块链日报2日讯今日《元宇宙新鲜事》有：全国政协委员刘伟建议出台“元宇宙中国”的顶层设计方案；国金证券称元宇宙仍处初期投资庞大获利不易阶段；阿联酋
售出6930万美元的NFT已经过去一年，NFT如今是否已成为主流？

Everydays: the First 5000 Days/Beeple去年三月，一件艺术品被著名拍卖行佳士得以6930万美元的高价售出。而让人们感到震惊的是，这个拍卖作品不是出自哪位艺术大

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

通义千问开源数学模型Qwen2-Math，数学能力超越GPT-4o

一份全面清单：Web3行业高薪酬的13种工作

蓝标亏钱、Meta裁员：天下秀还值得砸钱元宇宙吗？

从科幻走进现实，元宇宙概念逐渐清晰

Terra链上TVL跃升至第二

艺术创作者能否永久收取版税？

以太坊面临来自Fantom的巨大挑战

Staking 收益翻倍？

多位全国政协委员提交元宇宙提案，国金证券称元宇宙仍处初期投资阶段

售出6930万美元的NFT已经过去一年，NFT如今是否已成为主流？

最新推荐

10亿基金，李彦宏呼唤下一个AI独角兽

时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

字节、腾讯、网易鏖战元宇宙背后，大厂究竟在争夺什么？

Interface正大光明的“跑路”，社区成员赞格局大

从概念到落地 Web3.0初具雏形

虚拟偶像行业的商用价值逐渐凸显，IP生态圈也逐渐成型

猜你喜欢

热门推荐

相关资讯