当前位置:首页 > 元宇宙 > AI

通义千问开源数学模型Qwen2-Math,数学能力超越GPT-4o

来源: 责编: 时间:2024-08-10 07:54:51 263观看
导读8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型Qwen2-Math-72B-Instruct在权威测评集MATH上的得

8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。BFz28资讯网——每日最新资讯28at.com

注:在MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,超过GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和 Llama-3.1-405B等开闭源模型。BFz28资讯网——每日最新资讯28at.com

Qwen2-Math 基础模型使用Qwen2大语言模型进行初始化,并在精心设计的数学专用语料库上进行预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由 Qwen2模型合成的数学预训练数据。所有预训练和微调数据集都进行了去污染处理。BFz28资讯网——每日最新资讯28at.com

随后,研发团队训练了指令微调版本模型:基于Qwen2-Math-72B训练一个数学专用的奖励模型;接着,将密集的奖励信号与指示模型是否正确回答问题的二元信号结合,用作学习标签,再通过拒绝采样构建监督微调(SFT)数据;最后在SFT模型基础上使用GRPO 方法优化模型。BFz28资讯网——每日最新资讯28at.com

据悉,Qwen2-Math系列模型目前主要支持英文,通义团队很快就将推出中英双语版本,多语言版本也在开发中。BFz28资讯网——每日最新资讯28at.com

通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了 GSM8K 和 MATH等常见的测评基准,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024赛题、美国数学竞赛(AMC)2023赛题,中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。BFz28资讯网——每日最新资讯28at.com

注:研发团队在greedy和RM@8的条件下对模型作了测评,表中为每款Qwen2-Math-72B-Instruct模型列出了三个得分结果,分别是第1次回答得分(无下标数字)、8次回答中出现最多次数的答案的得分,8次回答中rewardmodel所选答案的得分。BFz28资讯网——每日最新资讯28at.com

“大模型能不能做数学题”,不仅是社交平台的热门话题,也是业界非常关注的研究课题。处理高级数学问题,需要模型具备复杂多步逻辑推理能力。通义团队在技术博客中表示,希望通过开源“为科学界解决高级数学问题做出贡献”,未来将持续增强模型数学能力。BFz28资讯网——每日最新资讯28at.com

附:Qwen2-Math解题示例BFz28资讯网——每日最新资讯28at.com

Qwen2-Math解题示例

本文链接:http://www.28at.com/showinfo-45-6274-0.html通义千问开源数学模型Qwen2-Math,数学能力超越GPT-4o

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 解锁新交互时代!字节豆包大模型赋能实时语音通话

下一篇: 蚂蚁集团被曝投资 AI 公司秘塔科技,2023年已投至少6家公司

标签:
  • 热门焦点
  • 关于年度热词NFT,除了钱,我们还可以聊点啥?

    每到年底,社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词,你会想到什么?柯林斯词典将年度热词颁给了“NFT”,而其理由是:一个缩写词的
  • 2022年最具关注的9个头像NFT项目

    什么是 PFP NFT 项目?PFP NFT (个人资料图片NFT)是一组独特的数字收藏品,人们用来在互联网平台上代表自己。这些数字艺术作品通常是一系列可作为头像的角色,在 Twit
  • 好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    在Moviecoin.com平台上,有一部电影设定了一个前所未有的目标,即通过预售NFT获得100%的全额融资,这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》,
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • Terra链上TVL跃升至第二

    据DefiLlama数据显示,当前,Terra链上应用锁仓的加密资产价值(TVL)为172.1亿美元,在公链板块中已跃升至第二,超越了币安智能链TVL的118亿美元,TVL排名居首的仍为以太
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

    今天,Billboard宣布与流行的NFT头像集World of Women(WoW)建立新的伙伴关系,向NFT生态系统又迈进了一步。在这次合作中,WoW的创建者Yam Karkai将帮助这个音乐行业巨
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
  • 你连元宇宙都不知道吗?快来看看这四本元宇宙书籍吧

    前有腾讯、阿里申请商标注册,后有Facebook宣布改名,若论当前互联网最火最热的概念,当属“元宇宙”。“阿里元宇宙”“淘宝元宇宙”“钉钉元宇宙”“QQ元宇宙”“
Top