当前位置:首页 > 元宇宙 > AI

通义千问开源数学模型Qwen2-Math,数学能力超越GPT-4o

来源: 责编: 时间:2024-08-10 07:54:51 55观看
导读8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型Qwen2-Math-72B-Instruct在权威测评集MATH上的得

8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。YRx28资讯网——每日最新资讯28at.com

注:在MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,超过GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和 Llama-3.1-405B等开闭源模型。YRx28资讯网——每日最新资讯28at.com

Qwen2-Math 基础模型使用Qwen2大语言模型进行初始化,并在精心设计的数学专用语料库上进行预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由 Qwen2模型合成的数学预训练数据。所有预训练和微调数据集都进行了去污染处理。YRx28资讯网——每日最新资讯28at.com

随后,研发团队训练了指令微调版本模型:基于Qwen2-Math-72B训练一个数学专用的奖励模型;接着,将密集的奖励信号与指示模型是否正确回答问题的二元信号结合,用作学习标签,再通过拒绝采样构建监督微调(SFT)数据;最后在SFT模型基础上使用GRPO 方法优化模型。YRx28资讯网——每日最新资讯28at.com

据悉,Qwen2-Math系列模型目前主要支持英文,通义团队很快就将推出中英双语版本,多语言版本也在开发中。YRx28资讯网——每日最新资讯28at.com

通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了 GSM8K 和 MATH等常见的测评基准,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024赛题、美国数学竞赛(AMC)2023赛题,中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。YRx28资讯网——每日最新资讯28at.com

注:研发团队在greedy和RM@8的条件下对模型作了测评,表中为每款Qwen2-Math-72B-Instruct模型列出了三个得分结果,分别是第1次回答得分(无下标数字)、8次回答中出现最多次数的答案的得分,8次回答中rewardmodel所选答案的得分。YRx28资讯网——每日最新资讯28at.com

“大模型能不能做数学题”,不仅是社交平台的热门话题,也是业界非常关注的研究课题。处理高级数学问题,需要模型具备复杂多步逻辑推理能力。通义团队在技术博客中表示,希望通过开源“为科学界解决高级数学问题做出贡献”,未来将持续增强模型数学能力。YRx28资讯网——每日最新资讯28at.com

附:Qwen2-Math解题示例YRx28资讯网——每日最新资讯28at.com

Qwen2-Math解题示例

本文链接:http://www.28at.com/showinfo-45-6274-0.html通义千问开源数学模型Qwen2-Math,数学能力超越GPT-4o

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 解锁新交互时代!字节豆包大模型赋能实时语音通话

下一篇: 蚂蚁集团被曝投资 AI 公司秘塔科技,2023年已投至少6家公司

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 在数字世界再造世界杯,元宇宙体育正变得越来越丰满

    在数字世界再造世界杯,元宇宙体育正变得越来越丰满

    撰文/ 葱鲔鱼本届世界杯可能不是最精彩的一届,却绝对是看点十足的一届:后疫情时代的首届世界杯、耗资2200亿美元打造的“史上最贵”世界杯、足坛黄金
  • 时尚领域进军元宇宙,2022年会带来哪些颠覆性的全新体验?

    时尚领域进军元宇宙,2022年会带来哪些颠覆性的全新体验?

    想象一个你的数字身份与现实身份同样重要的世界。想象一个你需要为虚拟自我准备资产和物资的地方——你需要金钱(Crypto)、房屋(可能建在Minecraft上)和衣物。随着
  • 高通成立欧洲XR实验室;ICICB计划进军元宇宙......

    高通成立欧洲XR实验室;ICICB计划进军元宇宙......

    扩展现实(XR)通过计算机将真实与虚拟相结合,打造了一个可人机交互的虚拟环境,将AR、VR、MR多种技术相融合,为体验者带来了虚拟世界与现实世界之间无缝转换的“沉浸
  • 2021年中国元宇宙行业用户行为分析热点报告

    2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 与元宇宙美少女艺术家的对话

    与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 王老吉启动元宇宙“吉空间”,HTC发布元宇宙应用VIVERSE

    王老吉启动元宇宙“吉空间”,HTC发布元宇宙应用VIVERSE

    今日《元宇宙新鲜事》有:王老吉启动元宇宙“吉空间”;HTC发布元宇宙应用VIVERSE;Meta将在马德里构建一个元宇宙创新中心;央视网《新闻+》推出系列视频《聊聊元宇宙
  • 初探元宇宙

    初探元宇宙

    2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中,被称为“元宇宙”第一股后,Facebook更名为Meta, 引发全球范围内
Top