当前位置:首页 > 元宇宙 > AI

直逼 DeepSeek-R1-32B,UC 伯克利等开源全新 SOTA 推理模型 OpenThinker-32B

来源: 责编: 时间:2025-02-15 15:48:31 126观看
导读 32B 推理模型,仅用 1/8 数据,与同尺寸 DeepSeek-R1 打成平手。就在刚刚,来自斯坦福、UC 伯克利、华盛顿大学等机构联手发布了一款 SOTA 级推理模型 ——OpenThinker-32B,并同时开源了高达 114k 的训练数据。项目

32B 推理模型,仅用 1/8 数据,与同尺寸 DeepSeek-R1 打成平手。2aP28资讯网——每日最新资讯28at.com

就在刚刚,来自斯坦福、UC 伯克利、华盛顿大学等机构联手发布了一款 SOTA 级推理模型 ——OpenThinker-32B,并同时开源了高达 114k 的训练数据。2aP28资讯网——每日最新资讯28at.com

2aP28资讯网——每日最新资讯28at.com

2aP28资讯网——每日最新资讯28at.com

项目主页:https://www.open-thoughts.ai/blog/scale2aP28资讯网——每日最新资讯28at.com

Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32B2aP28资讯网——每日最新资讯28at.com

数据集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k2aP28资讯网——每日最新资讯28at.com

团队发现:采用经 DeepSeek-R1 验证标注(基于 R1 蒸馏)的大规模优质数据集,便可训练出 SOTA 的推理模型。2aP28资讯网——每日最新资讯28at.com

具体方法,就是通过数据规模化、推理过程验证以及模型规模扩展。2aP28资讯网——每日最新资讯28at.com

由此得到的 OpenThinker-32B,在数学、代码和科学等多个基准测试中,OpenThinker-32B 性能直接碾压了李飞飞团队 s1 和 s1.1 模型,直逼 R1-Distill-32B。2aP28资讯网——每日最新资讯28at.com

值得一提的是,相比于使用了 800k 数据(包含 600k 个推理样本)的 R1-Distill,OpenThinker-32B 仅用了 114k 数据,就能拿下几乎同等的优异成绩。2aP28资讯网——每日最新资讯28at.com

2aP28资讯网——每日最新资讯28at.com

结果均通过开源评估框架 Evalchemy 计算得出

除此之外,OpenThinker-32 还把模型权重、数据集、数据生成代码、训练代码上,全部都给公开了!2aP28资讯网——每日最新资讯28at.com

2aP28资讯网——每日最新资讯28at.com

数据策展

研究人员使用了与之前训练 OpenThinker-7B 模型相同的 OpenThoughts-114k 数据集来训练 OpenThinker-32B。2aP28资讯网——每日最新资讯28at.com

他们利用 DeepSeek-R1 模型,收集了精心挑选的 17.3 万个问题的推理过程和解答尝试。然后将这些原始数据作为 OpenThoughts-Unverfied-173k 数据集公开发布。2aP28资讯网——每日最新资讯28at.com

整个流程的最后一步是,如果推理过程未能通过验证,就过滤掉相应的数据样本。2aP28资讯网——每日最新资讯28at.com

下图可视化地展示了整个过程。2aP28资讯网——每日最新资讯28at.com

研究团队首先输入源数据或问题提示,这些内容可以来自不同的领域和平台,如 BAAI / TACO、DeepMind、Python 提交等,涉及代码、谜题、科学和数学等多个方面。2aP28资讯网——每日最新资讯28at.com

接着这些多元的输入会进入核心的处理模块 ——DeepSeek-R1,在这里对数据进行分析与处理。这些问题会被分成三个方面,分别是:科学类问题、数学与谜题和代码。2aP28资讯网——每日最新资讯28at.com

有些结果不需要验证,可能是简单的分析或直接输出。对于一些需要深入验证的内容,利用大语言模型(LLM)采用与 GT(Ground Truth)对比的方式进行评判。如果是代码,执行代码并进行单元测试,确保代码的正确性和有效性。2aP28资讯网——每日最新资讯28at.com

最后能将不同方向的结果结合起来,生成开放的思考和更为综合的解决方案。2aP28资讯网——每日最新资讯28at.com

2aP28资讯网——每日最新资讯28at.com

研究团队更新了最终的 OpenThoughts-114k 数据集,加入了一个名为「metadata」的配置,其中包含了一些用于数据集构建的额外列:2aP28资讯网——每日最新资讯28at.com

problem2aP28资讯网——每日最新资讯28at.com

ground_truth_solution2aP28资讯网——每日最新资讯28at.com

test_cases (code only)2aP28资讯网——每日最新资讯28at.com

starter_code (code only)2aP28资讯网——每日最新资讯28at.com

DeepSeek_reasoning2aP28资讯网——每日最新资讯28at.com

DeepSeek_solution2aP28资讯网——每日最新资讯28at.com

domain2aP28资讯网——每日最新资讯28at.com

source2aP28资讯网——每日最新资讯28at.com

这些额外的元数据将使得这个数据集更容易用于新的场景,例如数据过滤、领域切换、验证检查以及更改推理过程的模板。2aP28资讯网——每日最新资讯28at.com

这些额外的元数据将得使该数据集使用起来更加容易,仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。2aP28资讯网——每日最新资讯28at.com

load_dataset("open-thoughts/OpenThoughts-114k","metadata",split="train")

研究团队表示,他们期待看到社区利用这些问题和标准答案,在 OpenThinker 模型上进行强化学习(RL)的研究。DeepScaleR 已经证明,规模较小时,这种方法效果特别好。2aP28资讯网——每日最新资讯28at.com

验证

为了得到最终的 OpenThoughts-114k 数据集,研究团队对答案进行了验证,并剔除了不正确的回答。2aP28资讯网——每日最新资讯28at.com

如下表所示,保留那些未通过验证的推理过程可能会损害性能,尽管未经验证的模型与其他 32B 推理模型相比仍然表现良好。2aP28资讯网——每日最新资讯28at.com

验证的作用在于,在扩大训练提示集的多样性和规模的同时,保持 R1 注释的质量。另一方面,未经验证的数据可以更容易地扩展,因此也值得进一步探索。2aP28资讯网——每日最新资讯28at.com

2aP28资讯网——每日最新资讯28at.com

对于代码问题,他们通过对照已有的测试用例来验证解答尝试,从而完成推理过程的验证。2aP28资讯网——每日最新资讯28at.com

受到代码执行过程中所面临挑战的启发,他们在 Curator 中实现了一个代码执行框架,使用户能够大规模、安全地执行代码,并对照预期输出进行验证。2aP28资讯网——每日最新资讯28at.com

对于数学问题,研究团队使用一个 LLM(大语言模型)评判器来进行验证,它会同时接收标准答案和 DeepSeek-R1 的解答尝试。2aP28资讯网——每日最新资讯28at.com

结果发现,在数据生成过程中,使用 LLM 评判器而不是更严格的解析引擎(Math-Verify)进行验证,可以获得更高的有效数据率,并能训练出性能更好的下游模型。2aP28资讯网——每日最新资讯28at.com

2aP28资讯网——每日最新资讯28at.com

训练

研究团队使用 LLaMa-Factory 对 Qwen2.5-32B-Instruct 在 OpenThoughts-114k 数据集上进行了三轮微调,上下文长度为 16k。完整训练配置可在 GitHub 中找到。2aP28资讯网——每日最新资讯28at.com

OpenThinker-32B 在 AWS SageMaker 集群上使用四个 8xH100 P5 节点训练了 90 小时,累计使用了 2,880 个 H100 小时。2aP28资讯网——每日最新资讯28at.com

同时,OpenThinker-32B-Unverified 在 Leonardo 超级计算机上使用 96 个 4xA100 节点(每个 GPU64GB)训练了 30 小时,累计使用了 11,520 个 A100 小时。2aP28资讯网——每日最新资讯28at.com

评估

研究团队使用开源评估库 Evalchemy(炼金术)对所有模型进行评估。2aP28资讯网——每日最新资讯28at.com

对于 AIME24 和 AIME25,他们通过平均五次运行的结果来计算准确率。评估配置使用 0.7 的温度参数,将模型响应限制在 32,768 个 token 以内,不添加任何额外的系统或用户提示词,也不使用任何特殊的解码策略(如预算强制)。2aP28资讯网——每日最新资讯28at.com

当启动 OpenThoughts 项目时,他们设定了一个目标,即创建一个性能可以达到 DeepSeek-R1-Distill-Qwen-32B 的开放数据模型。2aP28资讯网——每日最新资讯28at.com

现在这个差距已经几乎消除。2aP28资讯网——每日最新资讯28at.com

最后,研究团队为社区在过去几周在构建开放数据推理模型方面取得的快速进展感到振奋,并期待基于彼此的洞见继续向前发展。2aP28资讯网——每日最新资讯28at.com

OpenThinker-32B 的开源,证明了数据、验证和模型规模的协同作用是提升推理能力的关键。2aP28资讯网——每日最新资讯28at.com

这一成果不仅推动了开源推理模型的发展,也为整个 AI 社区提供了宝贵的资源和启示。2aP28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元(ID:AI_era),原标题《直逼 DeepSeek-R1-32B,碾压李飞飞 s1!UC 伯克利等开源全新 SOTA 推理模型》2aP28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10780-0.html直逼 DeepSeek-R1-32B,UC 伯克利等开源全新 SOTA 推理模型 OpenThinker-32B

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 阿里巴巴蔡崇信:AI 竞争很激烈,DeepSeek 转变行业思路

下一篇: 4S店强制买车险?学会这句话,委婉拒绝不纠结!

标签:
  • 热门焦点
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 星展银行(DBS)计划推出零售数字资产交易服务

    2月14日消息,新加坡星展银行CEO Piyush Gupta在财报会议上表示,计划于2022年年底前推出零售数字资产交易服务。据悉,DBS于2021年初开设了机构数字资产交易平台,全
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 以太坊伦敦升级后,随之生效的以太坊EIP-1559是什么?

    作者:三黎过去的一年里,除了 BTC 一如既往稳坐王位,DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时,也使得其网络日渐拥堵、交易费用增高,成为
  • 虚拟人的3大纪律和6种品牌孵化模式

    作者:陈格雷(老小格)及团队虚拟人很热,我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点,整理出6种最主要的品牌虚拟人模式,后面一一介绍。
  • 我们为什么需要Web3,距离Web3的实现还有多远?

    当今技术正在经历着重要的变革,许多公司正在改变他们的经营模式以求变得更加的灵活,其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3,
Top