当前位置:首页 > 元宇宙 > AI

DeepSeek-Prover-V2 登场:AI 数学推理新王者,88.9% 通过率设新标杆

来源: 责编: 时间:2025-05-03 07:29:41 147观看
导读 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。援引论文介绍,DeepSeek-Prover-V2 是一款专

5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。Pl328资讯网——每日最新资讯28at.com

援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。Pl328资讯网——每日最新资讯28at.com

Pl328资讯网——每日最新资讯28at.com

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。Pl328资讯网——每日最新资讯28at.com

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。Pl328资讯网——每日最新资讯28at.com

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。Pl328资讯网——每日最新资讯28at.com

Pl328资讯网——每日最新资讯28at.com

Pl328资讯网——每日最新资讯28at.com

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。Pl328资讯网——每日最新资讯28at.com

Pl328资讯网——每日最新资讯28at.com

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。Pl328资讯网——每日最新资讯28at.com

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。Pl328资讯网——每日最新资讯28at.com

Pl328资讯网——每日最新资讯28at.com

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。Pl328资讯网——每日最新资讯28at.com

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。Pl328资讯网——每日最新资讯28at.com

相关阅读:Pl328资讯网——每日最新资讯28at.com

《DeepSeek-Prover-V2-671B 新模型开源发布》Pl328资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12697-0.htmlDeepSeek-Prover-V2 登场:AI 数学推理新王者,88.9% 通过率设新标杆

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 阿里通义千问 2.5-Omni-3B AI 全模态登场:7B 版 90% 性能,显存占用减少 53%

下一篇: Meta Ray-Ban 智能眼镜隐私政策调整:AI 随时“看”,语音云端存

标签:
  • 热门焦点
  • 在数字世界再造世界杯,元宇宙体育正变得越来越丰满

    撰文/ 葱鲔鱼本届世界杯可能不是最精彩的一届,却绝对是看点十足的一届:后疫情时代的首届世界杯、耗资2200亿美元打造的“史上最贵”世界杯、足坛黄金
  • 比特币的价格越高,使用价值越大

    隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势,但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下,彰显着市场活跃度的
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • 元宇宙是数字共识生态的集成逻辑表达

    作者: 李鸣元宇宙是数字共识生态的集成逻辑表达,是以区块链技术为核心的可信数字化价值交互网络,是基于Web3.0技术体系和运作机制支撑下的数字新生态。本体论是
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 2022年去中心化交易所会崛起吗?

    “在某个时候,去中心化衍生品的交易量可能会超过去中心化现货交易所。”DEX 越来越多地转向第二层解决方案。“数字化金融市场的概念以及如何沿着以用户为中心
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
  • 76亿美金估值、2022年最具创新力公司,Dapper Labs如何做到?

    “元宇宙的开拓者”是我们针对元宇宙的发展而设立的专栏,主要面向那些深挖元宇宙产业或者在元宇宙进行“淘金”的从业者,分享这些企业或者创业者们的故事,以独特
Top