当前位置:首页 > 元宇宙 > AI

DeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升

来源: 责编: 时间:2025-02-18 12:10:42 153观看
导读 用代码训练大模型思考,其他方面的推理能力也能提升。DeepSeek 团队最新研究,利用 300 多万个实例,将代码转换成思考过程,构建出数据集 CODEI/O,对 Qwen、Llama 等模型进行了训练。结果,在各种类型的推理任务当中,模

用代码训练大模型思考,其他方面的推理能力也能提升。iiW28资讯网——每日最新资讯28at.com

DeepSeek 团队最新研究,利用 300 多万个实例,将代码转换成思考过程,构建出数据集 CODEI/O,对 Qwen、Llama 等模型进行了训练。iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括在非代码类的推理任务上,也展现出了良好的迁移能力。iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

研究团队认为,在代码当中暗含了不同类型场景的思考过程,于是想要把这种思考过程“提取”出来训练推理模型。iiW28资讯网——每日最新资讯28at.com

他们生成了大量的训练数据运行这些代码,然后把代码、输入 / 输出对以及功能描述输入 DeepSeek-V2.5,从而合成自然语言形式的推理过程。iiW28资讯网——每日最新资讯28at.com

在此基础上,团队还引入了验证和修订机制,形成了更高质量的 CODEI/O++。iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

从代码中构建思维链

首先,作者从 CodeMix、PyEdu-R 等数据集中收集了 80 多万份代码文件,涵盖多种编程语言(以 Python 为主),任务类型多样,并且蕴含了丰富的推理模式。iiW28资讯网——每日最新资讯28at.com

但是,由于原始代码文件通常缺乏结构化,包含不相关的元素,难以以自包含的方式执行,作者使用 DeepSeek-V2.5 模型对其进行预处理,将其转换为统一的格式。iiW28资讯网——每日最新资讯28at.com

转换过程中的工作主要包括把核心逻辑功能提取到函数中,添加总结整体逻辑的主入口函数,明确定义主入口函数的输入 / 输出,创建独立的基于规则的输入生成器函数,以及基于主入口函数生成简明的问题陈述作为查询等等。iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

接下来,在转换后的每个函数上,使用输入生成器采样多个输入,并通过执行代码获得相应的输出,从而收集输入-输出对。iiW28资讯网——每日最新资讯28at.com

这一过程中,部分代码出现了超时、复杂度过高、不可执行或结果不确定等情况,这部分代码被作者跳过,最终生下了 40 多万份代码文档,产生了 350 万个样本实例。iiW28资讯网——每日最新资讯28at.com

然后,作者利用 DeepSeek-V2.5,将代码、输入输出对、功能描述等信息合成为自然语言思维链(CoT),构建训练样本。iiW28资讯网——每日最新资讯28at.com

对于每一个输入-输出对,作者首先构建一个输入提示。这个提示由几个部分拼装而成:iiW28资讯网——每日最新资讯28at.com

函数定义:即之前结构化和标准化后的 Python 函数代码。iiW28资讯网——每日最新资讯28at.com

文本描述:用自然语言概括函数的功能和目的。iiW28资讯网——每日最新资讯28at.com

参考代码:与函数定义类似,但可能包含一些额外的上下文信息或注释。iiW28资讯网——每日最新资讯28at.com

输入或输出:根据是输入预测还是输出预测任务,提示中会包含具体的输入或期望的输出。iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

将构建好的提示输入给 DeepSeek-V2.5 模型,模型会根据提示生成一段自然语言文本作为响应。iiW28资讯网——每日最新资讯28at.com

这段文本就是作者想要的推理过程 —— 它需要解释如何从给定的输入推导出输出,或者在给定输出的情况下如何构造出满足条件的输入。iiW28资讯网——每日最新资讯28at.com

通过这种方式收集的数据集,就是 CODEI/O。iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

在 CODEI/O 的基础上,作者进一步利用了代码的可执行特性,合成了数据质量更高的 CODEI/O++。iiW28资讯网——每日最新资讯28at.com

作者首先对 CODEI/O 中生成的所有响应通过重新执行代码进行正确性验证。对于验证为不正确的响应,作者将执行反馈追加为第二轮输入信息,并要求模型重新生成一个响应。iiW28资讯网——每日最新资讯28at.com

执行反馈包括输出预测的正误、输入预测基于错误输入的执行输出,以及代码执行失败的错误信息等。iiW28资讯网——每日最新资讯28at.com

在第二轮生成后,再次检查新响应的正确性。iiW28资讯网——每日最新资讯28at.com

无论第二轮结果如何,最终的响应都由四个部分按顺序构成:第一轮响应、第一轮反馈、第二轮响应和第二轮反馈。iiW28资讯网——每日最新资讯28at.com

对于第一轮就正确的响应,第一轮反馈简单标记为“Success”,且没有第二轮内容。iiW28资讯网——每日最新资讯28at.com

与 CODEI/O 一样,所有修订后的响应都会被保留。通过引入基于执行反馈的多轮修正所构建的增强型数据集就是 CODEI/O++。iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

数据集构建完成后,作者采用了两阶段训练策略对相关模型进行训练。iiW28资讯网——每日最新资讯28at.com

第一阶段先用 CODEI/O 或 CODEI/O++ 来训练推理能力,然后再用通用指令数据集进行微调,教会模型遵循自然语言指令、执行各种任务。iiW28资讯网——每日最新资讯28at.com

模型推理能力全面提升

为了评估 CODEI/O 或 CODEI/O++ 的效果,作者一共找来了四个模型来进行测试,分别是 Qwen 2.5-7B-Coder、Deepseek v2-Lite-Coder、Llama 3.1-8B 和 Gemma 2-27B。iiW28资讯网——每日最新资讯28at.com

测试过程中,作者共选用了 10 余个数据集,测试了模型常识、数学、代码、物理、工程等领域的表现,具体数据集如下表:iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

CODEI/O 训练之后,Qwen-Coder 在代码理解任务上取得了突破性进展,并且在阅读理解和推理任务(如 DROP)上也有明显提升,这表明通过代码训练获得的推理能力确实迁移到了其他领域。iiW28资讯网——每日最新资讯28at.com

DeepSeek-Coder 在 CODEI/O 的训练下也展现出了均衡的进步,在各个维度上都实现了稳定的改进。iiW28资讯网——每日最新资讯28at.com

Qwen-Coder 和 DeepSeek-Coder 的表现说明,即使是已经在代码领域有专门训练的模型,也能从这种结构化的推理训练中获益。iiW28资讯网——每日最新资讯28at.com

Llama 在 LeetCode-O 上的性能提升了将近 150%,说明即使是参数量较小的模型,通过合适的训练方法也能在特定任务上获得较大提升。iiW28资讯网——每日最新资讯28at.com

而 Gemma 作为测试中最大的模型,展示了 CODEI/O 方法在大规模模型上的适用性,在多个关键领域取得了进步。iiW28资讯网——每日最新资讯28at.com

相比于数据量更大的 WebInstruct(WI),CODEI/O 整体上取得了更好的效果;而相对于专门为某种任务设计的 OpenMathInstruct2(OMI2)、PyEdu 等方式,CODEI/O 体现了更强的通用性。iiW28资讯网——每日最新资讯28at.com

iiW28资讯网——每日最新资讯28at.com

作者简介

本文第一作者是来自上海交大的硕士生 Junlong Li,目前在 DeepSeek 实习。iiW28资讯网——每日最新资讯28at.com

同时他还在香港科技大学助理教授何俊贤的指导下进行研究工作,何俊贤亦是本文的通讯作者。iiW28资讯网——每日最新资讯28at.com

此外参与了 DeepSeek V2、V3 以及 R1 研发的 DeepSeek 核心研究员、中山大学校友郭达雅也参与了这一项目。iiW28资讯网——每日最新资讯28at.com

论文地址:iiW28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2502.07316iiW28资讯网——每日最新资讯28at.com

GitHub:iiW28资讯网——每日最新资讯28at.com

https://github.com/hkust-nlp/CodeIOiiW28资讯网——每日最新资讯28at.com

数据集:iiW28资讯网——每日最新资讯28at.com

https://huggingface.co/datasets/hkust-nlp/CodeIO-PyEdu-ReasoningiiW28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:克雷西iiW28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10865-0.htmlDeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI ChatGPT 在心理治疗领域通过图灵测试,AI 比人类更具同理心

下一篇: 腾讯元宝上线混元「深度思考模型」Thinker(T1),支持联网搜索

标签:
  • 热门焦点
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • FMIFAwards奖项即将揭晓!

    来源:X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
  • 在数字世界再造世界杯,元宇宙体育正变得越来越丰满

    撰文/ 葱鲔鱼本届世界杯可能不是最精彩的一届,却绝对是看点十足的一届:后疫情时代的首届世界杯、耗资2200亿美元打造的“史上最贵”世界杯、足坛黄金
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • 元宇宙社交时代,华丽归来的超级QQ秀重构虚拟社交场景

    作者:狂人 不知不觉间,QQ已经迎来了第23个生日。作为国内社交平台的起点,QQ可谓是睥睨全网,不仅有庞大的用户群体,还将虚拟形象及QQ整合成在线虚拟社区,开启了时髦
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • 为什么元宇宙将永远改变体育和你的生活?

    自从Facebook更名为Meta以来,Metaverse这个词已经被大家所熟知。但是当Metaverse仍然被许多人视为一个虚拟的平行世界时,一些项目已经显示出Metaverse将如何永远
  • 3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
Top