当前位置：首页 > 元宇宙 > AI

DeepSeek 团队新作：把代码变成思维链，大模型推理各种能力全面提升

来源：责编：时间：2025-02-18 12:10:42 220观看

导读用代码训练大模型思考，其他方面的推理能力也能提升。DeepSeek 团队最新研究，利用 300 多万个实例，将代码转换成思考过程，构建出数据集 CODEI/O，对 Qwen、Llama 等模型进行了训练。结果，在各种类型的推理任务当中，模

用代码训练大模型思考，其他方面的推理能力也能提升。

DeepSeek 团队最新研究，利用 300 多万个实例，将代码转换成思考过程，构建出数据集 CODEI/O，对 Qwen、Llama 等模型进行了训练。

结果，在各种类型的推理任务当中，模型性能都取得了全面提升，包括在非代码类的推理任务上，也展现出了良好的迁移能力。

研究团队认为，在代码当中暗含了不同类型场景的思考过程，于是想要把这种思考过程“提取”出来训练推理模型。

他们生成了大量的训练数据运行这些代码，然后把代码、输入 / 输出对以及功能描述输入 DeepSeek-V2.5，从而合成自然语言形式的推理过程。

在此基础上，团队还引入了验证和修订机制，形成了更高质量的 CODEI/O++。

从代码中构建思维链

首先，作者从 CodeMix、PyEdu-R 等数据集中收集了 80 多万份代码文件，涵盖多种编程语言（以 Python 为主），任务类型多样，并且蕴含了丰富的推理模式。

但是，由于原始代码文件通常缺乏结构化，包含不相关的元素，难以以自包含的方式执行，作者使用 DeepSeek-V2.5 模型对其进行预处理，将其转换为统一的格式。

转换过程中的工作主要包括把核心逻辑功能提取到函数中，添加总结整体逻辑的主入口函数，明确定义主入口函数的输入 / 输出，创建独立的基于规则的输入生成器函数，以及基于主入口函数生成简明的问题陈述作为查询等等。

接下来，在转换后的每个函数上，使用输入生成器采样多个输入，并通过执行代码获得相应的输出，从而收集输入-输出对。

这一过程中，部分代码出现了超时、复杂度过高、不可执行或结果不确定等情况，这部分代码被作者跳过，最终生下了 40 多万份代码文档，产生了 350 万个样本实例。

然后，作者利用 DeepSeek-V2.5，将代码、输入输出对、功能描述等信息合成为自然语言思维链（CoT），构建训练样本。

对于每一个输入-输出对，作者首先构建一个输入提示。这个提示由几个部分拼装而成：

函数定义：即之前结构化和标准化后的 Python 函数代码。

文本描述：用自然语言概括函数的功能和目的。

参考代码：与函数定义类似，但可能包含一些额外的上下文信息或注释。

输入或输出：根据是输入预测还是输出预测任务，提示中会包含具体的输入或期望的输出。

将构建好的提示输入给 DeepSeek-V2.5 模型，模型会根据提示生成一段自然语言文本作为响应。

这段文本就是作者想要的推理过程 —— 它需要解释如何从给定的输入推导出输出，或者在给定输出的情况下如何构造出满足条件的输入。

通过这种方式收集的数据集，就是 CODEI/O。

在 CODEI/O 的基础上，作者进一步利用了代码的可执行特性，合成了数据质量更高的 CODEI/O++。

作者首先对 CODEI/O 中生成的所有响应通过重新执行代码进行正确性验证。对于验证为不正确的响应，作者将执行反馈追加为第二轮输入信息，并要求模型重新生成一个响应。

执行反馈包括输出预测的正误、输入预测基于错误输入的执行输出，以及代码执行失败的错误信息等。

在第二轮生成后，再次检查新响应的正确性。

无论第二轮结果如何，最终的响应都由四个部分按顺序构成：第一轮响应、第一轮反馈、第二轮响应和第二轮反馈。

对于第一轮就正确的响应，第一轮反馈简单标记为“Success”，且没有第二轮内容。

与 CODEI/O 一样，所有修订后的响应都会被保留。通过引入基于执行反馈的多轮修正所构建的增强型数据集就是 CODEI/O++。

数据集构建完成后，作者采用了两阶段训练策略对相关模型进行训练。

第一阶段先用 CODEI/O 或 CODEI/O++ 来训练推理能力，然后再用通用指令数据集进行微调，教会模型遵循自然语言指令、执行各种任务。

模型推理能力全面提升

为了评估 CODEI/O 或 CODEI/O++ 的效果，作者一共找来了四个模型来进行测试，分别是 Qwen 2.5-7B-Coder、Deepseek v2-Lite-Coder、Llama 3.1-8B 和 Gemma 2-27B。

测试过程中，作者共选用了 10 余个数据集，测试了模型常识、数学、代码、物理、工程等领域的表现，具体数据集如下表：

CODEI/O 训练之后，Qwen-Coder 在代码理解任务上取得了突破性进展，并且在阅读理解和推理任务（如 DROP）上也有明显提升，这表明通过代码训练获得的推理能力确实迁移到了其他领域。

DeepSeek-Coder 在 CODEI/O 的训练下也展现出了均衡的进步，在各个维度上都实现了稳定的改进。

Qwen-Coder 和 DeepSeek-Coder 的表现说明，即使是已经在代码领域有专门训练的模型，也能从这种结构化的推理训练中获益。

Llama 在 LeetCode-O 上的性能提升了将近 150%，说明即使是参数量较小的模型，通过合适的训练方法也能在特定任务上获得较大提升。

而 Gemma 作为测试中最大的模型，展示了 CODEI/O 方法在大规模模型上的适用性，在多个关键领域取得了进步。

相比于数据量更大的 WebInstruct（WI），CODEI/O 整体上取得了更好的效果；而相对于专门为某种任务设计的 OpenMathInstruct2（OMI2）、PyEdu 等方式，CODEI/O 体现了更强的通用性。

作者简介

本文第一作者是来自上海交大的硕士生 Junlong Li，目前在 DeepSeek 实习。

同时他还在香港科技大学助理教授何俊贤的指导下进行研究工作，何俊贤亦是本文的通讯作者。

此外参与了 DeepSeek V2、V3 以及 R1 研发的 DeepSeek 核心研究员、中山大学校友郭达雅也参与了这一项目。

论文地址：

https://arxiv.org/abs/2502.07316

GitHub：

https://github.com/hkust-nlp/CodeIO

数据集：

https://huggingface.co/datasets/hkust-nlp/CodeIO-PyEdu-Reasoning

本文来自微信公众号：量子位（ID：QbitAI），作者：克雷西

本文链接：http://www.28at.com/showinfo-45-10865-0.htmlDeepSeek 团队新作：把代码变成思维链，大模型推理各种能力全面提升

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： OpenAI ChatGPT 在心理治疗领域通过图灵测试，AI 比人类更具同理心

下一篇：腾讯元宝上线混元「深度思考模型」Thinker（T1），支持联网搜索

标签：

热门焦点

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

来源：清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上，中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士，还有清华
拯救XR，苹果力不从心

来源 | 光子星球撰文 | 文烨豪编辑 | 吴先之苹果终于呈上了它的“答卷”。北京时间6月6日凌晨，苹果2023年全球开发者大会（WWDC）如期举行。作为苹果CEO库克口中&ld
“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限，腾讯等大厂更加密集地投资动作，让游戏创投市场异常火热，"元宇宙"概念的大放异彩，更是吸引了Netfl
“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

今日《元宇宙新鲜事》有：“元宇宙第一股”Roblox首份年报未达预期致盘后股价暴跌15.28%；YouTube宣布进军区块链和元宇宙；摩根大通成为首家进入元宇宙的银行。【中
Meta展示AI系统Builder Bot；《Pistol Whip》增加派对模式

今日热点：Meta展示AI系统Builder Bot；招聘信息显示Meta正在探索具有蜂窝连接功能的VR/AR头显；英国VR工作室Coatsink Games正在为PSVR 2开发新游戏；VR节奏射击游戏
元宇宙存在的意义和价值

科技公司目前都在犹豫，看谁能在元宇宙上押下更大的赌注。然而，除了巨额的资金投入，到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
GameFi 深度解析，元宇宙内容雏形显现

GameFi=Game（游戏）+Defi（去中心化金融），核心特点为“Play to Earn”。通过技术与去中心化价值观赋能，GameFi 游戏资产化身为NFT 和代币上链，具备了可验证性和流通性；开
FTX 加密货币交易所开始向游戏公司提供加密服务

据媒体报道，业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示，计划推出自己的游戏部门作为中介，专注于为传统游戏公司提供加密相关服务。此举将有助于
冬奥会数字收藏品升温，市场再现“一墩难求”

根据公开信息显示，国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售，总数为500个，每个99美元，每人限购5个。此外，不同的奥运徽章数字藏

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

DeepSeek 团队新作：把代码变成思维链，大模型推理各种能力全面提升

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

拯救XR，苹果力不从心

“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

“元宇宙第一股”Roblox首份年报未达预期，摩根大通成为首家进入元宇宙的银行

Meta展示AI系统Builder Bot；《Pistol Whip》增加派对模式

元宇宙存在的意义和价值

GameFi 深度解析，元宇宙内容雏形显现

FTX 加密货币交易所开始向游戏公司提供加密服务

冬奥会数字收藏品升温，市场再现“一墩难求”

最新推荐

人间诚实周鸿祎：360 All in 大模型的六个解读

数字人的新革命，BAT的“冲高”战场

餐桌上怎么变出元宇宙？

借VR产业东风，江西抢滩布局“元宇宙”

音乐NFT平台里的下一匹黑马是谁？

Interface正大光明的“跑路”，社区成员赞格局大

猜你喜欢

热门推荐

相关资讯