当前位置：首页 > 元宇宙 > AI

DeepSeek 下一代技术提前曝光，梁文锋署名论文获 ACL 2025 最佳论文奖

来源：责编：时间：2025-08-04 10:11:46 153观看

导读在 ACL 2025 的颁奖典礼上，由 DeepSeek 梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。这次 ACL 2025 规模空前，总投稿量达到 8360 篇，相较于去年的 4407 篇几乎翻倍，竞争异常激烈。简单来说，他

在 ACL 2025 的颁奖典礼上，由 DeepSeek 梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。

这次 ACL 2025 规模空前，总投稿量达到 8360 篇，相较于去年的 4407 篇几乎翻倍，竞争异常激烈。

简单来说，他们提出的原生稀疏注意力（NSA）机制，通过算法与硬件的协同优化，直接把长文本处理速度提升了 11 倍。更厉害的是，性能不仅没降反而还超越了传统的全注意力模型。

一作袁境阳在会上发表演讲，透露这项技术可以把上下文长度扩展到 1 百万 tokens，将被应用到下一个前沿模型中。

结合论文发表于 DeepSeek-R1 推出之后，实验设置中也提到使用了 DeepSeek-R1 的蒸馏数据来微调了新的模型。

大家纷纷猜测，这项技术将被用于下一代 DeepSeek-V4 以及 DeepSeek-R2。

给注意力机制瘦身，速度狂飙 11 倍

长久以来，大语言模型处理长文本就像是戴着镣铐跳舞。传统的全注意力机制计算复杂度随序列长度呈平方级增长，处理 64k 长度的文本时，注意力计算竟然要占到总延迟的 70-80%。

这篇论文的解决思路很巧妙：既然不是所有词之间的关系都同等重要，为什么不让模型学会”抓重点”呢？

NSA 采用了一种动态分层的稀疏策略，通过三条并行的注意力分支协同工作：

压缩注意力，负责捕捉粗粒度的全局信息模式，就像快速浏览全文抓住大意；

选择性注意力，则专注于序列中最重要的词块，相当于精读关键段落；

滑动注意力，负责获取局部的上下文信息，确保细节不丢失。

这种设计最精妙的地方在于，它不是简单地丢弃信息，而是通过精心设计的算法平衡了计算密度。

更重要的是，整个架构针对现代 GPU 硬件进行了深度优化，实现了端到端的原生可训练模式。

在实际测试中，处理 64k 长度序列时，NSA 在解码、前向传播和反向传播的全生命周期中都展现出惊人的速度优势。

解码阶段速度提升 11.6 倍，前向传播提升 9 倍，反向传播也有 6 倍的加速，无论是模型推理还是训练，都能获得实实在在的效率提升。

不仅快还更准，长文本处理迎来新突破

速度快只是 NSA 的一面，更让人惊讶的是它在各项基准测试中的表现。

在通用基准测试中，采用 NSA 预训练的 27B 参数模型在 9 个评测指标中有 7 个超越了全注意力基线。特别是在推理相关的基准测试上，DROP 提升了 0.042，GSM8K 提升了 0.034，显示出稀疏注意力在强制模型聚焦关键信息方面的独特优势。

长文本处理能力的测试结果更是亮眼。在 64k 上下文的”大海捞针”测试中，NSA 在所有位置都实现了完美的检索准确率。在 LongBench 基准测试上，NSA 取得了 0.469 的平均分，不仅超越了全注意力基线（+0.032），更是大幅领先其他稀疏注意力方法。

特别值得一提的是，在需要复杂推理的多跳问答任务上，NSA 相比全注意力分别提升了 0.087（HPQ）和 0.051（2Wiki）；在代码理解任务（LCC）上提升了 0.069；在段落检索任务（PassR-en）上提升了 0.075。

研究团队还进行了一项有趣的实验：

他们用 DeepSeek-R1 的数学推理数据对模型进行微调，然后在美国数学邀请赛（AIME 24）上测试。

结果显示，NSA-R 在 8k 上下文设置下的准确率达到 0.121，而全注意力模型只有 0.046；即使在 16k 上下文下，NSA-R 仍然保持 0.146 的准确率，远超全注意力的 0.092。

这些结果充分证明了 NSA 不是通过牺牲性能来换取速度，而是真正实现了效率和能力的双赢。

Three More Thing

这次总共评选出 4 篇最佳论文，另外三篇包括：

北大团队的《Language Models Resist Alignment: Evidence From Data Compression》

研究了大型语言模型的“弹性”，指模型经过对齐训练（让模型符合人类价值观、减少有害输出）后，很容易因为后续的微调而变回预训练时的状态，就像弹簧被拉伸后会反弹一样。

这意味着现有的对齐方法可能只是表面上改变了模型，不够稳固。未来需要更有效的对齐技术，才能让模型真正稳定地符合人类需求，尤其是在开源模型中，要避免恶意微调轻易破坏安全机制。

斯坦福团队的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

研究了大模型“公平性”上的一个新视角“差异感知”。简单来说，就是模型应该在合适的场景下对不同群体做出区分，而不是一味地一视同仁。

研究发现那些在传统公平性测试中表现好的模型，在“差异感知”上得分并不高；模型能力越强（比如 MMLU 分数越高），情境感知能力越好，但差异感知能力未必提升；现有的“去偏见”方法（比如提示模型“保持无偏见”）反而会让模型更无视差异，甚至把正确答案改错。

亥姆霍兹信息安全中心等团队的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

这篇论文指出大模型生成回答时的采样机制与人类决策类似，包含描述性成分（反映概念的统计常态）和规定性成分（隐含的概念理想状态）。

研究通过实验验证，无论是新创概念还是现有概念（涵盖 10 个领域的 500 个概念），LLMs 生成的样本都会偏离统计平均值，向其认为的“理想值”偏移，且这种现象在 15 种不同模型中均显著存在。案例研究显示，这种偏向可能导致医疗等领域的有偏决策，引发伦理问题。

DeepSeek 论文地址：

https://arxiv.org/abs/2502.11089

参考链接：

[1]https://x.com/aclmeeting/status/1950572483637067786

[2]https://x.com/casper_hansen_/status/1950649481617342803

本文链接：http://www.28at.com/showinfo-45-25745-0.htmlDeepSeek 下一代技术提前曝光，梁文锋署名论文获 ACL 2025 最佳论文奖

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：美国一州要建超大 AI 数据中心，初期耗电量就是全州家庭总和的 5 倍多

下一篇： OpenAI 回应“ChatGPT 用多了会变傻”：AI 本质上是工具，关键在如何使用

标签：

热门焦点

一份全面清单：Web3行业高薪酬的13种工作

来源：区块链骑士这可能会让许多人感到震惊，但除了成为开发人员之外，Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域，换句话说，它由许多个在不同领域中具有不同
数字人的新革命，BAT的“冲高”战场

来源：刘旷ChatGPT横空出世，让人们看到了数字人的另一种可能，将ChatGPT与虚拟数字人融合，研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份，岭南股份
茅台的元宇宙App火了，也被骂惨了

元宇宙从概念走向大众生活，并不是一件简单的事情。技术、世界观、填充内容、载体形式，每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
元宇宙步入暗夜

撰文 | 文烨豪元宇宙的故事，似乎讲不通了。当下，刮起元宇宙热潮的Roblox股价已跌去大半，带头大哥Meta也正因元宇宙亏损深陷泥潭。再看国内，从字节“派对岛&
城市数字孪生标准化白皮书（2022版）

当前，城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯，实
费城艺术家使用区块链，在数字艺术中狠狠捞一笔

‍你也想赚钱发财走上人生巅峰吗？老雅痞给你指条路，现在也许是时候创建或购买或出售 NFT的好时机。费城地区的许多企业家都在这样做。但投资需谨慎，入行有风险，在
暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗？

NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造，该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
参加元宇宙里的招聘会是什么样一种体验？

求职者可以在活动中走动，就像他们在现实生活中一样。长话短说看亮点：招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
百度虚拟人——AI手语主播首次亮相冬奥会！

除了火遍全国的冰墩墩，虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

DeepSeek 下一代技术提前曝光，梁文锋署名论文获 ACL 2025 最佳论文奖

一份全面清单：Web3行业高薪酬的13种工作

数字人的新革命，BAT的“冲高”战场

茅台的元宇宙App火了，也被骂惨了

元宇宙步入暗夜

城市数字孪生标准化白皮书（2022版）

费城艺术家使用区块链，在数字艺术中狠狠捞一笔

暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗？

参加元宇宙里的招聘会是什么样一种体验？

百度虚拟人——AI手语主播首次亮相冬奥会！

最新推荐

数字人的AB面：在元宇宙中过气，在AIGC中重生

字节、腾讯、网易鏖战元宇宙背后，大厂究竟在争夺什么？

上海虹口成立10亿元元宇宙基金，香港首只元宇宙ETF拟上市

本周NFT领域重要资讯回顾

2022年去中心化交易所会崛起吗？

NFT：新骗局的狩猎场

猜你喜欢

热门推荐

相关资讯