当前位置:首页 > 元宇宙 > AI

DeepSeek 下一代技术提前曝光,梁文锋署名论文获 ACL 2025 最佳论文奖

来源: 责编: 时间:2025-08-04 10:11:46 119观看
导读 在 ACL 2025 的颁奖典礼上,由 DeepSeek 梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。这次 ACL 2025 规模空前,总投稿量达到 8360 篇,相较于去年的 4407 篇几乎翻倍,竞争异常激烈。简单来说,他

在 ACL 2025 的颁奖典礼上,由 DeepSeek 梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。v9N28资讯网——每日最新资讯28at.com

这次 ACL 2025 规模空前,总投稿量达到 8360 篇,相较于去年的 4407 篇几乎翻倍,竞争异常激烈。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

简单来说,他们提出的原生稀疏注意力(NSA)机制,通过算法与硬件的协同优化,直接把长文本处理速度提升了 11 倍。更厉害的是,性能不仅没降反而还超越了传统的全注意力模型。v9N28资讯网——每日最新资讯28at.com

一作袁境阳在会上发表演讲,透露这项技术可以把上下文长度扩展到 1 百万 tokens,将被应用到下一个前沿模型中。v9N28资讯网——每日最新资讯28at.com

结合论文发表于 DeepSeek-R1 推出之后,实验设置中也提到使用了 DeepSeek-R1 的蒸馏数据来微调了新的模型。v9N28资讯网——每日最新资讯28at.com

大家纷纷猜测,这项技术将被用于下一代 DeepSeek-V4 以及 DeepSeek-R2。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

给注意力机制瘦身,速度狂飙 11 倍

长久以来,大语言模型处理长文本就像是戴着镣铐跳舞。传统的全注意力机制计算复杂度随序列长度呈平方级增长,处理 64k 长度的文本时,注意力计算竟然要占到总延迟的 70-80%。v9N28资讯网——每日最新资讯28at.com

这篇论文的解决思路很巧妙:既然不是所有词之间的关系都同等重要,为什么不让模型学会”抓重点”呢?v9N28资讯网——每日最新资讯28at.com

NSA 采用了一种动态分层的稀疏策略,通过三条并行的注意力分支协同工作:v9N28资讯网——每日最新资讯28at.com

压缩注意力,负责捕捉粗粒度的全局信息模式,就像快速浏览全文抓住大意;v9N28资讯网——每日最新资讯28at.com

选择性注意力,则专注于序列中最重要的词块,相当于精读关键段落;v9N28资讯网——每日最新资讯28at.com

滑动注意力,负责获取局部的上下文信息,确保细节不丢失。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

这种设计最精妙的地方在于,它不是简单地丢弃信息,而是通过精心设计的算法平衡了计算密度。v9N28资讯网——每日最新资讯28at.com

更重要的是,整个架构针对现代 GPU 硬件进行了深度优化,实现了端到端的原生可训练模式。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

在实际测试中,处理 64k 长度序列时,NSA 在解码、前向传播和反向传播的全生命周期中都展现出惊人的速度优势。v9N28资讯网——每日最新资讯28at.com

解码阶段速度提升 11.6 倍,前向传播提升 9 倍,反向传播也有 6 倍的加速,无论是模型推理还是训练,都能获得实实在在的效率提升。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

不仅快还更准,长文本处理迎来新突破

速度快只是 NSA 的一面,更让人惊讶的是它在各项基准测试中的表现。v9N28资讯网——每日最新资讯28at.com

在通用基准测试中,采用 NSA 预训练的 27B 参数模型在 9 个评测指标中有 7 个超越了全注意力基线。特别是在推理相关的基准测试上,DROP 提升了 0.042,GSM8K 提升了 0.034,显示出稀疏注意力在强制模型聚焦关键信息方面的独特优势。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

长文本处理能力的测试结果更是亮眼。在 64k 上下文的”大海捞针”测试中,NSA 在所有位置都实现了完美的检索准确率。在 LongBench 基准测试上,NSA 取得了 0.469 的平均分,不仅超越了全注意力基线(+0.032),更是大幅领先其他稀疏注意力方法。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

特别值得一提的是,在需要复杂推理的多跳问答任务上,NSA 相比全注意力分别提升了 0.087(HPQ)和 0.051(2Wiki);在代码理解任务(LCC)上提升了 0.069;在段落检索任务(PassR-en)上提升了 0.075。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

研究团队还进行了一项有趣的实验:v9N28资讯网——每日最新资讯28at.com

他们用 DeepSeek-R1 的数学推理数据对模型进行微调,然后在美国数学邀请赛(AIME 24)上测试。v9N28资讯网——每日最新资讯28at.com

结果显示,NSA-R 在 8k 上下文设置下的准确率达到 0.121,而全注意力模型只有 0.046;即使在 16k 上下文下,NSA-R 仍然保持 0.146 的准确率,远超全注意力的 0.092。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

这些结果充分证明了 NSA 不是通过牺牲性能来换取速度,而是真正实现了效率和能力的双赢。v9N28资讯网——每日最新资讯28at.com

Three More Thing

这次总共评选出 4 篇最佳论文,另外三篇包括:v9N28资讯网——每日最新资讯28at.com

北大团队的《Language Models Resist Alignment: Evidence From Data Compression》

研究了大型语言模型的“弹性”,指模型经过对齐训练(让模型符合人类价值观、减少有害输出)后,很容易因为后续的微调而变回预训练时的状态,就像弹簧被拉伸后会反弹一样。v9N28资讯网——每日最新资讯28at.com

这意味着现有的对齐方法可能只是表面上改变了模型,不够稳固。未来需要更有效的对齐技术,才能让模型真正稳定地符合人类需求,尤其是在开源模型中,要避免恶意微调轻易破坏安全机制。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

斯坦福团队的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

研究了大模型“公平性”上的一个新视角“差异感知”。简单来说,就是模型应该在合适的场景下对不同群体做出区分,而不是一味地一视同仁。v9N28资讯网——每日最新资讯28at.com

研究发现那些在传统公平性测试中表现好的模型,在“差异感知”上得分并不高;模型能力越强(比如 MMLU 分数越高),情境感知能力越好,但差异感知能力未必提升;现有的“去偏见”方法(比如提示模型“保持无偏见”)反而会让模型更无视差异,甚至把正确答案改错。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

亥姆霍兹信息安全中心等团队的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

这篇论文指出大模型生成回答时的采样机制与人类决策类似,包含描述性成分(反映概念的统计常态)和规定性成分(隐含的概念理想状态)。v9N28资讯网——每日最新资讯28at.com

研究通过实验验证,无论是新创概念还是现有概念(涵盖 10 个领域的 500 个概念),LLMs 生成的样本都会偏离统计平均值,向其认为的“理想值”偏移,且这种现象在 15 种不同模型中均显著存在。案例研究显示,这种偏向可能导致医疗等领域的有偏决策,引发伦理问题。v9N28资讯网——每日最新资讯28at.com

v9N28资讯网——每日最新资讯28at.com

DeepSeek 论文地址:v9N28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2502.11089v9N28资讯网——每日最新资讯28at.com

参考链接:v9N28资讯网——每日最新资讯28at.com

[1]https://x.com/aclmeeting/status/1950572483637067786v9N28资讯网——每日最新资讯28at.com

[2]https://x.com/casper_hansen_/status/1950649481617342803v9N28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-25745-0.htmlDeepSeek 下一代技术提前曝光,梁文锋署名论文获 ACL 2025 最佳论文奖

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 美国一州要建超大 AI 数据中心,初期耗电量就是全州家庭总和的 5 倍多

下一篇: OpenAI 回应“ChatGPT 用多了会变傻”:AI 本质上是工具,关键在如何使用

标签:
  • 热门焦点
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • Meta证实Quest 2无法实现全身追踪,未来将为虚拟化身配备“假腿”

    上周,外媒UploadVR在Quest 2开发者文档中发现了从未被公布过的“身体追踪支持”选项,暗示Meta VR头显或支持全身追踪。而在最近的Instagram问答环节中,Meta Reali
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
  • 你连元宇宙都不知道吗?快来看看这四本元宇宙书籍吧

    前有腾讯、阿里申请商标注册,后有Facebook宣布改名,若论当前互联网最火最热的概念,当属“元宇宙”。“阿里元宇宙”“淘宝元宇宙”“钉钉元宇宙”“QQ元宇宙”“
  • 初探元宇宙

    2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中,被称为“元宇宙”第一股后,Facebook更名为Meta, 引发全球范围内
Top