当前位置：首页 > 元宇宙 > AI

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1 47

来源：责编：时间：2024-10-11 16:31:21 190观看

导读 10 月 9 日消息，科技媒体 marktechpost 昨日（10 月 8 日）发布博文，报道称谷歌公司推出了选择性注意力（Selective Attention）方法，可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命

10 月 9 日消息，科技媒体 marktechpost 昨日（10 月 8 日）发布博文，报道称谷歌公司推出了选择性注意力（Selective Attention）方法，可以提高 Transformer 架构模型的性能。

Transformer 架构简介

Transformer 是一种革命性的神经网络架构，由谷歌在 2017 年提出，主要用于处理序列数据，特别是在自然语言处理（NLP）领域。

Transformer 的核心是自注意力机制，允许模型在处理输入序列时捕捉词与词之间的关系，让模型能够关注输入序列中的所有部分，而不仅仅是局部信息。

Transformer 由多个编码器和解码器组成。编码器负责理解输入数据，而解码器则生成输出。多头自注意力机制使模型能够并行处理信息，提高了效率和准确性。

Transformer 架构模型挑战

Transformer 架构的一大挑战是它们在处理长文本序列时效率低下，由于每个标记与序列中的每个其他标记都相互作用导致二次复杂度，这就导致随着上下文长度的增加，计算和内存需求呈指数增长。

现在解决这一问题的方法包括稀疏注意力机制（sparse attention mechanisms），它限制了标记之间的交互数量，以及通过总结过去信息来减少序列长度的上下文压缩技术。

不过这种方法是通过减少在注意力机制中考虑的标记数量达成的，因此通常以性能为代价，可能会导致上下文关键信息丢失。

谷歌新方法

谷歌研究的研究人员提出了一种名为选择性注意的新方法，可以动态忽略不再相关的标记，从而提高 Transformer 模型的效率。

选择性注意力使用软掩码矩阵来确定每个标记对未来标记的重要性，减少对不重要标记的关注。

研究表明，配备选择性注意的 Transformer 架构模型在多个自然语言处理任务中表现出色，同时显著降低了内存使用和计算成本。

例如，在拥有 1 亿参数的 Transformer 模型中，注意力模块的内存需求在上下文大小为 512、1024 和 2048 个 tokens 时分别减少至 1/16、1/25 和 1/47。所提方法在 HellaSwag 基准测试中也优于传统 Transformer，对于较大的模型规模实现了高达 5% 的准确率提升。

选择性注意力允许构建更小、更高效的模型，在不损害准确性的情况下，显著减少内存需求。

附上参考地址

Selective Attention Improves Transformer

This AI Paper from Google Introduces Selective Attention: A Novel AI Approach to Improving the Efficiency of Transformer Models

本文链接：http://www.28at.com/showinfo-45-8696-0.htmlAI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1 47

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：仅靠微软无法满足激增的 AI 计算需求，OpenAI 被曝和甲骨文合作

下一篇：消息称 Kimi AI 助手内测深度推理功能，月之暗面有团队国庆加班 7 天 3 倍工资

标签：

热门焦点

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

来源：清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上，中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士，还有清华
内容行业大变天，爆款全靠AI？

出品 | 微果酱（wjam123456）作者 | 陈出木题图 | 文心一格 AI的发展之快出乎所有人的预料，似乎一夜之间便呼啸而来。无论是资本的风向标，抑或是生活工作的辅助、流量口，还是茶余饭
现在的元宇宙：一款低配版的科幻游戏

在2021年的岁末之际，不禁感叹元宇宙元年之热闹，从元宇宙NFT头像，到元宇宙数字地产，再到元宇宙旅游景区等等，仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
智能人机交互技术的春晚大考

1月初的一个早晨，京东智能客户服务产品部紧急开会，进行关于尚未对外公布的“X项目”的初讨论。1月5日，这个神秘的X项目对外公布，京东成为央视2022年春晚独家互动合
下一个黄金赛道？NFT的碎片化!

碎片化可能是我们一生中最重要的一个投资趋势，碎片化本身并不新鲜。它已经存在了400年之久。早在1602年，荷兰东印度公司是历史上第一家在公共证券交易所上市的公
这个好莱坞影视制作公司涉足NFT，让持有者在制作中发挥作用

前米高梅首席执行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一个新的好莱坞工作室，提供 NFT，让持有者在制作中发挥作用Electromagnetic Productions 创始
多位全国政协委员提交元宇宙提案，国金证券称元宇宙仍处初期投资阶段

财联社|区块链日报2日讯今日《元宇宙新鲜事》有：全国政协委员刘伟建议出台“元宇宙中国”的顶层设计方案；国金证券称元宇宙仍处初期投资庞大获利不易阶段；阿联酋
元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

近日，毕马威正式发布其《初探元宇宙》报告，这也是毕马威在元宇宙领域发布的首份报告。报告指出，元宇宙在以下十个领域的应用场景尤其值得期待，包括娱乐、社交、零

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1 47

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

内容行业大变天，爆款全靠AI？

现在的元宇宙：一款低配版的科幻游戏

比特币的价格越高，使用价值越大

智能人机交互技术的春晚大考

下一个黄金赛道？NFT的碎片化!

这个好莱坞影视制作公司涉足NFT，让持有者在制作中发挥作用

多位全国政协委员提交元宇宙提案，国金证券称元宇宙仍处初期投资阶段

元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

最新推荐

欧盟人工智能法案：四种AI系统风险类型的划分及监管措施

雷克萨斯高管，“受贿”5000万？

风口已至，多领域平台融入社交元素！

“虚拟人”角斗场，基于“硬实力”下的人性平衡法则？

NFT世界的艺术家名单

浅聊DAO图景和未来

猜你喜欢

热门推荐

相关资讯