当前位置:首页 > 科技  > 知识百科

谷歌Docs,现在已经可以自动生成文本摘要了!

来源: 责编: 时间:2023-08-07 16:30:04 152观看
导读 对我们很多人来说,每天都需要处理大量的文件。当收到一份新文件时,我们通常希望文件包含一个简要的要点总结,以便用户最快的了解文件内容。然而,编写文档摘要是一项具有挑战性、

对我们很多人来说,每天都需要处理大量的文件。当收到一份新文件时,我们通常希望文件包含一个简要的要点总结,以便用户最快的了解文件内容。然而,编写文档摘要是一项具有挑战性、耗时的工作。niJ28资讯网——每日最新资讯28at.com

为了解决这个问题,谷歌宣布 Google Docs 现在可以自动生成建议,以帮助文档编写者创建内容摘要。这一功能是通过机器学习模型实现的,该模型能够理解文本内容,生成 1-2 句自然语言文本描述。文档编写者对文档具有完全控制权,他们可以全部接收模型生成的建议,或者对建议进行必要的编辑以更好地捕获文档摘要,又或者完全忽略。 niJ28资讯网——每日最新资讯28at.com

用户还可以使用此功能,对文档进行更高层次的理解和浏览。虽然所有用户都可以添加摘要,但自动生成建议目前仅适用于 Google Workspace 企业客户(Google Workspace 是 Google 在订阅基础上提供的一套云计算生产力和协作软件工具和软件)。基于语法建议、智能撰写和自动更正,谷歌认为这是改善工作场所书面交流又一有价值的研究。niJ28资讯网——每日最新资讯28at.com

如下图所示:当文档摘要建议可用时,左上角会出现一个蓝色的摘要图标。然后,文档编写者可以查看、编辑或忽略建议的文档摘要。niJ28资讯网——每日最新资讯28at.com

niJ28资讯网——每日最新资讯28at.com

 niJ28资讯网——每日最新资讯28at.com

模型细节niJ28资讯网——每日最新资讯28at.com

过去五年,特别是 Transformer 和 Pegasus 的推出,ML 在自然语言理解 (NLU) 和自然语言生成 (NLG)方面产生巨大影响。niJ28资讯网——每日最新资讯28at.com

然而生成抽象文本摘需要解决长文档语言理解和生成任务。目前比较常用的方法是将 NLU 和 NLG 结合,该方法使用序列到序列学习来训练 ML 模型,其中输入是文档词,输出是摘要词。然后,神经网络学习将输入 token 映射到输出 token。序列到序列范式的早期应用将 RNN 用于编码器和解码器。niJ28资讯网——每日最新资讯28at.com

Transformers 的引入为 RNN 提供了一个有前途的替代方案,因为 Transformers 使用自注意力来提供对长输入和输出依赖项的更好建模,这在文档中至关重要。尽管如此,这些模型仍需要大量手动标记的数据才能充分训练,因此,仅使用 Transformer 不足以显着提升文档摘要 SOTA 性能。niJ28资讯网——每日最新资讯28at.com

Pegasus 的研究将这一想法又向前推进了一步, 该方法是在论文《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization 》中提出,通过引入一个预训练目标自定义来抽象摘要。在 Pegasus 预训练中,也被称为 GSP(Gap Sentence Prediction ),未标记的新闻消息和网络文档中的完整句子在输入中被 mask 掉,模型需要根据未被 mask 掉的句子重建它们。特别是,GSP 试图通过不同的启发式把对文档至关重要的句子进行 mask。目标是使预训练尽可能接近摘要任务。Pegasus 在一组不同的摘要数据集上取得了 SOTA 结果。然而,将这一研究进展应用到产品中仍然存在许多挑战。niJ28资讯网——每日最新资讯28at.com

niJ28资讯网——每日最新资讯28at.com

PEGASUS 基础架构是标准的 Transformer 编码器 - 解码器。niJ28资讯网——每日最新资讯28at.com

将最近的研究进展应用到 Google Docs数据niJ28资讯网——每日最新资讯28at.com

自监督预训练生成的 ML 模型具有通用的语言理解和生成能力,但接下来的微调阶段对于该模型适应于应用领域至关重要。谷歌在一个文档语料库中对模型早期版本进行了微调,其中手动生成的摘要与典型用例保持一致。但是,该语料库的一些早期版本出现了不一致和较大变动,其原因在于它们包含了很多类型的文档以及编写摘要的不同方法,比如学术摘要通常篇幅长且详细,而行政摘要简短有力。这导致模型很容易混淆,因为它是在类型多样的文档和摘要上训练的,导致很难学习彼此之间的关系。niJ28资讯网——每日最新资讯28at.com

幸运的是,谷歌开源 Pegasus 库(用于自动生成文章摘要)中的关键发现之一是:有效的预训练阶段在微调阶段需要更少的监督数据。一些摘要生成基准只需要 1000 个 Pegasus 的微调示例即能媲美需要 10000 + 监督示例的 Transformer 基线性能,这表明我们可以专注于模型质量而非数量。niJ28资讯网——每日最新资讯28at.com

谷歌精心地清理和过滤了微调数据,以包含更一致且更代表连贯摘要的训练示例。尽管训练数据量减少了,但生成了更高质量的模型。正如数据集蒸馏等其他领域最近的工作一样,我们可以得到以下这个重要教训,即更小的高质量数据集要优于更大的高方差数据集。niJ28资讯网——每日最新资讯28at.com

服务niJ28资讯网——每日最新资讯28at.com

一旦训练了高质量模型,谷歌转向解决在生产中为模型提供服务时面临的挑战。Transformer 版本的编码器 - 解码器架构是为摘要生成等序列到序列任务训练模型的主流方法,但该方法在实际应用中提供服务时效率低且不实用。效率低主要归咎于 Transformer 解码器,它利用自回归解码来逐 token 地生成输出摘要。当摘要更长时,解码过程变得很慢,这是因为解码器在每一步都要处理之前生成的所有 token。循环神经网络(RNN)是更高效的解码架构,这得益于它不像 Transformer 模型那样对之前的 token 施加自注意力。niJ28资讯网——每日最新资讯28at.com

谷歌使用知识蒸馏(将知识从大模型迁移到更小更高效模型的过程)将 Pegasus 模型提炼为包含 Transformer 编码器和 RNN 解码器的混合架构。为了提高效率,谷歌还减少了 RNN 解码器层的数量。生成的模型在延迟和内存占用方面有显著改善,而质量仍与原始模型相当。为了进一步改善延迟和用户体验,谷歌使用 TPU 为摘要生成模型服务,这实现了显著加速并允许单台机器处理更多请求。niJ28资讯网——每日最新资讯28at.com

持续的挑战niJ28资讯网——每日最新资讯28at.com

虽然谷歌对迄今为止取得的进展感到兴奋,但仍要继续应对以下一些挑战:niJ28资讯网——每日最新资讯28at.com

文档覆盖率:由于文档之间存在显著差异,因此在微调阶段开发一组文档很难。推理阶段也存在同样的挑战。此外,谷歌用户创建的一些文档(如会议记录、食谱、课程计划和简历)不适合总结或难以总结。niJ28资讯网——每日最新资讯28at.com

评估:抽象摘要需要捕捉文档的本质,保持流畅且语法正确。一个特定的文档可能存在许多可被认为正确的摘要,不同的用户也可能喜欢不同的摘要。这使得仅使用自动指标评估摘要变得困难,用户反馈和使用情况统计对于谷歌理解和不断提高模型质量至关重要。niJ28资讯网——每日最新资讯28at.com

长文档:模型最难生成长文档的摘要,因为它更难捕获所有要点并抽象(总结)在一个摘要中。此外,长文档的训练和服务期间内存占用显著增加。但是,长文档对于模型自动生成摘要这一任务而言可能最有用,因为它可以帮助文档编写者在这项繁琐的任务中抢占先机。谷歌希望可以应用最新的 ML 进展来更好地应对这一挑战。niJ28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2236-0.html谷歌Docs,现在已经可以自动生成文本摘要了!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 云计算开发:Python3-List remove()方法详解

下一篇: 一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?

标签:
  • 热门焦点
  • vivo TWS Air开箱体验:真轻 臻好听

    vivo TWS Air开箱体验:真轻 臻好听

    在vivo S15系列新机的发布会上,vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布,本次就这款耳机新品给大家带来一个简单的分享。外包装盒上,vivo TWS Air保持了vivo自家产
  • 印度登月最关键一步!月船三号今晚进入环月轨道

    印度登月最关键一步!月船三号今晚进入环月轨道

    8月5日消息,据印度官方消息,月船三号将于北京时间今晚21时30分左右开始近月制动进入环月轨道。这是该探测器能够成功的最关键步骤之一,如果成功将开始围
  • 三言两语说透设计模式的艺术-简单工厂模式

    三言两语说透设计模式的艺术-简单工厂模式

    一、写在前面工厂模式是最常见的一种创建型设计模式,通常说的工厂模式指的是工厂方法模式,是使用频率最高的工厂模式。简单工厂模式又称为静态工厂方法模式,不属于GoF 23种设计
  • 2023 年的 Node.js 生态系统

    2023 年的 Node.js 生态系统

    随着技术的不断演进和创新,Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统,可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
  • 一文搞定Java NIO,以及各种奇葩流

    一文搞定Java NIO,以及各种奇葩流

    大家好,我是哪吒。很多朋友问我,如何才能学好IO流,对各种流的概念,云里雾里的,不求甚解。用到的时候,现百度,功能虽然实现了,但是为什么用这个?不知道。更别说效率问题了~下次再遇到,
  • 零售大模型“干中学”,攀爬数字化珠峰

    零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 本地生活这块肥肉,拼多多也想吃一口

    本地生活这块肥肉,拼多多也想吃一口

    出品/壹览商业 作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期,拼多多在App首页“充值中心”入口上线了本机生活界面。壹览商业发现,该界面目前主要
  • 苹果MacBook Pro 2021测试:仍不支持平滑滚动

    苹果MacBook Pro 2021测试:仍不支持平滑滚动

    据10月30日9to5 Mac 消息报道,苹果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后获得了不错的评价,亮点包括行业领先的性能,令人印象深刻的电池续航,精美丰
  • 亲历马斯克血洗Twitter,硅谷的苦日子在后头

    亲历马斯克血洗Twitter,硅谷的苦日子在后头

    文/刘哲铭  编辑/李薇  马斯克再次挥下裁员大刀。  美国时间11月14日,Twitter约4400名外包员工遭解雇,此次被解雇的员工的主要工作为内容审核等。此前,T
Top