当前位置:首页 > 科技  > 知识百科

给几句话就能生成分子,看见分子也能生成描述,神秘的Google X把多模态AI做成了黑科技

来源: 责编: 时间:2023-08-07 16:30:16 373观看
导读 设想一下,医生写几句话来描述一种专门用于治疗患者的药物,AI 就能自动生成所需药物的确切结构。这听起来像是科幻小说,但随着自然语言和分子生物学交叉领域的进展,未来很有可能

设想一下,医生写几句话来描述一种专门用于治疗患者的药物,AI 就能自动生成所需药物的确切结构。这听起来像是科幻小说,但随着自然语言和分子生物学交叉领域的进展,未来很有可能成为现实。传统意义上讲,药物创造通常依靠人工设计和构建分子结构,然后将一种新药推向市场可能需要花费超过 10 亿美元并需要十年以上的时间(Gaudelet et al., 2021)。HhD28资讯网——每日最新资讯28at.com

近来,人们对使用深度学习工具来改进计算机药物设计产生了相当大的兴趣,该领域通常被称为化学信息学(Rifaioglu et al., 2018)。然而,其中大多数实验仍然只关注分子及其低级特性,例如 logP,辛醇 / 水分配系数等。未来我们需要对分子设计进行更高级别的控制,并通过自然语言轻松实现控制。HhD28资讯网——每日最新资讯28at.com

来自伊利诺伊大学厄巴纳-香槟分校和 Google X 的研究者通过提出两项新任务来实现分子与自然语言转换的研究目标:1)为分子生成描述;2)在文本指导下从头生成分子。HhD28资讯网——每日最新资讯28at.com

HhD28资讯网——每日最新资讯28at.com

论文地址:http://blender.cs.illinois.edu/paper/molt5.pdfHhD28资讯网——每日最新资讯28at.com

HhD28资讯网——每日最新资讯28at.com

如下图所示,文本指导分子生成任务是创建一个与给定自然语言描述相匹配的分子,这将有助于加速多个科学领域的研究。HhD28资讯网——每日最新资讯28at.com

HhD28资讯网——每日最新资讯28at.com

在多模态模型领域,自然语言处理和计算机视觉 (V+L) 的交叉点已被广泛研究。通过自然语言实现对图像的语义级控制已取得一些进展,人们对多模态数据和模型越来越感兴趣。HhD28资讯网——每日最新资讯28at.com

该研究提出的分子 - 语言任务与 V+L 任务有一些相似之处,但也有几个特殊的难点:1)为分子创建注释需要大量的专业知识,2)因此,很难获得大量的分子 - 描述对,3) 同一个分子可以具有许多功能,需要多种不同的描述方式,这导致 4) 现有评估指标(例如 BLEU)无法充分评估这些任务。HhD28资讯网——每日最新资讯28at.com

为了解决数据稀缺的问题,该研究提出了一种新的自监督学习框架 MolT5(Molecular T5),其灵感来源于预训练多语言模型的最新进展(Devlin et al., 2019; Liu et al., 2020)。MolT5 首先使用简单的去噪目标在大量未标记的自然语言文本和分子字符串上预训练模型。之后,预训练模型在有限的黄金标准注释上进行微调。HhD28资讯网——每日最新资讯28at.com

此外,为了充分评估分子描述或生成模型,该研究提出了一个名为 Text2Mol 的新指标(Edwards et al., 2021)。Text2Mol 重新调整了检索模型的用途,以分别评估实际分子 / 描述和生成的描述 / 分子之间的相似性。HhD28资讯网——每日最新资讯28at.com

多模态文本 - 分子表示模型 MolT5 HhD28资讯网——每日最新资讯28at.com

研究人员可以从互联网上抓取大量的自然语言文本。例如,Raffel et al. (2019) 构建了一个 Common Crawl-based 数据集,该数据集包含超过 700GB、比较干净的自然英语文本。另一方面,我们也可以从 ZINC-15 等公共数据库中获取超过 10 亿个分子的数据集。受近期大规模预训练进展的启发,该研究提出了一种新的自监督学习框架 MolT5(Molecular T5),其可以利用大量未标记的自然语言文本和分子字符串。HhD28资讯网——每日最新资讯28at.com

图 3 为 MolT5 架构图。该研究首先使用 T5.1.1(T5 的改进版本)的公共检查点(public checkpoints)之一初始化编码器 - 解码器 Transformer 模型。之后,他们使用「replace corrupted spans」目标对模型进行预训练。具体而言,在每个预训练 step 中,该研究都会采样一个包含自然语言序列和 SMILES 序列的 minibatch。对于每个序列来说,研究者将随机选择序列中的一些单词进行修改。每个连续 span 中的 corrupted token 都被一个 sentinel token 替换(如图 3 中的 [X] 和 [Y] 所示)。接下来的任务是预测 dropped-out span。HhD28资讯网——每日最新资讯28at.com

HhD28资讯网——每日最新资讯28at.com

分子(例如,用 SMILES 字符串表示)可以被认为是一种具有非常独特语法的语言。直观地说,该研究的预训练阶段本质上是在来自两种不同语言的两个单语语料库上训练一个语言模型,并且两个语料库之间没有明确的对齐方式。这种方法类似于 mBERT 和 mBART 等多语言语言模型的预训练方式。由于 mBERT 等模型表现出出色的跨语言能力,该研究还期望使用 MolT5 预训练的模型对文本 - 分子翻译任务有用。HhD28资讯网——每日最新资讯28at.com

预训练之后,可以对预训练模型进行微调,以用于分子描述(molecule captioning)或生成(如图 3 的下半部分所示)。在分子生成中,输入是一个描述,输出是目标分子的 SMILES 表示。另一方面,在分子描述中,输入是某个分子的 SMILES 字符串,输出是描述输入分子的文字。HhD28资讯网——每日最新资讯28at.com

实验结果HhD28资讯网——每日最新资讯28at.com

下表 1 为分子描述测试结果,研究发现,大的预训练模型在生成逼真语言来描述分子方面,T5 或 MolT5 比 Transformer 或 RNN 要好得多。HhD28资讯网——每日最新资讯28at.com

HhD28资讯网——每日最新资讯28at.com

下图 5 显示了几个不同模型输出示例。HhD28资讯网——每日最新资讯28at.com

HhD28资讯网——每日最新资讯28at.com

不同模型的生成结果示例(节选)。HhD28资讯网——每日最新资讯28at.com

通常 RNN 模型在分子生成方面优于 Transformer 模型,而在分子描述任务中,大型预训练模型比 RNN 和 Transformer 模型表现得更好。众所周知,扩展模型大小和预训练数据会导致性能显着提高,但该研究的结果仍然令人惊讶。HhD28资讯网——每日最新资讯28at.com

例如,一个默认的 T5 模型,它只在文本数据上进行了预训练,能够生成比 RNN 更接近真值的分子,而且通常是有效的。并且随着语言模型规模的扩展,这种趋势持续存在,因为具有 770M 参数的 T5-large 优于具有 60M 参数的专门预训练的 MolT5-small。尽管如此,MolT5 中的预训练还是略微改善了一些分子生成结果,尤其是在有效性方面的大幅提升。HhD28资讯网——每日最新资讯28at.com

下图 4 显示了模型的结果,并且按输入描述对其进行编号。实验发现,与 T5 相比,MolT5 能够更好地理解操作分子的指令。HhD28资讯网——每日最新资讯28at.com

HhD28资讯网——每日最新资讯28at.com

不同模型生成的分子示例展示。HhD28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2319-0.html给几句话就能生成分子,看见分子也能生成描述,神秘的Google X把多模态AI做成了黑科技

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 2022 年云计算网络安全威胁和趋势

下一篇: 云安全日报220512:Ubuntu Linux内核发现执行任意代码漏洞,需要尽快升级

标签:
  • 热门焦点
  • 容量越大越不坏?24万块硬盘故障率报告公布 这些产品零故障

    8月5日消息,云存储服务商Backblaze发布了最新的硬盘故障率报告,年故障率有所上升。Backblaze发布的硬盘季度统计数据,其中包括故障率等重要方面。这些结
  • 三言两语说透设计模式的艺术-简单工厂模式

    一、写在前面工厂模式是最常见的一种创建型设计模式,通常说的工厂模式指的是工厂方法模式,是使用频率最高的工厂模式。简单工厂模式又称为静态工厂方法模式,不属于GoF 23种设计
  • 多线程开发带来的问题与解决方法

    使用多线程主要会带来以下几个问题:(一)线程安全问题  线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间,该数据被其他的线程所修改,那么对于当前线程而言,该线程
  • 一篇文章带你了解 CSS 属性选择器

    属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式,而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
  • WebRTC.Net库开发进阶,教你实现屏幕共享和多路复用!

    WebRTC.Net库:让你的应用更亲民友好,实现视频通话无痛接入! 除了基本用法外,还有一些进阶用法可以更好地利用该库。自定义 STUN/TURN 服务器配置WebRTC.Net 默认使用 Google 的
  • 小红书1周涨粉49W+,我总结了小白可以用的N条涨粉笔记

    作者:黄河懂运营一条性教育视频,被54万人“珍藏”是什么体验?最近,情感博主@公主是用鲜花做的,火了!仅仅凭借一条视频,光小红书就有超过128万人,为她疯狂点赞!更疯狂的是,这
  • 腾讯VS网易,最卷游戏暑期档,谁能笑到最后?

    作者:无锈钵来源:财经无忌7月16日晚,上海1862时尚艺术中心。伴随着幻象的精准命中,硕大的荧幕之上,比分被定格在了14:12,被寄予厚望的EDG战队以绝对的优势战胜了BLG战队,拿下了总决
  • 新电商三兄弟,“抖快红”成团!

    来源:价值研究所作 者:Hernanderz 随着内容电商的概念兴起,抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力,给阿里、京东、拼多多带去了巨大压
  • 苹果MacBook Pro 2021测试:仍不支持平滑滚动

    据10月30日9to5 Mac 消息报道,苹果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后获得了不错的评价,亮点包括行业领先的性能,令人印象深刻的电池续航,精美丰
Top