当前位置:首页 > 科技  > 知识百科

扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

来源: 责编: 时间:2023-08-07 16:29:52 337观看
导读 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。由于在图像生成效果上可以与GAN媲美,扩散模型最近成为了AI界关注的焦点。谷歌、OpenAI过去一年都提出了自家的

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。AzI28资讯网——每日最新资讯28at.com

由于在图像生成效果上可以与GAN媲美,扩散模型最近成为了AI界关注的焦点。AzI28资讯网——每日最新资讯28at.com

谷歌、OpenAI过去一年都提出了自家的扩散模型,效果也都非常惊艳。AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

另一边,剑桥大学的学者David Krueger提出,自动编码器会不会卷土重来成为研究热潮。AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

就在最近,DeepMind的一位研究科学家Sander Dieleman基于以上两股热潮,提出了自己的观点:AzI28资讯网——每日最新资讯28at.com

扩散模型就是自动编码器啊!AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

这一观点立刻引起了不少网友的注意,大家看了Sander的阐述,都觉得说得很有道理,并且给了自己不少启发。AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

那么,他到底是如何论证自己这一观点的呢?AzI28资讯网——每日最新资讯28at.com

我们一起来看。AzI28资讯网——每日最新资讯28at.com

去噪自动编码器=扩散模型AzI28资讯网——每日最新资讯28at.com

想要看透这二者之间的联系,首先要看看它们自身的特点。AzI28资讯网——每日最新资讯28at.com

扩散模型是一种新的图像生成方法,其名字中的“扩散”本质上是一个迭代过程。AzI28资讯网——每日最新资讯28at.com

它最早于2015提出,是定义了一个马尔可夫链,用于在扩散步骤中缓慢地向数据添加随机噪声,然后通过学习逆转扩散过程从噪声中构建所需的数据样本。AzI28资讯网——每日最新资讯28at.com

相比GAN、VAE和基于流的生成模型,扩散模型在性能上有不错的权衡,最近已被证明在图像生成方面有很大的潜力,尤其是与引导结合来兼得保真度和多样性。AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

比如去年谷歌提出的级联(Cacade)扩散模型SR3,就是以低分辨率图像为输入,从纯噪声中构建出对应的高分辨率图像。AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

OpenAI的GLIDE、ADM-G也是用上了扩散模型,以此能生成更加更真实、多样、复杂的图像。AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

△GLIDE模型效果AzI28资讯网——每日最新资讯28at.com

接下来,再来看自动编码器的原理。AzI28资讯网——每日最新资讯28at.com

自动编码器可以理解为一个试图去还原原始输入的系统,模型如下所示:AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

它的主要目的是将输入转换为中间变量,然后再将中间变量转化为输出,最后对比输入和输出,使它们二者之间无限接近。AzI28资讯网——每日最新资讯28at.com

当模型框架中存在瓶颈层或者输入被损坏时,自动编码器能够学习输入本质特征的特性,就可以大显身手了。AzI28资讯网——每日最新资讯28at.com

在这里,作者主要拿来和扩散模型对比的,便是去噪自动编码器。AzI28资讯网——每日最新资讯28at.com

它可以将损坏数据作为输入,通过训练来预测未损坏的原始数据作为输出。AzI28资讯网——每日最新资讯28at.com

看到这里是不是有点眼熟了?AzI28资讯网——每日最新资讯28at.com

向输入中加入噪声,不就是一种破坏输入的方法吗?AzI28资讯网——每日最新资讯28at.com

那么,去噪自动编码器和扩散模型,原理上不就是有着异曲同工之妙吗?AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

二者是如何等价的?AzI28资讯网——每日最新资讯28at.com

为了验证自己的这一想法,作者从原理方面对扩散模型进行了拆解。AzI28资讯网——每日最新资讯28at.com

扩散模型的关键,在于一个分数函数 (score function)AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

需要注意的是,这和AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

不同。(求梯度的参数不同)AzI28资讯网——每日最新资讯28at.com

通过后者,我们可以知道如何改变模型参数来增加向下输入的可能性,而前者能够让我们知道如何改变输入本身来增加可能性。AzI28资讯网——每日最新资讯28at.com

在训练过程中,希望在去噪中的每一点都使用相同的网络。AzI28资讯网——每日最新资讯28at.com

为了实现这个,需要引入一个额外的输入AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

,由此可以看到在去噪中进行到了哪一部分AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

当t=0时,对应无噪声数据;t=1时,对应纯噪声数据。AzI28资讯网——每日最新资讯28at.com

训练这个网络的方法,就是用添加噪声AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

来破坏输入x。然后从AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

中预测AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

需要注意的是,在这里方差大小取决于t,因为它可以对应特定点的噪声水平。损失函数通常使用均方误差(MSE),有时会用 λ(t)进行加权,因此某些噪声水平会优先于其他噪声水平:AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

假设λ(t)=1时,一个关键的观测值为AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

或 x(它们二者是等价的),在这里可以用公式:AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

为了确保它们是等价的,可以考虑使用训练模型AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

来预测AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

,并加上一个新的残差连接。从输入到输出的比例系数均为-1,这个调整后的模型则实现了:AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

由此,一个扩散模型便逐渐变成一个去噪自动编码器了!AzI28资讯网——每日最新资讯28at.com

One More ThingAzI28资讯网——每日最新资讯28at.com

不过博客的作者也强调,虽然扩散模型和去噪自动编码器的效果等价,但是二者之间不可完全互换。AzI28资讯网——每日最新资讯28at.com

并且以上得到的这个去噪自动编码器,和传统类型也有不同:AzI28资讯网——每日最新资讯28at.com

第一,附加输入t可以使单个模型用一组共用参数来处理噪声级别不同的情况;第二,因为更加关注模型的输出,所以内部没有瓶颈层,这可能会导致“弊大于利”的结果。AzI28资讯网——每日最新资讯28at.com

而作者更想强调的是这二者之间存在的联系。AzI28资讯网——每日最新资讯28at.com

此外他还表示,模型效果好的关键应该在于共用参数,这种方法已经被广泛应用在表示学习上。AzI28资讯网——每日最新资讯28at.com

从这些成果中也能发现一个规律:AzI28资讯网——每日最新资讯28at.com

噪声含量越高的模型,往往更容易学习到图像的特征;噪声含量越低的模型,则会更专注于细节。AzI28资讯网——每日最新资讯28at.com

AzI28资讯网——每日最新资讯28at.com

作者认为以上规律值得进一步研究:AzI28资讯网——每日最新资讯28at.com

这意味着随着噪声水平逐步降低,扩散模型能够补充图像细节也就越来越多。AzI28资讯网——每日最新资讯28at.com

最后,我们再来介绍一下这一发现的提出者——Sander Dieleman。AzI28资讯网——每日最新资讯28at.com

他现在是DeepMind的一位研究科学家,主要研究领域为生成模型和音乐合成。AzI28资讯网——每日最新资讯28at.com

参与的主要研究工作有Spotify音乐平台的内容推荐模型。AzI28资讯网——每日最新资讯28at.com

 AzI28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2146-0.html扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 为了自动驾驶,谷歌用NeRF在虚拟世界中重建了旧金山市

下一篇: CNCF 报告:最新 Kubernetes 和容器采用现状 译文

标签:
  • 热门焦点
  • 鸿蒙OS 4.0公测机型公布:甚至连nova6都支持

    华为全新的HarmonyOS 4.0操作系统将于今天下午正式登场,官方在发布会之前也已经正式给出了可升级的机型产品,这意味着这些机型会率先支持升级享用。这次的HarmonyOS 4.0支持
  • 6月安卓手机性价比榜:Note 12 Turbo断层式碾压

    6月份有一个618,虽然这是京东周年庆的日子,但别的电商也都不约而同的跟进了,反正促销没坏处,厂商和用户都能满意。618期间一些产品也出现了历史低价,那么各个价位段的产品性价比
  • 让我们一起聊聊文件的操作

    文件【1】文件是什么?文件是保存数据的地方,是数据源的一种,比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据,它既可以保
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 2023年,我眼中的字节跳动

    此时此刻(2023年7月),字节跳动从未上市,也从未公布过任何官方的上市计划;但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起,到2018年的“头腾
  • 品牌洞察丨服务本地,美团直播成效几何?

    来源:17PR7月11日,美团App首页推荐位出现“美团直播”的固定入口。在直播聚合页面,外卖“神枪手”直播间、美团旅行直播间、美团买菜直播间等均已上线,同时
  • 重估百度丨大模型,能撑起百度的“今天”吗?

    自象限原创 作者|程心 罗辑2023年之前,对于自己的“今天”,百度也很迷茫。“新业务到 2022 年底还是 0,希望 2023 年出来一个 1。”这是2022年底,李彦宏
  • 2299元起!iQOO Pad开启预售:性能最强天玑平板

    5月23日,iQOO如期举行了新品发布会,除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外,还在发布会上推出了旗下首款平板电脑——iQOO Pad,其搭载了天玑
  • iQOO Neo8 Pro评测:旗舰双芯加持 最强性能游戏旗舰

    【Techweb评测】去年10月,iQOO推出了一款Neo7手机,该机搭载了联发科天玑9000+,配备独显芯片Pro+,带来了同价位段最佳的游戏体验,一经上市便受到了诸多用
Top