当前位置:首页 > 科技  > 知识百科

扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

来源: 责编: 时间:2023-08-07 16:29:52 363观看
导读 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。由于在图像生成效果上可以与GAN媲美,扩散模型最近成为了AI界关注的焦点。谷歌、OpenAI过去一年都提出了自家的

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。HXw28资讯网——每日最新资讯28at.com

由于在图像生成效果上可以与GAN媲美,扩散模型最近成为了AI界关注的焦点。HXw28资讯网——每日最新资讯28at.com

谷歌、OpenAI过去一年都提出了自家的扩散模型,效果也都非常惊艳。HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

另一边,剑桥大学的学者David Krueger提出,自动编码器会不会卷土重来成为研究热潮。HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

就在最近,DeepMind的一位研究科学家Sander Dieleman基于以上两股热潮,提出了自己的观点:HXw28资讯网——每日最新资讯28at.com

扩散模型就是自动编码器啊!HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

这一观点立刻引起了不少网友的注意,大家看了Sander的阐述,都觉得说得很有道理,并且给了自己不少启发。HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

那么,他到底是如何论证自己这一观点的呢?HXw28资讯网——每日最新资讯28at.com

我们一起来看。HXw28资讯网——每日最新资讯28at.com

去噪自动编码器=扩散模型HXw28资讯网——每日最新资讯28at.com

想要看透这二者之间的联系,首先要看看它们自身的特点。HXw28资讯网——每日最新资讯28at.com

扩散模型是一种新的图像生成方法,其名字中的“扩散”本质上是一个迭代过程。HXw28资讯网——每日最新资讯28at.com

它最早于2015提出,是定义了一个马尔可夫链,用于在扩散步骤中缓慢地向数据添加随机噪声,然后通过学习逆转扩散过程从噪声中构建所需的数据样本。HXw28资讯网——每日最新资讯28at.com

相比GAN、VAE和基于流的生成模型,扩散模型在性能上有不错的权衡,最近已被证明在图像生成方面有很大的潜力,尤其是与引导结合来兼得保真度和多样性。HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

比如去年谷歌提出的级联(Cacade)扩散模型SR3,就是以低分辨率图像为输入,从纯噪声中构建出对应的高分辨率图像。HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

OpenAI的GLIDE、ADM-G也是用上了扩散模型,以此能生成更加更真实、多样、复杂的图像。HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

△GLIDE模型效果HXw28资讯网——每日最新资讯28at.com

接下来,再来看自动编码器的原理。HXw28资讯网——每日最新资讯28at.com

自动编码器可以理解为一个试图去还原原始输入的系统,模型如下所示:HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

它的主要目的是将输入转换为中间变量,然后再将中间变量转化为输出,最后对比输入和输出,使它们二者之间无限接近。HXw28资讯网——每日最新资讯28at.com

当模型框架中存在瓶颈层或者输入被损坏时,自动编码器能够学习输入本质特征的特性,就可以大显身手了。HXw28资讯网——每日最新资讯28at.com

在这里,作者主要拿来和扩散模型对比的,便是去噪自动编码器。HXw28资讯网——每日最新资讯28at.com

它可以将损坏数据作为输入,通过训练来预测未损坏的原始数据作为输出。HXw28资讯网——每日最新资讯28at.com

看到这里是不是有点眼熟了?HXw28资讯网——每日最新资讯28at.com

向输入中加入噪声,不就是一种破坏输入的方法吗?HXw28资讯网——每日最新资讯28at.com

那么,去噪自动编码器和扩散模型,原理上不就是有着异曲同工之妙吗?HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

二者是如何等价的?HXw28资讯网——每日最新资讯28at.com

为了验证自己的这一想法,作者从原理方面对扩散模型进行了拆解。HXw28资讯网——每日最新资讯28at.com

扩散模型的关键,在于一个分数函数 (score function)HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

需要注意的是,这和HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

不同。(求梯度的参数不同)HXw28资讯网——每日最新资讯28at.com

通过后者,我们可以知道如何改变模型参数来增加向下输入的可能性,而前者能够让我们知道如何改变输入本身来增加可能性。HXw28资讯网——每日最新资讯28at.com

在训练过程中,希望在去噪中的每一点都使用相同的网络。HXw28资讯网——每日最新资讯28at.com

为了实现这个,需要引入一个额外的输入HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

,由此可以看到在去噪中进行到了哪一部分HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

当t=0时,对应无噪声数据;t=1时,对应纯噪声数据。HXw28资讯网——每日最新资讯28at.com

训练这个网络的方法,就是用添加噪声HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

来破坏输入x。然后从HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

中预测HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

需要注意的是,在这里方差大小取决于t,因为它可以对应特定点的噪声水平。损失函数通常使用均方误差(MSE),有时会用 λ(t)进行加权,因此某些噪声水平会优先于其他噪声水平:HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

假设λ(t)=1时,一个关键的观测值为HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

或 x(它们二者是等价的),在这里可以用公式:HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

为了确保它们是等价的,可以考虑使用训练模型HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

来预测HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

,并加上一个新的残差连接。从输入到输出的比例系数均为-1,这个调整后的模型则实现了:HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

由此,一个扩散模型便逐渐变成一个去噪自动编码器了!HXw28资讯网——每日最新资讯28at.com

One More ThingHXw28资讯网——每日最新资讯28at.com

不过博客的作者也强调,虽然扩散模型和去噪自动编码器的效果等价,但是二者之间不可完全互换。HXw28资讯网——每日最新资讯28at.com

并且以上得到的这个去噪自动编码器,和传统类型也有不同:HXw28资讯网——每日最新资讯28at.com

第一,附加输入t可以使单个模型用一组共用参数来处理噪声级别不同的情况;第二,因为更加关注模型的输出,所以内部没有瓶颈层,这可能会导致“弊大于利”的结果。HXw28资讯网——每日最新资讯28at.com

而作者更想强调的是这二者之间存在的联系。HXw28资讯网——每日最新资讯28at.com

此外他还表示,模型效果好的关键应该在于共用参数,这种方法已经被广泛应用在表示学习上。HXw28资讯网——每日最新资讯28at.com

从这些成果中也能发现一个规律:HXw28资讯网——每日最新资讯28at.com

噪声含量越高的模型,往往更容易学习到图像的特征;噪声含量越低的模型,则会更专注于细节。HXw28资讯网——每日最新资讯28at.com

HXw28资讯网——每日最新资讯28at.com

作者认为以上规律值得进一步研究:HXw28资讯网——每日最新资讯28at.com

这意味着随着噪声水平逐步降低,扩散模型能够补充图像细节也就越来越多。HXw28资讯网——每日最新资讯28at.com

最后,我们再来介绍一下这一发现的提出者——Sander Dieleman。HXw28资讯网——每日最新资讯28at.com

他现在是DeepMind的一位研究科学家,主要研究领域为生成模型和音乐合成。HXw28资讯网——每日最新资讯28at.com

参与的主要研究工作有Spotify音乐平台的内容推荐模型。HXw28资讯网——每日最新资讯28at.com

 HXw28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2146-0.html扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 为了自动驾驶,谷歌用NeRF在虚拟世界中重建了旧金山市

下一篇: CNCF 报告:最新 Kubernetes 和容器采用现状 译文

标签:
  • 热门焦点
  • 卢伟冰长文解析K60至尊版 对Redmi有着里程碑式的意义

    在今天的Redmi后性能时代战略发布会结束之后,Redmi总经理卢伟冰又带来了一篇长文,详解了为什么 Redmi 要开启后性能时代?为什么选择和 MediaTek、Pixelworks 深度合作?以及后性
  • 一加Ace2 Pro真机揭晓 钛空灰配色质感拉满

    终于,在经过了几波预热之后,一加Ace2 Pro的外观真机图在网上出现了。还是博主数码闲聊站曝光的,这次的外观设计还是延续了一加11的方案,只是细节上有了调整,例如新加入了钛空灰
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 6月iOS设备性能榜:M2稳居榜首 A系列只能等一手3nm来救

    没有新品发布,自然iOS设备性能榜的上榜设备就没有什么更替,仅仅只有跑分变化而产生的排名变动,毕竟苹果新品的发布节奏就是这样的,一年下来也就几个移动端新品,不会像安卓厂商,一
  • 量化指标是与非:挽救被量化指标扼杀的技术团队

    作者 | 刘新翠整理 | 徐杰承本文整理自快狗打车技术总监刘新翠在WOT2023大会上的主题分享,更多精彩内容及现场PPT,请关注51CTO技术栈公众号,发消息【WOT2023PPT】即可直接领取
  • 从零到英雄:高并发与性能优化的神奇之旅

    作者 | 波哥审校 | 重楼作为公司的架构师或者程序员,你是否曾经为公司的系统在面对高并发和性能瓶颈时感到手足无措或者焦头烂额呢?笔者在出道那会为此是吃尽了苦头的,不过也得
  • 2纳米决战2025

    集微网报道 从三强争霸到四雄逐鹿,2nm的厮杀声已然隐约传来。无论是老牌劲旅台积电、三星,还是誓言重回先进制程领先地位的英特尔,甚至初成立不久的新
  • Windows 11发布,微软一改往常对老机型开放的态度

    距离 Windows 11 发布已经过去一周,在过去一周里,很多数码爱好者围绕其对 Android 应用的支持、对老机型的升级问题展开了激烈讨论。与以往不同的是,在这次大
  • 利用职权私自解除被封帐号 Meta开除20多名员工

    11月18日消息,据外媒援引知情人士表示,过去一年时间内,Facebook母公司Meta解雇或处罚了20多名员工以及合同工,指控这些人通过内部系统以不当方式重置用户帐号,其
Top