当前位置：首页 > 科技 > 知识百科

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

来源：责编：时间：2023-08-07 16:29:52 379观看

导读本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。由于在图像生成效果上可以与GAN媲美，扩散模型最近成为了AI界关注的焦点。谷歌、OpenAI过去一年都提出了自家的

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

由于在图像生成效果上可以与GAN媲美，扩散模型最近成为了AI界关注的焦点。

谷歌、OpenAI过去一年都提出了自家的扩散模型，效果也都非常惊艳。

另一边，剑桥大学的学者David Krueger提出，自动编码器会不会卷土重来成为研究热潮。

就在最近，DeepMind的一位研究科学家Sander Dieleman基于以上两股热潮，提出了自己的观点：

扩散模型就是自动编码器啊！

这一观点立刻引起了不少网友的注意，大家看了Sander的阐述，都觉得说得很有道理，并且给了自己不少启发。

那么，他到底是如何论证自己这一观点的呢？

我们一起来看。

去噪自动编码器=扩散模型

想要看透这二者之间的联系，首先要看看它们自身的特点。

扩散模型是一种新的图像生成方法，其名字中的“扩散”本质上是一个迭代过程。

它最早于2015提出，是定义了一个马尔可夫链，用于在扩散步骤中缓慢地向数据添加随机噪声，然后通过学习逆转扩散过程从噪声中构建所需的数据样本。

相比GAN、VAE和基于流的生成模型，扩散模型在性能上有不错的权衡，最近已被证明在图像生成方面有很大的潜力，尤其是与引导结合来兼得保真度和多样性。

比如去年谷歌提出的级联（Cacade）扩散模型SR3，就是以低分辨率图像为输入，从纯噪声中构建出对应的高分辨率图像。

OpenAI的GLIDE、ADM-G也是用上了扩散模型，以此能生成更加更真实、多样、复杂的图像。

△GLIDE模型效果

接下来，再来看自动编码器的原理。

自动编码器可以理解为一个试图去还原原始输入的系统，模型如下所示：

它的主要目的是将输入转换为中间变量，然后再将中间变量转化为输出，最后对比输入和输出，使它们二者之间无限接近。

当模型框架中存在瓶颈层或者输入被损坏时，自动编码器能够学习输入本质特征的特性，就可以大显身手了。

在这里，作者主要拿来和扩散模型对比的，便是去噪自动编码器。

它可以将损坏数据作为输入，通过训练来预测未损坏的原始数据作为输出。

看到这里是不是有点眼熟了？

向输入中加入噪声，不就是一种破坏输入的方法吗？

那么，去噪自动编码器和扩散模型，原理上不就是有着异曲同工之妙吗？

二者是如何等价的？

为了验证自己的这一想法，作者从原理方面对扩散模型进行了拆解。

扩散模型的关键，在于一个分数函数（score function）

。

需要注意的是，这和

不同。（求梯度的参数不同）

通过后者，我们可以知道如何改变模型参数来增加向下输入的可能性，而前者能够让我们知道如何改变输入本身来增加可能性。

在训练过程中，希望在去噪中的每一点都使用相同的网络。

为了实现这个，需要引入一个额外的输入

，由此可以看到在去噪中进行到了哪一部分

。

当t=0时，对应无噪声数据；t=1时，对应纯噪声数据。

训练这个网络的方法，就是用添加噪声

来破坏输入x。然后从

中预测

。

需要注意的是，在这里方差大小取决于t，因为它可以对应特定点的噪声水平。损失函数通常使用均方误差（MSE），有时会用 λ(t)进行加权，因此某些噪声水平会优先于其他噪声水平：

假设λ(t)=1时，一个关键的观测值为

或 x（它们二者是等价的），在这里可以用公式：

为了确保它们是等价的，可以考虑使用训练模型

来预测

，并加上一个新的残差连接。从输入到输出的比例系数均为-1，这个调整后的模型则实现了：

由此，一个扩散模型便逐渐变成一个去噪自动编码器了！

One More Thing

不过博客的作者也强调，虽然扩散模型和去噪自动编码器的效果等价，但是二者之间不可完全互换。

并且以上得到的这个去噪自动编码器，和传统类型也有不同：

第一，附加输入t可以使单个模型用一组共用参数来处理噪声级别不同的情况；第二，因为更加关注模型的输出，所以内部没有瓶颈层，这可能会导致“弊大于利”的结果。

而作者更想强调的是这二者之间存在的联系。

此外他还表示，模型效果好的关键应该在于共用参数，这种方法已经被广泛应用在表示学习上。

从这些成果中也能发现一个规律：

噪声含量越高的模型，往往更容易学习到图像的特征；噪声含量越低的模型，则会更专注于细节。

作者认为以上规律值得进一步研究：

这意味着随着噪声水平逐步降低，扩散模型能够补充图像细节也就越来越多。

最后，我们再来介绍一下这一发现的提出者——Sander Dieleman。

他现在是DeepMind的一位研究科学家，主要研究领域为生成模型和音乐合成。

参与的主要研究工作有Spotify音乐平台的内容推荐模型。

本文链接：http://www.28at.com/showinfo-119-2146-0.html扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：为了自动驾驶，谷歌用NeRF在虚拟世界中重建了旧金山市

下一篇： CNCF 报告：最新 Kubernetes 和容器采用现状译文

标签：

热门焦点

俄罗斯：将审查iPhone等外国公司设备保数据安全

iPhone和特斯拉都属于在各自领域领头羊的品牌，推出的产品也也都是数一数二的，但对于一些国家而言，它们的产品可靠性和安全性还是在限制范围内。近日，俄罗斯联邦通信、信息技术
三言两语说透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是两种很有用的技术，可以帮助我们写出更加优雅、泛用的函数。本文将首先介绍柯里化和反柯里化的概念、实现原理和应用
雅柏威士忌多款单品价格大跌，泥煤顶流也不香了？

来源 | 烈酒商业观察编 | 肖海林今年以来，威士忌市场开始出现了降温迹象，越来越多不断暴涨的网红威士忌也开始悄然回归市场理性。近日，LVMH集团旗下苏格兰威士忌品牌雅柏（Ardbeg
猿辅导与新东方的两种“归途”

作者｜卓心月出品｜零态LT（ID：LingTai_LT）如何成为一家伟大企业？答案一定是对“势”的把握，这其中最关键的当属对企业战略的制定，且能够站在未来看现在，即使这其中的
半导体需求下滑三星电子DS业务部门今年营业亏损预计超10万亿韩元

7月17日消息，据外媒报道，去年下半年开始的半导体需求下滑，影响到了三星电子、SK海力士、英特尔等诸多厂商，营收明显下滑，部分厂商甚至出现了亏损。作为
2299元起！iQOO Pad明晚首销：性能最强天玑平板

5月23日，iQOO如期举行了新品发布会，除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外，还在发布会上推出了旗下首款平板电脑——iQOO Pad，其最大的卖点
OPPO K11采用全方位护眼屏：三大护眼能力减轻视觉疲劳

日前OPPO官方宣布，全新的OPPO K11将于7月25日正式发布，将主打旗舰影像，和同档位竞品相比，其最大的卖点就是将配备索尼IMX890主摄，堪称是2000档位影像表
Windows 11发布，微软一改往常对老机型开放的态度

距离 Windows 11 发布已经过去一周，在过去一周里，很多数码爱好者围绕其对 Android 应用的支持、对老机型的升级问题展开了激烈讨论。与以往不同的是，在这次大

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

俄罗斯：将审查iPhone等外国公司设备保数据安全

三言两语说透柯里化和反柯里化

雅柏威士忌多款单品价格大跌，泥煤顶流也不香了？

重估百度丨“晚熟”的百度云，能等到春天吗？

猿辅导与新东方的两种“归途”

半导体需求下滑三星电子DS业务部门今年营业亏损预计超10万亿韩元

2299元起！iQOO Pad明晚首销：性能最强天玑平板

OPPO K11采用全方位护眼屏：三大护眼能力减轻视觉疲劳

Windows 11发布，微软一改往常对老机型开放的态度

最新推荐

猜你喜欢

热门推荐

相关资讯