当前位置:首页 > 元宇宙 > AI

AI 视觉字谜爆火!梦露转 180° 秒变爱因斯坦,英伟达高级 AI 科学家:近期最酷的扩散模型

来源: 责编: 时间:2023-12-06 09:17:51 452观看
导读 AI 画的玛丽莲・梦露,倒转 180° 后,竟然变成了爱因斯坦?!这是最近在社交媒体上爆火的扩散模型视错觉画,随便给 AI 两组不同的提示词,它都能给你画出来!哪怕是截然不同的对象也可以,例如一位男子,经过反色处理,就神奇地

AI 画的玛丽莲・梦露,倒转 180° 后,竟然变成了爱因斯坦?!Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

这是最近在社交媒体上爆火的扩散模型视错觉画,随便给 AI 两组不同的提示词,它都能给你画出来!Haw28资讯网——每日最新资讯28at.com

哪怕是截然不同的对象也可以,例如一位男子,经过反色处理,就神奇地转变成一名女子:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

就连单词也能被翻转出新效果,happy 和 holiday 只在一旋转间:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

原来,这是来自密歇根大学的一项“视觉字谜”新研究,论文一发出就在 Hacker News 上爆火,热度飙至近 800。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

英伟达高级 AI 科学家 Jim Fan 赞叹称:Haw28资讯网——每日最新资讯28at.com

这是我近期见到最酷的扩散模型!Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

还有网友感叹称:Haw28资讯网——每日最新资讯28at.com

这让我想到了从事分形压缩工作的那段经历。我一直认为它是纯粹的艺术。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

要知道,创作一幅经过旋转、反色或变形后呈现出新主题的绘画作品,怎么也需要画家对色彩、形状、空间具备一定的理解能力。Haw28资讯网——每日最新资讯28at.com

如今连 AI 也能画出这样的效果,究竟是如何实现的?实际效果是否有这么好?Haw28资讯网——每日最新资讯28at.com

我们上手试玩了一番,也探究了一下背后的原理。Haw28资讯网——每日最新资讯28at.com

Colab 就能直接试玩

我们用这个模型绘制了一组 Lowpoly 风格的画,让它正着看是一座山,反过来则是城市的天际线。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

同时,我们让 ChatGPT(DALL・E-3)也试着画了一下,结果除了清晰度高一些之外似乎就没什么优势了。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

而作者自己展示的效果则更加丰富,也更为精彩。Haw28资讯网——每日最新资讯28at.com

一座雪后的山峰,旋转 90 度就变成了一匹马;一张餐桌换个角度就成了瀑布……Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

最精彩的还要属下面这张图 —— 从上下左右四个角度看,每个方向的内容都不一样。Haw28资讯网——每日最新资讯28at.com

(这里先考验一下各位读者,你能看出这四种动物分别是什么吗?)Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

以兔子为初始状态,每逆时针旋转 90 度,看到的依次是鸟、长颈鹿和泰迪熊。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

而下面这两张图虽然没做到四个方向每个都有“新内容”,但还是做出了三个不同的方向。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

除了旋转,它还可以把图像切割成拼图,然后重组成新的内容,甚至是直接分解到像素级。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

风格也是千变万化,水彩、油画、水墨、线稿…… 应有尽有。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

那么这个模型去哪里能玩呢?Haw28资讯网——每日最新资讯28at.com

为了能让更多网友体验到这个新玩具,作者准备了一份 Colab 笔记。Haw28资讯网——每日最新资讯28at.com

不过免费版 Colab 的 T4 不太能带动,V100 偶尔也会显存超限,要用 A100 才能稳定运行。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

甚至作者自己也说,如果谁发现免费版能带动了,请马上告诉他。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

言归正传,第一行代码运行后会让我们填写 Hugging Face 的令牌,并给出了获取地址。Haw28资讯网——每日最新资讯28at.com

同时还需要到 DeepFloyd 的项目页面中同意一个用户协议,才能继续后面的步骤。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

准备工作完成后,依次运行这三个部分的代码完成环境部署。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

需要注意的是,作者目前还没有给模型设计图形界面,效果的选择和提示词的修改需要我们手动调整代码。Haw28资讯网——每日最新资讯28at.com

作者在笔记中放了三种效果,想用哪个就取消注释(去掉那一行前面的井号),并把不用的删除或注释掉(加上井号)。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

这里列出的三种效果不是全部,如果想用其他效果可以手动替换代码,具体支持的效果有这些:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

修改好后要运行这行代码,然后提示词也是如法炮制:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

修改好并运行后,就可以进入生成环节了,这里也可以对推理步数和指导强度进行修改。Haw28资讯网——每日最新资讯28at.com

需要注意的是,这里一定要先运行 image_64 函数生成小图,然后再用后面的 image 变成大图,否则会报错。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

做个总结的话,我们体验后的一个感觉是,这个模型对提示词的要求还是比较高的。Haw28资讯网——每日最新资讯28at.com

作者也意识到了这一点,并给出了一些提示词技巧:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

△ 机翻,仅供参考Haw28资讯网——每日最新资讯28at.com

那么,研究团队是如何实现这些效果的呢?Haw28资讯网——每日最新资讯28at.com

“糅合”多视角图像噪声

首先来看看作者生成视错觉图像的关键原理。Haw28资讯网——每日最新资讯28at.com

为了让图像在不同视角下,能根据不同的提示词呈现出不同的画面效果,作者特意采用了“噪声平均”的方法,来进一步将两个视角的图像糅合在一起。Haw28资讯网——每日最新资讯28at.com

简单来说,扩散模型(DDPM)的核心,是通过训练模型将图像“打碎重组”,基于“噪点图”来生成新图像:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

所以,要想让图像在变换前后,能根据不同提示词生成不同图像,就需要对扩散模型的去噪过程进行改动。Haw28资讯网——每日最新资讯28at.com

简单来说,就是对原始图像和变换后的图像,同时用扩散模型进行“打碎”处理做成“噪点图”,并在这个过程中将处理后的结果取平均,计算出一个新的“噪点图”。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

随后,基于这个新的“噪点图”生成的图像,就能在经过变换后呈现出想要的视觉效果。Haw28资讯网——每日最新资讯28at.com

当然,这个变换的图像处理过程,必须要是正交变换,也就是我们在展示效果中看到的旋转、变形、打碎重组或反色等操作。Haw28资讯网——每日最新资讯28at.com

具体到扩散模型的选择上,也有要求。Haw28资讯网——每日最新资讯28at.com

具体来说,这篇论文采用了 DeepFloyd IF 来实现视错觉图像生成。Haw28资讯网——每日最新资讯28at.com

DeepFloyd IF 是一个基于像素的扩散模型,相比其他扩散模型,它能直接在像素空间(而非潜在空间或其他中间表示)上进行操作。Haw28资讯网——每日最新资讯28at.com

这也让它能更好地处理图像的局部信息,尤其在生成低分辨率图像上有所帮助。Haw28资讯网——每日最新资讯28at.com

这样一来,就能让图像最终呈现出视错觉效果。Haw28资讯网——每日最新资讯28at.com

为了评估这种方法的效果,作者们基于 GPT-3.5 自己编写了一个 50 个图像变换对的数据集。Haw28资讯网——每日最新资讯28at.com

具体来说,他们让 GPT-3.5 随机生成一种图像风格(例如油画风、街头艺术风),然后再随机生成两组提示词(一个老人、一个雪山),并交给模型生成变换画。Haw28资讯网——每日最新资讯28at.com

这是一些随机变换生成的结果:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

随后,他们也拿 CIFAR-10 进行了一下不同模型间图像生成的测试:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

随后用 CLIP 评估了一下,结果显示变换后的效果和变换之前的质量一样好:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

作者们也测试了一下,这个 AI 能经得起多少个图像块的“打碎重组”。Haw28资讯网——每日最新资讯28at.com

事实证明,从 8×8 到 64×64,打碎重组的图像效果看起来都不错:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

对于这一系列图像变换,有网友感叹“印象深刻”,尤其是男人转变成女人的那个图像变换:Haw28资讯网——每日最新资讯28at.com

我看了大概有 10 遍左右。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

还有网友已经想把它做成艺术作品挂在墙上了,或是使用电子墨水屏:Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

但也有专业的摄影师认为,现阶段 AI 生成的这些图像仍然不行:Haw28资讯网——每日最新资讯28at.com

仔细观察的话,会发现细节经不起推敲。敏锐的眼睛总是能分辨出糟糕的地方,但大众并不在意这些。Haw28资讯网——每日最新资讯28at.com

Haw28资讯网——每日最新资讯28at.com

那么,你觉得 AI 生成的这一系列视错觉图像效果如何?还能用在哪些地方?Haw28资讯网——每日最新资讯28at.com

参考链接:Haw28资讯网——每日最新资讯28at.com

[1]https://news.ycombinator.com/item?id=38477259Haw28资讯网——每日最新资讯28at.com

[2]https://arxiv.org/pdf/2311.17919.pdfHaw28资讯网——每日最新资讯28at.com

[3]https://twitter.com/DrJimFan/status/1730253638935920738Haw28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:克雷西 萧箫Haw28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-2781-0.htmlAI 视觉字谜爆火!梦露转 180° 秒变爱因斯坦,英伟达高级 AI 科学家:近期最酷的扩散模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: GPT-4 没通过图灵测试!60 年前老 AI 击败了 ChatGPT,但人类胜率也仅有 63%

下一篇: 爱企查显示:知网AI生成文本检测新专利公布

标签:
  • 热门焦点
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 雷克萨斯高管,“受贿”5000万?

    来源:毒舌科技作者:潘磊雷克萨斯的高管,好像出事了。五六家日本小媒体,突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元(约合人民币5000
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 中国虚拟数字人如何横向拓展市场需求,探索发展场景?

    通过5G、AI等新技术更新换代,虚拟数字人为诸多下游行业带来新的发展机会。虚拟数字人技术以其简化性和精品性持续拓展泛娱乐、金融、教育、政务、医疗、零售等
  • “啫喱”超越微信登顶:首款“元宇宙社交App”会昙花一现吗?

    作者| 赤木瓶子如何终结“昙花一现”的命运,是潮流社交产品的长期命题,如今,在元宇宙浪潮的洗礼下,这一命题正在迎来新的可能性。近段时间,一款名为“啫喱”的社交A
  • 万字专访Vitalik Buterin:以太坊将成为主流和最安全的基础层

    Vitalik Buterin 在 19 岁时撰写了以太坊白皮书。他的目标简单而全面,即创建一个“世界计算机”,旨在成为所有在线应用程序的灵活基础层,无需任何第三方。自 2015
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 知名艺术家打造去中心化“好莱坞”:一部电影一个DAO

    根据市场追踪网站 DappRadar 的数据,随着 NFT 的“出圈”与加密货币的普及,NFT 市场在 2021 年的销售额达到约 250 亿美元,而 2020 年仅为 9490 万美元,同比增超 2
Top