当前位置:首页 > 元宇宙 > AI

Stability AI 开源上新:3D 生成引入视频扩散模型,质量一致性 up,4090 可玩

来源: 责编: 时间:2024-03-22 08:52:24 270观看
导读 Stable Diffusion 背后公司 Stability AI 又上新了。这次带来的是图生 3D 方面的新进展:基于 Stable Video Diffusion 的 Stable Video 3D(SV3D),只用一张图片就能生成高质量 3D 网格。Stable Video Diffusion(SVD

Stable Diffusion 背后公司 Stability AI 又上新了。ZRR28资讯网——每日最新资讯28at.com

这次带来的是图生 3D 方面的新进展:ZRR28资讯网——每日最新资讯28at.com

基于 Stable Video Diffusion 的 Stable Video 3D(SV3D),只用一张图片就能生成高质量 3D 网格。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

Stable Video Diffusion(SVD)是 Stability AI 此前推出的高分辨率视频生成模型。也就是说,此番登场的 SV3D 首次将视频扩散模型应用到了 3D 生成领域。ZRR28资讯网——每日最新资讯28at.com

官方表示,基于此,SV3D 大大提高了 3D 生成的质量和视图一致性。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

模型权重依然开源,不过仅可用于非商业用途,想要商用的话还得买个 Stability AI 会员~ZRR28资讯网——每日最新资讯28at.com

话不多说,还是来扒一扒论文细节。ZRR28资讯网——每日最新资讯28at.com

将视频扩散模型用于 3D 生成

引入潜在视频扩散模型,SV3D 的核心目的是利用视频模型的时间一致性来提高 3D 生成的一致性。ZRR28资讯网——每日最新资讯28at.com

并且视频数据本身也比 3D 数据更容易获得。ZRR28资讯网——每日最新资讯28at.com

Stability AI 这次提供两个版本的 SV3D:ZRR28资讯网——每日最新资讯28at.com

SV3D_u:基于单张图像生成轨道视频。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

SV3D_p:扩展了 SV3D_u 的功能,可以根据指定的相机路径创建 3D 模型视频。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

研究人员还改进了 3D 优化技术:采用由粗到细的训练策略,优化 NeRF 和 DMTet 网格来生成 3D 对象。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

他们还设计了一种名为掩码得分蒸馏采样(SDS)的特殊损失函数,通过优化在训练数据中不直接可见的区域,来提高生成 3D 模型的质量和一致性。ZRR28资讯网——每日最新资讯28at.com

同时,SV3D 引入了一个基于球面高斯的照明模型,用于分离光照效果和纹理,在保持纹理清晰度的同时有效减少了内置照明问题。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

具体到架构方面,SV3D 包含以下关键组成部分:ZRR28资讯网——每日最新资讯28at.com

UNet:SV3D 是在 SVD 的基础上构建的,包含一个多层 UNet,其中每一层都有一系列残差块(包括 3D 卷积层)和两个分别处理空间和时间信息的 Transformer 模块。ZRR28资讯网——每日最新资讯28at.com

条件输入:输入图像通过 VAE 编码器嵌入到潜在空间中,会和噪声潜在状态合并,一起输入到 UNet 中;输入图像的 CLIP 嵌入矩阵则被用作每个 Transformer 模块交叉注意力层的键值对。ZRR28资讯网——每日最新资讯28at.com

相机轨迹编码:SV3D 设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中,相机以规律间隔的方位角围绕对象;动态轨道则允许不规则间隔的方位角和不同的仰角。ZRR28资讯网——每日最新资讯28at.com

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中,转换为正弦位置嵌入,然后这些嵌入信息会被整合并进行线性变换,加入到噪声时间步长嵌入中。ZRR28资讯网——每日最新资讯28at.com

这样的设计旨在通过精细控制相机轨迹和噪声输入,提升模型处理图像的能力。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

此外,SV3D 在生成过程中采用 CFG(无分类器引导)来控制生成的清晰度,特别是在生成轨道的最后几帧时,采用三角形 CFG 缩放来避免过度锐化。ZRR28资讯网——每日最新资讯28at.com

研究人员在 Objaverse 数据集上训练 SV3D,图像分辨率为 575×576,视场角为 33.8 度。论文透露,所有三种模型(SV3D_u,SV3D_c,SV3D_p)在 4 个节点上训练了 6 天左右,每个节点配备 8 个 80GB 的 A100 GPU。ZRR28资讯网——每日最新资讯28at.com

实验结果

在新视角合成(NVS)和 3D 重建方面,SV3D 超过了现有其他方法,达到 SOTA。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

从定性比较的结果来看,SV3D 生成的多视角试图,细节更丰富,更接近与原始输入图像。也就是说,SV3D 在理解和重构物体的 3D 结构方面,能够更准确地捕捉到细节,并保持视角变换时的一致性。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

这样的成果,引发了不少网友的感慨:ZRR28资讯网——每日最新资讯28at.com

可以想象,在未来 6-12 个月内,3D 生成技术将会被用到游戏和视频项目中。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

评论区也总少不了一些大胆的想法……ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

并且项目开源嘛,已经有第一波小伙伴玩上了,在 4090 上就能跑起来。ZRR28资讯网——每日最新资讯28at.com

ZRR28资讯网——每日最新资讯28at.com

如果你也有第一手实测体会,欢迎在评论区分享~ZRR28资讯网——每日最新资讯28at.com

参考链接:ZRR28资讯网——每日最新资讯28at.com

[1]https://twitter.com/StabilityAI/status/1769817136799855098ZRR28资讯网——每日最新资讯28at.com

[2]https://stability.ai/news/introducing-stable-video-3dZRR28资讯网——每日最新资讯28at.com

[3]https://sv3d.github.io/index.htmlZRR28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:鱼羊ZRR28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3659-0.htmlStability AI 开源上新:3D 生成引入视频扩散模型,质量一致性 up,4090 可玩

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI CEO 阿尔特曼:GPT-4“有点糟糕”,今年将推出新模型

下一篇: 阿里大模型产品“通义听悟”升级:超长视频自由问,还会做思维导图

标签:
  • 热门焦点
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 顶流IP“冰墩墩”带着中国元素NFT进入全球视野

    一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会,在这个“双奥之城”经历了16个令人难忘的精彩日夜,最终圆满闭幕。让我们印象深刻的不
  • 在元宇宙开会是什么样一种体验

    空间就是一切还记得面对面的会议吗?就在不久前,与会者需要飞到遥远的目的地,并进行鼓舞人心的对话、网络、免费食物,甚至可能会有一两个很好的小组讨论。随之而来
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
  • 王老吉启动元宇宙“吉空间”,HTC发布元宇宙应用VIVERSE

    今日《元宇宙新鲜事》有:王老吉启动元宇宙“吉空间”;HTC发布元宇宙应用VIVERSE;Meta将在马德里构建一个元宇宙创新中心;央视网《新闻+》推出系列视频《聊聊元宇宙
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
  • 知名艺术家打造去中心化“好莱坞”:一部电影一个DAO

    根据市场追踪网站 DappRadar 的数据,随着 NFT 的“出圈”与加密货币的普及,NFT 市场在 2021 年的销售额达到约 250 亿美元,而 2020 年仅为 9490 万美元,同比增超 2
Top