当前位置：首页 > 元宇宙 > AI

单图就能解锁全景视角，北大港中文腾讯等推出 ViewCrafter 开源项目

来源：责编：时间：2024-09-19 16:21:51 174观看

导读随便给张图就能从更多视角查看全景了？！话不多说，先看一波效果，单视角输入 be like：难度升级，接下来换成双视角，看起来衔接也非常丝滑。以上来自 ViewCrafter，由北大、港中文、腾讯等机构的研究人员提出，可以从单张或稀

随便给张图就能从更多视角查看全景了？！

话不多说，先看一波效果，单视角输入 be like：

难度升级，接下来换成双视角，看起来衔接也非常丝滑。

以上来自 ViewCrafter，由北大、港中文、腾讯等机构的研究人员提出，可以从单张或稀疏输入图像生成精确相机可控的新视角视频。

还支持场景级文生 3D、图生 3D、以及稀疏视角重建等应用。

目前论文和代码均已开源，并提供了在线 Huggingface demo 供用户使用。

ViewCrafter：一种新视角生成方法

传统的新视角生成方法，如 NeRF 和 3D-GS 等技术，存在一个痛点：

依赖于密集的多视角训练数据

这限制了它们在仅有稀疏（输入图像数量有限，不能提供完整视角或详尽场景信息）甚至单张输入视角的情况下的应用。

同时，传统方法对训练资源的需求较高，且不具备泛化能力，这限制了它们在训练资源受限场景下的应用。

因此，ViewCrafter 最终想实现：

从稀疏视角图像甚至单张输入图像中生成任意规模场景的新视角。

这需要模型对 3D 物理世界有全面的理解。

接下来一起康康具体咋实现的。

概括而言，ViewCrafter 是基于点云先验的可控视角视频生成。

首先，快速多视图 / 单视图 stereo 技术的发展，使得从单张或稀疏图像中快速重建点云表征成为可能。

点云表征能够提供 3D 场景的粗略信息，支持精确的相机位置控制以实现自由视角渲染。

然而，由于点云的表示能力较弱，加之极其稀疏的输入图像只能提供有限的 3D 线索，重建出的点云存在大面积的遮挡和缺失区域，并可能面临几何形变和点云噪声。

这些问题限制了其在新视角合成上的应用。

与此同时，在大规模视频数据集上训练的视频扩散模型能够深入理解 3D 物理世界，支持从单张图像或文本提示中生成符合物理规律和现实世界规则的视频内容。

然而，现有的视频扩散模型缺乏显式的场景 3D 信息，因此在视频生成过程中难以实现精确的相机视角控制。

针对这些优缺点，团队提出将视频扩散模型的生成能力与点云表征提供的显式 3D 先验相结合，以实现相机精准可控的任意场景高保真度新视角视频生成。

具体而言，给定单张或稀疏视角输入图像，团队首先使用快速多视图 stereo 方法构建其点云表征，以实现精准地移动相机进行自由视角渲染。

随后，为了解决点云渲染结果中存在的大面积缺失区域、几何失真和点云伪影，团队训练了一个以点云渲染结果为控制信号的视频扩散模型作为增强渲染器。

这一渲染器能在粗糙的点云渲染结果的基础上进一步生成具有高保真度和 3D 一致性的新视角。

通过结合点云提供的显式 3D 信息以及视频扩散模型的强大生成能力，新方法能够在视频生成过程中实现 6 自由度的精准相机位姿控制，并生成高保真度、一致性强的新视角视频。

▲相机轨迹规划算法

此外，现有的视频扩散模型难以生成长视频，因为长视频推理会造成巨大的计算开销。

为了解决这一问题，研究采用了一种迭代式的新视角生成策略，并提出了一种内容自适应的相机轨迹规划算法，以逐步扩展新视角覆盖的区域和重建的点云。

具体来说，从初始输入图像构建的点云开始，团队首先利用相机轨迹规划算法，从当前点云预测一段相机轨迹，以有效揭示遮挡和确实区域。

接着，团队根据预测的轨迹渲染点云，并利用 ViewCrafter 根据渲染的点云生成高质量的新视角。

随后利用生成的新视角更新点云，以扩展全局点云表征。

通过迭代执行这些步骤，最终可以获得覆盖大视场范围和扩展点云的高保真新视图，并支持高斯重建等下游任务。

具体应用上，基于 ViewCrafter 和提出的迭代式新视角生成算法，可以从单张图像 / 稀疏视角甚至一段文字描述中进行 3D 高斯重建，以支持实时渲染和沉浸式 3D 体验。

对比实验

团队从多个角度对比了新方法。

从新视角生成来看，团队在 Tanks-and-Temples，CO3D，RealEstate10K 这三个真实世界数据集上与 SOTA 方法进行了定量和定性比较。

实验结果证明，ViewCrafter 在相机位姿控制的精准程度，以及生成新视角的视觉质量上都优于对比方法。

在场景重建方面，团队在 Tanks-and-Temples 数据集上与稀疏视角重建领域的 SOTA 方法进行了定量和定性比较。

结果证明，ViewCrafter 在 3D 高斯重建渲染出的新视角的视觉质量上也超过了对比方法。

文生 3D 结果如下。左边显示了文本提示以及文生图效果，后面是最终的 3D 效果。

当然，团队也进行了消融实验。比如利用点云先验作为视频扩散模型控制信号的有效性。

具体而言，一些同期工作采用普吕克坐标作为视频生成模型的控制信号，以实现相机可控的新视角生成。

作为对比，为了验证点云控制信号的优越性，团队训练了一个以普吕克坐标为控制信号的新视角生成模型，并进行控制变量实验，保证除了控制信号外其他模型结构与 ViewCrafter 一致。

两个模型在新视角生成任务上对比结果如下所示：

实验结果证明，不管是在新视角生成质量还是在相机控制的精准程度上，团队使用的基于点云的控制信号都要优于基于普吕克坐标的控制信号。

另外，团队验证了模型对粗糙点云的鲁棒性（Robust，健壮性）。

如图所示，对于作为控制信号的点云具有严重几何形变的情况，模型依然能够有效地进行几何纠错和空洞修补。这证明了新方法对点云控制信号的鲁棒性。

概括下来，团队验证了 ViewCrafter 对于静态场景的强大新视角生成能力。

接下来，团队计划探索和单目视频深度估计方法结合，实现单目动态视频的新视角生成和 4D 重建。更多细节欢迎查阅原论文。

GitHub：https://github.com/Drexubery/ViewCrafter

项目主页：https://drexubery.github.io/ViewCrafter/

论文：https://arxiv.org/abs/2409.02048

Huggingface Demo：https://huggingface.co/spaces/Doubiiu/ViewCrafter

本文来自微信公众号：量子位（ID：QbitAI），作者：ViewCrafter 团队，原标题《单图就能解锁全景视角！北大 / 港中文 / 腾讯等推出 ViewCrafter | 已开源》

本文链接：http://www.28at.com/showinfo-45-7371-0.html单图就能解锁全景视角，北大港中文腾讯等推出 ViewCrafter 开源项目

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：谷歌搜索将整合 C2PA 2.1 标准，标注 AI 生成编辑图片

下一篇：联想集团将在印度生产 AI 服务器，并设立 AI 研发实验室

标签：

热门焦点

元宇宙终究没火过两年

来源：传播体操在ChatGPT快速破圈的同时，元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力，但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
拯救XR，苹果力不从心

来源 | 光子星球撰文 | 文烨豪编辑 | 吴先之苹果终于呈上了它的“答卷”。北京时间6月6日凌晨，苹果2023年全球开发者大会（WWDC）如期举行。作为苹果CEO库克口中&ld
【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？ | 元宇宙Meta洞见

大规模预训GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大规模预训练模型（大模型）渐渐成为了AI算法领域的热点。AI产业链：从算力到应用工作流程视角•
以太坊伦敦升级后，随之生效的以太坊EIP-1559是什么？

作者：三黎过去的一年里，除了 BTC 一如既往稳坐王位，DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时，也使得其网络日渐拥堵、交易费用增高，成为
音乐NFT平台里的下一匹黑马是谁？

NFT 销售额在 2021 年开始暴涨，从 2018 年的仅 4069 万美元的交易量，到 2021 年，NFT 交易量飙升至 442 亿美元以上，并不断刷新记录并达到新的高度。预测到2025 年N
如何在元宇宙中建立品牌忠诚度

Snoop Dogg、耐克、苏富比和普华永道都有什么共同点？他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
音乐家如何利用NFTs来提高歌迷参与度

"音乐是一种语言，不以特定的文字说话。它用情感说话，如果它在骨子里，它就在骨子里。" - Keith Richards音乐激励着我们，使我们流泪，使我们充满狂喜，并抚慰我们的灵魂
元宇宙专题二：GameFi 深度解析，元宇宙内容雏形显现

GameFi=Game（游戏）+DEFI（去中心化金融），核心特点为“Play to Earn”。通过技术与去中心化价值观赋能，GameFi 游戏资产化身为NFT 和代币上链，具备了可验证性和流通性；开
元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

近日，毕马威正式发布其《初探元宇宙》报告，这也是毕马威在元宇宙领域发布的首份报告。报告指出，元宇宙在以下十个领域的应用场景尤其值得期待，包括娱乐、社交、零

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

单图就能解锁全景视角，北大港中文腾讯等推出 ViewCrafter 开源项目

元宇宙终究没火过两年

拯救XR，苹果力不从心

【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？ | 元宇宙Meta洞见

以太坊伦敦升级后，随之生效的以太坊EIP-1559是什么？

音乐NFT平台里的下一匹黑马是谁？

如何在元宇宙中建立品牌忠诚度

音乐家如何利用NFTs来提高歌迷参与度

元宇宙专题二：GameFi 深度解析，元宇宙内容雏形显现

元宇宙的应用行业研究：娱乐可能是元宇宙落地最快的场景之一

最新推荐

元宇宙终究没火过两年

米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

《刀剑神域》VR展开幕；《Puzzling Places》发布第二个付费DLC

又一家数字营销公司入局元宇宙，国内首个艺术元宇宙社区“Meta彼岸”上线

HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

超级账本Julian Gordon：联盟链与公链的竞争不是非此即彼

猜你喜欢

热门推荐

相关资讯

单图就能解锁全景视角，北大 港中文 腾讯等推出 ViewCrafter 开源项目

最新推荐

猜你喜欢

热门推荐

相关资讯

单图就能解锁全景视角，北大港中文腾讯等推出 ViewCrafter 开源项目