当前位置:首页 > 元宇宙 > AI

360 度无死角!UC 伯克利华人发布 3DHM 框架:一张图片即可模仿任意视频动作

来源: 责编: 时间:2024-02-04 08:58:17 346观看
导读 【新智元导读】无需标注数据,3DHM 框架即可让照片动起来,模仿目标视频动作,衣服动起来也真实!输入一张任意姿势的照片,想让照片里的人跟随「指定视频」来进行动作模仿并不简单,除了肢体动作的模仿外,模型还需要对运

【新智元导读】无需标注数据,3DHM 框架即可让照片动起来,模仿目标视频动作,衣服动起来也真实!V2128资讯网——每日最新资讯28at.com

输入一张任意姿势的照片,想让照片里的人跟随「指定视频」来进行动作模仿并不简单,除了肢体动作的模仿外,模型还需要对运动过程中衣服、人物外观的变化进行建模。V2128资讯网——每日最新资讯28at.com

V2128资讯网——每日最新资讯28at.com

如果输入图像是正面的,而模仿的视频动作包括转身的话,模型还需要「想象」出衣服的背面样子,以及衣服在转动过程中飘起的样子。V2128资讯网——每日最新资讯28at.com

为了解决这个问题,来自加州大学伯克利分校的研究人员提出了一个两阶段的、基于扩散模型的框架 3DHM,通过从单个图像完成纹理图来合成 3D 人体运动,然后渲染 3D 人体以模仿视频中 actor 的动作。V2128资讯网——每日最新资讯28at.com

V2128资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ abs / 2401.10889V2128资讯网——每日最新资讯28at.com

3DHM 模型中包含两个核心组件:V2128资讯网——每日最新资讯28at.com

1. 学习人体和服装中不可见部分的先验知识。V2128资讯网——每日最新资讯28at.com

研究人员使用填充扩散(in-filling diffusion)模型,在给定的单张图像中想象(hallucinate)出不可见部分,然后在纹理图空间(texture map space)上训练该模型,在姿势和视点不变的条件下提升采样效率。V2128资讯网——每日最新资讯28at.com

2. 使用适当的服装和纹理渲染出不同的身体姿势。V2128资讯网——每日最新资讯28at.com

研究人员开发了一个基于扩散模型的渲染 pipeline,由 3D 人体姿势控制,从而可以生成目标人物在不同姿势下的逼真渲染,包括衣服、头发和看不见区域下的合理填充。V2128资讯网——每日最新资讯28at.com

该方法可以生成一系列忠实于目标运动的 3D 姿态、在视觉上与输入更相似的图像;3D 控件还能够使用各种合成相机轨迹来渲染人物。V2128资讯网——每日最新资讯28at.com

实验结果表明,相比以前的方法,该方法在生成长时间运动和各种高难度的姿势上更有弹性(resilient)。V2128资讯网——每日最新资讯28at.com

合成运动中的人物

V2128资讯网——每日最新资讯28at.com

纹理贴图涂色(Texture map Inpainting)

第一阶段模型的目标是通过涂色模仿者的不可见区域,生成可信的完整纹理贴图。V2128资讯网——每日最新资讯28at.com

研究人员首先将三维网格渲染到输入图像上,然后按照 4DHumans 的方法对每个可见三角形进行颜色采样,从而提取部分可见的纹理图。V2128资讯网——每日最新资讯28at.com

输入(input)

先利用一种常用的方法来推断像素到表面的对应关系,从而建立一个不完整的 UV 纹理图,用于从单张 RGB 图像中提取三维网格纹理。同时计算可见性掩码,以显示哪些像素在 3D 中可见,哪些不可见。V2128资讯网——每日最新资讯28at.com

目标(target)

由于建模的目的是生成完整的纹理贴图,因此使用视频数据生成伪完整纹理贴图。V2128资讯网——每日最新资讯28at.com

由于 4DHumans 可以随着时间的推移追踪人物,因此会不断更新其内部纹理图,将其表示为可见区域的移动平均值。V2128资讯网——每日最新资讯28at.com

但为了生成更清晰的图像,研究人员发现中值滤波比移动平均法更适合生成任务;虽然该技术可以应用于任何视频中,但在本阶段使用的是 2,205 个人类视频,对于每段人类视频,首先从每帧视频中提取部分纹理图。V2128资讯网——每日最新资讯28at.com

由于每段视频都包含 360 度的人类视角,因此从整段视频中计算出一个伪完整纹理图,并将其设置为第 1 阶段的目标输出,具体来说是提取视频纹理图可见部分的整体中值。V2128资讯网——每日最新资讯28at.com

模型(Model)

研究人员直接在 Stable Diffusion Inpainting 模型上进行微调,该模型在图像补全任务中表现出色。V2128资讯网——每日最新资讯28at.com

V2128资讯网——每日最新资讯28at.com

输入部分纹理贴图和相应的可见度掩码,然后得到复原的人类预测贴图;锁定文本编码器分支,并始终将「真人」(real human)作为固定稳定扩散模型的输入文本。训练好的模型称为 Inpainting DiffusionV2128资讯网——每日最新资讯28at.com

人体渲染(Human Rendering)

第二阶段的目标是获得一个模仿 actor 动作的人的逼真渲染效果。V2128资讯网——每日最新资讯28at.com

虽然中间渲染(根据演员的姿势和阶段 1 中的纹理贴图渲染)可以反映人体的各种动作,但这些 SMPL 网格渲染是紧贴人体的,无法表现出服装、发型和体形的逼真渲染效果。V2128资讯网——每日最新资讯28at.com

例如,如果输入一个女孩穿着裙子跳舞的场景,中间的渲染可能是「跳舞」,但 SMPL 网格渲染却无法将裙子做成动画。V2128资讯网——每日最新资讯28at.com

为了以完全自监督的方式训练模型,研究人员假定 actor 就是模仿者,毕竟一个好的 actor 应该是一个好的模仿者;然后就可以从 4DHumans 中获取任意视频和姿势序列,再获取任意单帧,并从阶段 1 中获取完整的纹理贴图,通过在三维姿势上渲染纹理贴图来获取中间渲染图。V2128资讯网——每日最新资讯28at.com

有了中间渲染图和真实 RGB 图像的配对数据后,就可以收集大量的配对数据作为条件来训练第二阶段扩散模型。V2128资讯网——每日最新资讯28at.com

输入(Input)

首先将第 1 阶段生成的纹理贴图(完全完整)应用到 actor 的三维身体网格序列中,并对模仿者执行演员动作的过程进行中间渲染。V2128资讯网——每日最新资讯28at.com

需要注意的是,此时的中间渲染只能反映与三维网格相匹配的服装(贴身衣物),而无法反映 SMPL 身体以外的纹理,如裙子、冬季夹克或帽子的膨胀区域。V2128资讯网——每日最新资讯28at.com

为了获得具有完整服装纹理的人体,研究人员将获得的中间渲染图和人体原始图像输入到渲染扩散中,以渲染出具有逼真外观的人体新姿势。V2128资讯网——每日最新资讯28at.com

目标(Target)

由于在收集数据时假定 actor 是模仿者,所以基于中间渲染图和真实 RGB 图像的配对数据,可以在大量数据上训练该模型,而不需要任何直接的 3D 监督信号。V2128资讯网——每日最新资讯28at.com

模型(Model)

与 ControlNet 类似,研究人员直接克隆稳定扩散模型编码器的权重作为可控分支(可训练副本)来处理 3D 条件。V2128资讯网——每日最新资讯28at.com

冻结预先训练好的稳定扩散模型,并输入噪声潜点(64×64),同时将时间 t 的纹理映射三维人体和原始人体照片输入到固定的 VAE 编码器中,得到纹理映射三维人体潜码(64 × 64)和外观潜码(64 × 64)作为条件潜码(conditioning latents)。V2128资讯网——每日最新资讯28at.com

然后将这两个条件潜码输入渲染扩散可控分支,该分支的主要设计原则是从人类输入中学习纹理,并在训练过程中通过去噪处理将其应用于纹理映射的三维人类。V2128资讯网——每日最新资讯28at.com

目标是从第 1 阶段生成(纹理映射)的三维人体中渲染出具有生动纹理的真人。V2128资讯网——每日最新资讯28at.com

V2128资讯网——每日最新资讯28at.com

通过扩散步骤程序和固定 VAE 解码器获得输出潜像,并将其处理为像素空间。V2128资讯网——每日最新资讯28at.com

与第 1 阶段相同,锁定了文本编码器分支,并始终将「真人正在表演」(a real human is acting)作为固定稳定扩散模型的输入文本。V2128资讯网——每日最新资讯28at.com

将训练好的模型称为渲染扩散(Rendering Diffusion)模型,逐帧预测输出。V2128资讯网——每日最新资讯28at.com

实验结果对比基线

用于对比的 sota 模型包括 DreamPose、DisCo 和 ControlNet(姿势准确性比较)。V2128资讯网——每日最新资讯28at.com

公平起见,所有方法的推理步骤都设为 50 步。V2128资讯网——每日最新资讯28at.com

帧生成质量(Frame-wise Generation Quality)

研究人员在 2K2K 测试数据集上对比了 3DHM 和其他方法,该数据集由 50 个未见过的人体视频组成,分辨率为 256×256。V2128资讯网——每日最新资讯28at.com

每个人物视频拍摄 30 帧,代表每个未见者的不同视角,角度范围涵盖 0 度到 360 度,每 12 度取一帧,可以更好地评估每个模型的预测和泛化能力。V2128资讯网——每日最新资讯28at.com

V2128资讯网——每日最新资讯28at.com

从结果中可以看到,3DHM 在不同指标上都优于其他基线方法。V2128资讯网——每日最新资讯28at.com

视频级生成质量(Video-level Generation Quality)

为了验证 3DHM 的时间一致性,研究人员还报告了与图像级评估相同的测试集和基线实施的结果。V2128资讯网——每日最新资讯28at.com

与图像级对比不同的是,将每连续的 16 个帧串联起来,形成每个未见过的人在具有挑战性的视角上的样本。V2128资讯网——每日最新资讯28at.com

V2128资讯网——每日最新资讯28at.com

角度范围从 150 度到 195 度,每 3 度取一帧,可以更好地评估每个模型的预测和泛化能力。V2128资讯网——每日最新资讯28at.com

根据 50 个视频的总体平均得分结果中可以看到,尽管 3DHM 是按每帧进行训练和测试的,但与之前的方法相比仍具有显著优势,也表明 3DHM 在保持三维控制的时间一致性方面表现出色。V2128资讯网——每日最新资讯28at.com

姿势准确率(Pose Accuracy)

为了进一步评估模型的有效性,研究人员首先通过先进的三维姿势估计模型 4DHumans 从不同方法生成的人类视频中估计三维姿势,然后使用相同的数据集设置,并将提取的姿势与目标视频中的三维姿势进行比较。V2128资讯网——每日最新资讯28at.com

由于 ControlNet 不输入图像,所以研究人员选择输入了相同的提示「真人正在活动」(a real human is acting)和相应的 openpose 作为条件。V2128资讯网——每日最新资讯28at.com

V2128资讯网——每日最新资讯28at.com

从结果中可以看到,3DHM 能够按照所提供的三维姿势非常准确地合成出活动的人;同时,以前的方法可能无法通过直接预测姿势到像素的映射达到同样的性能。V2128资讯网——每日最新资讯28at.com

还可以注意到,即使 DisCO 和 ControlNet 由 Openpose 控制,DreamPose 由 DensePose 控制,3DHM 也能在 2D 指标和 3D 指标上取得优异的结果。V2128资讯网——每日最新资讯28at.com

参考资料:V2128资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2401.10889V2128资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元 (ID:AI_era)V2128资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3454-0.html360 度无死角!UC 伯克利华人发布 3DHM 框架:一张图片即可模仿任意视频动作

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 国际货币基金组织:AI 可提高劳动者生产率、收入,取决于各国如何利用其潜力

下一篇: X(推特)解除泰勒・斯威夫特“禁搜令”,运营主管称时刻保持警惕

标签:
  • 热门焦点
  • 10亿基金,李彦宏呼唤下一个AI独角兽

    ©️深响原创 · 作者|何文 AI太热了。 在海外,OpenAI估值已超270亿美元、英伟达市值破万亿、微软把GPT整合进了全线产品。在国内,百度、阿里、华为、商汤等大公司,以及
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 挖来Meta AR高管,难道苹果也要进军元宇宙?

    “被曝光”的才是最吸引人的产品,相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片,往远了说有“折叠屏iP
  • 2022年最具关注的9个头像NFT项目

    什么是 PFP NFT 项目?PFP NFT (个人资料图片NFT)是一组独特的数字收藏品,人们用来在互联网平台上代表自己。这些数字艺术作品通常是一系列可作为头像的角色,在 Twit
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 元宇宙不完全是想出来的,而是实打实做出来的

    沈阳强调,元宇宙不完全是想出来的,而是靠实打实做出来的;互联网向三维化升级是已经明确的大方向,这意味着大量的资金和技术会持续涌入。跨入2022年,元宇宙并没有“
  • 电影工业巨头好莱坞计划进军元宇宙,将会对行业带来什么影响?

    元宇宙听起来像不像是科幻小说中出现的术语?事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙,它能够模
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小
Top