当前位置：首页 > 元宇宙 > AI

李飞飞团队实现“隔空建模”，透过遮挡物还原完整 3D 人体模型

来源：责编：时间：2024-01-15 09:18:10 411观看

导读注意看，这个男人搬着一个长长的柜子，画面中半个人都被遮挡住了。但即使有这样的遮挡，男人的整个身体在 AI 面前依然是无所遁形。哪怕是蹲在椅子背后只露出头，依然可以被模型完整还原。从遮挡物背后把人“揪”出来

注意看，这个男人搬着一个长长的柜子，画面中半个人都被遮挡住了。

但即使有这样的遮挡，男人的整个身体在 AI 面前依然是无所遁形。

哪怕是蹲在椅子背后只露出头，依然可以被模型完整还原。

从遮挡物背后把人“揪”出来的，是李飞飞团队推出的人体建模新工具 Wild2Avatar（本文简称 W2A）。

只要一段 4 秒左右的单角度视频，就能构建出完整的 3D 模型，有遮挡也不怕。

相比此前的 SOTA 方法，Wild2Avatar 在人体建模上可谓是实现了质的飞跃。

建模效果完胜 Vid2Avatar

从下面的对比图中（从左到右依次为带遮挡原图、Vid2Avatar 提取结果和 W2A 提取结果）可以看到，作为 baseline 的 Vid2Avatar 方法只能大概描绘出人的轮廓，遮挡物直接被“拍扁”到了人物身上，而且轮廓看上去也不够准确。

而 W2A 提取出的任务不仅轮廓更加精确，看上去也更具立体感，关键是遮挡物被完美地去除，显现出了完整的人物结构。

对遮挡物的去除，W2A 操作得也更为彻底，没有留下多余的痕迹。

而 baseline 中部分结构缺失的现象，在 W2A 中也没有发生，人物的结构十分完整。

而且，W2A 的人物建模是动态的，视频画面中，就算整个人都藏在椅子后面，依然可以输出人物模型。

和另一 baseline OccNeRF 相比，W2A 只需 100 帧的训练视频就能复原出完整干净的结构，但后者用了 500 帧的系列视频后不仅结构缺陷极大，还存在许多“鬼影”。

测试数据也表明，对于陌生场景，W2A 的提取质量和完整性（comp.）都比 V2A 有所提升，特别是对遮挡（llm）部分，合成质量得分接近翻番。

和 OccNeRF 相比，W2A 与 500 帧训练数据的 OccNeRF 整体成绩接近，但遮挡部分仍然是有明显增强。

那么，Wild2Avatar 是如何实现的呢？

人物与遮挡分层处理

工作过程中，W2A 将整个场景分成了遮挡物、人物本体和背景三部分。

这三个部分由独立的 NeRF 网络分别预测特征，渲染图像时再将三个部分的输出拼合。

这种做法的主要目的是为了避免遮挡被误当成人体的一部分，出现 Video2Avatar 那样把遮挡物合成进人物的情况。

具体来说，李飞飞团队将图像映射到一个球空间，背景位于球外，人物和遮挡物则分别位于球空间内部的不同位置。

遮挡空间是通过内部采样点的坐标和距离来构造的。用于遮挡部分的生成网络与背景共享，可以预测遮挡空间样本点的颜色和密度值。

而人体部分的处理则是使用 SMPL 的参数化方式，通过正向和反向皮肤拟合，先将人体变形到一个姿态不变的坐标空间，再输入神经网络进行学习。

为了增强任务模型的完整性，李飞飞团队还设计了新的损失计算方式。

首先利用现成的分割模型输出人体的二值分割掩码，并掩码取反得到“非人体”区域的掩码，即为可能的遮挡区域。

同时，从 W2A 渲染的三个部分中遮挡部分的密度图，然后根据提取结果再分离出人体部分。

其中人体部分与前面得到的“非人体”掩码进行与非运算，得到的结果再和遮挡部分的密度图做二值交叉熵运算，就得到了遮挡解耦损失 Locc。

Locc 会与像素重构损失、场景分解损失等其他损失参数一并纳入到整个网络的端到端训练过程，用于优化更新网络参数。

论文地址：

https://arxiv.org/abs/2401.00431

本文来自微信公众号：量子位（ID：QbitAI），作者：克雷西

本文链接：http://www.28at.com/showinfo-45-3196-0.html李飞飞团队实现“隔空建模”，透过遮挡物还原完整 3D 人体模型

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：更多作家起诉 OpenAI 和微软：“窃取”他们的作品训练 AI 模型

下一篇：谷歌家务机器人单挑斯坦福炒虾机器人！端茶倒水逗猫，连甩三连弹开打

标签：

热门焦点

AIGC产品测评TOP25丨谁能抢到下个十年的“船票”？

Tech星球（微信ID：tech618）文 | 何煦阳策划 | 杨晓鹤封面来源 | 图虫创意 2016年，李彦宏站在百度联盟峰会的讲台上，向所有人宣布：互联网的下一幕是人工智能。同年，Google 旗下 Dee
韩国主权基金增加对硅谷初创公司投资押注元宇宙和人工智能

韩国投资公司(KIC)CEO Seoungho Jin预计，该公司在旧金山的办事处今年将扩招人手，探索在硅谷投资科技、健康和绿色项目。规模高达2000亿美元的韩国主权财富基金—
米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

今日热点：苹果AR/VR头显的FaceTime或基于Memojis和SharePlay构建而成；VR/AR老牌企业当红齐天完成B轮+融资；米哈游推出元宇宙品牌HoYoverse；国产VR射击游戏《Contra
星展银行(DBS)计划推出零售数字资产交易服务

2月14日消息，新加坡星展银行CEO Piyush Gupta在财报会议上表示，计划于2022年年底前推出零售数字资产交易服务。据悉，DBS于2021年初开设了机构数字资产交易平台，全
超级碗的加密时刻：是主流信号还是“网络超级碗2.0”？

2 月 13 日，美东时间 18:30，有着“美国春晚”之誉的超级碗（Super Bowl）落下帷幕。超级碗是美国国家美式足球联盟（也称为国家橄榄球联盟）的年度冠军赛，胜者将成为“世
NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

当Stefan Prodanovic在13岁时开始尝试平面设计，与一位从事编程工作的学校朋友共同创作数字游戏时，他从未料到这个爱好会在他成年后变成一个相当有利可图的生意。
想进入web3.0？来看看哪些工作适合你

随着对加密货币需求的增加，加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
独立故事片“Calladita”将使用 NFT 筹集资金

导演 Miguel Faus 正在转向加密来资助他的处女作，由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”（导演 Miguel Faus）。图片：米格尔·福斯在过去的一年
76亿美金估值、2022年最具创新力公司，Dapper Labs如何做到？

“元宇宙的开拓者”是我们针对元宇宙的发展而设立的专栏，主要面向那些深挖元宇宙产业或者在元宇宙进行“淘金”的从业者，分享这些企业或者创业者们的故事，以独特

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

李飞飞团队实现“隔空建模”，透过遮挡物还原完整 3D 人体模型

AIGC产品测评TOP25丨谁能抢到下个十年的“船票”？

韩国主权基金增加对硅谷初创公司投资押注元宇宙和人工智能

米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

星展银行(DBS)计划推出零售数字资产交易服务

超级碗的加密时刻：是主流信号还是“网络超级碗2.0”？

NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

想进入web3.0？来看看哪些工作适合你

独立故事片“Calladita”将使用 NFT 筹集资金

76亿美金估值、2022年最具创新力公司，Dapper Labs如何做到？

最新推荐

数字人的AB面：在元宇宙中过气，在AIGC中重生

元宇宙社交啫喱、希壤爆款迭出，腾讯慌了吗？

2022年元宇宙系列报告：UGC当道，XR带来新交互体验

NFT 技术将传世之作带入博物馆

想进入web3.0？来看看哪些工作适合你

新闻业在元宇宙的现状和未来

猜你喜欢

热门推荐

相关资讯