当前位置:首页 > 元宇宙 > AI

一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单

来源: 责编: 时间:2025-02-05 15:43:25 164观看
导读 在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。来自 Neflix、Stony Brook 大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。实现方法

在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。rx228资讯网——每日最新资讯28at.com

来自 Neflix、Stony Brook 大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。rx228资讯网——每日最新资讯28at.com

实现方法很简单,只要对训练视频做预处理,生成结构化噪声。这一过程不涉及扩散模型的设计,无需改变其架构和训练流程。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

研究提出了一种全新的噪声扭曲算法,速度超快,能实时运行。它用光流场推导的扭曲噪声,取代随机的时序高斯噪声,同时保持了空间高斯性。由于算法高效,能用扭曲噪声以极小的成本微调视频扩散基础模型。rx228资讯网——每日最新资讯28at.com

这为用户提供了全面的运动控制方案,可用于局部物体运动控制、全局摄像机运动控制以及运动迁移等场景。rx228资讯网——每日最新资讯28at.com

此外,算法兼顾了扭曲噪声的时序一致性和空间高斯性,既能保证每帧画面的像素质量,又能有效控制运动。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/pdf/2501.08331rx228资讯网——每日最新资讯28at.com

本研究的贡献如下:rx228资讯网——每日最新资讯28at.com

创新的视频扩散模型解决方案:提出一种简单新颖的方法,将运动控制转化为可用于噪声变形的流场,在潜在空间采样时能直接使用。它不仅能与任意视频扩散基础模型搭配,还可和其他控制方式协同使用。rx228资讯网——每日最新资讯28at.com

高效的噪声变形算法:研发出高效的噪声变形算法,它既能保持空间高斯性,又能追踪跨帧的时间运动流。这让微调运动可控的视频扩散模型时,花费的成本最小,操作也更方便。rx228资讯网——每日最新资讯28at.com

实验和用户研究充分验证了该方法在各类运动控制应用中的优势。这些应用涵盖局部物体运动控制、运动传递到新场景、基于参考的全局相机运动控制等。在像素质量、可控性、时间连贯性以及用户主观偏好等方面,表现十分优异。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

Go-with-the-Flow

当前的视频扩散模型存在局限性,研究者提出了一种创新且简单的方法,旨在把运动控制当作结构化组件,融入到视频扩散模型潜在空间的无序状态中。rx228资讯网——每日最新资讯28at.com

具体实现方式是关联潜在噪声的时间分布。rx228资讯网——每日最新资讯28at.com

先从二维高斯噪声片入手,把它和根据训练视频样本提取的光流场算出来的扭曲噪声片,按照时间顺序连接起来。下图清晰展示了该方法的流程。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

本文提出创新的噪声扭曲算法,运行速度极快,能够实时运行。rx228资讯网——每日最新资讯28at.com

传统方法需从初始帧起,对每一帧都进行一系列复杂的扭曲操作,而本文的算法则通过在连续帧之间迭代扭曲噪声来实现目标。rx228资讯网——每日最新资讯28at.com

具体来说,研究者在像素层面精准地追踪噪声和光流密度,依据前向、后向光流,计算画面的扩展与收缩变化,以此来确定噪声的扭曲方式。rx228资讯网——每日最新资讯28at.com

同时,结合 HIWYN 提出的条件白噪声采样方法,保证算法在运行过程中始终维持高斯性。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

在视频扩散推理阶段,本文提出的方法优势明显,能依据不同运动类型,自动调整噪声变形,为多种运动控制应用提供一站式解决方案。rx228资讯网——每日最新资讯28at.com

局部物体运动控制:当用户想要控制局部物体运动时,只需给出拖动信号,就能在物体轮廓范围内灵活改变噪声元素,让局部物体按照需求运动。rx228资讯网——每日最新资讯28at.com

全局相机运动控制:针对全局相机运动的控制,复用参考视频里的光流数据,对输入噪声进行扭曲处理,这样就能在不同文本描述或初始帧条件下,重新生成视频。rx228资讯网——每日最新资讯28at.com

任意运动传递:进行任意运动传递时,运动表达方式不再局限于常见光流,还包括 3D 渲染引擎生成的光流、深度变形等形式。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

Go-with-the-Flow 主要由两部分组成:噪声扭曲算法和视频扩散微调。rx228资讯网——每日最新资讯28at.com

噪声扭曲算法运行时,和扩散模型的训练流程互不干扰。研究团队利用这个算法生成噪声模式,再用这些模式去训练扩散模型。rx228资讯网——每日最新资讯28at.com

本研究中的运动控制完全基于噪声初始化,在视频扩散模型中没有添加任何额外参数,这样既能简化模型结构,又能提高运行效率。rx228资讯网——每日最新资讯28at.com

HIWYN 提出将噪声扭曲应用于图像扩散模型的设想。受此启发,研究团队发现了扭曲噪声的新用法,就是把它作为视频生成模型的运动控制条件。rx228资讯网——每日最新资讯28at.com

研究团队使用由大量视频和扭曲噪声对构成的数据集,对视频扩散模型进行微调。经过这样的处理,在推理阶段就能很好地控制视频里的运动了。rx228资讯网——每日最新资讯28at.com

噪声扭曲算法

为了便于进行大规模噪声扭曲操作,研究团队研发出一种快速噪声扭曲算法。rx228资讯网——每日最新资讯28at.com

这个算法是逐帧处理噪声的,只需要存储前一帧噪声(尺寸是 H×W×C)和每个像素的光流密度值矩阵(尺寸为 H×W),这里的密度值能体现特定区域中噪声的压缩程度。rx228资讯网——每日最新资讯28at.com

HIWYN 算法在运行时,需要进行耗时的多边形光栅化和每个像素的上采样操作。rx228资讯网——每日最新资讯28at.com

新算法直接根据光流追踪帧与帧之间画面的扩展和收缩情况,全程只用到像素级别的操作,这些操作还很容易实现并行处理,大大提高了效率。rx228资讯网——每日最新资讯28at.com

新算法和 HIWYN 算法一样,都能保证噪声的高斯性。rx228资讯网——每日最新资讯28at.com

下一帧噪声扭曲

噪声扭曲算法通过迭代方式来计算噪声,某一帧的噪声计算仅取决于前一帧的状态。rx228资讯网——每日最新资讯28at.com

假设每帧视频的尺寸是 H×W,用rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

代表一个高为 H、宽为 W 的二维矩阵。rx228资讯网——每日最新资讯28at.com

已知前一帧的噪声 q 和流密度rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

,同时知道正向流 f 和反向流 f′:rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

,基于这些条件,算法就能算出下一帧的噪声 q′和流密度rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

,q′(或 p′)与前一帧的 q(或 p)通过流在时间上建立起关联。rx228资讯网——每日最新资讯28at.com

本文的算法结合了扩展和收缩两种动态机制。rx228资讯网——每日最新资讯28at.com

当视频里某个区域放大,或者有物体朝着相机移动时,就会触发扩展机制。在这种情况下,当前帧的一个噪声像素,会在下一帧中对应一个或多个噪声像素,这就是扩展。rx228资讯网——每日最新资讯28at.com

在收缩时,研究者借鉴了拉格朗日流体动力学的思路,把噪声像素想象成沿着前向光流 f 移动的粒子。rx228资讯网——每日最新资讯28at.com

这些粒子移动后,画面中往往会留下空白区域。对于前向光流 f 没有覆盖到的区域,就利用反向光流 f' 拉回一个噪声像素,再用扩展过程中算好的噪声去填充这些空白。rx228资讯网——每日最新资讯28at.com

此外,为了长时间维持噪声分布的正确性,研究团队借助密度值,来记录特定区域内噪声像素的聚集数量。rx228资讯网——每日最新资讯28at.com

在收缩情形下,当这些噪声像素与附近其他粒子混合时,密度较高的粒子会有更大的权重。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

为了同时处理好扩展和收缩这两种情况,研究者构建了一个二分图 G。图里的边表明了噪声和密度从前一帧传递到下一帧的方式。rx228资讯网——每日最新资讯28at.com

在综合考虑图中各边的作用,生成下一帧噪声 q' 时,依据光流密度对噪声进行缩放,以此确保原始帧的分布特性能够得以保留。rx228资讯网——每日最新资讯28at.com

同时计算扩展和收缩的情况,避免它们相互干扰,就能确保最终输出的结果符合完美的高斯分布。rx228资讯网——每日最新资讯28at.com

实验结果

为了验证方案的有效性,研究团队开展了大量实验及用户调研。结果表明,在保持运动一致性和针对同一情境渲染不同的运动效果方面,该方案表现十分出色。rx228资讯网——每日最新资讯28at.com

从实验数据和用户反馈可知,本方案在像素画面质量、运动控制精准度、与文本描述的契合度、视频时间连贯性以及用户喜好程度等方面,都具有显著优势。rx228资讯网——每日最新资讯28at.com

用 Moran's I 指标衡量空间相关性,K-S 检验评估正态性。选择多种基准进行对比,包括固定独立采样噪声、插值方法及其他噪声扭曲算法。rx228资讯网——每日最新资讯28at.com

可以看到,本文提出的方法在 Moran's I 指标和 K-S 检验中表现良好,表明无空间自相关性且符合正态分布;而双线性、双三次和最近邻插值方法未能保持高斯性,存在空间自相关性且偏离正态分布。rx228资讯网——每日最新资讯28at.com

本文的方法在保持空间高斯性上成效显著,且在噪声生成效率和实际应用方面有很强的可行性。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

实验结果表明,本文的方法效率极高,比并行的 InfRes 运行更快,相比 HIWYN,速度提升了 26 倍,这得益于算法的线性时间复杂度。rx228资讯网——每日最新资讯28at.com

算法的效率比实时速度快了一个数量级,这说明在视频扩散模型微调时动态应用噪声扭曲是可行的。rx228资讯网——每日最新资讯28at.com

为验证噪声扭曲算法有效性,将经不同方法扭曲的噪声输入到用于超分辨率和人像重光照的预训练图像扩散模型中,通过评估输出视频的质量和时间一致性。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

结果显示,本文的算法在时间一致性上比基线方法更出色,处理前景、背景和边缘时稳定性更好。rx228资讯网——每日最新资讯28at.com

在 DifFRelight 视频重光照任务中评估噪声扭曲方法。推理时,研究者从特定区域裁剪出画面,并按照指定光照条件进行处理。本文的方法在图像和时间指标上表现更好,能有效改进图像扩散模型。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

接下来聚焦视频扩散中的局部对象运动控制。为评估模型控制能力,将其与 SG-I2V、MotionClone 和 DragAnything 三种基线方法对比。rx228资讯网——每日最新资讯28at.com

现有方法在处理复杂局部运动时存在局限,SG-I2V 会误判运动导致场景平移,DragAnything 缺乏一致性易失真,MotionClone 难以捕捉细微动态。rx228资讯网——每日最新资讯28at.com

本文的模型在处理复杂运动时表现优异,能保持对象保真度和三维一致性。大量研究和评估证实了本文的方法在运动一致性、视觉保真度和整体真实感方面优势显著。rx228资讯网——每日最新资讯28at.com

本文的方法同样支持运动迁移和相机运动控制。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

在 DAVIS 数据集的对象运动迁移中,运动保真度和视频质量更好,生成视频与真实视频还原度高。rx228资讯网——每日最新资讯28at.com

在相机运动控制上,在 DL3DV 和 WonderJourney 数据集以及深度扭曲实验中表现出色。rx228资讯网——每日最新资讯28at.com

在视频首帧编辑能力上,能无缝融入新增对象并保留原始运动,明显优于基线方法。rx228资讯网——每日最新资讯28at.com

本研究提出了一种新颖的、速度快于实时的噪声扭曲算法,它能将运动控制自然地融入视频扩散噪声采样过程。rx228资讯网——每日最新资讯28at.com

研究者用这种噪声扭曲技术对视频数据进行预处理,以开展视频扩散微调,从而提供了一种通用且用户友好的范式,可应用于各类运动可控的视频生成场景。rx228资讯网——每日最新资讯28at.com

rx228资讯网——每日最新资讯28at.com

参考资料:rx228资讯网——每日最新资讯28at.com

https://x.com/EHuanglu/status/1882014762281865379rx228资讯网——每日最新资讯28at.com

https://x.com/natanielruizg/status/1882121096859890140rx228资讯网——每日最新资讯28at.com

https://eyeline-research.github.io/Go-with-the-Flow/rx228资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元(ID:AI_era),原标题《一拖一拽,小猫活了!Netflix 等新作爆火,噪声扭曲算法让运动控制更简单》rx228资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10446-0.html一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 助力,披头士《Now and Then》斩获格莱美最佳摇滚表演奖

下一篇: 郭明錤称 DeepSeek 爆红加速 AI 模型“设备端化”趋势

标签:
  • 热门焦点
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫“29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 元宇宙火热的当下,我们该如何“身临其境”的体验元宇宙?

    元宇宙的余热依然没有过去,甚至大有星星之火开启燎原之势,元宇宙本身也从殿堂走向了民间,我们可以看到一些企业开始了元宇宙的探索,诸如中国电信全资控股子公司天
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 独立故事片“Calladita”将使用 NFT 筹集资金

    导演 Miguel Faus 正在转向加密来资助他的处女作,由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”(导演 Miguel Faus)。图片:米格尔·福斯在过去的一年
  • NFT行业周报:NBA巨星勒布朗·詹姆斯申请NFT相关商标

    1. “无聊猿”BAYC交易总额突破14亿美元3月10日,据DappRader最新数据显示,“无聊猿”Bored Ape Yacht Club(BAYC)交易总额已突破14亿美元,创下历史新高,本文撰写时为
Top