当前位置:首页 > 元宇宙 > AI

一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单

来源: 责编: 时间:2025-02-05 15:43:25 178观看
导读 在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。来自 Neflix、Stony Brook 大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。实现方法

在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。SQ128资讯网——每日最新资讯28at.com

来自 Neflix、Stony Brook 大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。SQ128资讯网——每日最新资讯28at.com

实现方法很简单,只要对训练视频做预处理,生成结构化噪声。这一过程不涉及扩散模型的设计,无需改变其架构和训练流程。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

研究提出了一种全新的噪声扭曲算法,速度超快,能实时运行。它用光流场推导的扭曲噪声,取代随机的时序高斯噪声,同时保持了空间高斯性。由于算法高效,能用扭曲噪声以极小的成本微调视频扩散基础模型。SQ128资讯网——每日最新资讯28at.com

这为用户提供了全面的运动控制方案,可用于局部物体运动控制、全局摄像机运动控制以及运动迁移等场景。SQ128资讯网——每日最新资讯28at.com

此外,算法兼顾了扭曲噪声的时序一致性和空间高斯性,既能保证每帧画面的像素质量,又能有效控制运动。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/pdf/2501.08331SQ128资讯网——每日最新资讯28at.com

本研究的贡献如下:SQ128资讯网——每日最新资讯28at.com

创新的视频扩散模型解决方案:提出一种简单新颖的方法,将运动控制转化为可用于噪声变形的流场,在潜在空间采样时能直接使用。它不仅能与任意视频扩散基础模型搭配,还可和其他控制方式协同使用。SQ128资讯网——每日最新资讯28at.com

高效的噪声变形算法:研发出高效的噪声变形算法,它既能保持空间高斯性,又能追踪跨帧的时间运动流。这让微调运动可控的视频扩散模型时,花费的成本最小,操作也更方便。SQ128资讯网——每日最新资讯28at.com

实验和用户研究充分验证了该方法在各类运动控制应用中的优势。这些应用涵盖局部物体运动控制、运动传递到新场景、基于参考的全局相机运动控制等。在像素质量、可控性、时间连贯性以及用户主观偏好等方面,表现十分优异。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

Go-with-the-Flow

当前的视频扩散模型存在局限性,研究者提出了一种创新且简单的方法,旨在把运动控制当作结构化组件,融入到视频扩散模型潜在空间的无序状态中。SQ128资讯网——每日最新资讯28at.com

具体实现方式是关联潜在噪声的时间分布。SQ128资讯网——每日最新资讯28at.com

先从二维高斯噪声片入手,把它和根据训练视频样本提取的光流场算出来的扭曲噪声片,按照时间顺序连接起来。下图清晰展示了该方法的流程。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

本文提出创新的噪声扭曲算法,运行速度极快,能够实时运行。SQ128资讯网——每日最新资讯28at.com

传统方法需从初始帧起,对每一帧都进行一系列复杂的扭曲操作,而本文的算法则通过在连续帧之间迭代扭曲噪声来实现目标。SQ128资讯网——每日最新资讯28at.com

具体来说,研究者在像素层面精准地追踪噪声和光流密度,依据前向、后向光流,计算画面的扩展与收缩变化,以此来确定噪声的扭曲方式。SQ128资讯网——每日最新资讯28at.com

同时,结合 HIWYN 提出的条件白噪声采样方法,保证算法在运行过程中始终维持高斯性。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

在视频扩散推理阶段,本文提出的方法优势明显,能依据不同运动类型,自动调整噪声变形,为多种运动控制应用提供一站式解决方案。SQ128资讯网——每日最新资讯28at.com

局部物体运动控制:当用户想要控制局部物体运动时,只需给出拖动信号,就能在物体轮廓范围内灵活改变噪声元素,让局部物体按照需求运动。SQ128资讯网——每日最新资讯28at.com

全局相机运动控制:针对全局相机运动的控制,复用参考视频里的光流数据,对输入噪声进行扭曲处理,这样就能在不同文本描述或初始帧条件下,重新生成视频。SQ128资讯网——每日最新资讯28at.com

任意运动传递:进行任意运动传递时,运动表达方式不再局限于常见光流,还包括 3D 渲染引擎生成的光流、深度变形等形式。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

Go-with-the-Flow 主要由两部分组成:噪声扭曲算法和视频扩散微调。SQ128资讯网——每日最新资讯28at.com

噪声扭曲算法运行时,和扩散模型的训练流程互不干扰。研究团队利用这个算法生成噪声模式,再用这些模式去训练扩散模型。SQ128资讯网——每日最新资讯28at.com

本研究中的运动控制完全基于噪声初始化,在视频扩散模型中没有添加任何额外参数,这样既能简化模型结构,又能提高运行效率。SQ128资讯网——每日最新资讯28at.com

HIWYN 提出将噪声扭曲应用于图像扩散模型的设想。受此启发,研究团队发现了扭曲噪声的新用法,就是把它作为视频生成模型的运动控制条件。SQ128资讯网——每日最新资讯28at.com

研究团队使用由大量视频和扭曲噪声对构成的数据集,对视频扩散模型进行微调。经过这样的处理,在推理阶段就能很好地控制视频里的运动了。SQ128资讯网——每日最新资讯28at.com

噪声扭曲算法

为了便于进行大规模噪声扭曲操作,研究团队研发出一种快速噪声扭曲算法。SQ128资讯网——每日最新资讯28at.com

这个算法是逐帧处理噪声的,只需要存储前一帧噪声(尺寸是 H×W×C)和每个像素的光流密度值矩阵(尺寸为 H×W),这里的密度值能体现特定区域中噪声的压缩程度。SQ128资讯网——每日最新资讯28at.com

HIWYN 算法在运行时,需要进行耗时的多边形光栅化和每个像素的上采样操作。SQ128资讯网——每日最新资讯28at.com

新算法直接根据光流追踪帧与帧之间画面的扩展和收缩情况,全程只用到像素级别的操作,这些操作还很容易实现并行处理,大大提高了效率。SQ128资讯网——每日最新资讯28at.com

新算法和 HIWYN 算法一样,都能保证噪声的高斯性。SQ128资讯网——每日最新资讯28at.com

下一帧噪声扭曲

噪声扭曲算法通过迭代方式来计算噪声,某一帧的噪声计算仅取决于前一帧的状态。SQ128资讯网——每日最新资讯28at.com

假设每帧视频的尺寸是 H×W,用SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

代表一个高为 H、宽为 W 的二维矩阵。SQ128资讯网——每日最新资讯28at.com

已知前一帧的噪声 q 和流密度SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

,同时知道正向流 f 和反向流 f′:SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

,基于这些条件,算法就能算出下一帧的噪声 q′和流密度SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

,q′(或 p′)与前一帧的 q(或 p)通过流在时间上建立起关联。SQ128资讯网——每日最新资讯28at.com

本文的算法结合了扩展和收缩两种动态机制。SQ128资讯网——每日最新资讯28at.com

当视频里某个区域放大,或者有物体朝着相机移动时,就会触发扩展机制。在这种情况下,当前帧的一个噪声像素,会在下一帧中对应一个或多个噪声像素,这就是扩展。SQ128资讯网——每日最新资讯28at.com

在收缩时,研究者借鉴了拉格朗日流体动力学的思路,把噪声像素想象成沿着前向光流 f 移动的粒子。SQ128资讯网——每日最新资讯28at.com

这些粒子移动后,画面中往往会留下空白区域。对于前向光流 f 没有覆盖到的区域,就利用反向光流 f' 拉回一个噪声像素,再用扩展过程中算好的噪声去填充这些空白。SQ128资讯网——每日最新资讯28at.com

此外,为了长时间维持噪声分布的正确性,研究团队借助密度值,来记录特定区域内噪声像素的聚集数量。SQ128资讯网——每日最新资讯28at.com

在收缩情形下,当这些噪声像素与附近其他粒子混合时,密度较高的粒子会有更大的权重。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

为了同时处理好扩展和收缩这两种情况,研究者构建了一个二分图 G。图里的边表明了噪声和密度从前一帧传递到下一帧的方式。SQ128资讯网——每日最新资讯28at.com

在综合考虑图中各边的作用,生成下一帧噪声 q' 时,依据光流密度对噪声进行缩放,以此确保原始帧的分布特性能够得以保留。SQ128资讯网——每日最新资讯28at.com

同时计算扩展和收缩的情况,避免它们相互干扰,就能确保最终输出的结果符合完美的高斯分布。SQ128资讯网——每日最新资讯28at.com

实验结果

为了验证方案的有效性,研究团队开展了大量实验及用户调研。结果表明,在保持运动一致性和针对同一情境渲染不同的运动效果方面,该方案表现十分出色。SQ128资讯网——每日最新资讯28at.com

从实验数据和用户反馈可知,本方案在像素画面质量、运动控制精准度、与文本描述的契合度、视频时间连贯性以及用户喜好程度等方面,都具有显著优势。SQ128资讯网——每日最新资讯28at.com

用 Moran's I 指标衡量空间相关性,K-S 检验评估正态性。选择多种基准进行对比,包括固定独立采样噪声、插值方法及其他噪声扭曲算法。SQ128资讯网——每日最新资讯28at.com

可以看到,本文提出的方法在 Moran's I 指标和 K-S 检验中表现良好,表明无空间自相关性且符合正态分布;而双线性、双三次和最近邻插值方法未能保持高斯性,存在空间自相关性且偏离正态分布。SQ128资讯网——每日最新资讯28at.com

本文的方法在保持空间高斯性上成效显著,且在噪声生成效率和实际应用方面有很强的可行性。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

实验结果表明,本文的方法效率极高,比并行的 InfRes 运行更快,相比 HIWYN,速度提升了 26 倍,这得益于算法的线性时间复杂度。SQ128资讯网——每日最新资讯28at.com

算法的效率比实时速度快了一个数量级,这说明在视频扩散模型微调时动态应用噪声扭曲是可行的。SQ128资讯网——每日最新资讯28at.com

为验证噪声扭曲算法有效性,将经不同方法扭曲的噪声输入到用于超分辨率和人像重光照的预训练图像扩散模型中,通过评估输出视频的质量和时间一致性。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

结果显示,本文的算法在时间一致性上比基线方法更出色,处理前景、背景和边缘时稳定性更好。SQ128资讯网——每日最新资讯28at.com

在 DifFRelight 视频重光照任务中评估噪声扭曲方法。推理时,研究者从特定区域裁剪出画面,并按照指定光照条件进行处理。本文的方法在图像和时间指标上表现更好,能有效改进图像扩散模型。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

接下来聚焦视频扩散中的局部对象运动控制。为评估模型控制能力,将其与 SG-I2V、MotionClone 和 DragAnything 三种基线方法对比。SQ128资讯网——每日最新资讯28at.com

现有方法在处理复杂局部运动时存在局限,SG-I2V 会误判运动导致场景平移,DragAnything 缺乏一致性易失真,MotionClone 难以捕捉细微动态。SQ128资讯网——每日最新资讯28at.com

本文的模型在处理复杂运动时表现优异,能保持对象保真度和三维一致性。大量研究和评估证实了本文的方法在运动一致性、视觉保真度和整体真实感方面优势显著。SQ128资讯网——每日最新资讯28at.com

本文的方法同样支持运动迁移和相机运动控制。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

在 DAVIS 数据集的对象运动迁移中,运动保真度和视频质量更好,生成视频与真实视频还原度高。SQ128资讯网——每日最新资讯28at.com

在相机运动控制上,在 DL3DV 和 WonderJourney 数据集以及深度扭曲实验中表现出色。SQ128资讯网——每日最新资讯28at.com

在视频首帧编辑能力上,能无缝融入新增对象并保留原始运动,明显优于基线方法。SQ128资讯网——每日最新资讯28at.com

本研究提出了一种新颖的、速度快于实时的噪声扭曲算法,它能将运动控制自然地融入视频扩散噪声采样过程。SQ128资讯网——每日最新资讯28at.com

研究者用这种噪声扭曲技术对视频数据进行预处理,以开展视频扩散微调,从而提供了一种通用且用户友好的范式,可应用于各类运动可控的视频生成场景。SQ128资讯网——每日最新资讯28at.com

SQ128资讯网——每日最新资讯28at.com

参考资料:SQ128资讯网——每日最新资讯28at.com

https://x.com/EHuanglu/status/1882014762281865379SQ128资讯网——每日最新资讯28at.com

https://x.com/natanielruizg/status/1882121096859890140SQ128资讯网——每日最新资讯28at.com

https://eyeline-research.github.io/Go-with-the-Flow/SQ128资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元(ID:AI_era),原标题《一拖一拽,小猫活了!Netflix 等新作爆火,噪声扭曲算法让运动控制更简单》SQ128资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10446-0.html一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 助力,披头士《Now and Then》斩获格莱美最佳摇滚表演奖

下一篇: 郭明錤称 DeepSeek 爆红加速 AI 模型“设备端化”趋势

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 上海虹口成立10亿元元宇宙基金,香港首只元宇宙ETF拟上市

    区块链日报17日讯 今日《元宇宙新鲜事》有:上海虹口将成立总额约10亿元的元宇宙产业基金;香港市场首只元宇宙主题ETF拟于2月21日上市;元宇宙平台Roblox出现违禁游
  • 从虚拟餐厅到虚拟时装秀,行业巨头掀起元宇宙商标注册潮

    自从 Facebook 更名为 Meta 后,关于元宇宙的讨论愈发激烈,这一词汇也越来越多的出现在我们的视野里。这是一个非常有趣的话题。伴随着争论,有些人认为是马克·扎
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 韩国国民银行将推出韩国首个加密货币 ETF

    韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告,该银行正在等待政府批准,并已建立一个准备就绪的数字资产
  • NFT自动售货机来啦!

    “纽约市有一台售卖 Solana NFT 的自动售货机,用信用卡就能买”Solana NFT 市场 Neon 可让您使用信用卡亲自购买 NFT,无需使用加密货币。由于基于 Solana 链的 N
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易
Top