当前位置:首页 > 元宇宙 > AI

一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单

来源: 责编: 时间:2025-02-05 15:43:25 154观看
导读 在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。来自 Neflix、Stony Brook 大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。实现方法

在视频扩散生成领域,如何精准操控视频中的运动细节而又不牺牲画面质量,一直是研究者共同追逐的目标。Dfb28资讯网——每日最新资讯28at.com

来自 Neflix、Stony Brook 大学等机构的研究人员创新性地提出通过结构化的潜在噪声采样控制运动。Dfb28资讯网——每日最新资讯28at.com

实现方法很简单,只要对训练视频做预处理,生成结构化噪声。这一过程不涉及扩散模型的设计,无需改变其架构和训练流程。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

研究提出了一种全新的噪声扭曲算法,速度超快,能实时运行。它用光流场推导的扭曲噪声,取代随机的时序高斯噪声,同时保持了空间高斯性。由于算法高效,能用扭曲噪声以极小的成本微调视频扩散基础模型。Dfb28资讯网——每日最新资讯28at.com

这为用户提供了全面的运动控制方案,可用于局部物体运动控制、全局摄像机运动控制以及运动迁移等场景。Dfb28资讯网——每日最新资讯28at.com

此外,算法兼顾了扭曲噪声的时序一致性和空间高斯性,既能保证每帧画面的像素质量,又能有效控制运动。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/pdf/2501.08331Dfb28资讯网——每日最新资讯28at.com

本研究的贡献如下:Dfb28资讯网——每日最新资讯28at.com

创新的视频扩散模型解决方案:提出一种简单新颖的方法,将运动控制转化为可用于噪声变形的流场,在潜在空间采样时能直接使用。它不仅能与任意视频扩散基础模型搭配,还可和其他控制方式协同使用。Dfb28资讯网——每日最新资讯28at.com

高效的噪声变形算法:研发出高效的噪声变形算法,它既能保持空间高斯性,又能追踪跨帧的时间运动流。这让微调运动可控的视频扩散模型时,花费的成本最小,操作也更方便。Dfb28资讯网——每日最新资讯28at.com

实验和用户研究充分验证了该方法在各类运动控制应用中的优势。这些应用涵盖局部物体运动控制、运动传递到新场景、基于参考的全局相机运动控制等。在像素质量、可控性、时间连贯性以及用户主观偏好等方面,表现十分优异。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

Go-with-the-Flow

当前的视频扩散模型存在局限性,研究者提出了一种创新且简单的方法,旨在把运动控制当作结构化组件,融入到视频扩散模型潜在空间的无序状态中。Dfb28资讯网——每日最新资讯28at.com

具体实现方式是关联潜在噪声的时间分布。Dfb28资讯网——每日最新资讯28at.com

先从二维高斯噪声片入手,把它和根据训练视频样本提取的光流场算出来的扭曲噪声片,按照时间顺序连接起来。下图清晰展示了该方法的流程。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

本文提出创新的噪声扭曲算法,运行速度极快,能够实时运行。Dfb28资讯网——每日最新资讯28at.com

传统方法需从初始帧起,对每一帧都进行一系列复杂的扭曲操作,而本文的算法则通过在连续帧之间迭代扭曲噪声来实现目标。Dfb28资讯网——每日最新资讯28at.com

具体来说,研究者在像素层面精准地追踪噪声和光流密度,依据前向、后向光流,计算画面的扩展与收缩变化,以此来确定噪声的扭曲方式。Dfb28资讯网——每日最新资讯28at.com

同时,结合 HIWYN 提出的条件白噪声采样方法,保证算法在运行过程中始终维持高斯性。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

在视频扩散推理阶段,本文提出的方法优势明显,能依据不同运动类型,自动调整噪声变形,为多种运动控制应用提供一站式解决方案。Dfb28资讯网——每日最新资讯28at.com

局部物体运动控制:当用户想要控制局部物体运动时,只需给出拖动信号,就能在物体轮廓范围内灵活改变噪声元素,让局部物体按照需求运动。Dfb28资讯网——每日最新资讯28at.com

全局相机运动控制:针对全局相机运动的控制,复用参考视频里的光流数据,对输入噪声进行扭曲处理,这样就能在不同文本描述或初始帧条件下,重新生成视频。Dfb28资讯网——每日最新资讯28at.com

任意运动传递:进行任意运动传递时,运动表达方式不再局限于常见光流,还包括 3D 渲染引擎生成的光流、深度变形等形式。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

Go-with-the-Flow 主要由两部分组成:噪声扭曲算法和视频扩散微调。Dfb28资讯网——每日最新资讯28at.com

噪声扭曲算法运行时,和扩散模型的训练流程互不干扰。研究团队利用这个算法生成噪声模式,再用这些模式去训练扩散模型。Dfb28资讯网——每日最新资讯28at.com

本研究中的运动控制完全基于噪声初始化,在视频扩散模型中没有添加任何额外参数,这样既能简化模型结构,又能提高运行效率。Dfb28资讯网——每日最新资讯28at.com

HIWYN 提出将噪声扭曲应用于图像扩散模型的设想。受此启发,研究团队发现了扭曲噪声的新用法,就是把它作为视频生成模型的运动控制条件。Dfb28资讯网——每日最新资讯28at.com

研究团队使用由大量视频和扭曲噪声对构成的数据集,对视频扩散模型进行微调。经过这样的处理,在推理阶段就能很好地控制视频里的运动了。Dfb28资讯网——每日最新资讯28at.com

噪声扭曲算法

为了便于进行大规模噪声扭曲操作,研究团队研发出一种快速噪声扭曲算法。Dfb28资讯网——每日最新资讯28at.com

这个算法是逐帧处理噪声的,只需要存储前一帧噪声(尺寸是 H×W×C)和每个像素的光流密度值矩阵(尺寸为 H×W),这里的密度值能体现特定区域中噪声的压缩程度。Dfb28资讯网——每日最新资讯28at.com

HIWYN 算法在运行时,需要进行耗时的多边形光栅化和每个像素的上采样操作。Dfb28资讯网——每日最新资讯28at.com

新算法直接根据光流追踪帧与帧之间画面的扩展和收缩情况,全程只用到像素级别的操作,这些操作还很容易实现并行处理,大大提高了效率。Dfb28资讯网——每日最新资讯28at.com

新算法和 HIWYN 算法一样,都能保证噪声的高斯性。Dfb28资讯网——每日最新资讯28at.com

下一帧噪声扭曲

噪声扭曲算法通过迭代方式来计算噪声,某一帧的噪声计算仅取决于前一帧的状态。Dfb28资讯网——每日最新资讯28at.com

假设每帧视频的尺寸是 H×W,用Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

代表一个高为 H、宽为 W 的二维矩阵。Dfb28资讯网——每日最新资讯28at.com

已知前一帧的噪声 q 和流密度Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

,同时知道正向流 f 和反向流 f′:Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

,基于这些条件,算法就能算出下一帧的噪声 q′和流密度Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

,q′(或 p′)与前一帧的 q(或 p)通过流在时间上建立起关联。Dfb28资讯网——每日最新资讯28at.com

本文的算法结合了扩展和收缩两种动态机制。Dfb28资讯网——每日最新资讯28at.com

当视频里某个区域放大,或者有物体朝着相机移动时,就会触发扩展机制。在这种情况下,当前帧的一个噪声像素,会在下一帧中对应一个或多个噪声像素,这就是扩展。Dfb28资讯网——每日最新资讯28at.com

在收缩时,研究者借鉴了拉格朗日流体动力学的思路,把噪声像素想象成沿着前向光流 f 移动的粒子。Dfb28资讯网——每日最新资讯28at.com

这些粒子移动后,画面中往往会留下空白区域。对于前向光流 f 没有覆盖到的区域,就利用反向光流 f' 拉回一个噪声像素,再用扩展过程中算好的噪声去填充这些空白。Dfb28资讯网——每日最新资讯28at.com

此外,为了长时间维持噪声分布的正确性,研究团队借助密度值,来记录特定区域内噪声像素的聚集数量。Dfb28资讯网——每日最新资讯28at.com

在收缩情形下,当这些噪声像素与附近其他粒子混合时,密度较高的粒子会有更大的权重。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

为了同时处理好扩展和收缩这两种情况,研究者构建了一个二分图 G。图里的边表明了噪声和密度从前一帧传递到下一帧的方式。Dfb28资讯网——每日最新资讯28at.com

在综合考虑图中各边的作用,生成下一帧噪声 q' 时,依据光流密度对噪声进行缩放,以此确保原始帧的分布特性能够得以保留。Dfb28资讯网——每日最新资讯28at.com

同时计算扩展和收缩的情况,避免它们相互干扰,就能确保最终输出的结果符合完美的高斯分布。Dfb28资讯网——每日最新资讯28at.com

实验结果

为了验证方案的有效性,研究团队开展了大量实验及用户调研。结果表明,在保持运动一致性和针对同一情境渲染不同的运动效果方面,该方案表现十分出色。Dfb28资讯网——每日最新资讯28at.com

从实验数据和用户反馈可知,本方案在像素画面质量、运动控制精准度、与文本描述的契合度、视频时间连贯性以及用户喜好程度等方面,都具有显著优势。Dfb28资讯网——每日最新资讯28at.com

用 Moran's I 指标衡量空间相关性,K-S 检验评估正态性。选择多种基准进行对比,包括固定独立采样噪声、插值方法及其他噪声扭曲算法。Dfb28资讯网——每日最新资讯28at.com

可以看到,本文提出的方法在 Moran's I 指标和 K-S 检验中表现良好,表明无空间自相关性且符合正态分布;而双线性、双三次和最近邻插值方法未能保持高斯性,存在空间自相关性且偏离正态分布。Dfb28资讯网——每日最新资讯28at.com

本文的方法在保持空间高斯性上成效显著,且在噪声生成效率和实际应用方面有很强的可行性。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

实验结果表明,本文的方法效率极高,比并行的 InfRes 运行更快,相比 HIWYN,速度提升了 26 倍,这得益于算法的线性时间复杂度。Dfb28资讯网——每日最新资讯28at.com

算法的效率比实时速度快了一个数量级,这说明在视频扩散模型微调时动态应用噪声扭曲是可行的。Dfb28资讯网——每日最新资讯28at.com

为验证噪声扭曲算法有效性,将经不同方法扭曲的噪声输入到用于超分辨率和人像重光照的预训练图像扩散模型中,通过评估输出视频的质量和时间一致性。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

结果显示,本文的算法在时间一致性上比基线方法更出色,处理前景、背景和边缘时稳定性更好。Dfb28资讯网——每日最新资讯28at.com

在 DifFRelight 视频重光照任务中评估噪声扭曲方法。推理时,研究者从特定区域裁剪出画面,并按照指定光照条件进行处理。本文的方法在图像和时间指标上表现更好,能有效改进图像扩散模型。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

接下来聚焦视频扩散中的局部对象运动控制。为评估模型控制能力,将其与 SG-I2V、MotionClone 和 DragAnything 三种基线方法对比。Dfb28资讯网——每日最新资讯28at.com

现有方法在处理复杂局部运动时存在局限,SG-I2V 会误判运动导致场景平移,DragAnything 缺乏一致性易失真,MotionClone 难以捕捉细微动态。Dfb28资讯网——每日最新资讯28at.com

本文的模型在处理复杂运动时表现优异,能保持对象保真度和三维一致性。大量研究和评估证实了本文的方法在运动一致性、视觉保真度和整体真实感方面优势显著。Dfb28资讯网——每日最新资讯28at.com

本文的方法同样支持运动迁移和相机运动控制。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

在 DAVIS 数据集的对象运动迁移中,运动保真度和视频质量更好,生成视频与真实视频还原度高。Dfb28资讯网——每日最新资讯28at.com

在相机运动控制上,在 DL3DV 和 WonderJourney 数据集以及深度扭曲实验中表现出色。Dfb28资讯网——每日最新资讯28at.com

在视频首帧编辑能力上,能无缝融入新增对象并保留原始运动,明显优于基线方法。Dfb28资讯网——每日最新资讯28at.com

本研究提出了一种新颖的、速度快于实时的噪声扭曲算法,它能将运动控制自然地融入视频扩散噪声采样过程。Dfb28资讯网——每日最新资讯28at.com

研究者用这种噪声扭曲技术对视频数据进行预处理,以开展视频扩散微调,从而提供了一种通用且用户友好的范式,可应用于各类运动可控的视频生成场景。Dfb28资讯网——每日最新资讯28at.com

Dfb28资讯网——每日最新资讯28at.com

参考资料:Dfb28资讯网——每日最新资讯28at.com

https://x.com/EHuanglu/status/1882014762281865379Dfb28资讯网——每日最新资讯28at.com

https://x.com/natanielruizg/status/1882121096859890140Dfb28资讯网——每日最新资讯28at.com

https://eyeline-research.github.io/Go-with-the-Flow/Dfb28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元(ID:AI_era),原标题《一拖一拽,小猫活了!Netflix 等新作爆火,噪声扭曲算法让运动控制更简单》Dfb28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10446-0.html一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI 助力,披头士《Now and Then》斩获格莱美最佳摇滚表演奖

下一篇: 郭明錤称 DeepSeek 爆红加速 AI 模型“设备端化”趋势

标签:
  • 热门焦点
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • 以太坊升级将会带来的5个改变

    以太坊自2015年诞生以来就广受欢迎,但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用,用户对以太坊改进的需求也日益急迫。以太坊2.0已进
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

    你可能听说过不可伪造的代币,或NFTs。NFTs是数字代币,代表完全独特的项目的所有权;存储在区块链中并可追踪,它们不能被修改、替换或复制。作为NFT铸造的资产在数字
  • Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
  • 虚拟人的3大纪律和6种品牌孵化模式

    作者:陈格雷(老小格)及团队虚拟人很热,我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点,整理出6种最主要的品牌虚拟人模式,后面一一介绍。

相关资讯

    SQL Error: select * from ***_ecms_news11 where id in(180,46,176,,134,120) limit 6
Top