当前位置：首页 > 元宇宙 > AI

一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

来源：责编：时间：2023-12-18 17:35:12 418观看

导读新智元报道编辑：润好困【新智元导读】最近，来自南大等机构的研究人员开发了一个通用的框架，用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然，看到很多不错的一段音频 + 一张照片，瞬间

新智元报道

编辑：润好困

【新智元导读】最近，来自南大等机构的研究人员开发了一个通用的框架，用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然，看到很多不错的

一段音频 + 一张照片，瞬间照片里的人就能开始讲话了。

生成的讲话动画不但口型和音频能够无缝对齐，面部表情和头部姿势都非常自然而且有表现力。

而且支持的图像风格也非常的多样，除了一般的照片，卡通图片，证件照等生成的效果都非常自然。

再加上多语言的支持，瞬间照片里的人物就活了过来，张嘴就能飙外语。

这是由来自南京大学等机构的研究人员提出的一个通用框架 ——VividTalk，只需要语音和一张图片，就能生成高质量的说话视频。

论文地址：https://arxiv.org/ abs / 2312.01841

这个框架是一个由音频到网格生成，和网格到视频生成组成的两阶段框架。

在第一阶段，考虑面部运动和 blendshape 分布之间的一对多映射，利用 blendshape 和 3D 顶点作为中间表征，其中 blendshape 提供粗略运动，顶点偏移描述细粒度嘴唇运动。

此外，还采用了基于多分支 Transformer 网络，以充分利用音频上下文来建模与中间表征的关系。

为了更合理地从音频中学习刚性头部运动，研究人员将此问题转化为离散有限空间中的代码查询任务，并构建具有重建和映射机制的可学习头部姿势代码本。

之后，学习到的两个运动都应用于参考标识，从而产生驱动网格。

在第二阶段，基于驱动网格和参考图像，渲染内表面和外表面（例如躯干）的投影纹理，从而全面建模运动。

然后设计一种新颖的双分支运动模型来模拟密集运动，将其作为输入发送到生成器，以逐帧方式合成最终视频。

VividTalk 可以生成具有表情丰富的面部表情和自然头部姿势的口型同步头部说话视频。

如下表所示，视觉结果和定量分析都证明了新方法在生成质量和模型泛化方面的优越性。

框架实现方法

给定音频序列和参考面部图像作为输入，新方法可以生成具有不同面部表情和自然头部姿势的头部说话视频。

VividTalk 框架由两个阶段组成，分别称为音频到网格生成和网格到视频生成。

音频到网格生成

这一阶段的目标是根据输入音频序列和参考面部图像生成 3D 驱动的网格。

具体来说，首先利用 FaceVerse 来重建参考面部图像。

接下来，从音频中学习非刚性面部表情运动和刚性头部运动来驱动重建的网格。

为此，研究人员提出了多分支 BlendShape 和顶点偏移生成器以及可学习的头部姿势代码本。

BlendShape 和顶点偏移生成器

学习通用模型来生成准确的嘴部动作和具有特定人风格的富有表现力的面部表情在两个方面具有挑战性：

1）第一个挑战是音频运动相关性问题。由于音频信号与嘴部运动最相关，因此很难根据音频对非嘴部运动进行建模。

2）从音频到面部表情动作的映射自然具有一对多的属性，这意味着相同的音频输入可能有不止一种正确的动作模式，从而导致没有个人特征的面部形象。

为了解决音频运动相关性问题，研究人员使用 blendshape 和顶点偏移作为中间表征，其中 blendshape 提供全局粗粒度的面部表情运动，而与嘴唇相关的顶点偏移提供局部细粒度的嘴唇运动。

对于缺乏面部特征的问题，研究人员提出了一种基于多分支 transformer 的生成器来单独建模每个部分的运动，并注入特定于主题的风格以保持个人特征。

可学习的头部姿势密码本

头部姿势是影响头部说话视频真实感的另一个重要因素。然而，直接从音频中学习它并不容易，因为它们之间的关系很弱，这会导致不合理和不连续的结果。

受到之前研究的启发，利用离散码本作为先验，即使在输入降级的情况下也能保证高保真生成。

研究人员建议将此问题转化为离散且有限头部姿势空间中的代码查询任务，并精心设计了两阶段训练机制，第一阶段构建丰富的头部姿势代码本，第二阶段将输入音频映射到码本生成最终结果，如下图所示。

网格到视频生成

如下图所示，研究人员提出了双分支 motionvae 来对 2D 密集运动进行建模，该运动将作为生成器的输入来合成最终视频。

将 3D 域运动直接转换为 2D 域运动既困难又低效，因为网络需要寻找两个域运动之间的对应关系以更好地建模。

为了提高网络的性能并获得进一步的性能，研究人员借助投影纹理表示在 2D 域中进行这种转换。

如上图所示，在面部分支中，参考投影纹理 P T 和驱动的投影纹理 P Tare 连接并馈入编码器，然后输入 MLP，输出 2D 面部运动图。

为了进一步增强嘴唇运动并更准确地建模，研究人员还选择与嘴唇相关的标志并将其转换为高斯图，这是一种更紧凑、更有效的表示。

然后，沙漏网络将减去的高斯图作为输入并输出 2D 嘴唇运动，该运动将与面部运动连接并解码为密集运动和遮挡图。

最后，研究人员根据之前预测的密集运动图对参考图像进行变形，获得变形图像，该变形图像将与遮挡图一起作为生成器的输入，逐帧合成最终视频。

实验效果

数据集

HDTF 是一个高分辨率视听数据集，包含 346 个主题的超过 16 小时的视频。VoxCeleb 是另一个更大的数据集，涉及超过 10 万个视频和 1000 个身份。

研究人员首先过滤两个数据集以删除无效数据，例如音频和视频不同步的数据。

然后裁剪视频中的人脸区域并将其大小调整为 256×256。

最后，将处理后的视频分为 80％、10％、10％，这将用于用于培训、验证和测试。

实施细节

在实验中，研究人员使用 FaceVerse 这种最先进的单图像重建方法来恢复视频并获得用于监督的地面实况混合形状和网格。

在训练过程中，Audio-To-Mesh 阶段和 Mesh-To-Video 阶段是分开训练的。

具体来说，音频到网格阶段的 BlendShape 和顶点偏移生成器以及可学习头部姿势代码本也分别进行训练。

在推理过程中，研究人员的模型可以通过级联上述两个阶段以端到端的方式工作。

对于优化，使用 Adam 优化器，两个阶段的学习率分别为 1×10 和 1×10。在 8 个 NVIDIA V100 GPU 上的总训练时间为 2 天。

与 SOTA 的比较

可以看到，研究人员提出的方法可以生成高质量的头部说话视频，具有精确的唇形同步和富有表现力的面部运动。

相比之下：

SadTalker 无法生成准确的细粒度嘴唇运动，并且视频质量更低。

TalkLip 产生模糊结果，并将肤色风格改为略黄，在一定程度上丢失了身份信息。

MakeItTalk 无法生成准确的嘴形，尤其是在跨身份配音设置中。

Wav2Lip 倾向于合成模糊的嘴部区域，并在输入单个参考图像时输出具有静态头部姿势和眼球运动的视频。

PC-AVS 需要驱动视频作为输入，并努力保存身份。

定量比较

如下表所示，新方法在图像质量和身份保留方面表现更好，这通过较低的 FID 和较高的 CSIM 指标反映出来。

由于新颖的可学习密码本机制，新方法生成的头部姿势也更加多样化和自然。

虽然新方法的 SyncNet 分数低于 Wav2Lip，但可以驱动使用单个音频而不是视频的参考图像并生成更高质量的帧。

参考资料：

https://humanaigc.github.io/vivid-talk/

本文来自微信公众号：新智元（ID：AI_era）

本文链接：http://www.28at.com/showinfo-45-2938-0.html一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：深圳芯聚能科技发布全球首款64核心笔记本：云怪REV-9震撼登场

下一篇：北京互联网法院公开审理全国首例“AI 声音侵权案”

标签：

热门焦点

人间诚实周鸿祎：360 All in 大模型的六个解读

主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今，人间躁动，各路大模型你方唱罢我登场，VC圈互联网圈媒体圈已近癫狂。谁也没想到，今日，360再度刷屏，老牌互联网巨头展现
B端难做：留给魔珐科技的时间不多了

来源：零态LT元宇宙泡沫正在碎裂，进入2023年后这一赛道热度一直在递减。今年2月，微软解散了成立仅四个月的工业元宇宙部门；今年3月，该公司2017年收购的虚拟现实社交平台AltspaceVR
冰墩墩NFT遇冷，价格跌80%，日成交仅3笔。

“两日上涨千倍”并不存在，且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日，获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
与元宇宙美少女艺术家的对话

我最近宣布了我自己的NFT项目，这是我已经工作了几个月的事情。由于我之前只是一个收藏家，拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
以太坊面临来自Fantom的巨大挑战

众所周知，区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
NFT高玩必备：NFT分析工具大盘点

NFT市场的火热让越来越多的投资者投身其中，但当前的 NFT 生态系统存在几个问题却困扰了大多数人，如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
元宇宙收割了谁

作者：晓宇资本将元宇宙看作下一代互联网的门票，画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里，先是号称元宇宙第一股的沙盒游戏Roblox盛装
从概念到落地 Web3.0初具雏形

加密资产热潮催生出的链上应用中，除了DeFi、NFT、链游GameFi等场景外，还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年，由以太坊联合创始人及波卡创建者
元宇宙不完全是想出来的，而是实打实做出来的

沈阳强调，元宇宙不完全是想出来的，而是靠实打实做出来的；互联网向三维化升级是已经明确的大方向，这意味着大量的资金和技术会持续涌入。跨入2022年，元宇宙并没有“

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

人间诚实周鸿祎：360 All in 大模型的六个解读

B端难做：留给魔珐科技的时间不多了

冰墩墩NFT遇冷，价格跌80%，日成交仅3笔。

与元宇宙美少女艺术家的对话

以太坊面临来自Fantom的巨大挑战

NFT高玩必备：NFT分析工具大盘点

元宇宙收割了谁

从概念到落地 Web3.0初具雏形

元宇宙不完全是想出来的，而是实打实做出来的

最新推荐

【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？ | 元宇宙Meta洞见

Kitten Coup社区反转Cool Kittens NFT骗局

Shiba Inu布局元宇宙走出Meme局限

数字经济、数据要素与数字治理

在元宇宙开会是什么样一种体验

Steam 禁止NFT和加密货币原因曝光

猜你喜欢

热门推荐

相关资讯