当前位置:首页 > 元宇宙 > AI

李飞飞团队实现“隔空建模”,透过遮挡物还原完整 3D 人体模型

来源: 责编: 时间:2024-01-15 09:18:10 369观看
导读 注意看,这个男人搬着一个长长的柜子,画面中半个人都被遮挡住了。但即使有这样的遮挡,男人的整个身体在 AI 面前依然是无所遁形。哪怕是蹲在椅子背后只露出头,依然可以被模型完整还原。从遮挡物背后把人“揪”出来

注意看,这个男人搬着一个长长的柜子,画面中半个人都被遮挡住了。tch28资讯网——每日最新资讯28at.com

但即使有这样的遮挡,男人的整个身体在 AI 面前依然是无所遁形。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

哪怕是蹲在椅子背后只露出头,依然可以被模型完整还原。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

从遮挡物背后把人“揪”出来的,是李飞飞团队推出的人体建模新工具 Wild2Avatar(本文简称 W2A)。tch28资讯网——每日最新资讯28at.com

只要一段 4 秒左右的单角度视频,就能构建出完整的 3D 模型,有遮挡也不怕。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

相比此前的 SOTA 方法,Wild2Avatar 在人体建模上可谓是实现了质的飞跃。tch28资讯网——每日最新资讯28at.com

建模效果完胜 Vid2Avatar

从下面的对比图中(从左到右依次为带遮挡原图、Vid2Avatar 提取结果和 W2A 提取结果)可以看到,作为 baseline 的 Vid2Avatar 方法只能大概描绘出人的轮廓,遮挡物直接被“拍扁”到了人物身上,而且轮廓看上去也不够准确。tch28资讯网——每日最新资讯28at.com

而 W2A 提取出的任务不仅轮廓更加精确,看上去也更具立体感,关键是遮挡物被完美地去除,显现出了完整的人物结构。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

对遮挡物的去除,W2A 操作得也更为彻底,没有留下多余的痕迹。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

而 baseline 中部分结构缺失的现象,在 W2A 中也没有发生,人物的结构十分完整。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

而且,W2A 的人物建模是动态的,视频画面中,就算整个人都藏在椅子后面,依然可以输出人物模型。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

和另一 baseline OccNeRF 相比,W2A 只需 100 帧的训练视频就能复原出完整干净的结构,但后者用了 500 帧的系列视频后不仅结构缺陷极大,还存在许多“鬼影”。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

测试数据也表明,对于陌生场景,W2A 的提取质量和完整性(comp.)都比 V2A 有所提升,特别是对遮挡(llm)部分,合成质量得分接近翻番。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

和 OccNeRF 相比,W2A 与 500 帧训练数据的 OccNeRF 整体成绩接近,但遮挡部分仍然是有明显增强。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

那么,Wild2Avatar 是如何实现的呢?tch28资讯网——每日最新资讯28at.com

人物与遮挡分层处理

工作过程中,W2A 将整个场景分成了遮挡物、人物本体和背景三部分。tch28资讯网——每日最新资讯28at.com

这三个部分由独立的 NeRF 网络分别预测特征,渲染图像时再将三个部分的输出拼合。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

这种做法的主要目的是为了避免遮挡被误当成人体的一部分,出现 Video2Avatar 那样把遮挡物合成进人物的情况。tch28资讯网——每日最新资讯28at.com

具体来说,李飞飞团队将图像映射到一个球空间,背景位于球外,人物和遮挡物则分别位于球空间内部的不同位置。tch28资讯网——每日最新资讯28at.com

遮挡空间是通过内部采样点的坐标和距离来构造的。用于遮挡部分的生成网络与背景共享,可以预测遮挡空间样本点的颜色和密度值。tch28资讯网——每日最新资讯28at.com

而人体部分的处理则是使用 SMPL 的参数化方式,通过正向和反向皮肤拟合,先将人体变形到一个姿态不变的坐标空间,再输入神经网络进行学习。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

为了增强任务模型的完整性,李飞飞团队还设计了新的损失计算方式。tch28资讯网——每日最新资讯28at.com

首先利用现成的分割模型输出人体的二值分割掩码,并掩码取反得到“非人体”区域的掩码,即为可能的遮挡区域。tch28资讯网——每日最新资讯28at.com

同时,从 W2A 渲染的三个部分中遮挡部分的密度图,然后根据提取结果再分离出人体部分。tch28资讯网——每日最新资讯28at.com

其中人体部分与前面得到的“非人体”掩码进行与非运算,得到的结果再和遮挡部分的密度图做二值交叉熵运算,就得到了遮挡解耦损失 Locc。tch28资讯网——每日最新资讯28at.com

tch28资讯网——每日最新资讯28at.com

Locc 会与像素重构损失、场景分解损失等其他损失参数一并纳入到整个网络的端到端训练过程,用于优化更新网络参数。tch28资讯网——每日最新资讯28at.com

论文地址:tch28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2401.00431tch28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:克雷西tch28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3196-0.html李飞飞团队实现“隔空建模”,透过遮挡物还原完整 3D 人体模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 更多作家起诉 OpenAI 和微软:“窃取”他们的作品训练 AI 模型

下一篇: 谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 字节跳动,刚刚投了一位虚拟女生

    今年第一笔虚拟人融资出炉了。投资界获悉,杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认,本轮
  • 全面拥抱“虚拟世界”,摩登天空要打造“音乐元宇宙”

    作者:袁佳琦沈黎晖不怎么打游戏,但许多事儿在他眼里都“有意思”。好玩,有意思,是他的口头禅,在接受娱乐独角兽的采访过程中,他多次提到,做虚拟音乐人,“是件挺好玩的
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • 本周NFT领域重要资讯回顾

    NFT在苏富比拍卖是一波三折的吗?其实不完全如此,但本周在苏富比拍卖行发生了一系列有趣的事。与此同时,美联社因其最新的NFT销售被推到了风口浪尖,而Opensea正面临
  • NFT也有黄牛?这家公司专门对付外挂作弊机器人

    澳大利亚前总理马尔科姆·特恩布尔 (Malcolm Turnbull) 是支持萨姆·Crowther (Sam Crowther) 的人之一,Sam是一名出生于纽卡斯尔的黑客,他的职业生涯始于为国防
  • Meta 呼吁行业合作建立元宇宙网络基础设施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基础设施,以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一,这在很大程度上是由 Facebo
  • 赵长鹏预测SoicalFi为今年主要驱动力,新的机会在哪里?

    作者:五火球教主前不久,赵长鹏在《财富》杂志印度版块刊登评论。他表示:“DeFi 在 2021 年出现了快速创新,我们可能会在 2022 年看到蓬勃发展的兴趣和创新,其中 Soc
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
Top