当前位置:首页 > 元宇宙 > AI

一张图即可生成电影级数字人视频:阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

来源: 责编: 时间:2025-08-29 08:49:29 97观看
导读 8 月 26 日消息,今日晚间,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。据介绍,该模型单次生成的视

8 月 26 日消息,今日晚间,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。dxM28资讯网——每日最新资讯28at.com

据介绍,该模型单次生成的视频时长可达分钟级,大幅提升数字人直播、影视制作、AI 教育等行业的视频创作效率。dxM28资讯网——每日最新资讯28at.com

dxM28资讯网——每日最新资讯28at.com

目前,Wan2.2-S2V 可驱动真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等任意画幅,上传一段音频后,模型就能让图片中的主体形象完成说话、唱歌和表演等动作。dxM28资讯网——每日最新资讯28at.com

Wan2.2-S2V 还支持文本控制,输入 Prompt 后还可对视频画面进行控制,让视频主体的运动和背景的变化更丰富。dxM28资讯网——每日最新资讯28at.com

例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字,Wan2.2-S2V 即可生成一段完整、声情并茂的钢琴演奏视频,不仅能保证人物形象和原图一致,其面部表情和嘴部动作还能与音频对齐,视频人物的手指手型、力度、速度也能完美匹配音频节奏。dxM28资讯网——每日最新资讯28at.com

dxM28资讯网——每日最新资讯28at.com

据介绍,Wan2.2-S2V 采用了基于通义万相视频生成基础模型能力,融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景的音频驱动视频生成;同时引入 AdaIN 和 CrossAttention 两种控制机制,实现了更准确更动态的音频控制效果;为保障长视频生成效果,Wan2.2-S2V 通过层次化帧压缩技术,大幅降低了历史帧的 Token 数量,通过该方式将 motion frames (注:历史参考帧) 的长度从数帧拓展到 73 帧,从而实现了稳定的长视频生成效果。dxM28资讯网——每日最新资讯28at.com

在模型训练上,通义团队构建了超 60 万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。同时通过多分辨率训练、支持模型多分辨率的推理,可支持不同分辨率场景的视频生成需求,如竖屏短视频、横屏影视剧。dxM28资讯网——每日最新资讯28at.com

dxM28资讯网——每日最新资讯28at.com

实测数据显示,Wan2.2-S2V 在 FID(视频质量,越低越好)、EFID(表情真实度,越低越好)、CSIM(身份一致性,越高越好)等核心指标上取得了同类模型最好的成绩。dxM28资讯网——每日最新资讯28at.com

阿里云表示,自今年 2 月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多款模型,在开源社区和三方平台的下载量已超 2000 万。dxM28资讯网——每日最新资讯28at.com

开源地址:dxM28资讯网——每日最新资讯28at.com

GitHub:https://github.com/Wan-Video/Wan2.2dxM28资讯网——每日最新资讯28at.com

魔搭社区:https://www.modelscope.cn/ models / Wan-AI / Wan2.2-S2V-14BdxM28资讯网——每日最新资讯28at.com

HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14BdxM28资讯网——每日最新资讯28at.com

体验地址:dxM28资讯网——每日最新资讯28at.com

通义万相官网:https://tongyi.aliyun.com/ wanxiang / generatedxM28资讯网——每日最新资讯28at.com

阿里云百炼:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215dxM28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27068-0.html一张图即可生成电影级数字人视频:阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: ChatGPT 被指导致美国一名 16 岁少年自杀:未有效干预且起到“教学”作用

下一篇: 智能门锁线上均价持续走低,2025年前七月已降至879元

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 大厂元宇宙,又菜又爱玩

    撰文 | 吴先之 编辑 | 王 潘当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。以Meta为例,由于VR头显设
  • 以太坊升级将会带来的5个改变

    以太坊自2015年诞生以来就广受欢迎,但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用,用户对以太坊改进的需求也日益急迫。以太坊2.0已进
  • 费城艺术家使用区块链,在数字艺术中狠狠捞一笔

    ‍你也想赚钱发财走上人生巅峰吗?老雅痞给你指条路,现在也许是时候创建或购买或出售 NFT的好时机。费城地区的许多企业家都在这样做。但投资需谨慎,入行有风险,在
  • 以用户为中心,Web3和区块链如何将用户放在首位

    竞争优势正在改变竞争优势是每个企业都在努力争取的,由谷歌、Facebook和Netflix等大型科技公司主导的市场中,两大重要类别的竞争优势十分突出。第一个竞争优势来
  • 这个好莱坞影视制作公司涉足NFT,让持有者在制作中发挥作用

    前米高梅首席执行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一个新的好莱坞工作室,提供 NFT,让持有者在制作中发挥作用Electromagnetic Productions 创始
  • 76亿美金估值、2022年最具创新力公司,Dapper Labs如何做到?

    “元宇宙的开拓者”是我们针对元宇宙的发展而设立的专栏,主要面向那些深挖元宇宙产业或者在元宇宙进行“淘金”的从业者,分享这些企业或者创业者们的故事,以独特
Top