当前位置:首页 > 元宇宙 > AI

业界首个,阿里通义万相“首尾帧生视频模型”开源

来源: 责编: 时间:2025-04-20 07:24:39 232观看
导读 4 月 17 日消息,阿里通义万相「首尾帧生视频模型」今日宣布开源,该模型参数量为 14B,号称是业界首个百亿参数规模的开源首尾帧视频模型。它可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的 720p 高清视

4 月 17 日消息,阿里通义万相「首尾帧生视频模型」今日宣布开源,该模型参数量为 14B,号称是业界首个百亿参数规模的开源首尾帧视频模型。WVk28资讯网——每日最新资讯28at.com

它可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的 720p 高清视频,此次升级将能满足用户更可控、更定制化的视频生成需求。WVk28资讯网——每日最新资讯28at.com

WVk28资讯网——每日最新资讯28at.com

用户可在通义万相官网直接免费体验该模型,或在 Github、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。WVk28资讯网——每日最新资讯28at.com

WVk28资讯网——每日最新资讯28at.com

技术介绍

首尾帧生视频比文生视频、单图生视频的可控性更高,但这类模型的训练难度较大,首尾帧视频生成需同时满足以下几点:WVk28资讯网——每日最新资讯28at.com

1. 生成的视频内容要保证和用户输入的两张图像一致WVk28资讯网——每日最新资讯28at.com

2. 能够遵循用户的提示词指令WVk28资讯网——每日最新资讯28at.com

3. 能从给定的首帧自然、流畅过渡到尾帧WVk28资讯网——每日最新资讯28at.com

4. 视频本身动作协调、自然WVk28资讯网——每日最新资讯28at.com

训练及推理优化

基于现有的 Wan2.1 文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换。WVk28资讯网——每日最新资讯28at.com

在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率视频生成的效果。WVk28资讯网——每日最新资讯28at.com

在推理阶段,为了在有限内存资源的条件下支持高清视频推理,万相首尾帧模型分别采用了模型切分策略以及序列并行策略,在确保推理效果无损的前提下,显著缩短了推理时间。WVk28资讯网——每日最新资讯28at.com

WVk28资讯网——每日最新资讯28at.com

功能升级

基于该模型,用户可完成更复杂、更个性化的视频生成任务,可以实现同一主体的特效变化、不同场景的运镜控制等视频生成。WVk28资讯网——每日最新资讯28at.com

例如,上传相同位置不同时间段的两张外景图片,输入一段提示词,通义万相首尾帧生成模型即可生成一段四季交替变化或者昼夜变化的延时摄影效果视频;上传两张不同画面的场景,还可通过旋转、摇镜、推进等运镜控制衔接画面,在保证视频和预设图片一致性前提下,同时让视频拥有更丰富的镜头。WVk28资讯网——每日最新资讯28at.com

附开源地址:WVk28资讯网——每日最新资讯28at.com

Github:https://github.com/Wan-Video/Wan2.1WVk28资讯网——每日最新资讯28at.com

HuggingFace:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720PWVk28资讯网——每日最新资讯28at.com

魔搭社区:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720PWVk28资讯网——每日最新资讯28at.com

直接体验入口:https://tongyi.aliyun.com/wanxiang/videoCreationWVk28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12386-0.html业界首个,阿里通义万相“首尾帧生视频模型”开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 谷歌也要“送 AI 进校园”:美国大学生可限时免费订阅 Google One AI Premium 计划

下一篇: 全球首个人形机器人半马 4 月 19 日举办,参赛机器人全阵容发布

标签:
  • 热门焦点
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 城市数字孪生标准化白皮书(2022版)

    当前,城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯,实
  • Meta证实Quest 2无法实现全身追踪,未来将为虚拟化身配备“假腿”

    上周,外媒UploadVR在Quest 2开发者文档中发现了从未被公布过的“身体追踪支持”选项,暗示Meta VR头显或支持全身追踪。而在最近的Instagram问答环节中,Meta Reali
  • 2022年最具关注的9个头像NFT项目

    什么是 PFP NFT 项目?PFP NFT (个人资料图片NFT)是一组独特的数字收藏品,人们用来在互联网平台上代表自己。这些数字艺术作品通常是一系列可作为头像的角色,在 Twit
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 在元宇宙开会是什么样一种体验

    空间就是一切还记得面对面的会议吗?就在不久前,与会者需要飞到遥远的目的地,并进行鼓舞人心的对话、网络、免费食物,甚至可能会有一两个很好的小组讨论。随之而来
  • NFT行业的三大区块链之一引起了Snoop Dogg的强烈兴趣,究竟有何潜力?

    Block-810多个区块链吸引了希望创建单个NFT或整个集合的用户的注意。Tezos是其中因其低费用和低碳排放方式而备受赞誉的区块链,就连Snoop Dogg也希望通过公开他
  • 76亿美金估值、2022年最具创新力公司,Dapper Labs如何做到?

    “元宇宙的开拓者”是我们针对元宇宙的发展而设立的专栏,主要面向那些深挖元宇宙产业或者在元宇宙进行“淘金”的从业者,分享这些企业或者创业者们的故事,以独特
Top