当前位置：首页 > 科技 > 资讯

全球首个大一统多模态视频模型可灵O1发布让P视频像P图一样简单

来源：责编：时间：2025-12-05 09:22:47 83观看

导读近日，全球首个大一统的多模态视频、图片创作工具"可灵O1"正式上线。可灵O1基于全新的视频和图像模型，以自然语言作为语义骨架，配合视频、图片、主体等多模态描述，将所有生成和编辑任务融合于一个全能引擎之中，为用户搭建全

近日，全球首个大一统的多模态视频、图片创作工具"可灵O1"正式上线。可灵O1基于全新的视频和图像模型，以自然语言作为语义骨架，配合视频、图片、主体等多模态描述，将所有生成和编辑任务融合于一个全能引擎之中，为用户搭建全新的多模态创作流，实现从灵感到成品的一站式闭环。

大一统模型，解决视频创作的所有难题

作为首个大一统多模态视频模型，可灵O1基于MVL（Multi-modal Visual Language，多模态视觉语言）理念，打破了传统单一视频生成任务的模型边界，将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务，融合于同一个全能引擎之中，使得用户无需在多个模型及工具间跳转，即可一站式完成从生成到修改的全部创作流程。

依托可灵视频O1模型的深层语义理解力，用户上传的图片、视频、主体、文字——在可灵O1眼中，皆是指令。模型打破了模态限制，能够综合理解一张照片、一段视频或一个主体，甚至一个角色的不同视角，精准生成各种细节。

可灵O1的多模态指令输入区，让繁琐的剪辑后期变成了简单的对话。用户无需手动遮罩或关键帧，只需输入「移除路人」、「将白天改为黄昏」或「替换主角服装」，模型即可读懂影像逻辑，从局部的主体替换，到整体的视频风格重绘，自动完成像素级的语义重构。此外，如图片/主体参考；指令变换（视频增加、删除内容、切换景别/视角、视频修改任务等）、视频参考、首尾帧、文生视频等能力也一并支持。

针对AI视频难以落地的痛点——角色与场景的一致性，可灵O1底层强化了对输入图像及视频的理解。它能像人类导演一样，“记住”主角、道具和场景。无论镜头如何流转，主体特征始终稳定如一。此外，该模型展现了强大的多主体融合能力。用户可以自由组合多个不同主体，或将主体与参考图混搭。即便是在复杂的群像戏或互动场景中，模型也能独立锁定并保持每一位角色或道具的特征，确保“主角”在不同镜头中实现工业级的特征统一。

不再局限于单点任务，而是支持“技能组合”。用户可以要求可灵O1“在视频中增加主体的同时修改背景”，或者“在图片参考生成时，同步修改风格”。这种一次生成多种创意变化的能力，极大地拓展了创作的自由度，让创意的化学反应成为可能。

叙事时长自由定义，让每一段故事都有其独特的呼吸感。可灵O1将定义时间的权力交还给创作者，支持3-10秒自由生成。无论是短促的视觉冲击，还是悠长的故事铺陈，都由用户自由掌控。值得注意的是，作为统一模型的一部分，可灵O1的首尾帧能力也将支持3-10秒的生成时长选择（即将发布），这将进一步增强叙事的张弛度。

一同登场的还有可灵图像O1模型，可实现从基础图像生成到高阶细节编辑全链路无缝衔接，用户既可通过纯文本生成图像，也可上传最多10张参考图进行融合再创作。该模型具备四大核心优势：特征高度保持，让主体元素稳定不偏差；细节修改精准响应，让每一处调整都符合预期；风格调性准确把控，让画面氛围始终统一；超丰富想象力，让创意呈现更具张力，真正实现“所想即所得”。

一个模型，搞定影视、自媒体、广告电商等多视频创作场景

全新的可灵O1集生成与编辑于一体，可广泛适用于影视、自媒体、广告电商等多种场景。无论是从零构建的叙事生成，还是对既有素材的深度重塑，可灵O1都能根据不同需求，灵活调用其参考、编辑的能力，轻松完成创作。

在影视创作领域，凭借可灵O1的超强一致性的图片（主体）参考，配合主体库功能，可以精准锁定每个分镜的角色及服化道，轻松创作生成多个连贯的影视镜头；而对于视频后期、自媒体创作者来说，可通过简单对话式的提示词，如输入“删除背景中的路人”、“让天空变蓝”，就能让可灵O1自动完成像素级的智能修补与重构。

针对传统线下广告实拍成本高，制作周期长的问题。如今用户只需上传商品图、模特图和场景图，配合简单指令描述，即可快速生成多个酷炫的商品展示广告，大幅降低实拍成本。针对模特约拍麻烦、更换背景/服装需要重复拍摄等问题，使用可灵O1，能搭建你的永不落幕的虚拟T台：上传模特 + 服装实拍图，输入指令，完美还原服饰的质感和细节，批量生产高质量的 Lookbook 视频。

据悉，可灵O1能实现上述强大而全面的功能，源于在技术底座上的深层创新。全新的可灵视频O1模型打破视频模型在生成、编辑与理解上的功能割裂，构建了全新的生成式底座。融合多模态理解的Multimodal Transformer和多模态长上下文，实现了多任务的深度融合与统一。

本文链接：http://www.28at.com/showinfo-16-190377-0.html全球首个大一统多模态视频模型可灵O1发布让P视频像P图一样简单

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：快手重新定义“好的品牌营销”，助力品牌走向经营

下一篇：快手加大低俗诱导打赏治理力度，超3.7万名主播被处罚

标签：

热门焦点

6月iOS设备好评榜：第一蝉联榜首近一年

作为安兔兔各种榜单里变化最小的那个，2023年6月的iOS好评榜和上个月相比没有任何排名上的变化，仅仅是部分设备好评率的下降，长年累月的用户评价和逐渐退出市场的老款机器让这
K8S | Service服务发现

一、背景在微服务架构中，这里以开发环境「Dev」为基础来描述，在K8S集群中通常会开放：路由网关、注册中心、配置中心等相关服务，可以被集群外部访问；图片对于测试「Tes」环境或者
一年经验在二线城市面试后端的经验分享

忠告这篇文章只适合2年内工作经验、甚至没有工作经验的朋友阅读。如果你是2年以上工作经验，请果断划走，对你没啥帮助~主人公这篇文章内容来自「升职加薪」星球星友的投稿，坐
Flowable工作流引擎的科普与实践

一.引言当我们在日常工作和业务中需要进行各种审批流程时，可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
如何通过Python线程池实现异步编程？

线程池的概念和基本原理线程池是一种并发处理机制，它可以在程序启动时创建一组线程，并将它们置于等待任务的状态。当任务到达时，线程池中的某个线程会被唤醒并执行任务，执行完任
如何使用JavaScript创建一只图像放大镜？

译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站，可能遇到过图像放大功能。它可以让您放大图像的特定区域，以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
只需五步，使用start.spring.io快速入门Spring编程

步骤1打开https://start.spring.io/，按照屏幕截图中的内容创建项目，添加 Spring Web 依赖项，并单击“生成”按钮下载 .zip 文件，为下一步做准备。请在进入步骤2之前进行解压。图
造车两年股价跌六成，小米的估值逻辑变了吗？

如果从小米官宣造车后的首个交易日起持有小米集团的股票，那么截至2023年上半年最后一个交易日，投资者将浮亏59.16%，同区间的恒生科技指数跌幅为52.78%
华为Mate 60系列用上可变灵动岛：正式版体验将会更出色

这段时间以来，关于华为新旗舰的爆料日渐密集。据此前多方爆料，今年华为将开始恢复一年双旗舰战略，除上半年推出的P60系列外，往年下半年的Mate系列也将

全球首个大一统多模态视频模型可灵O1发布让P视频像P图一样简单

6月iOS设备好评榜：第一蝉联榜首近一年

K8S | Service服务发现

一年经验在二线城市面试后端的经验分享

Flowable工作流引擎的科普与实践

如何通过Python线程池实现异步编程？

如何使用JavaScript创建一只图像放大镜？

只需五步，使用start.spring.io快速入门Spring编程

造车两年股价跌六成，小米的估值逻辑变了吗？

华为Mate 60系列用上可变灵动岛：正式版体验将会更出色

最新推荐

猜你喜欢

热门推荐

相关资讯

全球首个大一统多模态视频模型​可灵O1发布 让P视频像P图一样简单

最新推荐

猜你喜欢

热门推荐

相关资讯

全球首个大一统多模态视频模型可灵O1发布让P视频像P图一样简单