当前位置:首页 > 元宇宙 > AI

多模态模型Vidu1.5突破,Scaling Law迎来新拐点?

来源: 责编: 时间:2025-02-17 07:08:11 155观看
导读在自然语言处理领域,一个引人瞩目的现象正在显现:传统的通过增加模型规模和数据量来提升性能的Scaling Law似乎已逼近瓶颈。业界开始担忧,单纯依赖这种策略或许已难以带来显著的性能飞跃,低精度训练和推理正使得模型性能

在自然语言处理领域,一个引人瞩目的现象正在显现:传统的通过增加模型规模和数据量来提升性能的Scaling Law似乎已逼近瓶颈。业界开始担忧,单纯依赖这种策略或许已难以带来显著的性能飞跃,低精度训练和推理正使得模型性能提升的边际效益逐渐递减。然而,在自然语言处理遭遇挑战的同时,多模态模型领域却似乎尚未触及这一限制。KY628资讯网——每日最新资讯28at.com

多模态数据,涵盖图像、视频、音频等多种类型,因其信息丰富度、处理方法和应用领域的复杂性,难以达到大规模训练的标准。因此,Scaling Law在多模态领域尚未得到充分验证。但这一现状即将发生改变。清华系大模型公司生数科技最新发布的Vidu 1.5,正引领多模态领域迈向新的发展阶段。KY628资讯网——每日最新资讯28at.com

Vidu 1.5通过持续的规模扩展(Scaling Up),已达到了一个关键的“奇点”时刻,涌现出了强大的“上下文能力”。这一能力使模型能够理解并记忆输入的多主体信息,展现出对复杂主体更为精准的控制。无论是细节丰富的角色还是复杂的物体,仅需上传不同角度的三张图片,Vidu 1.5便能确保单主体形象的高度一致。KY628资讯网——每日最新资讯28at.com

Vidu 1.5的突破不仅限于单主体控制,还实现了多主体之间的一致性。用户能够上传包含人物角色、道具物体、环境背景等多种元素的图像,Vidu能够将这些元素无缝融合,实现自然交互。这一能力标志着多模态模型在主体一致性方面取得了重大进展。KY628资讯网——每日最新资讯28at.com

Vidu在主体一致性方面的成就,不仅得益于Scaling Law的发挥,更源于其采用的无微调、大一统的技术架构方案。当前主流的视频模型为实现一致性,大多采用在预训练基础上针对单个任务进行微调的LoRA方案。而Vidu的底层模型则跳出了这一框架,做出了开拓性的改变。这一改变与生数科技一贯坚持的通用性理念相契合,通过统一的底层模型技术架构,无需单独进行数据收集、标注和微调,仅需1到3张图即可输出高质量视频。KY628资讯网——每日最新资讯28at.com

回顾大语言模型的发展历程,从GPT-2到GPT-3.5的质变,同样实现了从预训练+特定任务微调向统一框架的突破。Vidu 1.5的推出,标志着多模态大模型正经历着类似于GPT-3.5的时刻。这一突破不仅体现在技术上,更在于设计理念上的革新。KY628资讯网——每日最新资讯28at.com

生数科技CTO鲍凡表示,公司不会盲目追随Sora等已有模型的路线,而是从一开始就瞄准通用多模态大模型的目标,进行自主研发。从全球首个基于Diffusion的Transformer架构U-ViT的发布,到首次实现用统一架构处理泛化任务,生数科技不仅拥有先发优势,更具备持续突破的能力。Vidu与业界其他视频生成模型相比,已形成明显的技术代差。KY628资讯网——每日最新资讯28at.com

在主体一致性这一难题上,Vidu取得了显著成果。鲍凡比喻道,这就像制造一台好的发动机,虽然知道其重要性,但实现起来却异常艰难。包括Sora在内的国内外视频模型,在主体一致性方面均未取得突破。而Vidu则从上线之初就主打解决一致性问题,并逐步拓展到对单主体整体形象的控制,直至最新版本的Vidu 1.5,已能够实现对单主体不同视角的高度精准控制,并攻破多主体控制的难题。KY628资讯网——每日最新资讯28at.com

Vidu的技术方案与业界主流存在显著差异。其他家仍局限于预训练+LoRA微调的方案,存在数据构造繁琐、训练时间长、易过拟合、无法捕捉细节等缺点。而生数则通过统一的底层模型技术架构,无需单独进行数据收集、标注和微调,仅需少量图片即可输出高质量视频。这一架构的统一性不仅体现在问题形式上,更体现在底层设计上,与Sora的DiT架构存在本质区别。KY628资讯网——每日最新资讯28at.com

随着高质量数据的一同扩展,Vidu在底层视频生成模型上也观察到了类似于大语言模型的智能涌现现象。例如,Vidu 1.5能够融合不同主体,创造出全新的角色,这是之前未曾预料到的能力。其智能涌现还体现在上下文能力提升和记忆能力增强上,能够实现对视频中角色、道具、场景的统一控制。KY628资讯网——每日最新资讯28at.com

Vidu在上下文能力方面的迭代节奏紧凑,从初期仅能参考单一主体的面部特征,到现在能参考多个主体,未来预期可以实现参考拍摄技巧、运镜、调度等更多因素。这一过程中,参考对象从具体到抽象,要求和难度逐渐提升。由于目前还没有针对视频模型上下文能力的开源解决方案,Vidu 1.5在这一领域形成了自己的技术壁垒。KY628资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
Epic游戏商城:免费赠送不停歇,2025年福利继续
Epic游戏商城:免费赠送不停歇,2025年福利继续
《暗黑破坏神》15年速通纪录被证伪,速通圈迎来新变革?
《暗黑破坏神》15年速通纪录被证伪,速通圈迎来新变革?
《终极闪光:破坏者》体验不佳遭批评,开发商积极回应并承诺修复
《终极闪光:破坏者》体验不佳遭批评,开发商积极回应并承诺修复
《黎明之人》登陆Steam:探索黑暗世界,你能带回光明吗?
《黎明之人》登陆Steam:探索黑暗世界,你能带回光明吗?
《潜行者2》1.2.1版补丁:多项崩溃问题得到进一步优化
《潜行者2》1.2.1版补丁:多项崩溃问题得到进一步优化
《Cheaters Cheetah》Steam开战!作弊者们的另类赎罪之路
《Cheaters Cheetah》Steam开战!作弊者们的另类赎罪之路
热门内容
  • 美四大科技巨头豪掷2.3万亿,AI竞赛如火如荼,DeepSeek能否撼动?
  • DeepSeek两日连崩,官方回应:技术服务稳定性受多重因素挑战
  • 硅基流动携华为云首发DeepSeek R1&V3大模型推理服务,性能媲美高端GPU
  • DeepSeek大规模招聘,年薪百万岗位等你来,AI人才你准备好了吗?
  • AMD显卡本地部署DeepSeek教程来啦!轻松体验AI大模型
  • DeepSeek背后商业网络揭秘:梁文锋关联15家企业,商标申请竞争激烈
  • DeepSeek出故障:深度思考与联网搜索功能齐“罢工”?
  • DeepSeek爆火!创始人梁文峰身家飙升,能否超越黄仁勋成亚洲新首富?
  • 硅基流动携手华为云昇腾,首发DeepSeek R1&V3推理服务,赋能开发者
  • 梁文锋参加巴黎AI峰会传闻不实,仍在国内引网友关切
  • 梁文峰:从对冲基金经理到DeepSeek创始人,如何改写AI版图?
  • DeepSeek故障再现,用户对话受阻,官方尚未回应
  • 三星Galaxy S25系列真机曝光,明日发布会将有何惊喜?
  • DeepSeek注册难,官方:遭大规模恶意攻击,稍后再试
  • 三星Galaxy S25系列评测:AI大升级,Ultra版全面领跑
本栏最新
Deepseek崛起:国产AI能否改写全球产业格局?
Deepseek崛起:国产AI能否改写全球产业格局?
百度搜索大升级:DeepSeek与文心大模型深度搜索功能全面接入
百度搜索大升级:DeepSeek与文心大模型深度搜索功能全面接入
微信牵手DeepSeek,AI搜索新体验如何?
微信牵手DeepSeek,AI搜索新体验如何?
微信携手DeepSeek,AI搜索新体验究竟如何?
微信携手DeepSeek,AI搜索新体验究竟如何?
大专生查子涵:以专业为舞台,创新演绎动车检修智能化新篇章!
大专生查子涵:以专业为舞台,创新演绎动车检修智能化新篇章!
Aqara春季新品秀:AI新品矩阵与开放生态开启智能家居新篇章
Aqara春季新品秀:AI新品矩阵与开放生态开启智能家居新篇章

本文链接:http://www.28at.com/showinfo-45-10843-0.html多模态模型Vidu1.5突破,Scaling Law迎来新拐点?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI眼镜新风口:「Gyges Labs」完成Pre-A轮融资,引领智能穿戴技术革新

下一篇: Deepseek崛起:国产AI能否改写全球产业格局?

标签:
  • 热门焦点
  • 虚拟人再升级,企业可以解放双手了?

    来源:伯虎财经今天想跟大家来唠唠AI,其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后,还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
  • 10亿基金,李彦宏呼唤下一个AI独角兽

    ©️深响原创 · 作者|何文 AI太热了。 在海外,OpenAI估值已超270亿美元、英伟达市值破万亿、微软把GPT整合进了全线产品。在国内,百度、阿里、华为、商汤等大公司,以及
  • 江西将探索成立元宇宙联盟,韩国将加强对NFT和元宇宙的监管

    《元宇宙新鲜事》有:江西将探索成立元宇宙联盟,支持南昌规划建设元宇宙试验区;韩国金融监督局将加强对NFT和元宇宙的监管;任天堂社长表示暂时不打算加入元宇宙。【
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • 头顶光环无数却估值极低,以太坊这位&——quot;最强杀手&——quot;有望涅槃重生?

    作者:五火球教主提起Dfinity(ICP),你的第一感觉可能与我一样,这是一个让人十分纠结的项目。之所以纠结,一方面他的团队阵容强大,各种来自前英特尔、IBM、coinbase、fa
  • NFT领域,我们是否应该遵守版权法

    NFTs中最有争议的因素之一是你是否真的 "拥有 "你所购买的艺术品。除此之外,围绕着NFT行业内的版权和知识产权盗窃的问题也同样重要,因为人们很容易误解这些事情
  • Meta 呼吁行业合作建立元宇宙网络基础设施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基础设施,以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一,这在很大程度上是由 Facebo
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者

最新推荐

猜你喜欢

热门推荐

相关资讯

Top