当前位置:首页 > 元宇宙 > AI

字节跳动发布豆包视频生成模型,这效果让我分不清 AI 与现实

来源: 责编: 时间:2024-10-01 17:06:13 137观看
导读 9 月 24 日,火山引擎 AI 创新巡展在深圳举办,带来了豆包大模型的最新进展。豆包大模型家族迎来了新成员。具体来说,火山引擎全新推出了豆包・视频生成模型,以及豆包音乐模型、同声传译模型,同时还升级了通用语言模

9 月 24 日,火山引擎 AI 创新巡展在深圳举办,带来了豆包大模型的最新进展。豆包大模型家族迎来了新成员。WFF28资讯网——每日最新资讯28at.com

具体来说,火山引擎全新推出了豆包・视频生成模型,以及豆包音乐模型、同声传译模型,同时还升级了通用语言模型、文生图模型、语音模型,不断增强各类模态以及规模化的调用量,让豆包大模型“更强模型、更低价格、更易落地”的优势持续凸显。此外,多家行业客户也在会上分享了大模型应用的实践经验。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

本次豆包带来的一系列大模型进展中,最引人关注的,莫过于全新豆包视频生成模型,它能够带来影视级视觉感受的视频生成效果,全面推动豆包大模型 AIGC 应用创新的步伐。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

在豆包视频生成模型正式推出之前,可能不少同学已经使用过市面上一些 AI 生成视频的产品。小编此前也做过体验,总体来说这些大模型生成的视频往往有比较明显的“AI 痕迹”,无论是视频的内容逻辑、画面自然度等方面,都有待提升,而且对语义指令的理解也存在问题,经常会生成一些不符合指令要求的视频。WFF28资讯网——每日最新资讯28at.com

而这些问题在豆包视频生成模型中,都得到了针对性的解决,同时也成为其不可忽视的产品亮点。WFF28资讯网——每日最新资讯28at.com

首先,豆包视频生成模型拥有精准的语义理解能力,支持多动作多主体交互的内容生成。相比大部分视频生成模型只能完成简单指令单一动作,豆包视频生成模型可以遵从更复杂的 prompt,解锁时序性多拍动作指令与多个主体间的交互能力,指哪儿打哪儿,为你打开想象力的大门。WFF28资讯网——每日最新资讯28at.com

比如下面这则视频,两位主角的动作、表情都非常自然,包括马儿看起来也很真实。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

还有下面这段视频,首先女主的表情十分细腻自然,当男主入画时,女主缓缓戴上墨镜,和男主的动作交互也非常真实,看起来似乎是有些抗拒,将复杂细腻的微动作都呈现了出来,从而让视频呈现出强烈的“故事感”。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

其次,豆包视频生成模型支持强大动态与炫酷运镜,让 AI 生成视频告别 PPT 动画质感。针对高动态的复杂场景视频、多样化表达的文本指令,豆包视频生成模型基于高效的 DiT 融合计算单元,更充分地压缩编码视频与文本,使生成视频的动作更灵动,镜头更多样,表情更丰富,细节更丰满。WFF28资讯网——每日最新资讯28at.com

并且生成的视频可同时存在主体的大动态与镜头的炫酷切换。支持变焦、环绕、平摇、缩放,目标跟随等超多镜头语言,灵活控制视角。WFF28资讯网——每日最新资讯28at.com

例如下面这则视频,画面中两位主角前后景的变焦切换非常自然,感觉就像是真实的摄影师在水中拍摄的画面,而不像以往 AI 生成视频那样呆板生硬。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

在内容逻辑方面,豆包视频生成模型还支持一致性多镜头生成,能够 10 秒讲一个完整的故事。它采用全新设计的扩散模型训练方法,成功攻克了多镜头切换时难以保持一致性的困扰,在一个 prompt 的多个镜头切换时,保持主体、风格、氛围和逻辑的一致性,实现导演自由。WFF28资讯网——每日最新资讯28at.com

例如下面这则动画视频,三个镜头组成了一个简短易懂的场景故事,看起来就像是一个正常的动画电影中截取的片段。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

再比如下面这则视频,讲述一个乘坐火箭的人冲撞大楼引发爆炸的场景故事,三段镜头的剪辑呈现出流畅的故事逻辑,还给了主人公紧张的表情特写,调动观众的情绪,让人感叹 AI 这是觉醒了“创作意识”?WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

此外,豆包视频生成模型还能保证视频高保真和高美感,可生成影视级画面,细节层次丰富,逼真度极高,拥有专业级色彩调和和光影布局,大幅提升画面视觉审美。WFF28资讯网——每日最新资讯28at.com

比如下面这一则,整个画面的打光、色调、场景、角色的表情都非常精致、细腻,很有电影大片的质感,不说的话谁能想到这是 AI 生成的视频?WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

同时其深度优化的 Transformer 结构,大幅提升了视频生成的泛化能力,支持包括黑白、3D 动画、2D 动画、国画、厚涂等多种风格,包含 1:1、3:4、4:3、16:9、9:16、21:9 比例,带你领略更自由的世界。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

可以看到,豆包视频生成模型的表现确实是相当惊艳的,无论是语义理解能力、多个主体运动的复杂交互画面,还是多镜头切换的内容一致性等方面,都可以做到接近专业人类视频工作者的水平,如果不说是 AI 生成的,可能大家都很难发现。WFF28资讯网——每日最新资讯28at.com

而能做到这一点,对于字节跳动以及火山引擎来说,其实完全在意料之中。WFF28资讯网——每日最新资讯28at.com

首先在“视频”能力方面,本就是字节跳动的优势赛道。火山引擎不仅是抖音计算服务的提供方,更是国内众多视频、直播等业务背后的可靠支撑,在长年应对视频业务流量、时延、稳定性等各种严苛的挑战中,沉淀下来独树一帜的技术能力。WFF28资讯网——每日最新资讯28at.com

而在 AI 方面,即大模型的能力,有火山引擎的支撑,字节跳动豆包大模型无论在算力、算法以及数据、场景等方面都有非常充沛的资源。具体到本次豆包视频生成模型上,我们也能看到字节跳动在视频大模型技术研发的不断投入和创新。比如他们采用了高效的 DiT 融合计算单元,还全新设计了扩散模型的训练方法,来实现一致性多镜头的生成。此外他们还深度优化了 Transfomer 结构,大幅提升了视频生成的泛化能力。WFF28资讯网——每日最新资讯28at.com

豆包大模型自去年 5 月正式发布以来,就展现出很强的市场竞争力。这次在深圳的火山引擎 AI 创新巡展,火山引擎总裁谭待也透露了豆包大模型最新的使用情况:WFF28资讯网——每日最新资讯28at.com

“截至到 9 月,豆包大模型的日均 tokens 使用量已经超过 1.3 万亿,4 个月的时间里 tokens 整体增长超过了 10 倍。在多模态方面,豆包・文生图模型日均生成图片 5,000 万张,此外,豆包目前日均处理语音 85 万小时。”WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

火山引擎总裁谭待

如此巨大的使用量,显然代表着市场对于豆包大模型使用体验和效果的认可。同时也得益于字节大模型一贯的发展路径和逻辑:先 toC 打磨产品,模型能力具备竞争优势后再 toB 拓展市场。WFF28资讯网——每日最新资讯28at.com

比如豆包语言大模型其实早在去年就在字节跳动内部完成了上线,也是首批通过大模型服务安全备案的大模型之一。字节跳动内部 50 多个业务已经大量使用豆包大模型进行 AI 创新,包括抖音、头条等数亿 DAU 产品。经过近一年的打磨后才在今年 5 月正式发布。WFF28资讯网——每日最新资讯28at.com

而这次豆包视频生成模型也是如此,其早期版本在今年 2 月就在即梦(Dreamina)上应用,持续迭代优化后才在这次正式推向企业市场。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

而未来,豆包视频生成模型也可以为众多企业场景带来创新,例如在电商营销场景,豆包视频生成模型不仅快速把商品变成 3D 动态多角度展示,还能配合中秋、七夕、春节等节点替换背景和风格,生成不同尺寸快速上架;在动画教育场景,豆包・视频生成模型可以大幅降低动画的制作成本,生动的呈现童话故事情节。WFF28资讯网——每日最新资讯28at.com

此外,还有城市文旅、音乐 MV、微电影、短剧等应用场景,都可以通过豆包・视频生成模型实现降本提效和创意合规。WFF28资讯网——每日最新资讯28at.com

WFF28资讯网——每日最新资讯28at.com

总之,豆包视频生成模型的推出,将为创作者乃至各行各业的工作者带来探索未来世界的有力工具,为所有人提供有趣、快乐和自由的创作体验,用更广阔的创作空间和灵感启发,帮大家打开连接现实和想象世界的大门。WFF28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-8014-0.html字节跳动发布豆包视频生成模型,这效果让我分不清 AI 与现实

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 中国移动“算网大脑”规模商用,推动算力像水电一样即取即用

下一篇: 研究发现:AI 越聪明就越有可能“胡编乱造”

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 关于年度热词NFT,除了钱,我们还可以聊点啥?

    每到年底,社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词,你会想到什么?柯林斯词典将年度热词颁给了“NFT”,而其理由是:一个缩写词的
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 虚拟邓丽君后,数字人赛道开启3.0时代

    “如果右脑时代来临,虚拟世界将是对人类才华的无限放大。” 郭晓喆称,开发数字人形象时,自己的团队在内部“卷”了一下:“当我们翻阅大量历史典籍的时候,苏小妹找到
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top