当前位置:首页 > 元宇宙 > AI

字节 Seed 开源统一多模态理解和生成模型 BAGEL

来源: 责编: 时间:2025-06-04 16:57:15 148观看
导读 6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。

6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源 VLMs,如 Qwen2.5-VL 和 InternVL-2.5,并且提供了与专业生成器如 SD3 竞争的文本到图像质量。Jnq28资讯网——每日最新资讯28at.com

此外,BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

具体来看,BAGEL 基于大语言模型进行训练,具备基础的推理和对话能力,能够处理图像和文本的混合输入,并以混合格式输出。Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

▲混合输入-混合输出

BAGEL 可生成较高质量、逼真的图像、视频或图文交错的内容。此外,还引入了长思维链 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

▲BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

基于交错的多模态数据预训练,BAGEL 自然地学会了保留视觉特征和细微细节,并且能从视频中捕捉复杂的视觉运动,这些能力使得 BAGEL 在图像编辑上更为高效。Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

▲基于同一人物形象进行图像编辑

基于对视觉内容和风格的理解,BAGEL 仅使用较少的对齐数据,即可实现图片的风格切换,甚至还可转换至不同场景中。Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

▲BAGEL 实现多种风格迁移

此外,BAGEL 还具备世界模型的基础能力,可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务,并进行不同角度的旋转或视角切换。同时,BAGEL 还具备较强的泛化能力,不仅在各类真实场景中,还能在游戏、艺术作品、卡通动画等场景中实现导航。Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

基于以上能力,BAGEL 还可通过一个统一的多模态接口,实现各项能力的复杂组合,进行多轮对话。Jnq28资讯网——每日最新资讯28at.com

Jnq28资讯网——每日最新资讯28at.com

▲图片剪切-智能编辑-场景转换-风格转换组合功能

附 BAGEL 开源地址:Jnq28资讯网——每日最新资讯28at.com

官网及体验入口:Jnq28资讯网——每日最新资讯28at.com

https://seed.bytedance.com/bagelJnq28资讯网——每日最新资讯28at.com

GitHub 代码:Jnq28资讯网——每日最新资讯28at.com

https://github.com/bytedance-seed/BAGELJnq28资讯网——每日最新资讯28at.com

模型权重:Jnq28资讯网——每日最新资讯28at.com

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoTJnq28资讯网——每日最新资讯28at.com

研究论文:Jnq28资讯网——每日最新资讯28at.com

https://arxiv.org/pdf/2505.14683Jnq28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13401-0.html字节 Seed 开源统一多模态理解和生成模型 BAGEL

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 任天堂《塞尔达传说》手机伴侣应用被指使用生成式 AI 配音

下一篇: OpenAI 更新编程工具 Codex:新增语音输入 + 联网,向 ChatGPT Plus 用户开放

标签:
  • 热门焦点
  • 蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?

    日前,天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示,2022年天下秀实现营收41.29亿元,同比下滑8.48%;归母净利润1.8亿元,同比下滑49.2%,几乎出现了盈利腰斩的态势
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 新款英特尔芯片将使NFT铸造变得更加方便

    科技巨头和微处理器制造商英特尔(Intel)正在发布一款适用于 NFT 铸造和挖矿的新芯片。新产品专注于效率、易操作性和可持续性,该公司的战略是从加密兴起与 NFT爆
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • 小众有趣NFT艺术作品欣赏(1)

    随着NFT发展火热,越来越多领域与NFT融合,NFT艺术在加密领域中占据了很大一部分。NFT艺术与传统艺术有相似之处,也有完全不同的地方。NFT艺术与传统艺术一样,表现了
  • NFT也有黄牛?这家公司专门对付外挂作弊机器人

    澳大利亚前总理马尔科姆·特恩布尔 (Malcolm Turnbull) 是支持萨姆·Crowther (Sam Crowther) 的人之一,Sam是一名出生于纽卡斯尔的黑客,他的职业生涯始于为国防
  • Meta 呼吁行业合作建立元宇宙网络基础设施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基础设施,以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一,这在很大程度上是由 Facebo
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
Top