当前位置:首页 > 元宇宙 > AI

字节 Seed 开源统一多模态理解和生成模型 BAGEL

来源: 责编: 时间:2025-06-04 16:57:15 99观看
导读 6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。

6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源 VLMs,如 Qwen2.5-VL 和 InternVL-2.5,并且提供了与专业生成器如 SD3 竞争的文本到图像质量。vw228资讯网——每日最新资讯28at.com

此外,BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

具体来看,BAGEL 基于大语言模型进行训练,具备基础的推理和对话能力,能够处理图像和文本的混合输入,并以混合格式输出。vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

▲混合输入-混合输出

BAGEL 可生成较高质量、逼真的图像、视频或图文交错的内容。此外,还引入了长思维链 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

▲BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

基于交错的多模态数据预训练,BAGEL 自然地学会了保留视觉特征和细微细节,并且能从视频中捕捉复杂的视觉运动,这些能力使得 BAGEL 在图像编辑上更为高效。vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

▲基于同一人物形象进行图像编辑

基于对视觉内容和风格的理解,BAGEL 仅使用较少的对齐数据,即可实现图片的风格切换,甚至还可转换至不同场景中。vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

▲BAGEL 实现多种风格迁移

此外,BAGEL 还具备世界模型的基础能力,可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务,并进行不同角度的旋转或视角切换。同时,BAGEL 还具备较强的泛化能力,不仅在各类真实场景中,还能在游戏、艺术作品、卡通动画等场景中实现导航。vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

基于以上能力,BAGEL 还可通过一个统一的多模态接口,实现各项能力的复杂组合,进行多轮对话。vw228资讯网——每日最新资讯28at.com

vw228资讯网——每日最新资讯28at.com

▲图片剪切-智能编辑-场景转换-风格转换组合功能

附 BAGEL 开源地址:vw228资讯网——每日最新资讯28at.com

官网及体验入口:vw228资讯网——每日最新资讯28at.com

https://seed.bytedance.com/bagelvw228资讯网——每日最新资讯28at.com

GitHub 代码:vw228资讯网——每日最新资讯28at.com

https://github.com/bytedance-seed/BAGELvw228资讯网——每日最新资讯28at.com

模型权重:vw228资讯网——每日最新资讯28at.com

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoTvw228资讯网——每日最新资讯28at.com

研究论文:vw228资讯网——每日最新资讯28at.com

https://arxiv.org/pdf/2505.14683vw228资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13401-0.html字节 Seed 开源统一多模态理解和生成模型 BAGEL

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 任天堂《塞尔达传说》手机伴侣应用被指使用生成式 AI 配音

下一篇: OpenAI 更新编程工具 Codex:新增语音输入 + 联网,向 ChatGPT Plus 用户开放

标签:
  • 热门焦点
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 元娲2.7上线:虚拟人视频制作速度疯狂翻倍!

    来源:清元宇宙 炎炎夏日努力工作的Q仔的电脑都冒烟儿啦~今天要给大家介绍两个新小伙伴——小元和小娲,他们将给大家解读元娲2.7版本重磅更新内容~大家掌声欢迎~~~本次更
  • 大厂元宇宙,又菜又爱玩

    撰文 | 吴先之 编辑 | 王 潘当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。以Meta为例,由于VR头显设
  • 权限风波过后 X2Y2如何挑战OpenSea?

    继LooksRare之后,又一个OpenSea挑战者X2Y2来了。上周,X2Y2宣布向超过86万个OpenSea交易用户发放X2Y2通证空投,并启动了「挂单挖矿」的奖励机制。这场早期激励活动
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
Top