当前位置:首页 > 元宇宙 > AI

腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

来源: 责编: 时间:2024-07-06 07:40:53 270观看
导读 7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型

7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。rsN28资讯网——每日最新资讯28at.com

此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作文生图数据集。rsN28资讯网——每日最新资讯28at.com

腾讯混元 DiT 模型升级

腾讯混元 DiT 模型宣布了三大更新:推出小显存版本与 Kohya 训练界面,并升级至 1.2 版本,进一步降低使用门槛的同时提升图片质量。rsN28资讯网——每日最新资讯28at.com

基于 DiT 架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,混元 DiT 因此推出小显存版本,最低 6G 显存即可运行优化推理框架,对使用个人电脑本地部署的开发者比较友好。rsN28资讯网——每日最新资讯28at.com

经过与 Hugging Face 合作,小显存版本、LoRA 与 ControlNet 插件,都已经适配到 Diffusers 库中。开发者无需下载原始代码,仅用三行代码仅可调用,简化了使用成本。rsN28资讯网——每日最新资讯28at.com

同时,混元 DiT 宣布接入 Kohya,让开发者可以低门槛地训练专属 LoRA 模型。rsN28资讯网——每日最新资讯28at.com

Kohya 是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。rsN28资讯网——每日最新资讯28at.com

用户可以通过图形化界面,完成模型的全参精调及 LoRA 训练,无需涉及到代码层面的细节。训练好的模型符合 Kohya 生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。rsN28资讯网——每日最新资讯28at.com

混元 Captioner

在提升模型易用性的同时,腾讯混元团队最新开源了打标模型 —— 混元 Captioner。rsN28资讯网——每日最新资讯28at.com

借助打标模型,开发者可以快速生成数据集。具体来说,文生图开发者将原始图片集导入混元 Captioner,后者将生成标注;也可以导入图片与原始描述,利用混元 Captioner 过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。rsN28资讯网——每日最新资讯28at.com

目前,业界对于图片描述文本的生成,主要使用通用多模态 Captioner 模型,存在描述过于简单或繁琐(与画面描述的无关信息过多)、缺少背景知识导致无法识别知名人物和地标等问题,并且许多模型并非中文原生,中文描述不够精准。rsN28资讯网——每日最新资讯28at.com

rsN28资讯网——每日最新资讯28at.com

▲混元 Captioner 对图片描述进行结构化与准确度提升混元

Captioner 模型号称针对文生图场景专门进行优化:rsN28资讯网——每日最新资讯28at.com

构建了结构化的图片描述体系;rsN28资讯网——每日最新资讯28at.com

在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升 Caption 描述的完整性;rsN28资讯网——每日最新资讯28at.com

注入知名文学作品形象、地标、食物、动物、中国元素与知识等背景知识。rsN28资讯网——每日最新资讯28at.com

rsN28资讯网——每日最新资讯28at.com

▲Capiton 模型的背景知识更好,能够识别宫保鸡丁

rsN28资讯网——每日最新资讯28at.com

▲Captioner 模型结构化图片描述体系

附腾讯混元开源文生图大模型相关链接:rsN28资讯网——每日最新资讯28at.com

官网:https://dit.hunyuan.tencent.com/rsN28资讯网——每日最新资讯28at.com

代码:https://github.com/Tencent/HunyuanDiTrsN28资讯网——每日最新资讯28at.com

模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiTrsN28资讯网——每日最新资讯28at.com

论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdfrsN28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4968-0.html腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 商汤科技 CEO 徐立:AI 行业很热但未到“超级时刻”,需要应用来支撑

下一篇: 一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

标签:
  • 热门焦点
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 2022开年最热投资赛道竟是虚拟人,背后隐藏了什么商业价值?

    在刚刚结束不久的2021年江苏卫视跨年演唱会上,虚拟邓丽君与歌手周深同台联唱,实现了跨时代合作,而这还不只是“邓丽君”,哔哩哔哩、东方卫视等多家跨年晚会都出现
  • 英特尔首款加密芯片将于今年上市|国际动态

    No.1 英特尔首款加密芯片将于今年上市2月13日消息,英特尔首款名为“区块链加速器”的加密芯片将于今年晚些时候上市。目前,已经有两家公司预订了这项技术,分别是G
  • “虚拟人”角斗场,基于“硬实力”下的人性平衡法则?

    在打工人“反内卷”的当下,一众虚拟人却“内卷”了起来。从北京春晚虚拟人苏小妹与刘宇演绎歌舞《星河入梦》,央美毕业的虚拟人夏语冰登上央视节目《对话》,湖南
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • NFT Insider #47:YGG发布2021Q4社区报告,GameFi领域1月份获超10亿美元融资

    引言:NFT Insider由WHALE社区、BeepCrypto联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据,艺术新闻类,游戏
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top