当前位置:首页 > 元宇宙 > AI

腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

来源: 责编: 时间:2024-07-06 07:40:53 239观看
导读 7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型

7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。guX28资讯网——每日最新资讯28at.com

此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作文生图数据集。guX28资讯网——每日最新资讯28at.com

腾讯混元 DiT 模型升级

腾讯混元 DiT 模型宣布了三大更新:推出小显存版本与 Kohya 训练界面,并升级至 1.2 版本,进一步降低使用门槛的同时提升图片质量。guX28资讯网——每日最新资讯28at.com

基于 DiT 架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,混元 DiT 因此推出小显存版本,最低 6G 显存即可运行优化推理框架,对使用个人电脑本地部署的开发者比较友好。guX28资讯网——每日最新资讯28at.com

经过与 Hugging Face 合作,小显存版本、LoRA 与 ControlNet 插件,都已经适配到 Diffusers 库中。开发者无需下载原始代码,仅用三行代码仅可调用,简化了使用成本。guX28资讯网——每日最新资讯28at.com

同时,混元 DiT 宣布接入 Kohya,让开发者可以低门槛地训练专属 LoRA 模型。guX28资讯网——每日最新资讯28at.com

Kohya 是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。guX28资讯网——每日最新资讯28at.com

用户可以通过图形化界面,完成模型的全参精调及 LoRA 训练,无需涉及到代码层面的细节。训练好的模型符合 Kohya 生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。guX28资讯网——每日最新资讯28at.com

混元 Captioner

在提升模型易用性的同时,腾讯混元团队最新开源了打标模型 —— 混元 Captioner。guX28资讯网——每日最新资讯28at.com

借助打标模型,开发者可以快速生成数据集。具体来说,文生图开发者将原始图片集导入混元 Captioner,后者将生成标注;也可以导入图片与原始描述,利用混元 Captioner 过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。guX28资讯网——每日最新资讯28at.com

目前,业界对于图片描述文本的生成,主要使用通用多模态 Captioner 模型,存在描述过于简单或繁琐(与画面描述的无关信息过多)、缺少背景知识导致无法识别知名人物和地标等问题,并且许多模型并非中文原生,中文描述不够精准。guX28资讯网——每日最新资讯28at.com

guX28资讯网——每日最新资讯28at.com

▲混元 Captioner 对图片描述进行结构化与准确度提升混元

Captioner 模型号称针对文生图场景专门进行优化:guX28资讯网——每日最新资讯28at.com

构建了结构化的图片描述体系;guX28资讯网——每日最新资讯28at.com

在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升 Caption 描述的完整性;guX28资讯网——每日最新资讯28at.com

注入知名文学作品形象、地标、食物、动物、中国元素与知识等背景知识。guX28资讯网——每日最新资讯28at.com

guX28资讯网——每日最新资讯28at.com

▲Capiton 模型的背景知识更好,能够识别宫保鸡丁

guX28资讯网——每日最新资讯28at.com

▲Captioner 模型结构化图片描述体系

附腾讯混元开源文生图大模型相关链接:guX28资讯网——每日最新资讯28at.com

官网:https://dit.hunyuan.tencent.com/guX28资讯网——每日最新资讯28at.com

代码:https://github.com/Tencent/HunyuanDiTguX28资讯网——每日最新资讯28at.com

模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiTguX28资讯网——每日最新资讯28at.com

论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdfguX28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4968-0.html腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 商汤科技 CEO 徐立:AI 行业很热但未到“超级时刻”,需要应用来支撑

下一篇: 一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

标签:
  • 热门焦点
  • 欧盟人工智能法案:四种AI系统风险类型的划分及监管措施

    作者:赵志东 蔡佳雯来源:区块链日报该法案采用风险分级的规制路径,将人工智能系统的风险划分成不可接受的风险、高风险、有限风险和轻微风险四种类型,并针对不同类型施加了不同
  • 元宇宙里卖酸奶,好炸裂的操作!

    作者 | 李东阳 来源 | 首席营销官有没有发现,当下的热搜出现一个有意思的现象,那就是“情怀”不知不觉成为了主流,爷青回话题讨论性非常高。前有名侦探柯南和优衣库
  • 字节跳动,刚刚投了一位虚拟女生

    今年第一笔虚拟人融资出炉了。投资界获悉,杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认,本轮
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • 用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

    你可能听说过不可伪造的代币,或NFTs。NFTs是数字代币,代表完全独特的项目的所有权;存储在区块链中并可追踪,它们不能被修改、替换或复制。作为NFT铸造的资产在数字
  • 融资千万美元的元宇宙平台UGC到底是什么?

    据获悉,全球化元宇宙社交平台BUD Technologies, Inc.(以下简称“BUD”)宣布完成1500万美元A+轮融资,本轮融资由启明创投领投,老股东源码资本、GGV纪源资本、云九资
  • MR——元宇宙平台的下一代入口

    作为“元宇宙”的领头羊,Meta的一举一动都受到业内的高度关注。华尔街见闻提及,2月17日周四,Facebook母公司Meta在透露,其混合现实技术(MR)将在几年后实现,让人们对元
  • 花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
Top