当前位置:首页 > 元宇宙 > AI

给大模型生图“去油”,腾讯混元新研究 SRPO 公布

来源: 责编: 时间:2025-09-19 17:57:21 71观看
导读 9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究 SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让人像真实感“提升 3 倍”。根

9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究 SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让人像真实感“提升 3 倍”。cq628资讯网——每日最新资讯28at.com

根据介绍,该项目在发布后登上了 Hugging Face 热度榜榜首,社区量化版本下载量达 25K,Github Star 超过了 700。cq628资讯网——每日最新资讯28at.com

当前,Flux 是开源文生图社区中最广泛使用的基础模型。针对 Flux.dev.1 模型生成的人物质感“过油”的问题,SRPO(全称为 Semantic Relative Preference Optimization,语义相对偏好优化)的解决手段包括在线调整奖励偏好、优化早期生成轨迹等。cq628资讯网——每日最新资讯28at.com

cq628资讯网——每日最新资讯28at.com

cq628资讯网——每日最新资讯28at.com

官方揭秘了背后的技术:腾讯混元团队联合香港中文大学(深圳)和清华大学近日提出创新性解决方案:语义相对偏好优化(Semantic Relative Preference Optimization)。该方法创新性地提出了另一条解决思路 —— 通过语义偏好实现奖励模型的在线调整。具体来说,SRPO 通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。cq628资讯网——每日最新资讯28at.com

cq628资讯网——每日最新资讯28at.com

进一步,研究人员发现,单纯的语义引导仍存在奖励破解(rewardhacking)的风险。针对这一问题,团队提出创新的“语义相对偏好优化”策略:同时使用正向词和负向词作为引导信号,通过负向梯度有效中和奖励模型的一般性偏差,同时保留语义差异中的特定偏好。cq628资讯网——每日最新资讯28at.com

研究团队发现,传统方法(如 ReFL,DRaFT)通常仅优化生成轨迹的后半段,这种策略极易导致奖励模型在高频信息上的过拟合问题。具体表现为:HPSv2 奖励模型会偏好偏红色调的图像,PickScore 倾向于紫色图像,而 ImageReward 则容易对过曝区域给出较高评分。cq628资讯网——每日最新资讯28at.com

基于这些发现,研究团队提出 Direct-Align 策略,对输入图像进行可控的噪声注入,随后通过单步推理,借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差,实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化,解决过拟合问题。cq628资讯网——每日最新资讯28at.com

cq628资讯网——每日最新资讯28at.com

根据介绍,SRPO 具有极高的训练效率,只需 10 分钟训练即可全面超越 DanceGRPO 的效果。cq628资讯网——每日最新资讯28at.com

cq628资讯网——每日最新资讯28at.com

▲ 与主流方法 DanceGRPO 对比无明显 hacking 现象,显著提升模型真实感

cq628资讯网——每日最新资讯28at.com

▲ 使用主流 reward 上未出现任何偏色、过饱和等奖励破解问题

SRPO 定量指标达 SOTA 水平,人类评估的真实度和美学优秀率提升超过 3 倍,训练时间相比 DanceGRPO 降低 75 倍。cq628资讯网——每日最新资讯28at.com

cq628资讯网——每日最新资讯28at.com

cq628资讯网——每日最新资讯28at.com

附上有关链接如下:cq628资讯网——每日最新资讯28at.com

论文题目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preferencecq628资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/abs/2509.06942cq628资讯网——每日最新资讯28at.com

项目主页:https://tencent.github.io/srpo-project-page/cq628资讯网——每日最新资讯28at.com

GitHub:https://github.com/Tencent-Hunyuan/SRPOcq628资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27702-0.html给大模型生图“去油”,腾讯混元新研究 SRPO 公布

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 强劲 AI 需求推动,今年四季度 NAND 与 DRAM 合约价预计大涨 15%-20%

下一篇: 让 AI 真正“能做研究”,阿里通义 DeepResearch 模型、框架、方案全开源

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 亚马逊AIGC全家桶来袭,巨头AI大乱战都有什么杀手锏

    此前,亚马逊云科技发布多款AIGC产品,其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、软件
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 英特尔首款加密芯片将于今年上市|国际动态

    No.1 英特尔首款加密芯片将于今年上市2月13日消息,英特尔首款名为“区块链加速器”的加密芯片将于今年晚些时候上市。目前,已经有两家公司预订了这项技术,分别是G
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 在元宇宙开会是什么样一种体验

    空间就是一切还记得面对面的会议吗?就在不久前,与会者需要飞到遥远的目的地,并进行鼓舞人心的对话、网络、免费食物,甚至可能会有一两个很好的小组讨论。随之而来
  • NFT领域,我们是否应该遵守版权法

    NFTs中最有争议的因素之一是你是否真的 "拥有 "你所购买的艺术品。除此之外,围绕着NFT行业内的版权和知识产权盗窃的问题也同样重要,因为人们很容易误解这些事情
  • 韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

    韩国流行音乐巨头 SM Entertainment 与加密货币交易所 Binance(币安)达成“Play2Create”NFT 合作伙伴关系。SM 娱乐一直在投资打造元宇宙该公司于 2020 年 10
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
Top