当前位置:首页 > 元宇宙 > AI

GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

来源: 责编: 时间:2025-04-06 08:33:54 139观看
导读 近来风头正盛的 GPT-4.5,不仅在日常问答中展现出惊人的上下文连贯性,在设计、咨询等需要高度创造力的任务中也大放异彩。当 GPT-4.5 在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个

近来风头正盛的 GPT-4.5,不仅在日常问答中展现出惊人的上下文连贯性,在设计、咨询等需要高度创造力的任务中也大放异彩。Y3t28资讯网——每日最新资讯28at.com

当 GPT-4.5 在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个关键问题浮出水面:Y3t28资讯网——每日最新资讯28at.com

多模态大模型(MLLMs)的“创造力天花板”究竟在哪里?Y3t28资讯网——每日最新资讯28at.com

写一篇基于图片的短篇小说、分析一张复杂的教学课件、甚至设计一份用户界面……Y3t28资讯网——每日最新资讯28at.com

这些对于人类驾轻就熟的任务,对于现有的部分多模态大模型却往往是“高难动作”。Y3t28资讯网——每日最新资讯28at.com

但现有的评测基准首先难以衡量多模态大模型的输出是否具有创造性的见解,同时部分情境过于简单,难以真实反映模型在复杂场景下的创造性思维。Y3t28资讯网——每日最新资讯28at.com

如何科学量化“多模态创造力”?Y3t28资讯网——每日最新资讯28at.com

为此,浙江大学联合上海人工智能实验室等团队重磅发布 Creation-MMBench——Y3t28资讯网——每日最新资讯28at.com

全球首个面向真实场景的多模态创造力评测基准,覆盖四大任务类别、51 项细粒度任务,用 765 个高难度测试案例,为 MLLMs 的“视觉创意智能”提供全方位体检。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

为何我们要关注“视觉创造智能”?

在人工智能的“智力三元论”中,创造性智能(Creative Intelligence)始终是最难评估和攻克的一环,主要涉及的是在不同背景下生成新颖和适当解决方案的能力。Y3t28资讯网——每日最新资讯28at.com

现有的 MLLM 评测基准,如 MMBench、MMMU 等,往往更偏重分析性或实用性任务,却忽略了多模态 AI 在真实生活中常见的“创意类任务”。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

虽然存在部分多模态基准纳入了对模型创意力的考察,但他们规模较小,多为单图,且情境简单,普通的模型即可轻松回答出对应问题。Y3t28资讯网——每日最新资讯28at.com

相较而言,Creation-MMBench 设置的情境复杂,内容多样,且单图 / 多图问题交错,能更好的对多模态大模型创意力进行考察。Y3t28资讯网——每日最新资讯28at.com

举个例子Y3t28资讯网——每日最新资讯28at.com

让模型扮演一位博物馆讲解员,基于展品图像生成一段引人入胜的讲解词。Y3t28资讯网——每日最新资讯28at.com

让模型化身散文作家,围绕人物照片撰写一篇情感性和故事性兼备的散文。Y3t28资讯网——每日最新资讯28at.com

让模型亲自上任作为米其林大厨,给萌新小白解读菜肴照片并用一份细致入微的菜品引领菜鸟入门。Y3t28资讯网——每日最新资讯28at.com

在这些任务中,模型需要同时具备“视觉内容理解 + 情境适应 + 创意性文本生成”的能力,这正是现有基准难以评估的核心能力。Y3t28资讯网——每日最新资讯28at.com

Creation-MMBench 有多硬核?1. 真实场景 × 多模态融合:从“纸上谈兵”到“实战演练”

Y3t28资讯网——每日最新资讯28at.com

四大任务类型:Creation-MMBench 共有 51 个任务,主要可分为四个类别,分别是Y3t28资讯网——每日最新资讯28at.com

文学创作:专注于文学领域的创作活动,包括诗歌、对话、故事等形式的写作。这一类别旨在评估模型在艺术性和创造性表达方面的能力,例如生成富有情感的文字、构建引人入胜的叙事或塑造生动的角色形象。典型人物包括故事续写、诗歌撰写等。Y3t28资讯网——每日最新资讯28at.com

日常功能性写作:聚焦于日常生活中常见的功能性写作任务,例如社交媒体内容撰写、公益事业倡议等。这类任务强调实用性,考察模型在处理真实场景中常见写作需求时的表现,例如撰写电子邮件、回答生活中的实际问题等。Y3t28资讯网——每日最新资讯28at.com

专业功能性写作:关注专业领域内的功能性写作和创造性问题解决能力。具体任务包括室内设计、教案撰写、风景导游词创作等。这一类别要求模型具备较强的专业知识背景和逻辑推理能力,能够应对较为复杂且高度专业化的工作场景。Y3t28资讯网——每日最新资讯28at.com

多模态理解与创作:注重视觉理解与创造力的结合,涉及文档解析、摄影作品欣赏等任务。此类别评估模型在处理多模态信息(如文本与图像结合)时的表现,考察其是否能够从视觉内容中提取关键信息,并将其转化为有意义的创意输出。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

千张跨域图像:在图像上,Creation-MMBench 横跨艺术作品、设计图纸、生活场景等近 30 个类别,涉及千张不同图片。单任务最多支持 9 图输入,逼真还原真实创作环境。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

复杂现实情境:对于每一个实例,都基于真实图像进行标注,配套明确角色、特定背景、任务指令与额外要求四部分共同组成问题。同时,相较于其他广泛使用的多模态评测基准,Creation-MMBench 具有更全面和复杂的问题设计,大多数问题的长度超过 500 个词元,这有助于模型捕捉更丰富的创意上下文。Y3t28资讯网——每日最新资讯28at.com

2. 双重评估体系:拒绝“主观臆断”,量化创意质量

在评估策略上,团队选择了使用多模态大模型作为评判模型,同时使用两个不同指标进行双重评估。Y3t28资讯网——每日最新资讯28at.com

视觉事实性评分(VFS):确保模型不是“瞎编”—— 必须读懂图像细节。Y3t28资讯网——每日最新资讯28at.com

对于部分实例,需要首先对模型对图像的基础理解能力进行评估,以避免胡乱创作骗得高分。团队对这类实例逐个制定了视觉事实性标准,对图片关键细节进行严卡,按点打分。Y3t28资讯网——每日最新资讯28at.com

创意奖励分(Reward):不仅看懂图,更得写得好、写得巧!Y3t28资讯网——每日最新资讯28at.com

除了基础理解能力外,Creation-MMBench 更注重考察的是模型结合视觉内容的创造性能力与表述能力。因为每个实例的角色、背景、任务指令与额外要求均存在不同,因此团队成员对每个实例制定了贴合的评判标准,从表达流畅性、逻辑连贯性到创意新颖性等多方面进行评价。Y3t28资讯网——每日最新资讯28at.com

此外,为了确保评判的公正性和一致性,GPT-4o 作为评判模型,会充分结合评判标准、画面内容、模型回复等内容,在双向评判(即评估过程中对两个模型位置进行互换,避免评估偏差)下给出模型回复与参考答案(非标准答案)的相对偏好。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

为了验证评判模型和采用的评判策略的可靠性,团队招募了志愿者对 13% 的样本进行人工评估,结果如上图所示。相较于其他评判模型,GPT-4o 展现出了更强的人类偏好一致性,同时也证明了双向评判的必要性。Y3t28资讯网——每日最新资讯28at.com

实验结果:开源 vs 闭源,谁才是创意王者?!

团队基于 VLMEvalKit 工具链,对 20 多个主流 MLLMs 进行了全面评估,包括 GPT-4o、Gemini 系列、Claude 3.5,以及 Qwen2.5-VL、InternVL 等开源模型。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

整体而言,与 GPT-4o 相比,Gemini-2.0-Pro 展现出了更为出众的多模态创意性写作能力,在部分任务如日常功能性写作上能有效的整合图像生成贴合日常生活的内容。Y3t28资讯网——每日最新资讯28at.com

它强大的先验知识也在专业功能性写作上极大的帮助了它,但对于部分细粒度视觉内容理解上,仍与 GPT-4o 存在不小的差距。Y3t28资讯网——每日最新资讯28at.com

令人惊讶的是,主打创意写作的 GPT-4.5 的整体表现却弱于 Gemini-pro 和 GPT-4o,但在多模态内容理解及创作任务上展现出了较为出众的能力。Y3t28资讯网——每日最新资讯28at.com

开源模型如 Qwen2.5-VL-72B,InternVL2.5-78B-MPO 等也展现出了与闭源模型可以匹敌的创作能力,但整体而言仍与闭源模型存在一定差距。Y3t28资讯网——每日最新资讯28at.com

从类别上表现来看,专业功能性写作由于对专业性知识的需求高、对视觉内容的理解要求深因而对模型的问题难度较大,而日常功能性写作由于贴近日常社交生活,情境和视觉内容相对简单,因而整体表现相对较弱的模型也能有良好的表现。尽管大多数模型在多模态理解与创作这一任务类型上视觉事实性评分较高,但它们基于视觉内容的再创作仍然存在一定瓶颈。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

为了更好地比较模型的客观性能与其视觉创造力,团队使用 OpenCompass 多模态评测榜单的平均分来表示整体客观性能。Y3t28资讯网——每日最新资讯28at.com

如上图所示,部分模型尽管在客观性能上表现强劲,但在开放式视觉创造力任务中却表现不佳。这些模型往往在有明确答案的任务中表现出色,但在生成具有创造性和情境相关的内容方面却显得不足。这种差异说明传统的客观指标可能无法完全捕捉模型在复杂现实场景中的创造能力,因而证明了 Creation-MMBench 填补这一领域的重要性。Y3t28资讯网——每日最新资讯28at.com

进一步探索:视觉微调是把双刃剑

当前大语言模型的创作能力评判基准多集中于特定主题(如生成科研 idea),相对较为单一且未能揭示 LLM 在多种不同日常场景中的创作能力。Y3t28资讯网——每日最新资讯28at.com

因此团队使用 GPT-4o 对图像内容进行细致描述,构建了纯文本的 Creation-MMBench-TO。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

从纯语言模型的评测结果来看,闭源 LLM 的创作能力略优于开源的 LLMs,令人惊讶的是,GPT-4o 在 Creation-MMBench-TO 上的创意奖励分更高。这可能是因为该模型能够在描述的帮助下更专注于发散思维和自由创作,从而减少基本视觉内容理解对创造力的负面影响。Y3t28资讯网——每日最新资讯28at.com

同时为了进一步调查视觉指令微调对 LLM 的影响,团队进行了对比实验,结果表明,经过视觉指令微调的开源多模态大模型在 Creation-MMBench-TO 上的表现始终低于相应的语言基座模型。Y3t28资讯网——每日最新资讯28at.com

这可能是由于微调过程中使用的问答对长度相对有限,限制了模型理解较长文本中详细内容的能力,进而无法代入情境进行长文本创作,从而导致视觉事实性评分和创意奖励分均相对较低。Y3t28资讯网——每日最新资讯28at.com

Y3t28资讯网——每日最新资讯28at.com

团队同样还对部分模型进行了定性研究,如上图所示。任务类型为软件工程图像解释,从属于专业功能性写作。Y3t28资讯网——每日最新资讯28at.com

结果显示,Qwen2.5-VL 由于对特定领域知识理解不足,将泳道图误判为数据流图,从而导致后续的图表分析错误。Y3t28资讯网——每日最新资讯28at.com

相比之下,GPT-4o 有效避免了这个错误,其整体语言更加专业和结构化,展示了对图表更准确和详细的解释,从而获得了评审模型的青睐。Y3t28资讯网——每日最新资讯28at.com

这个例子也反映了特定学科知识和对图像内容的详细理解在这一类任务中的重要作用,表现出了开源模型和闭源模型间仍存在一定差距。Y3t28资讯网——每日最新资讯28at.com

总结:

Creation-MMBench 是一个新颖的基准,旨在评估多模态大模型在现实场景中的创作能力。该基准包含 765 个实例,涵盖 51 个详细任务。Y3t28资讯网——每日最新资讯28at.com

对于每个实例,他们撰写了对应的评判标准,以评估模型回复的质量和视觉事实性。Y3t28资讯网——每日最新资讯28at.com

此外,团队通过用相应的文本描述替换图像输入,创建了一个仅文本版本 Creation-MMBench-TO。对这两个基准的实验全面的评估了主流多模态大模型的创作能力,并探查出了视觉指令微调对模型的潜在负面影响。Y3t28资讯网——每日最新资讯28at.com

Creation-MMBench 现已集成至 VLMEvalKit,支持一键评测,完整评估你的模型在创意任务中的表现。想知道你的模型能不能讲好一个图像里的故事?Y3t28资讯网——每日最新资讯28at.com

来试试 Creation-MMBench 一键跑分,用数据说话。Y3t28资讯网——每日最新资讯28at.com

Paper:https://arxiv.org/abs/2503.14478Y3t28资讯网——每日最新资讯28at.com

Github:https://github.com/open-compass/Creation-MMBenchY3t28资讯网——每日最新资讯28at.com

HomePage:https://open-compass.github.io/Creation-MMBench/Y3t28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:上海 AI Lab 团队,原标题《GPT-4.5 创造力比 GPT-4o 弱!浙大上海 AI Lab 发布新基准,寻找多模态创造力天花板》Y3t28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11958-0.htmlGPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 非洲人工智能峰会启幕:千余代表共议人口红利,AI超级计算中心计划亮相

下一篇: 谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • 不同于传统数字经济,元宇宙赋予商业生态更多数字资产价值!

    作者:中科基大数据元宇宙是一个去中心化的开放平台,而为了维护这样的平台,需要建立一个公平的游戏规则,确保每个元宇宙的参与者通过这个规则都可以挣到钱,他们的利益都可以得到保
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

    No.1 俄罗斯财政部长: 在俄罗斯禁止比特币就如禁止互联网一样2月16日消息,俄罗斯财政部长安东·西卢安诺夫(Anton Siluanov)表示,在俄罗斯禁止加密货币就跟禁止互
  • 纽约证券交易所母公司ICE收购tZero股份以探索代币化股票

    2 月 22 日,纽约证券交易所 (NYSE) 的母公司洲际交易所 (ICE) 宣布,它将持有私人数字证券市场 tZERO 的所有权。根据公告,ICE 将成为 tZero 的“重要”少数股东,但
  • a16z:元宇宙办公会取代实体办公室吗?

    6位不同的专家对未来的工作发表看法----元宇宙--沉浸式的、基于区块链的虚拟世界,大多数日常活动最终会在这里发生--但仍然只是一个概念。但它是一个拥有宝贵不
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
Top