当前位置:首页 > 元宇宙 > AI

GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

来源: 责编: 时间:2025-04-06 08:33:54 169观看
导读 近来风头正盛的 GPT-4.5,不仅在日常问答中展现出惊人的上下文连贯性,在设计、咨询等需要高度创造力的任务中也大放异彩。当 GPT-4.5 在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个

近来风头正盛的 GPT-4.5,不仅在日常问答中展现出惊人的上下文连贯性,在设计、咨询等需要高度创造力的任务中也大放异彩。4z328资讯网——每日最新资讯28at.com

当 GPT-4.5 在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个关键问题浮出水面:4z328资讯网——每日最新资讯28at.com

多模态大模型(MLLMs)的“创造力天花板”究竟在哪里?4z328资讯网——每日最新资讯28at.com

写一篇基于图片的短篇小说、分析一张复杂的教学课件、甚至设计一份用户界面……4z328资讯网——每日最新资讯28at.com

这些对于人类驾轻就熟的任务,对于现有的部分多模态大模型却往往是“高难动作”。4z328资讯网——每日最新资讯28at.com

但现有的评测基准首先难以衡量多模态大模型的输出是否具有创造性的见解,同时部分情境过于简单,难以真实反映模型在复杂场景下的创造性思维。4z328资讯网——每日最新资讯28at.com

如何科学量化“多模态创造力”?4z328资讯网——每日最新资讯28at.com

为此,浙江大学联合上海人工智能实验室等团队重磅发布 Creation-MMBench——4z328资讯网——每日最新资讯28at.com

全球首个面向真实场景的多模态创造力评测基准,覆盖四大任务类别、51 项细粒度任务,用 765 个高难度测试案例,为 MLLMs 的“视觉创意智能”提供全方位体检。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

为何我们要关注“视觉创造智能”?

在人工智能的“智力三元论”中,创造性智能(Creative Intelligence)始终是最难评估和攻克的一环,主要涉及的是在不同背景下生成新颖和适当解决方案的能力。4z328资讯网——每日最新资讯28at.com

现有的 MLLM 评测基准,如 MMBench、MMMU 等,往往更偏重分析性或实用性任务,却忽略了多模态 AI 在真实生活中常见的“创意类任务”。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

虽然存在部分多模态基准纳入了对模型创意力的考察,但他们规模较小,多为单图,且情境简单,普通的模型即可轻松回答出对应问题。4z328资讯网——每日最新资讯28at.com

相较而言,Creation-MMBench 设置的情境复杂,内容多样,且单图 / 多图问题交错,能更好的对多模态大模型创意力进行考察。4z328资讯网——每日最新资讯28at.com

举个例子4z328资讯网——每日最新资讯28at.com

让模型扮演一位博物馆讲解员,基于展品图像生成一段引人入胜的讲解词。4z328资讯网——每日最新资讯28at.com

让模型化身散文作家,围绕人物照片撰写一篇情感性和故事性兼备的散文。4z328资讯网——每日最新资讯28at.com

让模型亲自上任作为米其林大厨,给萌新小白解读菜肴照片并用一份细致入微的菜品引领菜鸟入门。4z328资讯网——每日最新资讯28at.com

在这些任务中,模型需要同时具备“视觉内容理解 + 情境适应 + 创意性文本生成”的能力,这正是现有基准难以评估的核心能力。4z328资讯网——每日最新资讯28at.com

Creation-MMBench 有多硬核?1. 真实场景 × 多模态融合:从“纸上谈兵”到“实战演练”

4z328资讯网——每日最新资讯28at.com

四大任务类型:Creation-MMBench 共有 51 个任务,主要可分为四个类别,分别是4z328资讯网——每日最新资讯28at.com

文学创作:专注于文学领域的创作活动,包括诗歌、对话、故事等形式的写作。这一类别旨在评估模型在艺术性和创造性表达方面的能力,例如生成富有情感的文字、构建引人入胜的叙事或塑造生动的角色形象。典型人物包括故事续写、诗歌撰写等。4z328资讯网——每日最新资讯28at.com

日常功能性写作:聚焦于日常生活中常见的功能性写作任务,例如社交媒体内容撰写、公益事业倡议等。这类任务强调实用性,考察模型在处理真实场景中常见写作需求时的表现,例如撰写电子邮件、回答生活中的实际问题等。4z328资讯网——每日最新资讯28at.com

专业功能性写作:关注专业领域内的功能性写作和创造性问题解决能力。具体任务包括室内设计、教案撰写、风景导游词创作等。这一类别要求模型具备较强的专业知识背景和逻辑推理能力,能够应对较为复杂且高度专业化的工作场景。4z328资讯网——每日最新资讯28at.com

多模态理解与创作:注重视觉理解与创造力的结合,涉及文档解析、摄影作品欣赏等任务。此类别评估模型在处理多模态信息(如文本与图像结合)时的表现,考察其是否能够从视觉内容中提取关键信息,并将其转化为有意义的创意输出。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

千张跨域图像:在图像上,Creation-MMBench 横跨艺术作品、设计图纸、生活场景等近 30 个类别,涉及千张不同图片。单任务最多支持 9 图输入,逼真还原真实创作环境。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

复杂现实情境:对于每一个实例,都基于真实图像进行标注,配套明确角色、特定背景、任务指令与额外要求四部分共同组成问题。同时,相较于其他广泛使用的多模态评测基准,Creation-MMBench 具有更全面和复杂的问题设计,大多数问题的长度超过 500 个词元,这有助于模型捕捉更丰富的创意上下文。4z328资讯网——每日最新资讯28at.com

2. 双重评估体系:拒绝“主观臆断”,量化创意质量

在评估策略上,团队选择了使用多模态大模型作为评判模型,同时使用两个不同指标进行双重评估。4z328资讯网——每日最新资讯28at.com

视觉事实性评分(VFS):确保模型不是“瞎编”—— 必须读懂图像细节。4z328资讯网——每日最新资讯28at.com

对于部分实例,需要首先对模型对图像的基础理解能力进行评估,以避免胡乱创作骗得高分。团队对这类实例逐个制定了视觉事实性标准,对图片关键细节进行严卡,按点打分。4z328资讯网——每日最新资讯28at.com

创意奖励分(Reward):不仅看懂图,更得写得好、写得巧!4z328资讯网——每日最新资讯28at.com

除了基础理解能力外,Creation-MMBench 更注重考察的是模型结合视觉内容的创造性能力与表述能力。因为每个实例的角色、背景、任务指令与额外要求均存在不同,因此团队成员对每个实例制定了贴合的评判标准,从表达流畅性、逻辑连贯性到创意新颖性等多方面进行评价。4z328资讯网——每日最新资讯28at.com

此外,为了确保评判的公正性和一致性,GPT-4o 作为评判模型,会充分结合评判标准、画面内容、模型回复等内容,在双向评判(即评估过程中对两个模型位置进行互换,避免评估偏差)下给出模型回复与参考答案(非标准答案)的相对偏好。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

为了验证评判模型和采用的评判策略的可靠性,团队招募了志愿者对 13% 的样本进行人工评估,结果如上图所示。相较于其他评判模型,GPT-4o 展现出了更强的人类偏好一致性,同时也证明了双向评判的必要性。4z328资讯网——每日最新资讯28at.com

实验结果:开源 vs 闭源,谁才是创意王者?!

团队基于 VLMEvalKit 工具链,对 20 多个主流 MLLMs 进行了全面评估,包括 GPT-4o、Gemini 系列、Claude 3.5,以及 Qwen2.5-VL、InternVL 等开源模型。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

整体而言,与 GPT-4o 相比,Gemini-2.0-Pro 展现出了更为出众的多模态创意性写作能力,在部分任务如日常功能性写作上能有效的整合图像生成贴合日常生活的内容。4z328资讯网——每日最新资讯28at.com

它强大的先验知识也在专业功能性写作上极大的帮助了它,但对于部分细粒度视觉内容理解上,仍与 GPT-4o 存在不小的差距。4z328资讯网——每日最新资讯28at.com

令人惊讶的是,主打创意写作的 GPT-4.5 的整体表现却弱于 Gemini-pro 和 GPT-4o,但在多模态内容理解及创作任务上展现出了较为出众的能力。4z328资讯网——每日最新资讯28at.com

开源模型如 Qwen2.5-VL-72B,InternVL2.5-78B-MPO 等也展现出了与闭源模型可以匹敌的创作能力,但整体而言仍与闭源模型存在一定差距。4z328资讯网——每日最新资讯28at.com

从类别上表现来看,专业功能性写作由于对专业性知识的需求高、对视觉内容的理解要求深因而对模型的问题难度较大,而日常功能性写作由于贴近日常社交生活,情境和视觉内容相对简单,因而整体表现相对较弱的模型也能有良好的表现。尽管大多数模型在多模态理解与创作这一任务类型上视觉事实性评分较高,但它们基于视觉内容的再创作仍然存在一定瓶颈。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

为了更好地比较模型的客观性能与其视觉创造力,团队使用 OpenCompass 多模态评测榜单的平均分来表示整体客观性能。4z328资讯网——每日最新资讯28at.com

如上图所示,部分模型尽管在客观性能上表现强劲,但在开放式视觉创造力任务中却表现不佳。这些模型往往在有明确答案的任务中表现出色,但在生成具有创造性和情境相关的内容方面却显得不足。这种差异说明传统的客观指标可能无法完全捕捉模型在复杂现实场景中的创造能力,因而证明了 Creation-MMBench 填补这一领域的重要性。4z328资讯网——每日最新资讯28at.com

进一步探索:视觉微调是把双刃剑

当前大语言模型的创作能力评判基准多集中于特定主题(如生成科研 idea),相对较为单一且未能揭示 LLM 在多种不同日常场景中的创作能力。4z328资讯网——每日最新资讯28at.com

因此团队使用 GPT-4o 对图像内容进行细致描述,构建了纯文本的 Creation-MMBench-TO。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

从纯语言模型的评测结果来看,闭源 LLM 的创作能力略优于开源的 LLMs,令人惊讶的是,GPT-4o 在 Creation-MMBench-TO 上的创意奖励分更高。这可能是因为该模型能够在描述的帮助下更专注于发散思维和自由创作,从而减少基本视觉内容理解对创造力的负面影响。4z328资讯网——每日最新资讯28at.com

同时为了进一步调查视觉指令微调对 LLM 的影响,团队进行了对比实验,结果表明,经过视觉指令微调的开源多模态大模型在 Creation-MMBench-TO 上的表现始终低于相应的语言基座模型。4z328资讯网——每日最新资讯28at.com

这可能是由于微调过程中使用的问答对长度相对有限,限制了模型理解较长文本中详细内容的能力,进而无法代入情境进行长文本创作,从而导致视觉事实性评分和创意奖励分均相对较低。4z328资讯网——每日最新资讯28at.com

4z328资讯网——每日最新资讯28at.com

团队同样还对部分模型进行了定性研究,如上图所示。任务类型为软件工程图像解释,从属于专业功能性写作。4z328资讯网——每日最新资讯28at.com

结果显示,Qwen2.5-VL 由于对特定领域知识理解不足,将泳道图误判为数据流图,从而导致后续的图表分析错误。4z328资讯网——每日最新资讯28at.com

相比之下,GPT-4o 有效避免了这个错误,其整体语言更加专业和结构化,展示了对图表更准确和详细的解释,从而获得了评审模型的青睐。4z328资讯网——每日最新资讯28at.com

这个例子也反映了特定学科知识和对图像内容的详细理解在这一类任务中的重要作用,表现出了开源模型和闭源模型间仍存在一定差距。4z328资讯网——每日最新资讯28at.com

总结:

Creation-MMBench 是一个新颖的基准,旨在评估多模态大模型在现实场景中的创作能力。该基准包含 765 个实例,涵盖 51 个详细任务。4z328资讯网——每日最新资讯28at.com

对于每个实例,他们撰写了对应的评判标准,以评估模型回复的质量和视觉事实性。4z328资讯网——每日最新资讯28at.com

此外,团队通过用相应的文本描述替换图像输入,创建了一个仅文本版本 Creation-MMBench-TO。对这两个基准的实验全面的评估了主流多模态大模型的创作能力,并探查出了视觉指令微调对模型的潜在负面影响。4z328资讯网——每日最新资讯28at.com

Creation-MMBench 现已集成至 VLMEvalKit,支持一键评测,完整评估你的模型在创意任务中的表现。想知道你的模型能不能讲好一个图像里的故事?4z328资讯网——每日最新资讯28at.com

来试试 Creation-MMBench 一键跑分,用数据说话。4z328资讯网——每日最新资讯28at.com

Paper:https://arxiv.org/abs/2503.144784z328资讯网——每日最新资讯28at.com

Github:https://github.com/open-compass/Creation-MMBench4z328资讯网——每日最新资讯28at.com

HomePage:https://open-compass.github.io/Creation-MMBench/4z328资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:上海 AI Lab 团队,原标题《GPT-4.5 创造力比 GPT-4o 弱!浙大上海 AI Lab 发布新基准,寻找多模态创造力天花板》4z328资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11958-0.htmlGPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 非洲人工智能峰会启幕:千余代表共议人口红利,AI超级计算中心计划亮相

下一篇: 谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

标签:
  • 热门焦点
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 避坑指南:远离具有这些特性的NFT

    关于NFT,在我们的文章中一直以来都是常驻嘉宾,不止因为NFT背后隐藏的潜力,更因为在这个NFT世界里冥冥之中仿佛有一双幕后的手,OpenSea、库里、ERC115、视觉中国、
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • 以太坊伦敦升级后,随之生效的以太坊EIP-1559是什么?

    作者:三黎过去的一年里,除了 BTC 一如既往稳坐王位,DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时,也使得其网络日渐拥堵、交易费用增高,成为
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • 元宇宙画廊体验报告:有点头疼。

    2 月 10 日,Hrishi Rajasekar 在旧金山铸币厂的沉浸式 NFT 展览 Verse 观看增强现实艺术品。“我们现在在虚拟世界中吗?时间好像变长了” 我问身后排队的人。我
  • NFT行业的三大区块链之一引起了Snoop Dogg的强烈兴趣,究竟有何潜力?

    Block-810多个区块链吸引了希望创建单个NFT或整个集合的用户的注意。Tezos是其中因其低费用和低碳排放方式而备受赞誉的区块链,就连Snoop Dogg也希望通过公开他
Top