当前位置:首页 > 元宇宙 > AI

GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

来源: 责编: 时间:2025-04-06 08:33:54 180观看
导读 近来风头正盛的 GPT-4.5,不仅在日常问答中展现出惊人的上下文连贯性,在设计、咨询等需要高度创造力的任务中也大放异彩。当 GPT-4.5 在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个

近来风头正盛的 GPT-4.5,不仅在日常问答中展现出惊人的上下文连贯性,在设计、咨询等需要高度创造力的任务中也大放异彩。XIH28资讯网——每日最新资讯28at.com

当 GPT-4.5 在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个关键问题浮出水面:XIH28资讯网——每日最新资讯28at.com

多模态大模型(MLLMs)的“创造力天花板”究竟在哪里?XIH28资讯网——每日最新资讯28at.com

写一篇基于图片的短篇小说、分析一张复杂的教学课件、甚至设计一份用户界面……XIH28资讯网——每日最新资讯28at.com

这些对于人类驾轻就熟的任务,对于现有的部分多模态大模型却往往是“高难动作”。XIH28资讯网——每日最新资讯28at.com

但现有的评测基准首先难以衡量多模态大模型的输出是否具有创造性的见解,同时部分情境过于简单,难以真实反映模型在复杂场景下的创造性思维。XIH28资讯网——每日最新资讯28at.com

如何科学量化“多模态创造力”?XIH28资讯网——每日最新资讯28at.com

为此,浙江大学联合上海人工智能实验室等团队重磅发布 Creation-MMBench——XIH28资讯网——每日最新资讯28at.com

全球首个面向真实场景的多模态创造力评测基准,覆盖四大任务类别、51 项细粒度任务,用 765 个高难度测试案例,为 MLLMs 的“视觉创意智能”提供全方位体检。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

为何我们要关注“视觉创造智能”?

在人工智能的“智力三元论”中,创造性智能(Creative Intelligence)始终是最难评估和攻克的一环,主要涉及的是在不同背景下生成新颖和适当解决方案的能力。XIH28资讯网——每日最新资讯28at.com

现有的 MLLM 评测基准,如 MMBench、MMMU 等,往往更偏重分析性或实用性任务,却忽略了多模态 AI 在真实生活中常见的“创意类任务”。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

虽然存在部分多模态基准纳入了对模型创意力的考察,但他们规模较小,多为单图,且情境简单,普通的模型即可轻松回答出对应问题。XIH28资讯网——每日最新资讯28at.com

相较而言,Creation-MMBench 设置的情境复杂,内容多样,且单图 / 多图问题交错,能更好的对多模态大模型创意力进行考察。XIH28资讯网——每日最新资讯28at.com

举个例子XIH28资讯网——每日最新资讯28at.com

让模型扮演一位博物馆讲解员,基于展品图像生成一段引人入胜的讲解词。XIH28资讯网——每日最新资讯28at.com

让模型化身散文作家,围绕人物照片撰写一篇情感性和故事性兼备的散文。XIH28资讯网——每日最新资讯28at.com

让模型亲自上任作为米其林大厨,给萌新小白解读菜肴照片并用一份细致入微的菜品引领菜鸟入门。XIH28资讯网——每日最新资讯28at.com

在这些任务中,模型需要同时具备“视觉内容理解 + 情境适应 + 创意性文本生成”的能力,这正是现有基准难以评估的核心能力。XIH28资讯网——每日最新资讯28at.com

Creation-MMBench 有多硬核?1. 真实场景 × 多模态融合:从“纸上谈兵”到“实战演练”

XIH28资讯网——每日最新资讯28at.com

四大任务类型:Creation-MMBench 共有 51 个任务,主要可分为四个类别,分别是XIH28资讯网——每日最新资讯28at.com

文学创作:专注于文学领域的创作活动,包括诗歌、对话、故事等形式的写作。这一类别旨在评估模型在艺术性和创造性表达方面的能力,例如生成富有情感的文字、构建引人入胜的叙事或塑造生动的角色形象。典型人物包括故事续写、诗歌撰写等。XIH28资讯网——每日最新资讯28at.com

日常功能性写作:聚焦于日常生活中常见的功能性写作任务,例如社交媒体内容撰写、公益事业倡议等。这类任务强调实用性,考察模型在处理真实场景中常见写作需求时的表现,例如撰写电子邮件、回答生活中的实际问题等。XIH28资讯网——每日最新资讯28at.com

专业功能性写作:关注专业领域内的功能性写作和创造性问题解决能力。具体任务包括室内设计、教案撰写、风景导游词创作等。这一类别要求模型具备较强的专业知识背景和逻辑推理能力,能够应对较为复杂且高度专业化的工作场景。XIH28资讯网——每日最新资讯28at.com

多模态理解与创作:注重视觉理解与创造力的结合,涉及文档解析、摄影作品欣赏等任务。此类别评估模型在处理多模态信息(如文本与图像结合)时的表现,考察其是否能够从视觉内容中提取关键信息,并将其转化为有意义的创意输出。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

千张跨域图像:在图像上,Creation-MMBench 横跨艺术作品、设计图纸、生活场景等近 30 个类别,涉及千张不同图片。单任务最多支持 9 图输入,逼真还原真实创作环境。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

复杂现实情境:对于每一个实例,都基于真实图像进行标注,配套明确角色、特定背景、任务指令与额外要求四部分共同组成问题。同时,相较于其他广泛使用的多模态评测基准,Creation-MMBench 具有更全面和复杂的问题设计,大多数问题的长度超过 500 个词元,这有助于模型捕捉更丰富的创意上下文。XIH28资讯网——每日最新资讯28at.com

2. 双重评估体系:拒绝“主观臆断”,量化创意质量

在评估策略上,团队选择了使用多模态大模型作为评判模型,同时使用两个不同指标进行双重评估。XIH28资讯网——每日最新资讯28at.com

视觉事实性评分(VFS):确保模型不是“瞎编”—— 必须读懂图像细节。XIH28资讯网——每日最新资讯28at.com

对于部分实例,需要首先对模型对图像的基础理解能力进行评估,以避免胡乱创作骗得高分。团队对这类实例逐个制定了视觉事实性标准,对图片关键细节进行严卡,按点打分。XIH28资讯网——每日最新资讯28at.com

创意奖励分(Reward):不仅看懂图,更得写得好、写得巧!XIH28资讯网——每日最新资讯28at.com

除了基础理解能力外,Creation-MMBench 更注重考察的是模型结合视觉内容的创造性能力与表述能力。因为每个实例的角色、背景、任务指令与额外要求均存在不同,因此团队成员对每个实例制定了贴合的评判标准,从表达流畅性、逻辑连贯性到创意新颖性等多方面进行评价。XIH28资讯网——每日最新资讯28at.com

此外,为了确保评判的公正性和一致性,GPT-4o 作为评判模型,会充分结合评判标准、画面内容、模型回复等内容,在双向评判(即评估过程中对两个模型位置进行互换,避免评估偏差)下给出模型回复与参考答案(非标准答案)的相对偏好。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

为了验证评判模型和采用的评判策略的可靠性,团队招募了志愿者对 13% 的样本进行人工评估,结果如上图所示。相较于其他评判模型,GPT-4o 展现出了更强的人类偏好一致性,同时也证明了双向评判的必要性。XIH28资讯网——每日最新资讯28at.com

实验结果:开源 vs 闭源,谁才是创意王者?!

团队基于 VLMEvalKit 工具链,对 20 多个主流 MLLMs 进行了全面评估,包括 GPT-4o、Gemini 系列、Claude 3.5,以及 Qwen2.5-VL、InternVL 等开源模型。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

整体而言,与 GPT-4o 相比,Gemini-2.0-Pro 展现出了更为出众的多模态创意性写作能力,在部分任务如日常功能性写作上能有效的整合图像生成贴合日常生活的内容。XIH28资讯网——每日最新资讯28at.com

它强大的先验知识也在专业功能性写作上极大的帮助了它,但对于部分细粒度视觉内容理解上,仍与 GPT-4o 存在不小的差距。XIH28资讯网——每日最新资讯28at.com

令人惊讶的是,主打创意写作的 GPT-4.5 的整体表现却弱于 Gemini-pro 和 GPT-4o,但在多模态内容理解及创作任务上展现出了较为出众的能力。XIH28资讯网——每日最新资讯28at.com

开源模型如 Qwen2.5-VL-72B,InternVL2.5-78B-MPO 等也展现出了与闭源模型可以匹敌的创作能力,但整体而言仍与闭源模型存在一定差距。XIH28资讯网——每日最新资讯28at.com

从类别上表现来看,专业功能性写作由于对专业性知识的需求高、对视觉内容的理解要求深因而对模型的问题难度较大,而日常功能性写作由于贴近日常社交生活,情境和视觉内容相对简单,因而整体表现相对较弱的模型也能有良好的表现。尽管大多数模型在多模态理解与创作这一任务类型上视觉事实性评分较高,但它们基于视觉内容的再创作仍然存在一定瓶颈。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

为了更好地比较模型的客观性能与其视觉创造力,团队使用 OpenCompass 多模态评测榜单的平均分来表示整体客观性能。XIH28资讯网——每日最新资讯28at.com

如上图所示,部分模型尽管在客观性能上表现强劲,但在开放式视觉创造力任务中却表现不佳。这些模型往往在有明确答案的任务中表现出色,但在生成具有创造性和情境相关的内容方面却显得不足。这种差异说明传统的客观指标可能无法完全捕捉模型在复杂现实场景中的创造能力,因而证明了 Creation-MMBench 填补这一领域的重要性。XIH28资讯网——每日最新资讯28at.com

进一步探索:视觉微调是把双刃剑

当前大语言模型的创作能力评判基准多集中于特定主题(如生成科研 idea),相对较为单一且未能揭示 LLM 在多种不同日常场景中的创作能力。XIH28资讯网——每日最新资讯28at.com

因此团队使用 GPT-4o 对图像内容进行细致描述,构建了纯文本的 Creation-MMBench-TO。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

从纯语言模型的评测结果来看,闭源 LLM 的创作能力略优于开源的 LLMs,令人惊讶的是,GPT-4o 在 Creation-MMBench-TO 上的创意奖励分更高。这可能是因为该模型能够在描述的帮助下更专注于发散思维和自由创作,从而减少基本视觉内容理解对创造力的负面影响。XIH28资讯网——每日最新资讯28at.com

同时为了进一步调查视觉指令微调对 LLM 的影响,团队进行了对比实验,结果表明,经过视觉指令微调的开源多模态大模型在 Creation-MMBench-TO 上的表现始终低于相应的语言基座模型。XIH28资讯网——每日最新资讯28at.com

这可能是由于微调过程中使用的问答对长度相对有限,限制了模型理解较长文本中详细内容的能力,进而无法代入情境进行长文本创作,从而导致视觉事实性评分和创意奖励分均相对较低。XIH28资讯网——每日最新资讯28at.com

XIH28资讯网——每日最新资讯28at.com

团队同样还对部分模型进行了定性研究,如上图所示。任务类型为软件工程图像解释,从属于专业功能性写作。XIH28资讯网——每日最新资讯28at.com

结果显示,Qwen2.5-VL 由于对特定领域知识理解不足,将泳道图误判为数据流图,从而导致后续的图表分析错误。XIH28资讯网——每日最新资讯28at.com

相比之下,GPT-4o 有效避免了这个错误,其整体语言更加专业和结构化,展示了对图表更准确和详细的解释,从而获得了评审模型的青睐。XIH28资讯网——每日最新资讯28at.com

这个例子也反映了特定学科知识和对图像内容的详细理解在这一类任务中的重要作用,表现出了开源模型和闭源模型间仍存在一定差距。XIH28资讯网——每日最新资讯28at.com

总结:

Creation-MMBench 是一个新颖的基准,旨在评估多模态大模型在现实场景中的创作能力。该基准包含 765 个实例,涵盖 51 个详细任务。XIH28资讯网——每日最新资讯28at.com

对于每个实例,他们撰写了对应的评判标准,以评估模型回复的质量和视觉事实性。XIH28资讯网——每日最新资讯28at.com

此外,团队通过用相应的文本描述替换图像输入,创建了一个仅文本版本 Creation-MMBench-TO。对这两个基准的实验全面的评估了主流多模态大模型的创作能力,并探查出了视觉指令微调对模型的潜在负面影响。XIH28资讯网——每日最新资讯28at.com

Creation-MMBench 现已集成至 VLMEvalKit,支持一键评测,完整评估你的模型在创意任务中的表现。想知道你的模型能不能讲好一个图像里的故事?XIH28资讯网——每日最新资讯28at.com

来试试 Creation-MMBench 一键跑分,用数据说话。XIH28资讯网——每日最新资讯28at.com

Paper:https://arxiv.org/abs/2503.14478XIH28资讯网——每日最新资讯28at.com

Github:https://github.com/open-compass/Creation-MMBenchXIH28资讯网——每日最新资讯28at.com

HomePage:https://open-compass.github.io/Creation-MMBench/XIH28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:上海 AI Lab 团队,原标题《GPT-4.5 创造力比 GPT-4o 弱!浙大上海 AI Lab 发布新基准,寻找多模态创造力天花板》XIH28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11958-0.htmlGPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 非洲人工智能峰会启幕:千余代表共议人口红利,AI超级计算中心计划亮相

下一篇: 谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

标签:
  • 热门焦点
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 挖来Meta AR高管,难道苹果也要进军元宇宙?

    “被曝光”的才是最吸引人的产品,相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片,往远了说有“折叠屏iP
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
  • 虚拟邓丽君后,数字人赛道开启3.0时代

    “如果右脑时代来临,虚拟世界将是对人类才华的无限放大。” 郭晓喆称,开发数字人形象时,自己的团队在内部“卷”了一下:“当我们翻阅大量历史典籍的时候,苏小妹找到
  • 元宇宙的应用行业研究:娱乐可能是元宇宙落地最快的场景之一

    近日,毕马威正式发布其《初探元宇宙》报告,这也是毕马威在元宇宙领域发布的首份报告。报告指出,元宇宙在以下十个领域的应用场景尤其值得期待,包括娱乐、社交、零
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top