当前位置:首页 > 元宇宙 > AI

中山大学团队“梗王”大模型,靠讲笑话登上 CVPR

来源: 责编: 时间:2024-04-15 18:07:35 409观看
导读 谁能想到,只是让大模型讲笑话,论文竟入选了顶会 CVPR(国际计算机视觉与模式识别会议)!没开玩笑,这还真真儿的是一项正儿八经的研究。例如看下面这张图,如果让你根据它来讲个笑话或梗,你会想到什么?现在的大模型看完后

谁能想到,只是让大模型讲笑话,论文竟入选了顶会 CVPR(国际计算机视觉与模式识别会议)!K0G28资讯网——每日最新资讯28at.com

没开玩笑,这还真真儿的是一项正儿八经的研究。例如看下面这张图,如果让你根据它来讲个笑话或梗,你会想到什么?K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

现在的大模型看完后会说:K0G28资讯网——每日最新资讯28at.com

脑子短路。K0G28资讯网——每日最新资讯28at.com

再看一眼蜘蛛侠的海报,大模型会配一句“刚擦的玻璃不能弄脏”。K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

李云龙、奥本海默也被玩得飞起:K0G28资讯网——每日最新资讯28at.com

导师读了我的论文之后……K0G28资讯网——每日最新资讯28at.com

真男人不回头看爆炸。K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

还有酱紫的:K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

不得不说,大模型这脑洞还是挺大的。K0G28资讯网——每日最新资讯28at.com

这项研究正是来自中山大学 HCP 实验室林倞教授团队、Sea AI Lab 和哈佛大学等单位,主打的就是打破常规思维思考(Think Outside the Box),探索多模态大模型的创造力。K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

要知道,同样的图要是“喂”给 ChatGPT(GPT-4)等主流大模型,让它们讲笑话或梗,画风可并非如此:K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

太正经了!So boring~~~~K0G28资讯网——每日最新资讯28at.com

那么中山大学等单位的这个“梗王大模型”,是怎么炼成的呢?K0G28资讯网——每日最新资讯28at.com

先让大模型看搞笑的数据

在数据的选择上,团队 pick 的是来自日本的“大喜利”(Oogiri)创新响应游戏。K0G28资讯网——每日最新资讯28at.com

“大喜利”本来是指一系列日本传统戏剧游戏,随着时代的快速发展。现代的“大喜利”,目前一般是指一种叫 Tonchi (頓智)的游戏,通常以游戏节目或智力问答节目的形式呈现。K0G28资讯网——每日最新资讯28at.com

玩家被提供各种多模态内容,可以是简单的问题、随机图像等,然后提示玩家想出幽默的、有创意的反应,以达到令人惊讶的喜剧效果。K0G28资讯网——每日最新资讯28at.com

例如下面这个“图文到文”的例子:K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

玩家要求阅读图像,和上面对应的文字,尝试想出一段文字填入对应的问号“?”位置,使得整个图文可以展示出幽默且有创意的效果。K0G28资讯网——每日最新资讯28at.com

在第一个例子中,老人向年轻人寻求帮助,从正常的思维来看,可能的填写方式可以是“请问 xxx 路怎么走?”或者是“可以带我回家吗,我迷路了”之类的。K0G28资讯网——每日最新资讯28at.com

然而,所给出的“你… 你能帮我解开手铐吗?”的写法具有冲击感、幽默感,且看起来确实是这么一回事,让人忍俊不禁。K0G28资讯网——每日最新资讯28at.com

再看下“图到文”的例子:K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

玩家要求看图配文,并使得图文搭配起来具有幽默效果。K0G28资讯网——每日最新资讯28at.com

这张图看起来是一个很普通的拖车的图片(需要注意的是,在“大喜利”游戏中,一般图片都是很普通的日常图片)。K0G28资讯网——每日最新资讯28at.com

配文“快让开!我的兄弟伤得很严重”让倾斜着身体 45° 向上的车看起来像是一个奄奄一息的车子;在道路上快速的驰骋也确实体现了位于下方的车很着急,急着送兄弟去医院。K0G28资讯网——每日最新资讯28at.com

还有第三种“文到文”的例子:K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

玩家被要求根据所给的文字进行回复,使得回复和问题合在一起具备幽默感。K0G28资讯网——每日最新资讯28at.com

这个例子中的回复似乎在调侃程序员的日常工作主要就是代码的“复制 + 粘贴”(注:CV 工程师除了可以表示 computer vision 工程师也可以表示 ctrl+c / ctrl+v 工程师 )。K0G28资讯网——每日最新资讯28at.com

这项工作主要关注的就是这三种类型的“大喜利”游戏,相关数据 Oogiri-GO如下表所示,含中英日三种语言:K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

至于为什么要选择“大喜利”这个游戏,是因为团队认为它是用于探索多模态大模型创新能力的理想平台。具体原因如下:K0G28资讯网——每日最新资讯28at.com

“大喜利”游戏是天然的创新响应任务。如上所提到的,现代“大喜利”也被称为 Tonchi (頓智)。“頓”在日文和中文中都表示“突然”,而“智”的意思是“智力、洞察力或直觉”,该游戏天然地要求玩家给出令人眼前一亮、灵光一闪的创新响应;K0G28资讯网——每日最新资讯28at.com

“大喜利”的数据格式是高度合适的。不管是“图文到文”、“图到文”还是“文到文”,这些类型都天然地和目前多模特大模型的输入输出格式吻合,即输入为“图文”,输出仅为“文”。K0G28资讯网——每日最新资讯28at.com

“大喜利”数据质量高。创新是一件很难的事情,即使是人类,因此能作为“创新”相关的数据集并不多。鉴于该游戏长期在互联网上非常活跃(在中文社区中,一般也叫日式神吐槽 / 冷吐槽),而且带有大量点评数据,比如点赞数等等。正好积累了大量高质量人类创新幽默响应可以被用于研究。K0G28资讯网——每日最新资讯28at.com

再让大模型打破常规思考

传统的链式思考(Chain-of-Thought,CoT)方法是一种顺序思考过程,通过逐步推理指导大模型进行逻辑推理,每个后续的思考都建立在前一个思考的基础上:K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

这一思考过程一定程度上确保了精确性和严谨性,但对于创造性问题表现不佳。K0G28资讯网——每日最新资讯28at.com

因此,团队探索了一种新的非顺序、创造性思维范式 —— 跳跃思维 Leap-of-Thought(LoT)。K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

这种范式涉及到思考关联性和知识跳跃。远距离的思考也被认为是联想。K0G28资讯网——每日最新资讯28at.com

与 CoT 强调逻辑紧密的思维链不同,LoT 强调打破常规思维思考问题,激发模型的创造力。K0G28资讯网——每日最新资讯28at.com

基于此,团队在 Oogiri-GO 数据集基础之上,进一步提出了一套激发多模态大模型创造力的训练方法 CLoT。K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

具体而言,CLoT 包括两个阶段。K0G28资讯网——每日最新资讯28at.com

首先是关联性指令微调。K0G28资讯网——每日最新资讯28at.com

在这一阶段,本文设计生成式和判别式模板,将 Oogiri-GO 数据集转换为指令微调的训练数据,用于训练多模态大模型,使得模型具备初步的创新响应能力。K0G28资讯网——每日最新资讯28at.com

其次是探索性自我调整。K0G28资讯网——每日最新资讯28at.com

在这一阶段中,本文首先通过设计远关联的条件词,促使(1)中的模型生成多样化且与输入远关联的回答,并设计筛选流程,获得可靠的新 LoT 数据。随后,新数据被转换成指令微调的训练数据,用于进一步微调模型。K0G28资讯网——每日最新资讯28at.com

这一阶段可以再细分为两个步骤:K0G28资讯网——每日最新资讯28at.com

探索性远程关联:这一步骤鼓励 LLM 在给定的弱关联条件下产生创新的回应。通过这种方式,LLM 学习在看似不相关的概念之间建立联系,从而生成多样化的创意内容。K0G28资讯网——每日最新资讯28at.com

自我精炼:在探索性远程关联的基础上,通过设计一系列筛选流程,收集到的创意回应被用来进一步训练 LLM。这样做可以提高 LLM 在处理创造性任务时的表现,使其能够生成更高质量和多样性的内容。K0G28资讯网——每日最新资讯28at.com

性能评估

为了尽可能全面评估 CLoT,这项研究基于 Oogiri-GO 数据集,设计了选择题和排序题作为量化评估方式。K0G28资讯网——每日最新资讯28at.com

实验结果表明,CLoT 能够显著提高多模态大模型(如 Qwen 和 CogVLM)的性能,显著超越包括 GPT4v 在内的先进模型。K0G28资讯网——每日最新资讯28at.com

另外,与其他先进推理框架 CoT 等相比,在各项量化指标下也是有显著优势的。K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

此外,研究团队还通过用户调查,证实了 CLoT 帮助模型生成了更好的幽默内容。K0G28资讯网——每日最新资讯28at.com

K0G28资讯网——每日最新资讯28at.com

研究团队还考虑到了 CLoT 的泛化性,用“看云猜物 CGG”和“发散思维测试 DAT”两个其他任务评估 CLoT 的性能,实验结果显示 CLoT 相对于基准模型具有更好的准确度,说明 CLoT 具备不错的泛化能力。K0G28资讯网——每日最新资讯28at.com

DAT 是一种用于评估人类联想创造能力的测试。K0G28资讯网——每日最新资讯28at.com

团队介绍

中山大学人机物智能融合实验室 (HCP Lab) 由林倞教授于 2010 年创办,近年来在多模态内容理解、因果及认知推理、具身学习等方面取得丰富学术成果,数次获得国内外科技奖项及最佳论文奖,并致力于打造产品级的 AI 技术及平台。K0G28资讯网——每日最新资讯28at.com

论文:https://arxiv.org/ abs / 2312.02439K0G28资讯网——每日最新资讯28at.com

Project:https://zhongshsh.github.io/CLoT/K0G28资讯网——每日最新资讯28at.com

Code:https://github.com/sail-sg/CLoTK0G28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:关注前沿科技K0G28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3991-0.html中山大学团队“梗王”大模型,靠讲笑话登上 CVPR

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 国家网信办发布第五批深度合成服务算法备案信息,理想汽车 MindGPT 等 394 个算法在列

下一篇: 报告:79.8% 受访美国公民希望对人工智能实施严格法律监管

标签:
  • 热门焦点
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 25万虚拟er在“元宇宙”追星

    “默叽默叽,我是默默酱,我是在真元宇宙也有头有脸的人。”12月11日晚20:00,虚拟偶像@默默酱的首场个人元宇宙演唱会《以梦为马,抵达繁星》在大有空间APP
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 从虚拟餐厅到虚拟时装秀,行业巨头掀起元宇宙商标注册潮

    自从 Facebook 更名为 Meta 后,关于元宇宙的讨论愈发激烈,这一词汇也越来越多的出现在我们的视野里。这是一个非常有趣的话题。伴随着争论,有些人认为是马克·扎
  • Meta展示AI系统Builder Bot;《Pistol Whip》增加派对模式

    今日热点:Meta展示AI系统Builder Bot;招聘信息显示Meta正在探索具有蜂窝连接功能的VR/AR头显;英国VR工作室Coatsink Games正在为PSVR 2开发新游戏;VR节奏射击游戏
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
  • 元宇宙的应用行业研究:娱乐可能是元宇宙落地最快的场景之一

    近日,毕马威正式发布其《初探元宇宙》报告,这也是毕马威在元宇宙领域发布的首份报告。报告指出,元宇宙在以下十个领域的应用场景尤其值得期待,包括娱乐、社交、零
  • 虚拟人行业研究报告

    最早的虚拟人出现于 20 世纪 80 年代,受限于技术,当时的虚拟人制作以手绘为主。21 世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及
Top