当前位置：首页 > 元宇宙 > AI

中山大学团队“梗王”大模型，靠讲笑话登上 CVPR

来源：责编：时间：2024-04-15 18:07:35 416观看

导读谁能想到，只是让大模型讲笑话，论文竟入选了顶会 CVPR（国际计算机视觉与模式识别会议）！没开玩笑，这还真真儿的是一项正儿八经的研究。例如看下面这张图，如果让你根据它来讲个笑话或梗，你会想到什么？现在的大模型看完后

谁能想到，只是让大模型讲笑话，论文竟入选了顶会 CVPR（国际计算机视觉与模式识别会议）！

没开玩笑，这还真真儿的是一项正儿八经的研究。例如看下面这张图，如果让你根据它来讲个笑话或梗，你会想到什么？

现在的大模型看完后会说：

脑子短路。

再看一眼蜘蛛侠的海报，大模型会配一句“刚擦的玻璃不能弄脏”。

李云龙、奥本海默也被玩得飞起：

导师读了我的论文之后……

真男人不回头看爆炸。

还有酱紫的：

不得不说，大模型这脑洞还是挺大的。

这项研究正是来自中山大学 HCP 实验室林倞教授团队、Sea AI Lab 和哈佛大学等单位，主打的就是打破常规思维思考（Think Outside the Box），探索多模态大模型的创造力。

要知道，同样的图要是“喂”给 ChatGPT（GPT-4）等主流大模型，让它们讲笑话或梗，画风可并非如此：

太正经了！So boring~~~~

那么中山大学等单位的这个“梗王大模型”，是怎么炼成的呢？

先让大模型看搞笑的数据

在数据的选择上，团队 pick 的是来自日本的“大喜利”（Oogiri）创新响应游戏。

“大喜利”本来是指一系列日本传统戏剧游戏，随着时代的快速发展。现代的“大喜利”，目前一般是指一种叫 Tonchi （頓智）的游戏，通常以游戏节目或智力问答节目的形式呈现。

玩家被提供各种多模态内容，可以是简单的问题、随机图像等，然后提示玩家想出幽默的、有创意的反应，以达到令人惊讶的喜剧效果。

例如下面这个“图文到文”的例子：

玩家要求阅读图像，和上面对应的文字，尝试想出一段文字填入对应的问号“?”位置，使得整个图文可以展示出幽默且有创意的效果。

在第一个例子中，老人向年轻人寻求帮助，从正常的思维来看，可能的填写方式可以是“请问 xxx 路怎么走？”或者是“可以带我回家吗，我迷路了”之类的。

然而，所给出的“你… 你能帮我解开手铐吗？”的写法具有冲击感、幽默感，且看起来确实是这么一回事，让人忍俊不禁。

再看下“图到文”的例子：

玩家要求看图配文，并使得图文搭配起来具有幽默效果。

这张图看起来是一个很普通的拖车的图片（需要注意的是，在“大喜利”游戏中，一般图片都是很普通的日常图片）。

配文“快让开！我的兄弟伤得很严重”让倾斜着身体 45° 向上的车看起来像是一个奄奄一息的车子；在道路上快速的驰骋也确实体现了位于下方的车很着急，急着送兄弟去医院。

还有第三种“文到文”的例子：

玩家被要求根据所给的文字进行回复，使得回复和问题合在一起具备幽默感。

这个例子中的回复似乎在调侃程序员的日常工作主要就是代码的“复制 + 粘贴”（注：CV 工程师除了可以表示 computer vision 工程师也可以表示 ctrl+c / ctrl+v 工程师）。

这项工作主要关注的就是这三种类型的“大喜利”游戏，相关数据 Oogiri-GO如下表所示，含中英日三种语言：

至于为什么要选择“大喜利”这个游戏，是因为团队认为它是用于探索多模态大模型创新能力的理想平台。具体原因如下：

“大喜利”游戏是天然的创新响应任务。如上所提到的，现代“大喜利”也被称为 Tonchi (頓智)。“頓”在日文和中文中都表示“突然”，而“智”的意思是“智力、洞察力或直觉”，该游戏天然地要求玩家给出令人眼前一亮、灵光一闪的创新响应；

“大喜利”的数据格式是高度合适的。不管是“图文到文”、“图到文”还是“文到文”，这些类型都天然地和目前多模特大模型的输入输出格式吻合，即输入为“图文”，输出仅为“文”。

“大喜利”数据质量高。创新是一件很难的事情，即使是人类，因此能作为“创新”相关的数据集并不多。鉴于该游戏长期在互联网上非常活跃（在中文社区中，一般也叫日式神吐槽 / 冷吐槽），而且带有大量点评数据，比如点赞数等等。正好积累了大量高质量人类创新幽默响应可以被用于研究。

再让大模型打破常规思考

传统的链式思考（Chain-of-Thought，CoT）方法是一种顺序思考过程，通过逐步推理指导大模型进行逻辑推理，每个后续的思考都建立在前一个思考的基础上：

这一思考过程一定程度上确保了精确性和严谨性，但对于创造性问题表现不佳。

因此，团队探索了一种新的非顺序、创造性思维范式 —— 跳跃思维 Leap-of-Thought（LoT）。

这种范式涉及到思考关联性和知识跳跃。远距离的思考也被认为是联想。

与 CoT 强调逻辑紧密的思维链不同，LoT 强调打破常规思维思考问题，激发模型的创造力。

基于此，团队在 Oogiri-GO 数据集基础之上，进一步提出了一套激发多模态大模型创造力的训练方法 CLoT。

具体而言，CLoT 包括两个阶段。

首先是关联性指令微调。

在这一阶段，本文设计生成式和判别式模板，将 Oogiri-GO 数据集转换为指令微调的训练数据，用于训练多模态大模型，使得模型具备初步的创新响应能力。

其次是探索性自我调整。

在这一阶段中，本文首先通过设计远关联的条件词，促使（1）中的模型生成多样化且与输入远关联的回答，并设计筛选流程，获得可靠的新 LoT 数据。随后，新数据被转换成指令微调的训练数据，用于进一步微调模型。

这一阶段可以再细分为两个步骤：

探索性远程关联：这一步骤鼓励 LLM 在给定的弱关联条件下产生创新的回应。通过这种方式，LLM 学习在看似不相关的概念之间建立联系，从而生成多样化的创意内容。

自我精炼：在探索性远程关联的基础上，通过设计一系列筛选流程，收集到的创意回应被用来进一步训练 LLM。这样做可以提高 LLM 在处理创造性任务时的表现，使其能够生成更高质量和多样性的内容。

性能评估

为了尽可能全面评估 CLoT，这项研究基于 Oogiri-GO 数据集，设计了选择题和排序题作为量化评估方式。

实验结果表明，CLoT 能够显著提高多模态大模型（如 Qwen 和 CogVLM）的性能，显著超越包括 GPT4v 在内的先进模型。

另外，与其他先进推理框架 CoT 等相比，在各项量化指标下也是有显著优势的。

此外，研究团队还通过用户调查，证实了 CLoT 帮助模型生成了更好的幽默内容。

研究团队还考虑到了 CLoT 的泛化性，用“看云猜物 CGG”和“发散思维测试 DAT”两个其他任务评估 CLoT 的性能，实验结果显示 CLoT 相对于基准模型具有更好的准确度，说明 CLoT 具备不错的泛化能力。

DAT 是一种用于评估人类联想创造能力的测试。

团队介绍

中山大学人机物智能融合实验室 (HCP Lab) 由林倞教授于 2010 年创办，近年来在多模态内容理解、因果及认知推理、具身学习等方面取得丰富学术成果，数次获得国内外科技奖项及最佳论文奖，并致力于打造产品级的 AI 技术及平台。

论文：https://arxiv.org/ abs / 2312.02439

Project：https://zhongshsh.github.io/CLoT/

Code：https://github.com/sail-sg/CLoT

本文来自微信公众号：量子位（ID：QbitAI），作者：关注前沿科技

本文链接：http://www.28at.com/showinfo-45-3991-0.html中山大学团队“梗王”大模型，靠讲笑话登上 CVPR

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：国家网信办发布第五批深度合成服务算法备案信息，理想汽车 MindGPT 等 394 个算法在列

下一篇：报告：79.8% 受访美国公民希望对人工智能实施严格法律监管

标签：

热门焦点

元宇宙的文旅赛道，还能如何发力？

来源：X增强现实苹果推出Vision Pro，为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作，其Disney+流媒体服务将于Vision Pro
元宇宙是投资中国的第五次重大机遇

作者为凯思博投资董事长导语：投资逻辑要来自于人性在社会发展过程中的普遍规律，由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天，中国总共经历了
【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

元宇宙的表现形式大多以游戏为起点，并逐渐整合互联网、数字化娱乐、社交网络等功能，长期来看甚至可以整合社会经济与商业活动。元宇宙的发展最关键的部分在于元
2022年元宇宙系列报告：UGC当道，XR带来新交互体验

UGC作为元宇宙的主要内容创作模式，已经越来越多的呈现于游戏、娱乐、社交、传媒等方面，UGC模式勾勒了元宇宙的边界，现今元宇宙UGC模式的主要呈现方式以元宇宙概念
元宇宙平台会是上世纪末的互联网吗？

“元宇宙”火了好几个月，互联网大厂忙于布局，资本市场热烈追捧。然而很多人还是看不明白，更多的人觉得这是一场泡沫，一场骗局。一开始接触这个怪里怪气的名词，感觉
Steam 禁止NFT和加密货币原因曝光

近日，Valve（V社）总裁Gabe Newell接受PC Gamer采访时解释了该平台禁止NFT和加密货币的原因。早在2021年10月18日，PC Gamer就报道Steam推出的新规：使用区块链或允许交
Staking 收益翻倍？

以太坊质押可能很快就会有两倍的利润。Coinbase 估计，在 1 月份以太坊网络合并后，持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
全球十大元宇宙概念游戏

A股市场中，不少游戏公司早早搭上了元宇宙概念。举例，中青宝宣称将发布一款元宇宙概念的模拟经营类游戏，尽管游戏尚在研发中，这一消息已经让中青宝的股价在51个交易
我们离元宇宙的实现只差一副眼镜？

近日的苹果春季新品发布会，想必许多人都守在了屏幕前，就为等待传说中的首款AR Glass。在发布会之前，苹果全球营销主管Greg Joswiak曾在Twitter上分享了一段短视频

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

中山大学团队“梗王”大模型，靠讲笑话登上 CVPR

元宇宙的文旅赛道，还能如何发力？

元宇宙是投资中国的第五次重大机遇

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

2022年元宇宙系列报告：UGC当道，XR带来新交互体验

元宇宙平台会是上世纪末的互联网吗？

Steam 禁止NFT和加密货币原因曝光

Staking 收益翻倍？

全球十大元宇宙概念游戏

我们离元宇宙的实现只差一副眼镜？

最新推荐

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

企业热、用户冷，元宇宙第一站将是“营销场”？

银保监会：打击以“元宇宙”为名义的违法行为

吸金31亿美元，谁在催火2021年的链游？

量子计算在未来能否提高区块链技术的效率

电影工业巨头好莱坞计划进军元宇宙，将会对行业带来什么影响？

猜你喜欢

热门推荐

相关资讯