当前位置:首页 > 元宇宙 > AI

弱智吧竟成最佳中文 AI 训练数据?中科院等:8 项测试第一,远超知乎豆瓣小红书

来源: 责编: 时间:2024-04-09 17:17:48 313观看
导读 离大谱了,弱智吧登上正经 AI 论文,还成了最好的中文训练数据??具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结

离大谱了,弱智吧登上正经 AI 论文,还成了最好的中文训练数据??Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。Ogu28资讯网——每日最新资讯28at.com

在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

没错,论文中的 Ruozhiba 就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

最离谱的是,弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI,这下吧友自己都闹不明白了。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

其他平台围观网友也纷纷蚌埠住。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

作者之一也现身评论区,透露使用弱智吧数据训练 AI 属于灵机一动,以前只用来测试。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

弱智吧数据究竟如何达成这一成就,具体到论文中看。Ogu28资讯网——每日最新资讯28at.com

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题:Ogu28资讯网——每日最新资讯28at.com

中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景Ogu28资讯网——每日最新资讯28at.com

不少数据集是用 AI 生成的,质量难以保证,容易出现事实性错误Ogu28资讯网——每日最新资讯28at.com

即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题Ogu28资讯网——每日最新资讯28at.com

为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集 COIG-CQIA。Ogu28资讯网——每日最新资讯28at.com

除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集 CQIA-Subset。Ogu28资讯网——每日最新资讯28at.com

在众多数据来源中,弱智吧成了最特别的一个。Ogu28资讯网——每日最新资讯28at.com

由 500 个点赞最高的帖子标题 + 人工或 GPT-4 的回复组成指令微调数据集,经过人工审核后,最终留下了 240 组指令-回复数据对。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

分别用各种数据集训练零一万物 Yi 系列开源大模型,在 BELLE-Eval 测试集上使用 GPT-4 评分得到结果。Ogu28资讯网——每日最新资讯28at.com

在规模较小的 Yi-6B 模型上,纯弱智吧版本总分排名第三,还不算太突出。Ogu28资讯网——每日最新资讯28at.com

看来小模型还没能领悟弱智的精髓。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

到了 Yi-34B,弱智吧版本表现就一骑绝尘了。Ogu28资讯网——每日最新资讯28at.com

只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

另外,在安全评估上弱智吧版本也能排上第二。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

对于这类现象,研究人员在分析中也给出简单猜测:Ogu28资讯网——每日最新资讯28at.com

可能是弱智吧问题增强了 AI 的逻辑推理能力,从而使指令遵循任务受益。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集 COIG-CQIA。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。Ogu28资讯网——每日最新资讯28at.com

弱智吧上大分

这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”这样的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。Ogu28资讯网——每日最新资讯28at.com

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。Ogu28资讯网——每日最新资讯28at.com

像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

通用数据集多半已经在 pretrain 阶段见过了,再训一遍只会加重 overfitting。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

另一个原因是弱智吧数据文本质量很高,用词准确且简洁。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。Ogu28资讯网——每日最新资讯28at.com

事实上从 ChatGPT 诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波 AI 浪潮的重要见证者了。Ogu28资讯网——每日最新资讯28at.com

一开始只是网友拿来拷打 AI,搞搞节目效果。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨 AI 能力高低。Ogu28资讯网——每日最新资讯28at.com

还记得 23 年初那会儿,各家大模型第一版还不太能很好应对这类问题,如 2023 年 3 月的文心一言:Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

后续版本也渐入佳境了,如 2023 年 8 月的文心一言:Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

直到今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧 Benchmark。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

▲秘塔写作猫

Ogu28资讯网——每日最新资讯28at.com

▲Inspo

再后来,AI 公司们自己也开始重视起来,如百度官方就搞过联动直播。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。Ogu28资讯网——每日最新资讯28at.com

Ogu28资讯网——每日最新资讯28at.com

思路确实是被打开了~Ogu28资讯网——每日最新资讯28at.com

论文地址:Ogu28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2403.18058Ogu28资讯网——每日最新资讯28at.com

参考链接:Ogu28资讯网——每日最新资讯28at.com

[1]https://x.com/9hills/status/1775358963724554410Ogu28资讯网——每日最新资讯28at.com

[2]https://zhuanlan.zhihu.com/p/690640864Ogu28资讯网——每日最新资讯28at.com

[3]https://tieba.baidu.com/p/8964992247Ogu28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨 西风Ogu28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3906-0.html弱智吧竟成最佳中文 AI 训练数据?中科院等:8 项测试第一,远超知乎豆瓣小红书

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 新动态:改善微调 API,扩展定制模型计划

下一篇: 马斯克:特斯拉大模型Grok 2.0版本的性能将好于ChatGPT-4

标签:
  • 热门焦点
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫“29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • 元宇宙里卖酸奶,好炸裂的操作!

    作者 | 李东阳 来源 | 首席营销官有没有发现,当下的热搜出现一个有意思的现象,那就是“情怀”不知不觉成为了主流,爷青回话题讨论性非常高。前有名侦探柯南和优衣库
  • 25万虚拟er在“元宇宙”追星

    “默叽默叽,我是默默酱,我是在真元宇宙也有头有脸的人。”12月11日晚20:00,虚拟偶像@默默酱的首场个人元宇宙演唱会《以梦为马,抵达繁星》在大有空间APP
  • AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    今天是冬奥会比赛的第12天,截至目前所累计的成绩,中国代表团已经取得了冬奥历史最佳战绩。全世界的人都在关注着这场盛事,为奥运健儿呐喊助威。谷爱凌、徐梦桃、
  • “元宇宙第一股”Roblox缘何被资本市场看“低”?

    近期,冬奥会的召开受到广泛关注,而吉祥物冰墩墩也成为新晋“顶流”,“一墩难求”成为普遍心声,为了满足大众需求,nWayPlay平台曾在2月12日发售了一款由国际奥委会官
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 全面拥抱“虚拟世界”,摩登天空要打造“音乐元宇宙”

    作者:袁佳琦沈黎晖不怎么打游戏,但许多事儿在他眼里都“有意思”。好玩,有意思,是他的口头禅,在接受娱乐独角兽的采访过程中,他多次提到,做虚拟音乐人,“是件挺好玩的
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 头像类NFTs的统治能持续多久?

    在过去的一两年里,NFTs在互联网世界中掀起了一场风暴。今天,当我们想到NFTs时,我们主要想到的是那些充斥着我们的社交媒体屏幕的数字卡通--无聊猿、punks 和介于
Top