当前位置:首页 > 元宇宙 > AI

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

来源: 责编: 时间:2024-06-06 17:36:04 334观看
导读 除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。

除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。4WR28资讯网——每日最新资讯28at.com

EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。4WR28资讯网——每日最新资讯28at.com

也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?4WR28资讯网——每日最新资讯28at.com

预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?4WR28资讯网——每日最新资讯28at.com

4WR28资讯网——每日最新资讯28at.com

如果可行,将大大降低类 ChatGPT 大模型的开发难度。4WR28资讯网——每日最新资讯28at.com

免微调对齐靠谱吗?

免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。4WR28资讯网——每日最新资讯28at.com

目前的 SOTA 方法(指某个领域在之前的研究中效果最好的方法)URIAL 来自艾伦研究所,使用系统提示词 + 少数风格示例就能达到不错的效果。4WR28资讯网——每日最新资讯28at.com

4WR28资讯网——每日最新资讯28at.com

但 EPFL 团队发现,URIAL 仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。4WR28资讯网——每日最新资讯28at.com

实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。4WR28资讯网——每日最新资讯28at.com

其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。4WR28资讯网——每日最新资讯28at.com

4WR28资讯网——每日最新资讯28at.com

EPFL 团队从这里出发,尝试了各种办法来提升上下文学习的效果。4WR28资讯网——每日最新资讯28at.com

首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。4WR28资讯网——每日最新资讯28at.com

4WR28资讯网——每日最新资讯28at.com

然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。4WR28资讯网——每日最新资讯28at.com

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0 基准测试中。4WR28资讯网——每日最新资讯28at.com

4WR28资讯网——每日最新资讯28at.com

此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。4WR28资讯网——每日最新资讯28at.com

也就是说,不同的示例适合不同的模型。4WR28资讯网——每日最新资讯28at.com

4WR28资讯网——每日最新资讯28at.com

团队还进行了一系列消融实验(指移除或变换某个组件,来研究该组件对系统功能的影响),以更多地了解上下文学习的工作原理。4WR28资讯网——每日最新资讯28at.com

他们发现,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要。4WR28资讯网——每日最新资讯28at.com

这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。4WR28资讯网——每日最新资讯28at.com

4WR28资讯网——每日最新资讯28at.com

所以最终得出的结论是:4WR28资讯网——每日最新资讯28at.com

即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。4WR28资讯网——每日最新资讯28at.com

论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。4WR28资讯网——每日最新资讯28at.com

指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。4WR28资讯网——每日最新资讯28at.com

想让 AI 助手更“听话”,暂时还是很难有捷径可走。4WR28资讯网——每日最新资讯28at.com

论文地址:4WR28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2405.198744WR28资讯网——每日最新资讯28at.com

参考链接:4WR28资讯网——每日最新资讯28at.com

[1]https://x.com/maksym_andr/status/17965742978943181364WR28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨4WR28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4512-0.htmlOpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Zoom 创始人谈视频会议未来:数字人“代劳”参会,本人可抽出时间陪伴家人

下一篇: “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 超跑与NFT的首次结合,兰博基尼能否破局?

    兰博基尼公司近日称即将推出它的首款NFT,并且将加速进军区块链领域。这家闻名遐迩的意大利汽车厂商野心勃勃地将目光投向混合动力和电动跑车,并宣布将拍卖与瑞士
  • 冰墩墩的NFT暴涨千倍?真相则是价格暴跌、成交遇冷

    《区块链日报》记者查证,近日来冰墩墩数字藏品交易数量出现大幅下滑,而所谓的暴涨千倍更是有价无市的自嗨。昨日,北京冬奥会正式闭幕。在这届冬奥会上,吉祥物“冰
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
  • 你连元宇宙都不知道吗?快来看看这四本元宇宙书籍吧

    前有腾讯、阿里申请商标注册,后有Facebook宣布改名,若论当前互联网最火最热的概念,当属“元宇宙”。“阿里元宇宙”“淘宝元宇宙”“钉钉元宇宙”“QQ元宇宙”“
  • 初探元宇宙

    2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中,被称为“元宇宙”第一股后,Facebook更名为Meta, 引发全球范围内
Top