当前位置:首页 > 元宇宙 > AI

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

来源: 责编: 时间:2024-06-06 17:36:04 333观看
导读 除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。

除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。9xC28资讯网——每日最新资讯28at.com

EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。9xC28资讯网——每日最新资讯28at.com

也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?9xC28资讯网——每日最新资讯28at.com

预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?9xC28资讯网——每日最新资讯28at.com

9xC28资讯网——每日最新资讯28at.com

如果可行,将大大降低类 ChatGPT 大模型的开发难度。9xC28资讯网——每日最新资讯28at.com

免微调对齐靠谱吗?

免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。9xC28资讯网——每日最新资讯28at.com

目前的 SOTA 方法(指某个领域在之前的研究中效果最好的方法)URIAL 来自艾伦研究所,使用系统提示词 + 少数风格示例就能达到不错的效果。9xC28资讯网——每日最新资讯28at.com

9xC28资讯网——每日最新资讯28at.com

但 EPFL 团队发现,URIAL 仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。9xC28资讯网——每日最新资讯28at.com

实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。9xC28资讯网——每日最新资讯28at.com

其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。9xC28资讯网——每日最新资讯28at.com

9xC28资讯网——每日最新资讯28at.com

EPFL 团队从这里出发,尝试了各种办法来提升上下文学习的效果。9xC28资讯网——每日最新资讯28at.com

首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。9xC28资讯网——每日最新资讯28at.com

9xC28资讯网——每日最新资讯28at.com

然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。9xC28资讯网——每日最新资讯28at.com

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0 基准测试中。9xC28资讯网——每日最新资讯28at.com

9xC28资讯网——每日最新资讯28at.com

此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。9xC28资讯网——每日最新资讯28at.com

也就是说,不同的示例适合不同的模型。9xC28资讯网——每日最新资讯28at.com

9xC28资讯网——每日最新资讯28at.com

团队还进行了一系列消融实验(指移除或变换某个组件,来研究该组件对系统功能的影响),以更多地了解上下文学习的工作原理。9xC28资讯网——每日最新资讯28at.com

他们发现,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要。9xC28资讯网——每日最新资讯28at.com

这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。9xC28资讯网——每日最新资讯28at.com

9xC28资讯网——每日最新资讯28at.com

所以最终得出的结论是:9xC28资讯网——每日最新资讯28at.com

即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。9xC28资讯网——每日最新资讯28at.com

论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。9xC28资讯网——每日最新资讯28at.com

指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。9xC28资讯网——每日最新资讯28at.com

想让 AI 助手更“听话”,暂时还是很难有捷径可走。9xC28资讯网——每日最新资讯28at.com

论文地址:9xC28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2405.198749xC28资讯网——每日最新资讯28at.com

参考链接:9xC28资讯网——每日最新资讯28at.com

[1]https://x.com/maksym_andr/status/17965742978943181369xC28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨9xC28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4512-0.htmlOpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Zoom 创始人谈视频会议未来:数字人“代劳”参会,本人可抽出时间陪伴家人

下一篇: “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

标签:
  • 热门焦点
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 企业热、用户冷,元宇宙第一站将是“营销场”?

    如果说2021年底什么最火热,那元宇宙当之无愧。“万物皆可元宇宙”似乎成为新的流行语,在广告中也常常听到“社交元宇宙”“购物元宇宙”等等。就在近日,有消息传
  • 搭上“谷爱凌”,“柳夜熙们”站上风口?

    作者:张琳 曹杨从“永不塌房”的艺人到频频亮相北京冬奥会,作为元宇宙细分赛道之一的虚拟数字人又火了一把。2月7日,即谷爱凌摘得冬奥会自由式滑雪大跳台金牌的
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top