当前位置:首页 > 元宇宙 > AI

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

来源: 责编: 时间:2024-06-06 17:36:04 324观看
导读 除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。

除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。x2V28资讯网——每日最新资讯28at.com

EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。x2V28资讯网——每日最新资讯28at.com

也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?x2V28资讯网——每日最新资讯28at.com

预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?x2V28资讯网——每日最新资讯28at.com

x2V28资讯网——每日最新资讯28at.com

如果可行,将大大降低类 ChatGPT 大模型的开发难度。x2V28资讯网——每日最新资讯28at.com

免微调对齐靠谱吗?

免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。x2V28资讯网——每日最新资讯28at.com

目前的 SOTA 方法(指某个领域在之前的研究中效果最好的方法)URIAL 来自艾伦研究所,使用系统提示词 + 少数风格示例就能达到不错的效果。x2V28资讯网——每日最新资讯28at.com

x2V28资讯网——每日最新资讯28at.com

但 EPFL 团队发现,URIAL 仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。x2V28资讯网——每日最新资讯28at.com

实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。x2V28资讯网——每日最新资讯28at.com

其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。x2V28资讯网——每日最新资讯28at.com

x2V28资讯网——每日最新资讯28at.com

EPFL 团队从这里出发,尝试了各种办法来提升上下文学习的效果。x2V28资讯网——每日最新资讯28at.com

首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。x2V28资讯网——每日最新资讯28at.com

x2V28资讯网——每日最新资讯28at.com

然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。x2V28资讯网——每日最新资讯28at.com

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0 基准测试中。x2V28资讯网——每日最新资讯28at.com

x2V28资讯网——每日最新资讯28at.com

此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。x2V28资讯网——每日最新资讯28at.com

也就是说,不同的示例适合不同的模型。x2V28资讯网——每日最新资讯28at.com

x2V28资讯网——每日最新资讯28at.com

团队还进行了一系列消融实验(指移除或变换某个组件,来研究该组件对系统功能的影响),以更多地了解上下文学习的工作原理。x2V28资讯网——每日最新资讯28at.com

他们发现,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要。x2V28资讯网——每日最新资讯28at.com

这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。x2V28资讯网——每日最新资讯28at.com

x2V28资讯网——每日最新资讯28at.com

所以最终得出的结论是:x2V28资讯网——每日最新资讯28at.com

即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。x2V28资讯网——每日最新资讯28at.com

论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。x2V28资讯网——每日最新资讯28at.com

指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。x2V28资讯网——每日最新资讯28at.com

想让 AI 助手更“听话”,暂时还是很难有捷径可走。x2V28资讯网——每日最新资讯28at.com

论文地址:x2V28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2405.19874x2V28资讯网——每日最新资讯28at.com

参考链接:x2V28资讯网——每日最新资讯28at.com

[1]https://x.com/maksym_andr/status/1796574297894318136x2V28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨x2V28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4512-0.htmlOpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Zoom 创始人谈视频会议未来:数字人“代劳”参会,本人可抽出时间陪伴家人

下一篇: “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

标签:
  • 热门焦点
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 这一超级富豪“逆袭”,身价大增4330亿

    来源:侃见财经互联网的突围没有“终点”。在快节奏的商业环境下,不断的试错成了互联网企业的标配,一年一个风口,一个风口造就一个热点,但是回头来看,最终受益的还是身处
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
  • 技术赋能,国内首家宠物元宇宙平台“Pet Meta”开启虚拟养宠新方式

    作者:易明未来,Pet Meta数字宠物藏品将是链接全球数亿爱宠人群与元宇宙世界独一无二的身份象征。首家面向国内的宠物元宇宙平台Pet Meta生长于“宠物经济”快速
  • 从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
Top