当前位置:首页 > 元宇宙 > AI

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

来源: 责编: 时间:2024-06-06 17:36:04 342观看
导读 除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。

除了 OpenAI 自己,居然还有别人能用上 GPT-4-Base 版??也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。LSG28资讯网——每日最新资讯28at.com

EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”。LSG28资讯网——每日最新资讯28at.com

也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法,只靠提示词能走多远?LSG28资讯网——每日最新资讯28at.com

预训练模型,究竟能不能一步登天,直接改造成聊天机器人或 AI 助手?LSG28资讯网——每日最新资讯28at.com

LSG28资讯网——每日最新资讯28at.com

如果可行,将大大降低类 ChatGPT 大模型的开发难度。LSG28资讯网——每日最新资讯28at.com

免微调对齐靠谱吗?

免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。LSG28资讯网——每日最新资讯28at.com

目前的 SOTA 方法(指某个领域在之前的研究中效果最好的方法)URIAL 来自艾伦研究所,使用系统提示词 + 少数风格示例就能达到不错的效果。LSG28资讯网——每日最新资讯28at.com

LSG28资讯网——每日最新资讯28at.com

但 EPFL 团队发现,URIAL 仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。LSG28资讯网——每日最新资讯28at.com

实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。LSG28资讯网——每日最新资讯28at.com

其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。LSG28资讯网——每日最新资讯28at.com

LSG28资讯网——每日最新资讯28at.com

EPFL 团队从这里出发,尝试了各种办法来提升上下文学习的效果。LSG28资讯网——每日最新资讯28at.com

首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。LSG28资讯网——每日最新资讯28at.com

LSG28资讯网——每日最新资讯28at.com

然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。LSG28资讯网——每日最新资讯28at.com

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0 基准测试中。LSG28资讯网——每日最新资讯28at.com

LSG28资讯网——每日最新资讯28at.com

此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。LSG28资讯网——每日最新资讯28at.com

也就是说,不同的示例适合不同的模型。LSG28资讯网——每日最新资讯28at.com

LSG28资讯网——每日最新资讯28at.com

团队还进行了一系列消融实验(指移除或变换某个组件,来研究该组件对系统功能的影响),以更多地了解上下文学习的工作原理。LSG28资讯网——每日最新资讯28at.com

他们发现,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要。LSG28资讯网——每日最新资讯28at.com

这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。LSG28资讯网——每日最新资讯28at.com

LSG28资讯网——每日最新资讯28at.com

所以最终得出的结论是:LSG28资讯网——每日最新资讯28at.com

即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。LSG28资讯网——每日最新资讯28at.com

论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。LSG28资讯网——每日最新资讯28at.com

指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。LSG28资讯网——每日最新资讯28at.com

想让 AI 助手更“听话”,暂时还是很难有捷径可走。LSG28资讯网——每日最新资讯28at.com

论文地址:LSG28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2405.19874LSG28资讯网——每日最新资讯28at.com

参考链接:LSG28资讯网——每日最新资讯28at.com

[1]https://x.com/maksym_andr/status/1796574297894318136LSG28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨LSG28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4512-0.htmlOpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Zoom 创始人谈视频会议未来:数字人“代劳”参会,本人可抽出时间陪伴家人

下一篇: “全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

标签:
  • 热门焦点
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 挖来Meta AR高管,难道苹果也要进军元宇宙?

    “被曝光”的才是最吸引人的产品,相信有关注过苹果硬件消息的朋友们都明白这样的道理。往近了说有苹果“即将发布”的iPhone SE 3和M2芯片,往远了说有“折叠屏iP
  • Web3 去中心化身份管理系统的历史、现状与展望

    身份、数字资产和在线资料的映射最近在区块链行业获得了极大的关注。新技术正在形成架构,这将进一步为去中心化和以用户为中心的机制铺平道路。本文将讨论以下
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • FTX 加密货币交易所开始向游戏公司提供加密服务

    据媒体报道,业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示,计划推出自己的游戏部门作为中介,专注于为传统游戏公司提供加密相关服务。此举将有助于
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
Top