当前位置:首页 > 元宇宙 > AI

一句话解锁 100k + 上下文大模型真实力,27 分涨到 98,GPT-4、Claude2.1 适用

来源: 责编: 时间:2023-12-14 16:34:47 370观看
导读 各家大模型纷纷卷起上下文窗口,Llama-1 时标配还是 2k,现在不超过 100k 的已经不好意思出门了。然鹅一项极限测试却发现,大部分人用法都不对,没发挥出 AI 应有的实力。AI 真的能从几十万字中准确找到关键事实吗?颜

各家大模型纷纷卷起上下文窗口,Llama-1 时标配还是 2k,现在不超过 100k 的已经不好意思出门了。BBi28资讯网——每日最新资讯28at.com

然鹅一项极限测试却发现,大部分人用法都不对,没发挥出 AI 应有的实力。BBi28资讯网——每日最新资讯28at.com

AI 真的能从几十万字中准确找到关键事实吗?颜色越红代表 AI 犯的错越多。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

默认情况下,GPT-4-128k 和最新发布的 Claude2.1-200k 成绩都不太理想。BBi28资讯网——每日最新资讯28at.com

但 Claude 团队了解情况后,给出超简单解决办法,增加一句话,直接把成绩从 27% 提升到 98%。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

只不过这句话不是加在用户提问上的,而是让 AI 在回复的开头先说:BBi28资讯网——每日最新资讯28at.com

“Here is the most relevant sentence in the context:”BBi28资讯网——每日最新资讯28at.com

(这就是上下文中最相关的句子:)BBi28资讯网——每日最新资讯28at.com

让大模型大海捞针

为了做这项测试,作者 Greg Kamradt 自掏腰包花费了至少 150 美元。BBi28资讯网——每日最新资讯28at.com

好在测试 Claude2.1 时,Anthropic 伸出援手给他提供了免费额度,不然还得多花 1016 美元。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

其实测试方法也不复杂,都是选用 YC 创始人 Paul Graham 的 218 篇博客文章当做测试数据。BBi28资讯网——每日最新资讯28at.com

在文档中的不同位置添加特定语句:在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。BBi28资讯网——每日最新资讯28at.com

请 GPT-4 和 Claude2.1 仅仅使用所提供的上下文来回答问题,在不同上下文长度和添加在不同位置的文档中反复测试。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

最后使用 Langchain Evals 库来评估结果。BBi28资讯网——每日最新资讯28at.com

作者把这套测试命名为“干草堆里找针 / 大海捞针”,并把代码开源在 GitHub 上,已获得 200 + 星,并透露已经有公司赞助了对下一个大模型的测试。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

AI 公司自己找到解决办法

几周后,Claude 背后公司 Anthropic 仔细分析后却发现,AI 只是不愿意回答基于文档中单个句子的问题,特别是这个句子是后来插入的,和整篇文章关系不大的时候。BBi28资讯网——每日最新资讯28at.com

也就是说,AI 判断这句话和文章主题无关,就偷懒不去一句一句找了。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

这时就需要用点手段晃过 AI,要求 Claude 在回答开头添加那句“Here is the most relevant sentence in the context:”就能解决。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

使用这个办法,在寻找不是后来人为添加、本来就在原文章中的句子时,也能提高 Claude 的表现。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

Anthropic 公司表示将来会不断地继续训练 Claude,让它能更适应此类任务。BBi28资讯网——每日最新资讯28at.com

在 API 调用时要求 AI 以指定开头回答,还有别的妙用。BBi28资讯网——每日最新资讯28at.com

创业者 Matt Shumer 看过这个方案后补充了几个小技巧:BBi28资讯网——每日最新资讯28at.com

如果想让 AI 输出纯 JSON 格式,提示词的最后以“{”结尾。同理,如果想让 AI 列出罗马数字,提示词以“I:”结尾就行。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

不过事情还没完……BBi28资讯网——每日最新资讯28at.com

国内大模型公司也注意到了这项测试,开始尝试自家大模型能不能通过。BBi28资讯网——每日最新资讯28at.com

同样拥有超长上下文的月之暗面 Kimi 大模型团队也测出了问题,但给出了不同的解决方案,也取得了很好的成绩。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

这样一来,修改用户提问 Prompt,又比要求 AI 在自己的回答添加一句更容易做到,特别是在不是调用 API,而是直接使用聊天机器人产品的情况下。BBi28资讯网——每日最新资讯28at.com

月之暗面还用自己的新方法帮 GPT-4 和 Claude2.1 测试了一下,结果 GPT-4 改善明显,Claude2.1 只是稍微改善。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

看来这个实验本身有一定局限性,Claude 也是有自己的特殊性,可能与他们自己的对齐方式 Constituional AI 有关,需要用 Anthropic 自己提供的办法更好。BBi28资讯网——每日最新资讯28at.com

后来,月之暗面的工程师还搞了更多轮实验,其中一个居然是……BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

坏了,我成测试数据了。BBi28资讯网——每日最新资讯28at.com

BBi28资讯网——每日最新资讯28at.com

参考链接:BBi28资讯网——每日最新资讯28at.com

[1]https://x.com/GregKamradt/status/1727018183608193393BBi28资讯网——每日最新资讯28at.com

[2]https://www.anthropic.com/index/claude-2-1-promptingBBi28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨BBi28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-2886-0.html一句话解锁 100k + 上下文大模型真实力,27 分涨到 98,GPT-4、Claude2.1 适用

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 马斯克的 AI 聊天机器人 Grok 出现“幻觉”,误认为自己是 OpenAI 的产品

下一篇: OpenAI 宣布近期修复 GPT-4“变懒”问题,将在离线评估及 A B 测试后更新模型

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 顶流IP“冰墩墩”带着中国元素NFT进入全球视野

    一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会,在这个“双奥之城”经历了16个令人难忘的精彩日夜,最终圆满闭幕。让我们印象深刻的不
  • 借VR产业东风,江西抢滩布局“元宇宙”

    自2016年起就在VR上倾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技术是通往元宇宙的关键接口,使人们可以在数字空间和物理空间自由穿梭。自2016年起
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
Top