当前位置:首页 > 元宇宙 > AI

开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

来源: 责编: 时间:2024-09-11 16:25:24 202观看
导读 开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。新模型名为 Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中,一开始它犯了和大多数

开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。wfI28资讯网——每日最新资讯28at.com

新模型名为 Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

比如最近流行的数 r 测试中,一开始它犯了和大多数模型一样的错误,但主动在 <反思> 标签中纠正了自己。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

在官方评测中,70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准 GSM8K 上直接刷爆,得分 99.2%。wfI28资讯网——每日最新资讯28at.com

这个结果也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 激情开麦:wfI28资讯网——每日最新资讯28at.com

GSM8K 得分 99%!是不是可以正式淘汰这个基准了?wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

模型刚刚上线网友就把试玩挤爆了,对此 Meta 还主动支援了更多算力。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

在网友测试中,Reflection 70B 能回答对 GSM8K 数据集中本身答案错误的问题:wfI28资讯网——每日最新资讯28at.com

我向模型提供了 GSM8K 中存在的 5 个“ground_truth”本身就不正确的问题。wfI28资讯网——每日最新资讯28at.com

模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那 99.2% 的准确率并非来自于记忆测试集!wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

数各种 r 都不在话下,连生造词“drirrrngrrrrrnnn”中有几个 r 也能被正确数对。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶,现在最强开源模型可以在本地运行了。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

关键 70B 还只是个开始,官方表示下周还会发布更大的 Reflection 405B。wfI28资讯网——每日最新资讯28at.com

预计 405B 性能将大幅优于 Sonnet 和 GPT-4o。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

Reflection 70B 权重已公开,API 访问将于今天晚些时候由 Hyperbolic Labs 提供。wfI28资讯网——每日最新资讯28at.com

模型能自我反思纠正错误

目前关于 Reflection 70B 的更多细节如下。wfI28资讯网——每日最新资讯28at.com

Reflection 70B 能力提升的关键,是采用了一种名为 Reflection-Tuning 的训练方法,它能够让模型反思自己生成的文本,在最终确定回应前检测并纠正自身推理中的错误。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

训练中的数据来自使用 GlaiveAI 平台生成的合成数据。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用与其它 Llama 模型相同的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。wfI28资讯网——每日最新资讯28at.com

它甚至使用了标准的 Llama 3.1 聊天格式。wfI28资讯网——每日最新资讯28at.com

不过,Reflection 70B 引入了一些特殊 tokens,结构化输出过程。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

如下面这个例子所展示的,规划过程分为一个独立的步骤,这样做可以提高 CoT 效果,并保持输出精炼:wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

模型将从在 <thinking> 和 </thinking> 标签内输出推理开始,一旦对其推理感到满意,就会在 <output> 和 </output > 标签内输出最终答案。wfI28资讯网——每日最新资讯28at.com

所以它能够将其内部思考和推理与最终答案分离。wfI28资讯网——每日最新资讯28at.com

在 <thinking> 部分,模型可能会输出一个或多个,这表明模型发现了其推理中的错误,并将在提供最终答案之前尝试纠正该错误。wfI28资讯网——每日最新资讯28at.com

系统提示如下:wfI28资讯网——每日最新资讯28at.com

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query insidetags, and then provide your final response insidetags. If you detect that you made a mistake in your reasoning at any point, correct yourself insidetags.wfI28资讯网——每日最新资讯28at.com

(你是一个世界级人工智能系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错,请在标签内纠正自己。)wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

此外值得一提的是,基准测试中,所有基准都已通过 LMSys 的 LLM Decontaminator 检查污染,隔离了 <output> 部分,并单独对这一部分进行测试。wfI28资讯网——每日最新资讯28at.com

使用 Reflection 70B 的时候,官方还分享了小 tips:wfI28资讯网——每日最新资讯28at.com

初步建议参数 temperature 为.7 ,top_p 为.95wfI28资讯网——每日最新资讯28at.com

为提高准确性,最好附加“Think carefully.”在 Prompt 末尾wfI28资讯网——每日最新资讯28at.com

官方还表示,下周会发布一份报告,详细介绍模型训练过程和发现。wfI28资讯网——每日最新资讯28at.com

Agent 创业团队打造

Reflection 70B 的背后是一支小团队,由 HyperWriteAI 的 CEO Mutt Shumer 带领。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

领英显示,Mutt Shumer 是一位连续创业者,毕业于美国锡拉丘兹大学,现任 OthersideAI 的联合创始人兼 CEO。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

OthersideAI 是一家 AI 应用公司,致力于通过大规模 AI 系统开发全球最先进的自动补全工具,也是 HyperWrite 的幕后公司。wfI28资讯网——每日最新资讯28at.com

HyperWrite 是一个浏览器操作 agent,可以像人一样操作谷歌浏览器来完成一系列任务,比如订披萨:wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

和 gpt-llm-trainer 一样,你只需要用文字描述目标,它就会一边列步骤,一边执行。wfI28资讯网——每日最新资讯28at.com

刚推出时号称“比 AutoGPT 强”。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

HyperWrite 还可以在谷歌扩展程序中安装。wfI28资讯网——每日最新资讯28at.com

另外,Mutt Shumer 高中时期就创立了 Visos,致力于开发用于医疗用途的下一代虚拟现实软件。wfI28资讯网——每日最新资讯28at.com

还创立了 FURI,这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

虽然有 Meta 支持,但目前打开试玩,还是:暂时无法访问。wfI28资讯网——每日最新资讯28at.com

wfI28资讯网——每日最新资讯28at.com

感兴趣的童鞋可以先码住了~wfI28资讯网——每日最新资讯28at.com

https://reflection-playground-production.up.railway.app/wfI28资讯网——每日最新资讯28at.com

参考链接:wfI28资讯网——每日最新资讯28at.com

[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70BwfI28资讯网——每日最新资讯28at.com

[2]https://x.com/mattshumer_/status/1831767014341538166wfI28资讯网——每日最新资讯28at.com

[3]https://x.com/polynoamial/status/1831798985528635806wfI28资讯网——每日最新资讯28at.com

[4]https://x.com/degeneratoor/status/1831809610451448196wfI28资讯网——每日最新资讯28at.com

[5]https://x.com/kimmonismus/status/1831772661296345333wfI28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:西风,原标题:《开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集》wfI28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6971-0.html开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 业内首个 AI 大模型供应链安全国际标准发布,蚂蚁集团、微软、谷歌、百度等数十家单位共同编制

下一篇: 重磅揭晓!中国企业500强全名单出炉,谁将登顶榜单引领风骚?

标签:
  • 热门焦点
  • 【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

    虚拟数字人行业未来的主要驱动力包括:用户代际变化,新一代消费者对内容消费和虚拟世界更为渴求;虚拟数字人相关技术门槛相对降低,成本有所回落;资本热度上升,受Metav
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • 量子计算在未来能否提高区块链技术的效率

    区块链技术的主要成功之处在于对不透明的金融流程进行了去中心化的访问量子计算机的内在目标是解决传统计算机不可能解决的问题随着区块链技术的使用案例逐渐
  • 花旗集团前高管加入Provenance区块链,担任CEO

    No.1 花旗集团前高管加入Provenance区块链,担任CEO3月1日消息,Provenance区块链基金会已任命花旗集团前高管摩根·麦肯尼(Morgan McKenney)为新任首席执行官。麦肯
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与
  • 初探元宇宙

    2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中,被称为“元宇宙”第一股后,Facebook更名为Meta, 引发全球范围内
Top