当前位置:首页 > 元宇宙 > AI

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

来源: 责编: 时间:2025-05-20 10:02:54 123观看
导读 强化学习(RL)+ 真实搜索引擎,可以有效提升大模型检索-推理能力。但问题来了:一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。另一方面,RL 训练需要频繁部署,会产生大量 API 开销,严重限制可

强化学习(RL)+ 真实搜索引擎,可以有效提升大模型检索-推理能力。NQg28资讯网——每日最新资讯28at.com

但问题来了:NQg28资讯网——每日最新资讯28at.com

一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。NQg28资讯网——每日最新资讯28at.com

另一方面,RL 训练需要频繁部署,会产生大量 API 开销,严重限制可扩展性。NQg28资讯网——每日最新资讯28at.com

现在,来自阿里通义实验室的解决方案公开了:开源 ZeroSearch,提供了一种无需与真实搜索引擎交互的强化学习框架。NQg28资讯网——每日最新资讯28at.com

实验表明,ZeroSearch 仅需 3B 参数的 LLM 作为检索模块,即可有效提升搜索能力,节省了高昂 API 成本。NQg28资讯网——每日最新资讯28at.com

NQg28资讯网——每日最新资讯28at.com

ZeroSearch 让 LLM“自给自足”实现搜索进化

研究团队用模拟搜索环境 + 渐进式抗噪训练,让 LLM 不再依赖昂贵搜索引擎 API。NQg28资讯网——每日最新资讯28at.com

NQg28资讯网——每日最新资讯28at.com

轻量微调:把 LLM 变成“搜索引擎模拟器”

用少量标注数据微调 LLM,使其能按指令生成两种文档 —— 有用结果和噪声干扰。NQg28资讯网——每日最新资讯28at.com

NQg28资讯网——每日最新资讯28at.com

通过收集与真实搜索引擎交互的数据,ZeroSearch 对 LLM 进行轻量级监督微调。NQg28资讯网——每日最新资讯28at.com

在这个过程中,模型学会生成与真实搜索引擎风格相似的文档,同时能够根据提示词生成相关或噪声文档。NQg28资讯网——每日最新资讯28at.com

这种能力使得模型在训练过程中能够动态调整文档质量,从而更好地模拟真实检索场景。NQg28资讯网——每日最新资讯28at.com

课程化抗噪训练:像打游戏升级一样练模型

训练初期返回高质文档,后期逐渐混入噪声(噪声比例按指数曲线上升)。NQg28资讯网——每日最新资讯28at.com

ZeroSearch 引入了课程式学习机制,逐步降低生成文档的质量,使模型从简单的检索场景逐步过渡到更具挑战性的任务。NQg28资讯网——每日最新资讯28at.com

这种策略不仅提升了模型的推理能力,还显著增强了训练的稳定性和效果。NQg28资讯网——每日最新资讯28at.com

NQg28资讯网——每日最新资讯28at.com

NQg28资讯网——每日最新资讯28at.com

随着训练的进行,模型逐渐适应更复杂的检索任务,最终能够在高质量和低质量文档中找到平衡。NQg28资讯网——每日最新资讯28at.com

强化学习闭环:自产自销的搜索生态

ZeroSearch 通过模拟搜索引擎,完全消除了与真实搜索引擎交互的 API 费用,使得大规模强化学习训练变得更加经济可行。NQg28资讯网——每日最新资讯28at.com

并且,ZeroSearch 兼容多种强化学习算法,包括 PPO(Proximal Policy Optimization)和 GRPO(Group Relative Policy Optimization)。NQg28资讯网——每日最新资讯28at.com

这些算法为模型提供了不同的优化策略,使得 ZeroSearch 能够在不同的模型和任务中表现出色。NQg28资讯网——每日最新资讯28at.com

实验表明,GRPO 在训练稳定性方面表现更好,而 PPO 则在某些任务中提供了更高的灵活性。NQg28资讯网——每日最新资讯28at.com

实验结果及结论

ZeroSearch 的零 API 成本优势不仅体现在经济上,还体现在训练的灵活性和可扩展性上。NQg28资讯网——每日最新资讯28at.com

ZeroSearch vs. 现有方法

NQg28资讯网——每日最新资讯28at.com

在图中,我们可以清晰地看到 ZeroSearch 在多个问答数据集上的表现。NQg28资讯网——每日最新资讯28at.com

无论是单跳(Single-Hop)还是多跳(Multi-Hop)问答任务,ZeroSearch 都显著优于现有的基线方法,包括直接提示、RAG 和 Search-R1 等。NQg28资讯网——每日最新资讯28at.com

这表明 ZeroSearch 不仅在简单任务中表现出色,还能在复杂的多跳问答任务中发挥强大的检索能力。NQg28资讯网——每日最新资讯28at.com

NQg28资讯网——每日最新资讯28at.com

上图展示了 ZeroSearch 和 Search-R1(使用真实搜索引擎)在 LLaMA-3.2-3B 模型上的奖励曲线对比。NQg28资讯网——每日最新资讯28at.com

ZeroSearch 的学习曲线更加平滑且最终性能优于 Search-R1,表明其在训练过程中的稳定性和优越性。NQg28资讯网——每日最新资讯28at.com

不同模型规模的性能

NQg28资讯网——每日最新资讯28at.com

可以看到使用 7B 参数的检索模块就能达到与谷歌搜索相当的性能,而 14B 参数的检索模块甚至能够超越谷歌搜索。NQg28资讯网——每日最新资讯28at.com

这表明 ZeroSearch 不仅适用于小型模型,还能在大型模型中发挥更大的潜力,为 LLM 的检索能力提升提供了广阔的空间。NQg28资讯网——每日最新资讯28at.com

强化学习算法的兼容性

NQg28资讯网——每日最新资讯28at.com

比较了在 Qwen-2.5-3B 和 LLaMA-3.2-3B 模型上,使用 PPO 和 GRPO 算法的 ZeroSearch 性能,可以看到 ZeroSearch 与 PPO 和 GRPO 两种强化学习算法的兼容性。NQg28资讯网——每日最新资讯28at.com

实验结果表明,GRPO 在训练稳定性方面表现更好,而 PPO 则在某些任务中提供了更高的灵活性。NQg28资讯网——每日最新资讯28at.com

这表明 ZeroSearch 能够适应不同的强化学习算法,为研究人员提供了更多的选择。NQg28资讯网——每日最新资讯28at.com

通过模拟搜索引擎,ZeroSearch 完全消除了 API 成本,同时通过课程式学习策略逐步提升模型的推理能力。NQg28资讯网——每日最新资讯28at.com

论文第一作者孙浩目前是北京大学智能学院四年级博士研究生,研究方向聚焦于检索增强的大语言模型与智能体,师从张岩教授。NQg28资讯网——每日最新资讯28at.com

论文链接:NQg28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2505.04588NQg28资讯网——每日最新资讯28at.com

项目主页:NQg28资讯网——每日最新资讯28at.com

https://alibaba-nlp.github.io/ ZeroSearchNQg28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:闻乐NQg28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13012-0.html通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI ChatGPT 被曝将支持 MCP 协议,可接入第三方 AI 服务

下一篇: 谷歌安卓将推新 ML Kit GenAI API,扩展端侧 Gemini Nano AI 模型访问

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 新款英特尔芯片将使NFT铸造变得更加方便

    科技巨头和微处理器制造商英特尔(Intel)正在发布一款适用于 NFT 铸造和挖矿的新芯片。新产品专注于效率、易操作性和可持续性,该公司的战略是从加密兴起与 NFT爆
  • Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 知识产权可能在元宇宙中“消失”?

    开篇老雅痞先来划重点:一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼,声称NFT侵犯了他们的知识产权。Inside
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • 又一家数字营销公司入局元宇宙,国内首个艺术元宇宙社区“Meta彼岸”上线

    作者:董宇佳2月28日,智度股份在北京举办产品发布会,宣布其与国光电器联手打造的国内首个艺术元宇宙社区——“Meta彼岸”在VR端和移动端正式公测。从科技巨头布局
Top