当前位置:首页 > 科技  > 互联网

阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

来源: 责编: 时间:2025-09-19 17:57:56 175观看
导读阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。在人类终极考试基准

阿里旗下人工智能团队近日宣布,开源深度研究智能体模型通义DeepResearch,引发全球AI领域高度关注。该模型在多项权威基准测试中表现卓越,不仅超越OpenAI等国际顶尖团队,更以轻量化架构实现高性能突破。9va28资讯网——每日最新资讯28at.com

在人类终极考试基准HLE测试中,通义DeepResearch以32.9%的准确率登顶全球榜首,领先第二名DeepSeek-V3.1达3.1个百分点,较OpenAI同类模型高出6.3个百分点。该模型在BrowseComp开源榜单上同样表现惊艳,43.4%的准确率刷新行业纪录。值得注意的是,如此强劲的性能仅需30B参数规模,实际激活参数仅3B,开创了轻量化模型实现深度研究的新范式。9va28资讯网——每日最新资讯28at.com

研发团队同步公开了核心技术体系,包括智能体合成数据生成框架和双模式推理架构。在数据构建层面,创新性地采用AgentFounder方法,通过整合知识图谱、网页数据和工具使用轨迹,构建出覆盖开放世界的记忆库。后训练阶段开发的WebSailor V2系统,能够自动生成包含迷雾设置和跨学科难题的高质量数据集,数据质量较人工标注提升显著。9va28资讯网——每日最新资讯28at.com

该模型独创的ReAct与Heavy双模式推理机制,有效解决了长程任务中的认知过载问题。Heavy模式通过迭代重构工作空间,将复杂任务分解为多个研究轮次,确保在超长上下文中保持推理质量。实验数据显示,采用Research-Synthesis框架的并行研究模式,可使模型在复杂基准上的性能提升12%-15%。9va28资讯网——每日最新资讯28at.com

技术实现层面,团队构建了全栈式强化学习基础设施。通过离线维基百科和定制工具套件搭建的仿真环境,配合工具沙盒的缓存重试机制,使训练效率提升3倍以上。基于GRPO算法的优化策略,结合token级损失函数和留一法筛选,成功将策略熵维持在高位,确保模型持续进化能力。9va28资讯网——每日最新资讯28at.com

实际应用场景中,该技术已深度赋能高德地图和法律智能体。在高德V16版本中,集成Deep Research能力的POI推理Agent可精准处理地理区域、交通约束等复杂需求,用户输入"西湖边4.5分以上带儿童餐的浙菜馆,距地铁站1公里内"等条件时,系统能瞬间生成最优方案。法律领域落地的通义法睿,通过迭代规划架构实现多步查询,在案例引用和法条匹配质量上超越国际主流模型。9va28资讯网——每日最新资讯28at.com

开源项目上线后迅速引发开发者热潮,GitHub仓库已收获7.2k星标,Hugging Face和ModelScope平台模型下载量持续攀升。斯坦福NLP实验室等权威机构第一时间转发技术报告,称赞其"重新定义了轻量模型的深度研究边界"。随着端到端训练框架和合成数据体系的全面公开,AI社区正迎来新一轮研究范式变革。9va28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-21-182728-0.html阿里通义DeepResearch开源来袭,以轻量之姿攻克博士级难题,引领AI研究新潮流

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Meta携手Oakley推运动智能眼镜Vanguard,续航强、设计轻或成市场新宠

下一篇: 小米YU7高性能版现身纽北赛道,或命名YU7 GT/Ultra,动力性能升级引期待

标签:
  • 热门焦点
  • 卢伟冰长文解析K60至尊版 对Redmi有着里程碑式的意义

    在今天的Redmi后性能时代战略发布会结束之后,Redmi总经理卢伟冰又带来了一篇长文,详解了为什么 Redmi 要开启后性能时代?为什么选择和 MediaTek、Pixelworks 深度合作?以及后性
  • 小米平板5 Pro 12.4简评:多专多能 兼顾影音娱乐的大屏利器

    疫情带来了网课,网课盘活了安卓平板,安卓平板市场虽然中途停滞了几年,但好的一点就是停滞的这几年行业又有了新的发展方向,例如超窄边框、高刷新率、多摄镜头组合等,这就让安卓
  • K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • SpringBoot中使用Cache提升接口性能详解

    环境:springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架从 3.1 开始,对 Spring 应用程序提供了透明式添加缓存的支持。和事务支持一样,抽象缓存允许一致地使用各
  • 企业采用CRM系统的11个好处

    客户关系管理(CRM)软件可以为企业提供很多的好处,从客户保留到提高生产力。  CRM软件用于企业收集客户互动,以改善客户体验和满意度。  CRM软件市场规模如今超过580
  • 得物效率前端微应用推进过程与思考

    一、背景效率工程随着业务的发展,组织规模的扩大,越来越多的企业开始意识到协作效率对于企业团队的重要性,甚至是决定其在某个行业竞争中突围的关键,是企业长久生存的根本。得物
  • 这款新兴工具平台,让你的电脑效率翻倍

    随着信息技术的发展,我们获取信息的渠道越来越多,但是处理信息的效率却成为一个瓶颈。于是各种工具应运而生,都在争相解决我们的工作效率问题。今天我要给大家介绍一款效率
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • iQOO 11S或7月上市:搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

    去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,iQOO 11不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞屏,同时在快充
Top