当前位置:首页 > 科技  > 网络

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

来源: 责编: 时间:2025-09-23 11:18:32 49观看
导读 快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。综合评估

快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。gHn28资讯网——每日最新资讯28at.com

在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。gHn28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5gHn28资讯网——每日最新资讯28at.com

综合评估显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。gHn28资讯网——每日最新资讯28at.com

同时,LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型。gHn28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5gHn28资讯网——每日最新资讯28at.com

该团队还表示,尤其在高复杂度的任务(如数学、代码、智能体任务)处理上,新模型具备显著优势。gHn28资讯网——每日最新资讯28at.com

具体表现如下:gHn28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5gHn28资讯网——每日最新资讯28at.com

通用推理能力:LongCat-Flash-Thinking具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。gHn28资讯网——每日最新资讯28at.com

数学能力:LongCat-Flash-Thinking在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在HMMT和AIME相关基准上取得突破性成绩,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。gHn28资讯网——每日最新资讯28at.com

代码能力:在编程领域,LongCat-Flash-Thinking展现出开源模型先进的性能(SOTA)与综合实力。在LiveCodeBench上以79.4分显著超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当,证明其解决高难度编程竞赛问题的卓越能力。在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。gHn28资讯网——每日最新资讯28at.com

智能体能力:LongCat-Flash-Thinking在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出超强竞争力。gHn28资讯网——每日最新资讯28at.com

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基准中的pass@1获得67.6的分数,大幅领先所有其他参与评估的模型,在pass@8和pass@32中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。gHn28资讯网——每日最新资讯28at.com

目前,LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。gHn28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-17-183390-0.html美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 时隔快一百年 胖东来又把自有品牌带火了

下一篇: 金字火腿:拟不超3亿元取得中晟微不超20%股权

标签:
  • 热门焦点
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 帅气纯真少年!日本最帅初中生选美冠军出炉

    日本第一帅哥初一生选美大赛冠军现已正式出炉,冠军是来自千叶县的宗田悠良。日本一直热衷于各种选美大赛,从“最美JK”起到“最美女星&r
  • 掘力计划第 20 期:Flutter 混合开发的混乱之治

    在掘力计划系列活动第20场,《Flutter 开发实战详解》作者,掘金优秀作者,Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
  • 服务存储设计模式:Cache-Aside模式

    Cache-Aside模式一种常用的缓存方式,通常是把数据从主存储加载到KV缓存中,加速后续的访问。在存在重复度的场景,Cache-Aside可以提升服务性能,降低底层存储的压力,缺点是缓存和底
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人员可能会涉及各种各样的安全任务,包括但不限于:开发某些安全工具的插件,满足自己特定的安全需求;自定义github搜索工具,快速查找所需的安全资料、漏洞poc、exp
  • 猿辅导与新东方的两种“归途”

    作者|卓心月 出品|零态LT(ID:LingTai_LT)如何成为一家伟大企业?答案一定是对“势”的把握,这其中最关键的当属对企业战略的制定,且能够站在未来看现在,即使这其中的
  • 华为Mate 60系列用上可变灵动岛:正式版体验将会更出色

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
  • 华为HarmonyOS 4.0将于8月4日发布 或搭载AI大模型技术

    华为宣布HarmonyOS4.0将于8月4日正式发布。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性
  • 2纳米决战2025

    集微网报道 从三强争霸到四雄逐鹿,2nm的厮杀声已然隐约传来。无论是老牌劲旅台积电、三星,还是誓言重回先进制程领先地位的英特尔,甚至初成立不久的新
Top