当前位置:首页 > 科技  > 网络

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

来源: 责编: 时间:2025-09-23 11:18:32 107观看
导读 快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。综合评估

快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。Un528资讯网——每日最新资讯28at.com

在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。Un528资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5Un528资讯网——每日最新资讯28at.com

综合评估显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。Un528资讯网——每日最新资讯28at.com

同时,LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型。Un528资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5Un528资讯网——每日最新资讯28at.com

该团队还表示,尤其在高复杂度的任务(如数学、代码、智能体任务)处理上,新模型具备显著优势。Un528资讯网——每日最新资讯28at.com

具体表现如下:Un528资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5Un528资讯网——每日最新资讯28at.com

通用推理能力:LongCat-Flash-Thinking具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。Un528资讯网——每日最新资讯28at.com

数学能力:LongCat-Flash-Thinking在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在HMMT和AIME相关基准上取得突破性成绩,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。Un528资讯网——每日最新资讯28at.com

代码能力:在编程领域,LongCat-Flash-Thinking展现出开源模型先进的性能(SOTA)与综合实力。在LiveCodeBench上以79.4分显著超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当,证明其解决高难度编程竞赛问题的卓越能力。在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。Un528资讯网——每日最新资讯28at.com

智能体能力:LongCat-Flash-Thinking在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出超强竞争力。Un528资讯网——每日最新资讯28at.com

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基准中的pass@1获得67.6的分数,大幅领先所有其他参与评估的模型,在pass@8和pass@32中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。Un528资讯网——每日最新资讯28at.com

目前,LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。Un528资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-17-183390-0.html美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 时隔快一百年 胖东来又把自有品牌带火了

下一篇: 金字火腿:拟不超3亿元取得中晟微不超20%股权

标签:
  • 热门焦点
  • K60 Pro官方停产 第三方瞬间涨价

    虽然没有官方宣布,但Redmi的一些高管也已经透露了,Redmi K60 Pro已经停产且不会补货,这一切都是为了即将到来的K60 Ultra铺路,属于厂家的正常操作。但有意思的是该机在停产之后
  • 6月安卓手机好评榜:魅族20 Pro蝉联冠军

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年6月1日至6月30日,仅限国内市场。第一名:魅族20 Pro好评率:95%5月份的时候魅族20 Pro就是
  • 微信语音大揭秘:为什么禁止转发?

    大家好,我是你们的小米。今天,我要和大家聊一个有趣的话题:为什么微信语音不可以转发?这是一个我们经常在日常使用中遇到的问题,也是一个让很多人好奇的问题。让我们一起来揭开这
  • 梁柱接棒两年,腾讯音乐闯出新路子

    文丨田静 出品丨牛刀财经(niudaocaijing)7月5日,企鹅FM发布官方公告称由于业务调整,将于9月6日正式停止运营,这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
  • 得物宠物生意「狂飙」,发力“它经济”

    作者|花花小萌主近日,得物宣布正式上线宠物鉴别,通过得物App内的“在线鉴别”,可找到鉴别宠物的选项。通过上传自家宠物的部位细节,就能收获拥有专业资质认证的得物鉴
  • 超闭合精工铰链 彻底消灭缝隙 三星Galaxy Z Flip5与Galaxy Z Fold5发布

    2023年7月26日,三星电子正式发布了Galaxy Z Flip5与Galaxy Z Fold5。三星新一代折叠屏手机采用超闭合精工铰链,让折叠后的缝隙不再可见。同时,配合处
  • 微软发布Windows 11新版 引入全新任务栏状态

    近日,微软发布了Windows 11新版,而Build 22563更新主要引入了几周前曝光的平板模式任务栏等,系统更流畅了。更新中,Windows 11加入了专门针对平板优化的任务栏
  • AI艺术欣赏体验会在上海梅赛德斯奔驰中心音乐俱乐部上演

    光影交错的镜像世界,虚实幻化的视觉奇观,虚拟偶像与真人共同主持,这些场景都出现在2019世界人工智能大会的舞台上。8月29日至31日,“AI艺术欣赏体验会”在上海
  • 电博会与软博会实现"线下+云端"的双线融合

    在本次“电博会”与“软博会”双展会利好条件的加持下,既可以发挥展会拉动人流、信息流、资金流实现快速交互流动的作用,继而推动区域经济良性发展;又可以聚
Top