当前位置:首页 > 科技  > 网络

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

来源: 责编: 时间:2025-09-23 11:18:32 66观看
导读 快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。综合评估

快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。jIP28资讯网——每日最新资讯28at.com

在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。jIP28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5jIP28资讯网——每日最新资讯28at.com

综合评估显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。jIP28资讯网——每日最新资讯28at.com

同时,LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型。jIP28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5jIP28资讯网——每日最新资讯28at.com

该团队还表示,尤其在高复杂度的任务(如数学、代码、智能体任务)处理上,新模型具备显著优势。jIP28资讯网——每日最新资讯28at.com

具体表现如下:jIP28资讯网——每日最新资讯28at.com

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5jIP28资讯网——每日最新资讯28at.com

通用推理能力:LongCat-Flash-Thinking具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。jIP28资讯网——每日最新资讯28at.com

数学能力:LongCat-Flash-Thinking在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在HMMT和AIME相关基准上取得突破性成绩,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。jIP28资讯网——每日最新资讯28at.com

代码能力:在编程领域,LongCat-Flash-Thinking展现出开源模型先进的性能(SOTA)与综合实力。在LiveCodeBench上以79.4分显著超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当,证明其解决高难度编程竞赛问题的卓越能力。在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。jIP28资讯网——每日最新资讯28at.com

智能体能力:LongCat-Flash-Thinking在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出超强竞争力。jIP28资讯网——每日最新资讯28at.com

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基准中的pass@1获得67.6的分数,大幅领先所有其他参与评估的模型,在pass@8和pass@32中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。jIP28资讯网——每日最新资讯28at.com

目前,LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。jIP28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-17-183390-0.html美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 时隔快一百年 胖东来又把自有品牌带火了

下一篇: 金字火腿:拟不超3亿元取得中晟微不超20%股权

标签:
  • 热门焦点
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 2天涨粉255万,又一赛道在抖音爆火

    来源:运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁这个暑期,旅游赛道彻底火了:有的「地方」火了——贵州村超旅游收入 1 个月超过 12 亿;有的「博主」火了&m
  • 腾讯VS网易,最卷游戏暑期档,谁能笑到最后?

    作者:无锈钵来源:财经无忌7月16日晚,上海1862时尚艺术中心。伴随着幻象的精准命中,硕大的荧幕之上,比分被定格在了14:12,被寄予厚望的EDG战队以绝对的优势战胜了BLG战队,拿下了总决
  • 当家的盒马,加速谋生

    来源 | 价值星球Planet作者 | 归去来自己“当家”的盒马,开始加速谋生了。据盒马官微消息,盒马计划今年开放生鲜供应链,将其生鲜商品送往食堂。目前,盒马在上海已经与
  • 华为开发者大会2023日程公开:开设鸿蒙HarmonyOS 4体验区

    IT之家 7 月 31 日消息,华为今日公布了 HDC.Together 开发者大会 2023 的详细日程。整场大会将于 8 月 4 日-6 日之间举行,届时将发布最新一代鸿蒙 H
  • 7月4日见!iQOO 11S官宣:“鸡血版”骁龙8 Gen2+200W快充加持

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
  • Android 14发布:首批适配机型公布

    5月11日消息,谷歌在今天凌晨举行了I/O大会,本次发布会谷歌带来了自家的AI语言模型PaLM 2、谷歌Pixel Fold折叠屏、谷歌Pixel 7a手机,同时发布了Androi
  • SN570 NVMe SSD固态硬盘 价格与性能兼具

    SN570 NVMe SSD固态硬盘是西部数据发布的最新一代WD Blue系列的固态硬盘,不仅闪存技术更为精进,性能也得到了进一步的跃升。WD Blue SN570 NVMe SSD的包装外
Top