当前位置:首页 > 元宇宙 > AI

美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出

来源: 责编: 时间:2025-09-03 16:52:02 69观看
导读 9 月 1 日消息,美团今日正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts,MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。

9 月 1 日消息,美团今日正式发布 LongCat-Flash-Chat,并同步开源。44D28资讯网——每日最新资讯28at.com

44D28资讯网——每日最新资讯28at.com

LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts,MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。44D28资讯网——每日最新资讯28at.com

LongCat-Flash 模型在架构层面引入“零计算专家(Zero-Computation Experts)”机制,总参数量 560B,每个 token 依据上下文需求仅激活 18.6B~31.3 B 参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用 PID 控制器实时微调专家偏置,将单 token 平均激活量稳定在约 27B。44D28资讯网——每日最新资讯28at.com

44D28资讯网——每日最新资讯28at.com

▲ LongCat-Flash 架构图

此外,LongCat-Flash 在层间铺设跨层通道,使 MoE 的通信和计算能很大程度上并行,提高了训练和推理效率。配合定制化的底层优化,LongCat-Flash 在 30 天内完成训练,并在 H800 上实现单用户 100+ tokens / s 的推理速度。LongCat-Flash 还对常用大模型组件和训练方式进行了改进,使用了超参迁移和模型层叠加的方式进行训练,并结合了多项策略保证训练稳定性。44D28资讯网——每日最新资讯28at.com

针对智能体(Agentic)能力,LongCat-Flash 自建了 Agentic 评测集指导数据策略,并在训练全流程进行了全面的优化,包括使用多智能体方法生成多样化高质量的轨迹数据等,实现了更好的智能体能力。44D28资讯网——每日最新资讯28at.com

通过算法和工程层面的联合设计,LongCat-Flash 在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型;通过系统优化,LongCat-Flash 在 H800 上达成了 100 tokens / s 的生成速度,在保持极致生成速度的同时,输出成本低至 5 元 / 百万 token。44D28资讯网——每日最新资讯28at.com

根据多项基准测试综合评估,作为一款非思考型基础模型,LongCat-Flash-Chat 在仅激活少量参数的前提下,性能比肩当下领先的主流模型,尤其在智能体任务中具备突出优势。并且,因为面向推理效率的设计和创新,LongCat-Flash-Chat 具有明显更快的推理速度,更适合于耗时较长的复杂智能体应用。44D28资讯网——每日最新资讯28at.com

在通用领域知识方面,LongCat-Flash 在 ArenaHard-V2 基准测试中取得 86.50 的成绩,位列所有评估模型中的第二名。在基础基准测试中,MMLU(多任务语言理解基准)得分为 89.71,CEval(中文通用能力评估基准)得分为 90.44。这些成绩可与目前国内领先的模型比肩,且其参数规模少于 DeepSeek-V3.1、Kimi-K2 等产品。44D28资讯网——每日最新资讯28at.com

在智能体(Agentic)工具使用方面,LongCat-Flash 展现出明显优势:即便与参数规模更大的模型相比,其在 τ2-Bench(智能体工具使用基准)中的表现仍超越其他模型;在高复杂度场景下,该模型在 VitaBench(复杂场景智能体基准)中以 24.30 的得分位列第一。44D28资讯网——每日最新资讯28at.com

在编程方面,LongCat-Flash 在 TerminalBench(终端命令行任务基准)中,以 39.51 的得分位列第二;在 SWE-Bench-Verified(软件工程师能力验证基准)中得分为 60.4。44D28资讯网——每日最新资讯28at.com

在指令遵循方面,LongCat-Flash 在 IFEval(指令遵循评估基准)中以 89.65 的得分位列第一;此外,在 COLLIE(中文指令遵循基准)和 Meeseeks-zh(中文多场景指令基准)中也斩获最佳成绩,分别为 57.10 和 43.03,凸显其在中英文两类不同语言、不同高难度指令集上的驾驭能力。44D28资讯网——每日最新资讯28at.com

44D28资讯网——每日最新资讯28at.com

目前,LongCat-Flash-Chat 在 Github、Hugging Face 平台同步开源。附开源地址:44D28资讯网——每日最新资讯28at.com

Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat44D28资讯网——每日最新资讯28at.com

Github:https://github.com/meituan-longcat/LongCat-Flash-Chat44D28资讯网——每日最新资讯28at.com

体验官网:https://longcat.ai/44D28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27231-0.html美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 北京中小学校新学期开展人工智能通识教育,每学年不少于 8 课时

下一篇: 9 月起影响你我生活的新规:电动自行车“新国标”、AI 生成内容必须添加标识等

标签:
  • 热门焦点
  • VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 英特尔首款加密芯片将于今年上市|国际动态

    No.1 英特尔首款加密芯片将于今年上市2月13日消息,英特尔首款名为“区块链加速器”的加密芯片将于今年晚些时候上市。目前,已经有两家公司预订了这项技术,分别是G
  • 超跑与NFT的首次结合,兰博基尼能否破局?

    兰博基尼公司近日称即将推出它的首款NFT,并且将加速进军区块链领域。这家闻名遐迩的意大利汽车厂商野心勃勃地将目光投向混合动力和电动跑车,并宣布将拍卖与瑞士
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
  • 76亿美金估值、2022年最具创新力公司,Dapper Labs如何做到?

    “元宇宙的开拓者”是我们针对元宇宙的发展而设立的专栏,主要面向那些深挖元宇宙产业或者在元宇宙进行“淘金”的从业者,分享这些企业或者创业者们的故事,以独特
Top