当前位置:首页 > 元宇宙 > AI

美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出

来源: 责编: 时间:2025-09-03 16:52:02 75观看
导读 9 月 1 日消息,美团今日正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts,MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。

9 月 1 日消息,美团今日正式发布 LongCat-Flash-Chat,并同步开源。m4V28资讯网——每日最新资讯28at.com

m4V28资讯网——每日最新资讯28at.com

LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts,MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。m4V28资讯网——每日最新资讯28at.com

LongCat-Flash 模型在架构层面引入“零计算专家(Zero-Computation Experts)”机制,总参数量 560B,每个 token 依据上下文需求仅激活 18.6B~31.3 B 参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用 PID 控制器实时微调专家偏置,将单 token 平均激活量稳定在约 27B。m4V28资讯网——每日最新资讯28at.com

m4V28资讯网——每日最新资讯28at.com

▲ LongCat-Flash 架构图

此外,LongCat-Flash 在层间铺设跨层通道,使 MoE 的通信和计算能很大程度上并行,提高了训练和推理效率。配合定制化的底层优化,LongCat-Flash 在 30 天内完成训练,并在 H800 上实现单用户 100+ tokens / s 的推理速度。LongCat-Flash 还对常用大模型组件和训练方式进行了改进,使用了超参迁移和模型层叠加的方式进行训练,并结合了多项策略保证训练稳定性。m4V28资讯网——每日最新资讯28at.com

针对智能体(Agentic)能力,LongCat-Flash 自建了 Agentic 评测集指导数据策略,并在训练全流程进行了全面的优化,包括使用多智能体方法生成多样化高质量的轨迹数据等,实现了更好的智能体能力。m4V28资讯网——每日最新资讯28at.com

通过算法和工程层面的联合设计,LongCat-Flash 在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型;通过系统优化,LongCat-Flash 在 H800 上达成了 100 tokens / s 的生成速度,在保持极致生成速度的同时,输出成本低至 5 元 / 百万 token。m4V28资讯网——每日最新资讯28at.com

根据多项基准测试综合评估,作为一款非思考型基础模型,LongCat-Flash-Chat 在仅激活少量参数的前提下,性能比肩当下领先的主流模型,尤其在智能体任务中具备突出优势。并且,因为面向推理效率的设计和创新,LongCat-Flash-Chat 具有明显更快的推理速度,更适合于耗时较长的复杂智能体应用。m4V28资讯网——每日最新资讯28at.com

在通用领域知识方面,LongCat-Flash 在 ArenaHard-V2 基准测试中取得 86.50 的成绩,位列所有评估模型中的第二名。在基础基准测试中,MMLU(多任务语言理解基准)得分为 89.71,CEval(中文通用能力评估基准)得分为 90.44。这些成绩可与目前国内领先的模型比肩,且其参数规模少于 DeepSeek-V3.1、Kimi-K2 等产品。m4V28资讯网——每日最新资讯28at.com

在智能体(Agentic)工具使用方面,LongCat-Flash 展现出明显优势:即便与参数规模更大的模型相比,其在 τ2-Bench(智能体工具使用基准)中的表现仍超越其他模型;在高复杂度场景下,该模型在 VitaBench(复杂场景智能体基准)中以 24.30 的得分位列第一。m4V28资讯网——每日最新资讯28at.com

在编程方面,LongCat-Flash 在 TerminalBench(终端命令行任务基准)中,以 39.51 的得分位列第二;在 SWE-Bench-Verified(软件工程师能力验证基准)中得分为 60.4。m4V28资讯网——每日最新资讯28at.com

在指令遵循方面,LongCat-Flash 在 IFEval(指令遵循评估基准)中以 89.65 的得分位列第一;此外,在 COLLIE(中文指令遵循基准)和 Meeseeks-zh(中文多场景指令基准)中也斩获最佳成绩,分别为 57.10 和 43.03,凸显其在中英文两类不同语言、不同高难度指令集上的驾驭能力。m4V28资讯网——每日最新资讯28at.com

m4V28资讯网——每日最新资讯28at.com

目前,LongCat-Flash-Chat 在 Github、Hugging Face 平台同步开源。附开源地址:m4V28资讯网——每日最新资讯28at.com

Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Chatm4V28资讯网——每日最新资讯28at.com

Github:https://github.com/meituan-longcat/LongCat-Flash-Chatm4V28资讯网——每日最新资讯28at.com

体验官网:https://longcat.ai/m4V28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27231-0.html美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 北京中小学校新学期开展人工智能通识教育,每学年不少于 8 课时

下一篇: 9 月起影响你我生活的新规:电动自行车“新国标”、AI 生成内容必须添加标识等

标签:
  • 热门焦点
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 不同于传统数字经济,元宇宙赋予商业生态更多数字资产价值!

    作者:中科基大数据元宇宙是一个去中心化的开放平台,而为了维护这样的平台,需要建立一个公平的游戏规则,确保每个元宇宙的参与者通过这个规则都可以挣到钱,他们的利益都可以得到保
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 量子计算在未来能否提高区块链技术的效率

    区块链技术的主要成功之处在于对不透明的金融流程进行了去中心化的访问量子计算机的内在目标是解决传统计算机不可能解决的问题随着区块链技术的使用案例逐渐
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 虚拟偶像行业的商用价值逐渐凸显,IP生态圈也逐渐成型

    六月的第一个周六,一场虚拟偶像七海Nana7mi的个人3D演唱会在万代南梦宫上海文化中心举行,相较于洛天依、百大UP主泠鸢yousa等,这位虚拟Up主在B站上的粉丝数43.6万

相关资讯

    SQL Error: select * from ***_ecms_news11 where id in(143,276,,104,243,234) limit 6
Top