当前位置:首页 > 元宇宙 > AI

月之暗面 Kimi 开源 Moonlight:30 亿 160 亿参数混合专家模型

来源: 责编: 时间:2025-02-25 11:40:32 173观看
导读 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点

2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。bH528资讯网——每日最新资讯28at.com

bH528资讯网——每日最新资讯28at.com

月之暗面称,团队发现 Muon 优化器可通过添加权重衰减、仔细调整每个参数的更新幅度等技术进行扩展,并具备如下亮点:bH528资讯网——每日最新资讯28at.com

这些技术使得 Muon 能够在大规模训练中开箱即用,无需进行超参数调优。扩展法则实验表明,与计算最优训练的 AdamW 相比,Muon 实现了约 2 倍的计算效率。bH528资讯网——每日最新资讯28at.com

本次论文所使用的模型为 Moonlight-16B-A3B,总参数量为 15.29B,激活参数为 2.24B,其使用 Muon 优化器,在 5.7T Tokens 的训练数据下获得上述成绩。bH528资讯网——每日最新资讯28at.com

我们的模型不仅突破了当前的 Pareto 前沿,还在训练所需的 FLOP 数大幅减少的情况下,达到了比以往模型更优的性能。bH528资讯网——每日最新资讯28at.com

我们开源了一个分布式版本的 Muon 实现,它在内存使用和通信效率上都进行了优化。同时,我们也发布了预训练模型、经过指令调优的模型以及中间训练检查点,旨在为未来的研究提供支持。bH528资讯网——每日最新资讯28at.com

附有关链接如下:bH528资讯网——每日最新资讯28at.com

GitHub:点此前往bH528资讯网——每日最新资讯28at.com

Hugging Face :点此前往bH528资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11075-0.html月之暗面 Kimi 开源 Moonlight:30 亿 160 亿参数混合专家模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 超 2000 名文化界人士呼吁英国政府:不要将我们的作品白送给 AI 富豪

下一篇: 国产 AI 大模型加速迭代,厂商迈向开源、集聚化

标签:
  • 热门焦点
  • 【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

    虚拟数字人行业未来的主要驱动力包括:用户代际变化,新一代消费者对内容消费和虚拟世界更为渴求;虚拟数字人相关技术门槛相对降低,成本有所回落;资本热度上升,受Metav
  • “元宇宙”里过大年,《迷你世界》在做一场怎样的实验?

    2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限,腾讯等大厂更加密集地投资动作,让游戏创投市场异常火热,"元宇宙"概念的大放异彩,更是吸引了Netfl
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • 独立故事片“Calladita”将使用 NFT 筹集资金

    导演 Miguel Faus 正在转向加密来资助他的处女作,由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”(导演 Miguel Faus)。图片:米格尔·福斯在过去的一年
  • NFT领域,我们是否应该遵守版权法

    NFTs中最有争议的因素之一是你是否真的 "拥有 "你所购买的艺术品。除此之外,围绕着NFT行业内的版权和知识产权盗窃的问题也同样重要,因为人们很容易误解这些事情
  • 以太坊面临来自Fantom的巨大挑战

    众所周知,区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
  • 虚拟人的3大纪律和6种品牌孵化模式

    作者:陈格雷(老小格)及团队虚拟人很热,我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点,整理出6种最主要的品牌虚拟人模式,后面一一介绍。
  • 从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
Top