当前位置:首页 > 元宇宙 > AI

非 Transformer 架构 AI 模型 Liquid 问世,号称性能“凌驾 Meta Llama 微软 Phi”

来源: 责编: 时间:2024-10-05 19:24:56 221观看
导读 10 月 2 日消息,去年刚成立的 Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模型(Liquid Foundation Models,LFM),分别为 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。这些模型均采用非 Transformer 架构,号称在基准测

10 月 2 日消息,去年刚成立的 Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模型(Liquid Foundation Models,LFM),分别为 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。这些模型均采用非 Transformer 架构,号称在基准测试中凌驾同规模的 Transformer 模型。ymq28资讯网——每日最新资讯28at.com

ymq28资讯网——每日最新资讯28at.com

注意到,目前业界在深度学习和自然语言处理方面主要使用 Transformer架构,该架构主要利用自注意力机制捕捉序列中单词之间的关系,包括 OpenAI 的 GPT、Meta 的 BART 和谷歌的 T5 等模型,都是基于 Transformer 架构。ymq28资讯网——每日最新资讯28at.com

而Liquid AI 则反其道而行之,其 Liquid 基础模型号称对模型架构进行了“重新设想”,据称受到了“交通信号处理系统、数值线性代数”理念的深刻影响,主打“通用性”,能够针对特定类型的数据进行建模,同时支持对视频、音频、文本、时间序列和交通信号等内容进行处理。ymq28资讯网——每日最新资讯28at.com

ymq28资讯网——每日最新资讯28at.com

Liquid AI 表示,与 Transformer 架构模型相比 LFM 模型的RAM用量更少,特别是在处理大量输入内容场景时,由于 Transformer 架构模型处理长输入时需要保存键值(KV)缓存,且缓存会随着序列长度的增加而增大,导致输入越长,占用的RAM越多。ymq28资讯网——每日最新资讯28at.com

而 LFM 模型则能够避免上述问题,系列模型能够有效对外界输入的数据进行压缩,降低对硬件资源的需求,在相同硬件条件下,这三款模型相对业界竞品能够处理更长的序列。ymq28资讯网——每日最新资讯28at.com

参考 Liquid AI 首批发布的三款模型,其中 LFM-1.3B 专为资源受限的环境设计,而 LFM-3.1B 针对边缘计算进行了优化,LFM-40.3B 则是一款“专家混合模型(MoE)”,该版本主要适用于数学计算、交通信号处理等场景。ymq28资讯网——每日最新资讯28at.com

这些模型在通用知识和专业知识的处理上表现较为突出,能够高效处理长文本任务,还能够处理数学和逻辑推理任务,目前该模型主要支持英语,不过也对中文、法语、德语、西班牙语、日语、韩语和阿拉伯语提供有限支持。ymq28资讯网——每日最新资讯28at.com

根据 Liquid AI 的说法,LFM-1.3B 在许多基准测试中击败了其他 1B 参数规模的领先模型,包括苹果的 OpenELM、Meta 的 Llama 3.2、微软的 Phi 1.5 以及 Stability 的 Stable LM 2,这标志着首次有非 GPT 架构的模型明显超越了 Transformer 模型。ymq28资讯网——每日最新资讯28at.com

而在 LFM-3.1B 方面,这款模型不仅能够超越了 3B 规模的各种 Transformer 模型、混合模型和 RNN 模型,甚至还在特定场景超越上一代的 7B 和 13B 规模模型,目前已战胜谷歌的 Gemma 2、苹果的 AFM Edge、Meta 的 Llama 3.2 和微软的 Phi-3.5 等。ymq28资讯网——每日最新资讯28at.com

LFM-40.3B 则强调在模型规模和输出质量之间的平衡,不过这款模型有所限制,虽然其拥有 400 亿个参数,但在推理时仅启用 120 亿个参数,Liquid AI 声称进行相关限制是因为模型出品质量已经足够,在这种情况下对相应参数进行限制“反而还能够提升模型效率、降低模型运行所需的硬件配置”。ymq28资讯网——每日最新资讯28at.com

ymq28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-8028-0.html非 Transformer 架构 AI 模型 Liquid 问世,号称性能“凌驾 Meta Llama 微软 Phi”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: PyTorch 架构优化库 torchao 正式发布,可大幅提升 AI 模型效率

下一篇: OpenAI 引领 AI 浪潮:o1 模型可处理 5 小时任务,颠覆营销思维和模式

标签:
  • 热门焦点
  • 在元宇宙卖酸奶,这波联动燃爆了!

    来源:品牌头版 或许,每个人心中都住着一个小馋孩。可能是童年时百吃不厌,觉得新奇又有趣的跳跳糖;可能是味道香甜,咬下一口嘎嘣脆的扁桃仁;还有可能,是某种不知为什么,就是很爱吃的
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 上、中、下游加深融合,搭建元宇宙产业全景

    元宇宙产业链涉及多种技术和多个领域。在上游,聚集着大量的技术厂商,提供元宇宙相关的硬件和软件支持;在中游,内容运营与分发领域也吸引着越来越多的企业以VR内容
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 王老吉启动元宇宙“吉空间”,HTC发布元宇宙应用VIVERSE

    今日《元宇宙新鲜事》有:王老吉启动元宇宙“吉空间”;HTC发布元宇宙应用VIVERSE;Meta将在马德里构建一个元宇宙创新中心;央视网《新闻+》推出系列视频《聊聊元宇宙
  • 如何在元宇宙中建立品牌忠诚度

    Snoop Dogg、耐克、苏富比和普华永道都有什么共同点?他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
  • 电影工业巨头好莱坞计划进军元宇宙,将会对行业带来什么影响?

    元宇宙听起来像不像是科幻小说中出现的术语?事实确实如此。小说家尼尔·斯蒂芬森在1992年的小说《雪崩》中首次用这个词来定义了一个多连接的虚拟宇宙,它能够模
Top