当前位置:首页 > 元宇宙 > AI

大模型增速远超摩尔定律!MIT 最新研究:人类快要喂不饱 AI 了

来源: 责编: 时间:2024-03-20 17:22:58 305观看
导读 【新智元导读】近日,来自 MIT (麻省理工学院)的研究人员发表了关于大模型能力增速的研究,结果表明,LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!硬件马上就要跟不上啦!我们人类可能要养不起 AI 了!近日,来自 M

【新智元导读】近日,来自 MIT (麻省理工学院)的研究人员发表了关于大模型能力增速的研究,结果表明,LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!硬件马上就要跟不上啦!jCY28资讯网——每日最新资讯28at.com

我们人类可能要养不起 AI 了!jCY28资讯网——每日最新资讯28at.com

近日,来自 MIT FutureTech 的研究人员发表了一项关于大模型能力增长速度的研究,结果表明:LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/pdf/2403.05812.pdfjCY28资讯网——每日最新资讯28at.com

LLM 的能力提升大部分来自于算力,而摩尔定律代表着硬件算力的发展,jCY28资讯网——每日最新资讯28at.com

—— 也就是说,随着时间的推移,终有一天我们将无法满足 LLM 所需要的算力!jCY28资讯网——每日最新资讯28at.com

如果那个时候 AI 有了意识,不知道会不会自己想办法找饭吃?jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

上图表示不同领域的算法改进对有效计算翻倍的估计。蓝点表示中心估计值或范围;蓝色三角形对应于不同大小(范围从 1K 到 1B)的问题的倍增时间;紫色虚线对应于摩尔定律表示的 2 年倍增时间。jCY28资讯网——每日最新资讯28at.com

摩尔定律和比尔盖茨

摩尔定律(Moore's law)是一种经验或者观察结果,表示集成电路(IC)中的晶体管数量大约每两年翻一番。jCY28资讯网——每日最新资讯28at.com

1965 年,仙童半导体(Fairchild Semiconductor)和英特尔的联合创始人 Gordon Moore 假设集成电路的组件数量每年翻一番,并预测这种增长率将至少再持续十年。jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

1975 年,展望下一个十年,他将预测修改为每两年翻一番,复合年增长率(CAGR)为 41%。jCY28资讯网——每日最新资讯28at.com

虽然 Moore 没有使用经验证据来预测历史趋势将继续下去,但他的预测自 1975 年以来一直成立,所以也就成了“定律”。jCY28资讯网——每日最新资讯28at.com

因为摩尔定律被半导体行业用于指导长期规划和设定研发目标,所以在某种程度上,成了一种自我实现预言。jCY28资讯网——每日最新资讯28at.com

数字电子技术的进步,例如微处理器价格的降低、内存容量(RAM 和闪存)的增加、传感器的改进,甚至数码相机中像素的数量和大小,都与摩尔定律密切相关。jCY28资讯网——每日最新资讯28at.com

数字电子的这些持续变化一直是技术和社会变革、生产力和经济增长的驱动力。jCY28资讯网——每日最新资讯28at.com

不过光靠自我激励肯定是不行的,虽然行业专家没法对摩尔定律能持续多久达成共识,但根据微处理器架构师的报告,自 2010 年左右以来,整个行业的半导体发展速度已经放缓,略低于摩尔定律预测的速度。jCY28资讯网——每日最新资讯28at.com

下面是维基百科给出的晶体管数量增长趋势图:jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

到了 2022 年 9 月,英伟达首席执行官黄仁勋直言“摩尔定律已死”,不过英特尔首席执行官 Pat Gelsinger 则表示不同意。jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

从下图我们可以看出,英特尔还在努力用各种技术和方法为自己老祖宗提出的定律续命,并表示,问题不大,你看我们还是直线没有弯。jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

Andy and Bill's LawjCY28资讯网——每日最新资讯28at.com

关于算力的增长,有一句话是这样说的:“安迪给的,比尔都拿走(What Andy giveth, Bill taketh away)”。jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

这反映了当时的英特尔首席执行官 Andy Grove 每次向市场推出新芯片时,微软的 CEO 比尔・盖茨(Bill Gates)都会通过升级软件来吃掉芯片提升的性能。jCY28资讯网——每日最新资讯28at.com

—— 而以后吃掉芯片算力的就是大模型了,而且根据 MIT 的这项研究,大模型以后根本吃不饱。jCY28资讯网——每日最新资讯28at.com

研究方法

如何定义 LLM 的能力提升?首先,研究人员对模型的能力进行了量化。jCY28资讯网——每日最新资讯28at.com

基本的思想就是:如果一种算法或架构在基准测试中以一半的计算量获得相同的结果,那么就可以说,它比另一种算法或架构好两倍。jCY28资讯网——每日最新资讯28at.com

有了比赛规则之后,研究人员招募了 200 多个语言模型来参加比赛,同时为了确保公平公正,比赛所用的数据集是 WikiText-103 和 WikiText-2 以及 Penn Treebank,代表了多年来用于评估语言模型的高质量文本数据。jCY28资讯网——每日最新资讯28at.com

专注于语言模型开发过程中使用的既定基准,为比较新旧模型提供了连续性。jCY28资讯网——每日最新资讯28at.com

需要注意的是,这里只量化了预训练模型的能力,没有考虑一些“训练后增强”手段,比如思维链提示(COT)、微调技术的改进或者集成搜索的方法(RAG)。jCY28资讯网——每日最新资讯28at.com

模型定义jCY28资讯网——每日最新资讯28at.com

研究人员通过拟合一个满足两个关键目标的模型来评估其性能水平:jCY28资讯网——每日最新资讯28at.com

(1)模型必须与之前关于神经标度定律的工作大致一致;jCY28资讯网——每日最新资讯28at.com

(2)模型应允许分解提高性能的主要因素,例如提高模型中数据或自由参数的使用效率。jCY28资讯网——每日最新资讯28at.com

这里采用的核心方法类似于之前提出的缩放定律,将 Dense Transformer 的训练损失 L 与其参数 N 的数量和训练数据集大小 D 相关联:jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

其中 L 是数据集上每个 token 的交叉熵损失,E、A、B、α 和 β 是常数。E 表示数据集的“不可减少损失”,而第二项和第三项分别代表由于模型或数据集的有限性而导致的错误。jCY28资讯网——每日最新资讯28at.com

因为随着时间的推移,实现相同性能水平所需的资源(N 和 D)会减少。为了衡量这一点,作者在模型中引入了“有效数据”和“有效模型大小”的概念:jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

其中的 Y 表示年份,前面的系数表示进展率,代入上面的缩放定律,可以得到:jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

通过这个公式,就可以估计随着时间的推移,实现相同性能水平所需的更少资源(N 和 D)的速度。jCY28资讯网——每日最新资讯28at.com

数据集jCY28资讯网——每日最新资讯28at.com

参与测评的包含 400 多个在 WikiText-103(WT103)、WikiText-2(WT2)和 Penn Treebank(PTB)上评估的语言模型,其中约 60% 可用于分析。jCY28资讯网——每日最新资讯28at.com

研究人员首先从大约 200 篇不同的论文中检索了相关的评估信息,又额外使用框架执行了 25 个模型的评估。jCY28资讯网——每日最新资讯28at.com

然后,考虑数据的子集,其中包含拟合模型结构所需的信息:token 级测试困惑度(决定交叉熵损失)、发布日期、模型参数数量和训练数据集大小,最终筛选出 231 个模型供分析。jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

这 231 个语言模型,跨越了超过 8 个数量级的计算,上图中的每个形状代表一个模型。jCY28资讯网——每日最新资讯28at.com

形状的大小与训练期间使用的计算成正比,困惑度评估来自于现有文献以及作者自己的评估测试。jCY28资讯网——每日最新资讯28at.com

在某些情况下,会从同一篇论文中检索到多个模型,为了避免自相关带来的问题,这里每篇论文最多只选择三个模型。jCY28资讯网——每日最新资讯28at.com

实证结果jCY28资讯网——每日最新资讯28at.com

根据缩放定律,以及作者引入的有效数据、有效参数和有效计算的定义来进行评估,结果表明:有效计算的中位倍增时间为 8.4 个月,95% 置信区间为 4.5 至 14.3 个月。jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

上图表示通过交叉验证选择的模型的算法进度估计值。图 a 显示了倍增时间的汇总估计值,图 b 显示了从左到右按交叉验证性能递减(MSE 测试损耗增加)排序。jCY28资讯网——每日最新资讯28at.com

jCY28资讯网——每日最新资讯28at.com

上图比较了 2016 年至 2020 年前后的算法有效计算的估计倍增时间。相对于前期,后期的倍增时间较短,表明在该截止年之后算法进步速度加快。jCY28资讯网——每日最新资讯28at.com

参考资料jCY28资讯网——每日最新资讯28at.com

https://twitter.com/emollick/status/1767717692608217407jCY28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元 (ID:AI_era)jCY28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3634-0.html大模型增速远超摩尔定律!MIT 最新研究:人类快要喂不饱 AI 了

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: ASCII 字符画成注入工具,研究人员发现大模型“越狱”新手段

下一篇: 华为ADS称王?何小鹏回应:竞争才刚开始!

标签:
  • 热门焦点
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • 内容行业大变天,爆款全靠AI?

    出品 | 微果酱(wjam123456)作者 | 陈出木题图 | 文心一格 AI的发展之快出乎所有人的预料,似乎一夜之间便呼啸而来。无论是资本的风向标,抑或是生活工作的辅助、流量口,还是茶余饭
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 智能人机交互技术的春晚大考

    1月初的一个早晨,京东智能客户服务产品部紧急开会,进行关于尚未对外公布的“X项目”的初讨论。1月5日,这个神秘的X项目对外公布,京东成为央视2022年春晚独家互动合
  • 2021年中国智慧城市行业概览:AI慧眼独具,赋能“双碳”目标

    中国智慧城市试点项目主要集中于东南地区以及华中地区,受制于应用场景分散以及行业地域建设差异,目前中国智慧城市存在较多弊端,未来数量有望持续突破。中国智慧
  • 吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 从英式拍到荷兰拍,看传统金融拍卖玩法如何玩转NFT市场交易

    作者:鲁拍卖是一种从古至今的商业活动。从古代的典当到现代的拍卖市场、我们熟知的拍卖行,以及知名街头艺术家Bansky名画拍卖成功后,竟自毁粉碎,现价值又翻倍的拍
Top