当前位置:首页 > 科技  > 软件

抛弃自回归,连接一致性Diffusion和LLM!UCSD上交新作热度紧追AF 3

来源: 责编: 时间:2024-05-11 09:17:52 291观看
导读DeepMind新发布的AlphaFold 3是科技圈今天的绝对大热门,成为了Hacker News等许多科技媒体的头版头条。图片Hacker News热榜上紧随其后的则是今年2月发布的论文「一致性大语言模型」。图片到底是什么样的成果,竟然可以顶

DeepMind新发布的AlphaFold 3是科技圈今天的绝对大热门,成为了Hacker News等许多科技媒体的头版头条。VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

Hacker News热榜上紧随其后的则是今年2月发布的论文「一致性大语言模型」。VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

到底是什么样的成果,竟然可以顶着AlphaFold 3的热度出圈?VeU28资讯网——每日最新资讯28at.com

这篇论文不仅切中了大语言模型推理速度慢的痛点,而且实现了性能大幅度提升。VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

CLLM在多个下游任务上都取得了2-3倍的加速,且推理过程没有引入额外成本。在GSM8K和Spider两个任务中,相比今年1月刚发布的Medusa 2都有了明显提升。VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

论文的两位共同一作都是一年级博士生,分别是来自上海交通大学的寇思麒和来自加州大学圣地亚哥分校的胡岚翔,他们的指导老师是交大的邓志杰教授和UCSD的张昊教授,后者也是Vicuna/vLLM/Chatbot Arena等项目的作者。VeU28资讯网——每日最新资讯28at.com

目前这篇论文已经被ICML 2024会议接收,所用代码已在GitHub上开源,可以在HuggingFace仓库上看到模型多个版本的权重。VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

https://huggingface.co/cllmVeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

https://github.com/hao-ai-lab/Consistency_LLMVeU28资讯网——每日最新资讯28at.com

LLM苦推理速度久矣

以GPT和Llama家族为代表的大语言模型虽然可以出色地完成人类语言任务,但代价也是巨大的。VeU28资讯网——每日最新资讯28at.com

除了参数量大,推理速度慢、token吞吐量低也是经常被人诟病的问题,尤其是对于上下文信息较多的任务,因此大语言模型的部署和在现实中的应用十分受限。VeU28资讯网——每日最新资讯28at.com

Reddit上经常有开发者询问减少LLM推理时间的方法,有人曾经发帖,在64G GPU内存、4块英伟达T4芯片上用langchain部署7B的Llama 2模型后,需要10秒钟回答较小的查询,较大的查询则需要3分钟。VeU28资讯网——每日最新资讯28at.com

图片VeU28资讯网——每日最新资讯28at.com

为了提高推理速度和token吞吐量,研究者们想了很多方法,比如去年很流行的vLLM推理框架,就是通过改进注意力算法来提高语言模型的效率。VeU28资讯网——每日最新资讯28at.com

CLLM的思路则放在了解码上,使用更适合并行的Jacobi算法替代传统的自回归方法。VeU28资讯网——每日最新资讯28at.com

Jacobi解码算法

自回归解码算法在运行时,每次只能基于已知序列生成1个token,这种基于时间序列的算法对GPT之类的大模型非常不友好,要想实现并行化的推理,就必须修改模型架构或者添加额外的构件。VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

这篇研究则提出,使用Jacobi解码算法取代传统的自回归,每一次解码可以同时生成序列后n个token。VeU28资讯网——每日最新资讯28at.com

Jacobi解码源自用于求解非线性方程的Jacobi和Gauss-Seidel定点迭代,并被证明与使用贪婪解码的自回归生成相同。VeU28资讯网——每日最新资讯28at.com

给定一个初始序列时,首先生成n个随机token作为起始点,之后将这n个token的优化问题看作n个非线性方程组,里面含有的n个变量可以基于Jacobi迭代并行求解。VeU28资讯网——每日最新资讯28at.com

每一次Jacobi迭代可以预测出一个或多个正确的token,进行多轮迭代直至收敛,就完成了n个token的预测,迭代的过程形成Jacobi轨迹。VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

本篇文章所用Jacobi算法的灵感追溯至2021年的一篇论文,用求解非线性方程组加速神经网络计算。VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/pdf/2002.03629VeU28资讯网——每日最新资讯28at.com

以及张昊组的另一篇论文lookahead decoding:VeU28资讯网——每日最新资讯28at.com

图片图片VeU28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/pdf/2402.02057VeU28资讯网——每日最新资讯28at.com

一致性语言模型

使用Jacobi算法解码时,大语言模型的推理过程可以被归纳为——一致地将雅可比轨迹

本文链接:http://www.28at.com/showinfo-26-87963-0.html抛弃自回归,连接一致性Diffusion和LLM!UCSD上交新作热度紧追AF 3

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 异步编程在C#中的应用:深入理解Task

下一篇: 这个 TypeScript 技巧会让你大吃一惊

标签:
  • 热门焦点
  • 小米官宣:2023年上半年出货量中国第一!

    今日早间,小米电视官方微博带来消息,称2023年小米电视上半年出货量达到了中国第一,同时还表示小米电视的巨屏风暴即将开始。“公布一个好消息2023年#小米电视上半年出货量中国
  • 6月安卓手机性价比榜:Note 12 Turbo断层式碾压

    6月份有一个618,虽然这是京东周年庆的日子,但别的电商也都不约而同的跟进了,反正促销没坏处,厂商和用户都能满意。618期间一些产品也出现了历史低价,那么各个价位段的产品性价比
  • 一加首款折叠屏!一加Open渲染图出炉:罕见单手可握小尺寸

    8月5日消息,此前就有爆料称,一加首款折叠屏手机将会在第三季度上市,如今随着时间临近,新机的各种消息也开始浮出水面。据悉,这款新机将会被命名为“On
  • 如何正确使用:Has和:Nth-Last-Child

    我们可以用CSS检查,以了解一组元素的数量是否小于或等于一个数字。例如,一个拥有三个或更多子项的grid。你可能会想,为什么需要这样做呢?在某些情况下,一个组件或一个布局可能会
  • 三万字盘点 Spring 九大核心基础功能

    大家好,我是三友~~今天来跟大家聊一聊Spring的9大核心基础功能。话不多说,先上目录:图片友情提示,本文过长,建议收藏,嘿嘿嘿!一、资源管理资源管理是Spring的一个核心的基础功能,不
  • JVM优化:实战OutOfMemoryError异常

    一、Java堆溢出堆内存中主要存放对象、数组等,只要不断地创建这些对象,并且保证 GC Roots 到对象之间有可达路径来避免垃 圾收集回收机制清除这些对象,当这些对象所占空间超过
  • 梁柱接棒两年,腾讯音乐闯出新路子

    文丨田静 出品丨牛刀财经(niudaocaijing)7月5日,企鹅FM发布官方公告称由于业务调整,将于9月6日正式停止运营,这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
  • 自律,给不了Keep自由!

    来源 | 互联网品牌官作者 | 李大为编排 | 又耳 审核 | 谷晓辉自律能不能给用户自由暂时不好说,但大概率不能给Keep自由。近日,全球最大的在线健身平台Keep正式登陆港交所,努力
  • 华为和江淮汽车合作开发百万元问界MPV?双方回应来了

    8月1日消息,郭明錤今天在社交平台发文称,华为正在和江淮汽车合作,开发售价在100万元的问界MPV,预计在2024年第2季度量产,销量目标为上市首年交付5万辆。
Top