当前位置:首页 > 科技  > 知识百科

谷歌:性能不佳的微调模型不要扔,求一下平均权重就能提升性能

来源: 责编: 时间:2023-08-07 16:30:02 376观看
导读 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。如何最大限度地提升模型精度?最近,谷歌等机构发现:性能不好的微调模型先不要扔,求一下平均权重!就能在不增加推理

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。kRU28资讯网——每日最新资讯28at.com

如何最大限度地提升模型精度?kRU28资讯网——每日最新资讯28at.com

最近,谷歌等机构发现:kRU28资讯网——每日最新资讯28at.com

性能不好的微调模型先不要扔,求一下平均权重!kRU28资讯网——每日最新资讯28at.com

就能在不增加推理时间以及内存开销的情况下,提高模型的准确性和鲁棒性。kRU28资讯网——每日最新资讯28at.com

比如,研究人员就使用该方法创造了ImageNet1K的新纪录:90.94%。kRU28资讯网——每日最新资讯28at.com

kRU28资讯网——每日最新资讯28at.com

将它扩展到多个图像分类以及自然语言处理任务中,也能提高模型的分布外性能,并改善新下游任务的零样本性能。kRU28资讯网——每日最新资讯28at.com

而这个方法还有一个有趣的名字,叫Module soup——kRU28资讯网——每日最新资讯28at.com

是不是让人一下子就让人联想到了斐波那契汤的笑话?(昨天的汤+前天的汤=今天的新汤)kRU28资讯网——每日最新资讯28at.com

kRU28资讯网——每日最新资讯28at.com

△ 知乎网友@hzwer,已授权kRU28资讯网——每日最新资讯28at.com

一共三种配方kRU28资讯网——每日最新资讯28at.com

回想一下在此之前,大家是如何给模型涨点的呢?kRU28资讯网——每日最新资讯28at.com

是不是先用各种超参数训练出多个微调模型,然后再挑出验证集上表现最好的那一个留下,其余丢掉?kRU28资讯网——每日最新资讯28at.com

由于神经网络是非线性的,在不同的loss basin中可能有许多解,因此Module soup这一采用保留所有微调模型的权重,对其进行平均的方法就可以提高性能,还是让人有点惊讶的。kRU28资讯网——每日最新资讯28at.com

不过,最近就已有研究发现,从相同的初始化配置中中独立优化的微调模型,位于相同的误差范围内 (lie in the same basin of the error landscape)。kRU28资讯网——每日最新资讯28at.com

之前也有研究证明,沿单个训练轨迹进行权重平均,可以提高随机初始化训练模型的性能。kRU28资讯网——每日最新资讯28at.com

作者正是从这些结论中受到启发。kRU28资讯网——每日最新资讯28at.com

Module soup一共有三种“配方”(实现):统一汤(uniform soup)、贪婪汤(greedy soup)和学习汤(learned soup)。kRU28资讯网——每日最新资讯28at.com

其中greedy soup是最主要采用的实现,因为它的性能比直接均匀地平均所有权重更高。kRU28资讯网——每日最新资讯28at.com

具体来说,Greedy soup通过顺序添加每个模型作为“汤”中的潜在成分构建而成,并且只有在保持验证集上的性能有所提高时才将相应模型保留在“汤”中。kRU28资讯网——每日最新资讯28at.com

排序按验证集精度的降序排列。kRU28资讯网——每日最新资讯28at.com

kRU28资讯网——每日最新资讯28at.com

性能超越单个最佳微调模型kRU28资讯网——每日最新资讯28at.com

作者进行了全面的微调实验来确定Module soup的有效性。kRU28资讯网——每日最新资讯28at.com

首先是微调CLIP和ALIGN,这两个模型在图像-文本对上进行了对比损失预训练。kRU28资讯网——每日最新资讯28at.com

结果经过module soup操作后,两者在分布内和自然分布转移(distribution shifts)测试集上的表现都比最佳的单个微调模型性能更佳。kRU28资讯网——每日最新资讯28at.com

kRU28资讯网——每日最新资讯28at.com

△ 左为CLIP,右为ALIGNkRU28资讯网——每日最新资讯28at.com

然后是在JFT数据集上预训练的ViT-G模型。kRU28资讯网——每日最新资讯28at.com

也就是它在ImageNet1K数据集实现了90.94%的精度,打破了此前CoAtNet保持的90.88%,同时在推理阶段还减少了25%的FLOPs。kRU28资讯网——每日最新资讯28at.com

kRU28资讯网——每日最新资讯28at.com

在图像分类任务以外,作者在NLP领域也对module soup进行了验证。kRU28资讯网——每日最新资讯28at.com

下表是BERT和T5模型在GLUE benchmark的四个文本分类任务上的结果:kRU28资讯网——每日最新资讯28at.com

kRU28资讯网——每日最新资讯28at.com

可以发现,虽然改进不如图像分类中的效果明显,但在多数任务下,greedy soup都可以相较最好的单个模型提高性能。kRU28资讯网——每日最新资讯28at.com

当然,作者也指出,module soup在适用性等方面存在局限,比如现在测试的都是在大型异构数据集上预先训练的模型,在这些模型之外,效果并不是非常明显。kRU28资讯网——每日最新资讯28at.com

最后,知乎网友@宫酱手艺人表示,其实这样的模型参数平均是一个经典trick,transformer原始论文就用了。kRU28资讯网——每日最新资讯28at.com

kRU28资讯网——每日最新资讯28at.com

你发现了吗?kRU28资讯网——每日最新资讯28at.com

论文地址:kRU28资讯网——每日最新资讯28at.com
https://arxiv.org/abs/2203.0548kRU28资讯网——每日最新资讯28at.com

 kRU28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2219-0.html谷歌:性能不佳的微调模型不要扔,求一下平均权重就能提升性能

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 云安全日报220317:红帽OpenShift云应用平台发现执行任意代码漏洞,需要尽快升级

下一篇: 终于不瞎编了!AI学会“谷歌一下”,Q&A正确率达90%

标签:
  • 热门焦点
  • 三言两语说透设计模式的艺术-简单工厂模式

    一、写在前面工厂模式是最常见的一种创建型设计模式,通常说的工厂模式指的是工厂方法模式,是使用频率最高的工厂模式。简单工厂模式又称为静态工厂方法模式,不属于GoF 23种设计
  • 掘力计划第 20 期:Flutter 混合开发的混乱之治

    在掘力计划系列活动第20场,《Flutter 开发实战详解》作者,掘金优秀作者,Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
  • 每天一道面试题-CPU伪共享

    前言:了不起:又到了每天一到面试题的时候了!学弟,最近学习的怎么样啊 了不起学弟:最近学习的还不错,每天都在学习,每天都在进步! 了不起:那你最近学习的什么呢? 了不起学弟:最近在学习C
  • 2023年,我眼中的字节跳动

    此时此刻(2023年7月),字节跳动从未上市,也从未公布过任何官方的上市计划;但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起,到2018年的“头腾
  • 东方甄选单飞:有些鸟注定是关不住的

    文/彭宽鸿编辑/罗卿东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一年多时间里,东方甄选要脱离抖音自立门户的传闻不绝于耳,“7
  • 认真聊聊东方甄选:如何告别低垂的果实

    来源:山核桃作者:财经无忌爆火一年后,俞敏洪和他的东方甄选依旧是颇受外界关心的“网红”。7月5日至9日,为期5天的东方甄选“甘肃行”首次在自有App内直播,
  • 三星Galaxy Z Fold/Flip 5国行售价曝光 :最低7499元/12999元起

    据官方此前宣布,三星将于7月26日也就是明天在韩国首尔举办Unpacked活动,届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
  • OPPO K11采用全方位护眼屏:三大护眼能力减轻视觉疲劳

    日前OPPO官方宣布,全新的OPPO K11将于7月25日正式发布,将主打旗舰影像,和同档位竞品相比,其最大的卖点就是将配备索尼IMX890主摄,堪称是2000档位影像表
  • 华为举行春季智慧办公新品发布会 首次推出电子墨水屏平板

    北京时间2月27日晚,华为在巴塞罗那举行春季智慧办公新品发布会,在海外市场推出之前已经在中国市场上市的笔记本、平板、激光打印机等办公产品,并首次推出搭载
Top