当前位置:首页 > 科技  > 知识百科

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

来源: 责编: 时间:2023-08-07 16:29:56 377观看
导读 当神经网络的研究方向逐渐转为超大规模预训练模型,研究人员的目标似乎变成了让网络拥有更大的参数量,更多的训练数据,更多样化的训练任务。当然,这个措施确实很有效,随着神经网络

当神经网络的研究方向逐渐转为超大规模预训练模型,研究人员的目标似乎变成了让网络拥有更大的参数量,更多的训练数据,更多样化的训练任务。2FI28资讯网——每日最新资讯28at.com

当然,这个措施确实很有效,随着神经网络越来越大,模型了解和掌握的数据也更多,在部分特定任务上已经超越人类。2FI28资讯网——每日最新资讯28at.com

但在数学上,现代神经网络的规模实际上有些过于臃肿了,参数量通常远远超过了预测任务的需求,这种情况也被称为过度参数化(overparameterization)。2FI28资讯网——每日最新资讯28at.com

NeurIPS上的一篇论文中最近就这一现象提出了一种全新的解释。他们认为这种比预期规模更大的神经网络是完全有必要的,只有这样才能避免某些基本问题,这篇论文中的发现也为这一问题提供一种更通用的见解。2FI28资讯网——每日最新资讯28at.com

2FI28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/abs/2105.128062FI28资讯网——每日最新资讯28at.com

文章的第一作者Sébastien Bubeck在MSR Redmond管理机器学习基础研究组,主要在机器学习和理论计算机科学中跨越各种主题进行交叉研究。2FI28资讯网——每日最新资讯28at.com

2FI28资讯网——每日最新资讯28at.com

神经网络就该这么大2FI28资讯网——每日最新资讯28at.com

神经网络的一项常见任务是识别图像中的目标对象。2FI28资讯网——每日最新资讯28at.com

2FI28资讯网——每日最新资讯28at.com

为了创建一个能够完成该任务的网络,研究人员首先为其提供许多图像和对应目标标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的目标。2FI28资讯网——每日最新资讯28at.com

换句话说,训练过程使得神经网络记住了这些数据。2FI28资讯网——每日最新资讯28at.com

并且,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签,这个过程称为泛化。2FI28资讯网——每日最新资讯28at.com

网络的大小决定了它能记忆多少东西。2FI28资讯网——每日最新资讯28at.com

2FI28资讯网——每日最新资讯28at.com

可以用图形化的空间来理解。假设有两个数据点,把它们放在一个XY平面上,可以用一条由两个参数描述的线来连接这些点:线的斜率和它与纵轴相交时的高度。如果其他人也知道这条直线的参数,以及其中一个原始数据点的X坐标,他们可以通过观察这条直线(或使用参数)来计算出相应的Y坐标。2FI28资讯网——每日最新资讯28at.com

也就是说,这条线已经记住了这两个数据点,神经网络做的就是差不多类似的事情。2FI28资讯网——每日最新资讯28at.com

例如,图像是由成百上千的数值描述的,每个像素都有一个对应的值。可以把这个由许多自由值组成的集合在数学上相当于高维空间中一个点的坐标,坐标的数量也称为维度。2FI28资讯网——每日最新资讯28at.com

传统的数学结论认为,要用一条曲线拟合n个数据点,你需要一个有n个参数的函数。例如,在直线的例子中,两个点是由一条有两个参数的曲线描述的。2FI28资讯网——每日最新资讯28at.com

当神经网络在20世纪80年代首次作为一种新模型出现时,研究人员也这么认为,应该只需要n个参数来适应n个数据点,而跟数据的维度无关。2FI28资讯网——每日最新资讯28at.com

德克萨斯大学奥斯汀分校的Alex Dimakis表示,现在实际情况已经不是这样了,神经网络的参数数量远远超过了训练样本的数量,这说明了教科书上的内容必须得重写进行修正。2FI28资讯网——每日最新资讯28at.com

研究人员正在研究神经网络的鲁棒性(robustness),即网络处理小变化的能力。例如,一个不鲁棒的网络可能已经学会了识别长颈鹿,但它会把一个几乎没有修改的版本误标为沙鼠。2FI28资讯网——每日最新资讯28at.com

2FI28资讯网——每日最新资讯28at.com

2019年,Bubeck和同事们正在寻求证明关于这个问题的定理,当时他们就意识到这个问题与网络的规模有关。2FI28资讯网——每日最新资讯28at.com

在他们的新证明中,研究人员表明,过度参数化对于网络的鲁棒性是必要的。他们提出平滑性(smoothness),来指出需要多少个参数才能用一条具有等同于鲁棒性的数学特性的曲线来拟合数据点。2FI28资讯网——每日最新资讯28at.com

要想理解这一点,可以再次想象平面上的一条曲线,其中x坐标代表一个像素的颜色,y坐标代表一个图像标签。2FI28资讯网——每日最新资讯28at.com

由于曲线是平滑的,如果你稍微修改一下像素的颜色,沿着曲线移动一小段距离,相应的预测值只会有少量的变化。另一方面,对于一条锯齿状的曲线,X坐标(颜色)的微小变化会导致Y坐标(图像标签)的巨大变化,长颈鹿可以变成沙鼠。2FI28资讯网——每日最新资讯28at.com

Bubeck和Sellke在论文中证明,平滑拟合高维数据点不仅需要n个参数,而且需要n×d个参数,其中d是输入的维度(例如,784个像素的图像输入维度为784)。2FI28资讯网——每日最新资讯28at.com

换句话说,如果你想让一个网络稳健地记住它的训练数据,过度参数化不仅是有帮助的,而且是必须的。该证明依赖于一个关于高维几何的事实,即随机分布在球体表面的点几乎都是彼此相距一个直径的距离,点与点之间的巨大间隔意味着用一条光滑的曲线来拟合它们需要许多额外的参数。2FI28资讯网——每日最新资讯28at.com

2FI28资讯网——每日最新资讯28at.com

耶鲁大学的Amin Karbasi称赞论文中的证明是非常简洁的,没有大量的数学公式,而且它说的是非常通用的内容。2FI28资讯网——每日最新资讯28at.com

这一证明结果也为理解为什么扩大神经网络的简单策略如此有效提供了一个新的途径。2FI28资讯网——每日最新资讯28at.com

其他研究揭示了过量参数化有帮助的其他原因。例如,它可以提高训练过程的效率,也可以提高网络的泛化能力。2FI28资讯网——每日最新资讯28at.com

虽然我们现在知道过量参数化对鲁棒性是必要的,但还不清楚鲁棒性对其他事情有多大必要。但通过将其与过度参数化联系起来,新的证明暗示鲁棒性可能比人们想象的更重要,这也可能为其他解释大模型的益处研究做铺垫。2FI28资讯网——每日最新资讯28at.com

鲁棒性确实是泛化的一个先决条件,如果你建立了一个系统,只是轻微地扰动它,然后它就失控了,那是什么样的系统?显然是不合理的。2FI28资讯网——每日最新资讯28at.com

所以,Bubeck认为这是一个非常基础和基本的要求。2FI28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2174-0.html神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 不可见,无安全!值得关注的十大国外SASE厂商(2022版)

下一篇: Akamai拟9亿美元收购Linode 构建从边到云的分布式计算平台

标签:
  • 热门焦点
  • Mate60手机壳曝光 致敬自己的经典设计

    8月3日消息,今天下午博主数码闲聊站带来了华为Mate60的第三方手机壳图,可以让我们在真机发布之前看看这款华为全新旗舰的大致轮廓。从曝光的图片看,Mate 60背后摄像头面积依然
  • Redmi Pad评测:红米充满野心的一次尝试

    从Note系列到K系列,从蓝牙耳机到笔记本电脑,红米不知不觉之间也已经形成了自己颇有竞争力的产品体系,在中端和次旗舰市场上甚至要比小米新机的表现来得更好,正所谓“大丈夫生居
  • 5月iOS设备好评榜:iPhone 14仅排第43?

    来到新的一月,安兔兔的各个榜单又重新汇总了数据,像安卓阵营的榜单都有着比较大的变动,不过iOS由于设备的更新换代并没有那么快,所以相对来说变化并不大,特别是iOS好评榜,老款设
  • 2023 年的 Node.js 生态系统

    随着技术的不断演进和创新,Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统,可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
  • Java NIO内存映射文件:提高文件读写效率的优秀实践!

    Java的NIO库提供了内存映射文件的支持,它可以将文件映射到内存中,从而可以更快地读取和写入文件数据。本文将对Java内存映射文件进行详细的介绍和演示。内存映射文件概述内存
  • 只需五步,使用start.spring.io快速入门Spring编程

    步骤1打开https://start.spring.io/,按照屏幕截图中的内容创建项目,添加 Spring Web 依赖项,并单击“生成”按钮下载 .zip 文件,为下一步做准备。请在进入步骤2之前进行解压。图
  • 花7万退货退款无门:谁在纵容淘宝珠宝商家造假?

    来源:极点商业作者:杨铭在淘宝购买珠宝玉石后,因为保证金不够赔付,店铺关闭,退货退款难、维权无门的比比皆是。“提供相关产品鉴定证书,支持全国复检,可以30天无理由退换货。&
  • 联想小新Pad Pro 12.6将要推出,搭载高通骁龙 870 处理器

    联想小新Pad Pro 12.6将于秋季新品会上推出,官方按照惯例直接在发布会前给出了机型的所有参数。联想小新 Pad Pro 12.6 将搭载高通骁龙 870 处理器,重量为 5
  • 上海举办人工智能大会活动,建设人工智能新高地

    人工智能大会在上海浦江两岸隆重拉开帷幕,人工智能新技术、新产品、新应用、新理念集中亮相。8月30日晚,作为大会的特色活动之一的上海人工智能发展盛典人工
Top