当前位置:首页 > 科技  > 知识百科

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

来源: 责编: 时间:2023-08-07 16:29:56 403观看
导读 当神经网络的研究方向逐渐转为超大规模预训练模型,研究人员的目标似乎变成了让网络拥有更大的参数量,更多的训练数据,更多样化的训练任务。当然,这个措施确实很有效,随着神经网络

当神经网络的研究方向逐渐转为超大规模预训练模型,研究人员的目标似乎变成了让网络拥有更大的参数量,更多的训练数据,更多样化的训练任务。Omy28资讯网——每日最新资讯28at.com

当然,这个措施确实很有效,随着神经网络越来越大,模型了解和掌握的数据也更多,在部分特定任务上已经超越人类。Omy28资讯网——每日最新资讯28at.com

但在数学上,现代神经网络的规模实际上有些过于臃肿了,参数量通常远远超过了预测任务的需求,这种情况也被称为过度参数化(overparameterization)。Omy28资讯网——每日最新资讯28at.com

NeurIPS上的一篇论文中最近就这一现象提出了一种全新的解释。他们认为这种比预期规模更大的神经网络是完全有必要的,只有这样才能避免某些基本问题,这篇论文中的发现也为这一问题提供一种更通用的见解。Omy28资讯网——每日最新资讯28at.com

Omy28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/abs/2105.12806Omy28资讯网——每日最新资讯28at.com

文章的第一作者Sébastien Bubeck在MSR Redmond管理机器学习基础研究组,主要在机器学习和理论计算机科学中跨越各种主题进行交叉研究。Omy28资讯网——每日最新资讯28at.com

Omy28资讯网——每日最新资讯28at.com

神经网络就该这么大Omy28资讯网——每日最新资讯28at.com

神经网络的一项常见任务是识别图像中的目标对象。Omy28资讯网——每日最新资讯28at.com

Omy28资讯网——每日最新资讯28at.com

为了创建一个能够完成该任务的网络,研究人员首先为其提供许多图像和对应目标标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的目标。Omy28资讯网——每日最新资讯28at.com

换句话说,训练过程使得神经网络记住了这些数据。Omy28资讯网——每日最新资讯28at.com

并且,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签,这个过程称为泛化。Omy28资讯网——每日最新资讯28at.com

网络的大小决定了它能记忆多少东西。Omy28资讯网——每日最新资讯28at.com

Omy28资讯网——每日最新资讯28at.com

可以用图形化的空间来理解。假设有两个数据点,把它们放在一个XY平面上,可以用一条由两个参数描述的线来连接这些点:线的斜率和它与纵轴相交时的高度。如果其他人也知道这条直线的参数,以及其中一个原始数据点的X坐标,他们可以通过观察这条直线(或使用参数)来计算出相应的Y坐标。Omy28资讯网——每日最新资讯28at.com

也就是说,这条线已经记住了这两个数据点,神经网络做的就是差不多类似的事情。Omy28资讯网——每日最新资讯28at.com

例如,图像是由成百上千的数值描述的,每个像素都有一个对应的值。可以把这个由许多自由值组成的集合在数学上相当于高维空间中一个点的坐标,坐标的数量也称为维度。Omy28资讯网——每日最新资讯28at.com

传统的数学结论认为,要用一条曲线拟合n个数据点,你需要一个有n个参数的函数。例如,在直线的例子中,两个点是由一条有两个参数的曲线描述的。Omy28资讯网——每日最新资讯28at.com

当神经网络在20世纪80年代首次作为一种新模型出现时,研究人员也这么认为,应该只需要n个参数来适应n个数据点,而跟数据的维度无关。Omy28资讯网——每日最新资讯28at.com

德克萨斯大学奥斯汀分校的Alex Dimakis表示,现在实际情况已经不是这样了,神经网络的参数数量远远超过了训练样本的数量,这说明了教科书上的内容必须得重写进行修正。Omy28资讯网——每日最新资讯28at.com

研究人员正在研究神经网络的鲁棒性(robustness),即网络处理小变化的能力。例如,一个不鲁棒的网络可能已经学会了识别长颈鹿,但它会把一个几乎没有修改的版本误标为沙鼠。Omy28资讯网——每日最新资讯28at.com

Omy28资讯网——每日最新资讯28at.com

2019年,Bubeck和同事们正在寻求证明关于这个问题的定理,当时他们就意识到这个问题与网络的规模有关。Omy28资讯网——每日最新资讯28at.com

在他们的新证明中,研究人员表明,过度参数化对于网络的鲁棒性是必要的。他们提出平滑性(smoothness),来指出需要多少个参数才能用一条具有等同于鲁棒性的数学特性的曲线来拟合数据点。Omy28资讯网——每日最新资讯28at.com

要想理解这一点,可以再次想象平面上的一条曲线,其中x坐标代表一个像素的颜色,y坐标代表一个图像标签。Omy28资讯网——每日最新资讯28at.com

由于曲线是平滑的,如果你稍微修改一下像素的颜色,沿着曲线移动一小段距离,相应的预测值只会有少量的变化。另一方面,对于一条锯齿状的曲线,X坐标(颜色)的微小变化会导致Y坐标(图像标签)的巨大变化,长颈鹿可以变成沙鼠。Omy28资讯网——每日最新资讯28at.com

Bubeck和Sellke在论文中证明,平滑拟合高维数据点不仅需要n个参数,而且需要n×d个参数,其中d是输入的维度(例如,784个像素的图像输入维度为784)。Omy28资讯网——每日最新资讯28at.com

换句话说,如果你想让一个网络稳健地记住它的训练数据,过度参数化不仅是有帮助的,而且是必须的。该证明依赖于一个关于高维几何的事实,即随机分布在球体表面的点几乎都是彼此相距一个直径的距离,点与点之间的巨大间隔意味着用一条光滑的曲线来拟合它们需要许多额外的参数。Omy28资讯网——每日最新资讯28at.com

Omy28资讯网——每日最新资讯28at.com

耶鲁大学的Amin Karbasi称赞论文中的证明是非常简洁的,没有大量的数学公式,而且它说的是非常通用的内容。Omy28资讯网——每日最新资讯28at.com

这一证明结果也为理解为什么扩大神经网络的简单策略如此有效提供了一个新的途径。Omy28资讯网——每日最新资讯28at.com

其他研究揭示了过量参数化有帮助的其他原因。例如,它可以提高训练过程的效率,也可以提高网络的泛化能力。Omy28资讯网——每日最新资讯28at.com

虽然我们现在知道过量参数化对鲁棒性是必要的,但还不清楚鲁棒性对其他事情有多大必要。但通过将其与过度参数化联系起来,新的证明暗示鲁棒性可能比人们想象的更重要,这也可能为其他解释大模型的益处研究做铺垫。Omy28资讯网——每日最新资讯28at.com

鲁棒性确实是泛化的一个先决条件,如果你建立了一个系统,只是轻微地扰动它,然后它就失控了,那是什么样的系统?显然是不合理的。Omy28资讯网——每日最新资讯28at.com

所以,Bubeck认为这是一个非常基础和基本的要求。Omy28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2174-0.html神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 不可见,无安全!值得关注的十大国外SASE厂商(2022版)

下一篇: Akamai拟9亿美元收购Linode 构建从边到云的分布式计算平台

标签:
  • 热门焦点
  • 天猫精灵Sound Pro体验:智能音箱没有音质?来听听我的

    这几年除了手机作为智能生活终端最主要的核心之外,第二个可以成为中心点的产品是什么?——是智能音箱。 手机在执行命令的时候有两种操作方式,手和智能语音助手,而智能音箱只
  • 5月安卓手机好评榜:魅族20 Pro夺冠

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年5月1日至5月31日,仅限国内市场。第一名:魅族20 Pro好评率:97.50%不得不感慨魅族老品牌还
  • 印度登月最关键一步!月船三号今晚进入环月轨道

    8月5日消息,据印度官方消息,月船三号将于北京时间今晚21时30分左右开始近月制动进入环月轨道。这是该探测器能够成功的最关键步骤之一,如果成功将开始围
  • 线程通讯的三种方法!通俗易懂

    线程通信是指多个线程之间通过某种机制进行协调和交互,例如,线程等待和通知机制就是线程通讯的主要手段之一。 在 Java 中,线程等待和通知的实现手段有以下几种方式:Object 类下
  • 把LangChain跑起来的三个方法

    使用LangChain开发LLM应用时,需要机器进行GLM部署,好多同学第一步就被劝退了,那么如何绕过这个步骤先学习LLM模型的应用,对Langchain进行快速上手?本片讲解3个把LangChain跑起来
  • 微软邀请 Microsoft 365 商业用户,测试视频编辑器 Clipchamp

    8 月 1 日消息,微软近日宣布即将面向 Microsoft 365 商业用户,开放 Clipchamp 应用,邀请用户通过该应用来编辑视频。微软于 2021 年收购 Clipchamp,随后开始逐步整合到 Microsof
  • 每天一道面试题-CPU伪共享

    前言:了不起:又到了每天一到面试题的时候了!学弟,最近学习的怎么样啊 了不起学弟:最近学习的还不错,每天都在学习,每天都在进步! 了不起:那你最近学习的什么呢? 了不起学弟:最近在学习C
  • 签约井川里予、何丹彤,单视频点赞近千万,MCN黑马永恒文希快速崛起!

    来源:视听观察永恒文希传媒作为一家MCN公司,说起它的名字来,可能大家会觉得有点儿陌生,但是说出来下面一串的名字之后,或许大家就会感到震惊,原来这么多网红,都签约这家公司了。根
  • 苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

    集微网消息,据彭博社报道,在8月3日印度突然禁止在没有许可证的情况下向印度进口电脑/平板及显示器等产品后,苹果、三星电子和惠普等大公司暂停向印度
Top