ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

栏目: 编程工具 · 发布时间: 6年前

内容简介：ICML 全称是 International Conference on Machine Learning，由国际机器学习学会（IMLS）举办，是计算机人工智能领域的顶级会议。今年的 ICML2019 是第 36 届的会议，将于 6 月 9 日至 15 日在加州的 Long Beach 的举办，此次会议共收录了 236 篇文章。而在本年的 ICML 网站上，也公布了下一届 ICML 将于 7 月 13-18 号在奥地利的维也纳举办。本文将分析 3 篇今年 ICML 的文章，重点在优化算法上。前两篇是用数学方

ICML 全称是 International Conference on Machine Learning，由国际机器学习学会（IMLS）举办，是计算机人工智能领域的顶级会议。今年的 ICML2019 是第 36 届的会议，将于 6 月 9 日至 15 日在加州的 Long Beach 的举办，此次会议共收录了 236 篇文章。而在本年的 ICML 网站上，也公布了下一届 ICML 将于 7 月 13-18 号在奥地利的维也纳举办。

本文将分析 3 篇今年 ICML 的文章，重点在优化算法上。前两篇是用数学方法证明了随机算法的收敛性、在寻找全局最优解的优势。而后一篇是对于随机梯度法在架构搜索上的应用。

因此，本文所讨论的 3 篇论文有：

AdaGrad stepsizes: sharp convergence over nonconvex landscapes, from any initialization
Gradient Descent Finds Global Minima of Deep Neural Networks
Adaptive Stochastic Natural Gradient Method for One-Shot Neural Architecture Search

论文 1：AdaGrad stepsizes: sharp convergence over nonconvex landscapes, from any initialization

链接： https://arxiv.org/abs/1806.01811
作者：Rachel Ward，Xiaoxia Wu，Léon Bottou

1）文章概述：

本文是一篇从数学上证明优化算法的文章，主要证明了 AdaGrad 算法在非凸拓扑上能够很好地收敛。 AdaGrad 是自适应的梯度算法之一，因自动根据之前的梯度计算学习率且不需要手动微调（fine-tuning）学习率而被广泛应用于神经网络的优化。现有的理论可以证明 Adagrad 算法在在线优化和凸优化的条件下可以收敛。本文为 AdaGrad 的拓展之一，AdaGrad-Norm，在平滑的非凸拓扑上优化的收敛提供证明。在随机的设置下，AdaGrad-Norm 以 O(log(N)／√(N)) 的速率收敛至驻点。在批量（非随机）的设置下，以 O(1/N) 的速率收敛。收敛的精确度极高，且针对不同的超参有很强的鲁棒性。对比随机梯度下降法，其收敛主要取决于如何将步长调整为 Lipschitz 平滑常数和梯度的随机噪声水平。在现有的最先进模型中应用 AdaGrad-Norm，此优化算法显示出了很好的鲁棒性，且并没有对模型的泛化性造成影响。

2）作者简介：

本文的作者来自美国 Texas at Autstin 大学和 Facebook AI Research，所有的研究都于 Facebook 完成。Rachel Ward 是 Texas at Austin 大学 Oden 计算工程与科学研究所的数学副教授，主要研究领域有数学信号处理、应用谐波分析、压缩传感、理论计算机科学和机器学习。Xiaoxia Wu 也是 Texas at Austin 大学的数学系助教（Google Scholar Profile： https://scholar.google.com/citations?user=Ry0Bdt8AAAAJ&hl=en ）。Léon Bottou 是 Facebook 的研究总负责人（research lead），在 2015 年加入 Facebook 前曾在 AT&T 贝尔实验室，AT&T 实验室，NEC 美国实验室和微软研究院任职。主要研究领域是人工智能，尤其是深度神经网络和学习系统的因果推断（causal inference）。

3）文章背景介绍、关键词解析：

Adagrad 算法是基于随机梯度下降法（SGD）方法之上，对于学习率的更新方法进行了改变。原本的随机梯度下降法是目前应用最广泛的标准优化算法，其对于权重的更新方式是：

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

即学习率 α 是固定的，不随梯度的变化和更新的次数调整。g 是随机梯度满足 E[g(t，i)] = ∇F(t，i)。因此在使用 SGD 算法的时候，选择一个合适的学习率是非常重要的，直接决定了一个算法在收敛速度甚至是准确度上是否有好的表现。

文中提到了 Lipschitz 常数（L）。在数学分析中，以鲁道夫·利普希茨（Rudolf Lipschitz）命名的 Lipschitz 常数的定义是：存在一个实数，使得对于该函数的图上的每对点，连接它们的线的斜率的绝对值不大于这个实数，最小的这种界限称为函数的 Lipschitz 常数。在文中，Lipschitz 常数是代表损失方程拓扑的超参，用来证明 AdaGrad-Norm 在不同损失方程下皆可收敛。

Nesterov 早在 1998 年 [1] 证明，在 SGD 算法中，当学习率固定时，只有在学习率α≤ 1/L 时，优化的方程可以收敛，反之，即使学习率仅翻一倍，优化的方程极有可能震荡或发散。因此，一个确定的学习率很有可能给优化算法的有效性带来挑战。Robbins/Monro 理论 [2] 可对优化率的选择范围提供一些指导，理论认为如果要使方程解出最优解，则学习率 η 符合以下条件：

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

然而这一范围并没有给学习率的选择提供指导性的作用。手动选择学习率不仅非常繁琐耗时，而且没有强理论的支持，因此，如何选择学习率是一个非常重要的研究课题。

而 Adagrad 方法在 SGD 算法的基础上进行了更新，使学习率不再由手动选择，而是通过算法进行构架，新的权重的更新方法是：

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

其中 G 是对角矩阵，矩阵第（i，i）项为θi 从第 1 轮到第 t 轮梯度的平方和。在无噪声的情况下，取值梯度值，在有噪声的情况下，取值梯度的无偏估计 E[G] = ∇F(x)。ϵ取一极小值，为平滑项，作用是防止分母为零。由此可知随着优化的递进，学习率将不断降低，因此不需要手动调节学习率，是一种自适应的梯度算法。缺点是随着遍历次数的增加，学习率趋近于零，权重有可能提前结束更新。

Adagrad 在凸优化中的收敛性质早在 2011 年在 [3] 中有证明。之后，由一系列带和不带动量的基于 AdaGrad 的算法被开发，包括 RMSprop、AdaDelta、Adam、AdaFTRL、SGD-BB、AdaBatch、SC-Adagrad、AMSGRAD、Padam 等。这些算法是否能证明收敛性是非常有意思的课题。

本文使用的是 AdaGrad 系列里的一种优化算法——Adagrad-Norm。算法的数学表达式在下面列出：

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

在 [4] 中，AdaGrad-Norm 在凸优化中的收敛已被严格地验证，但在非凸的情况下，关于其收敛性无法通过 SGD 的收敛性推算证明。本文即提供了这一证明。

关于 AdaGrad—Norm 的伪代码可以从下图看到：

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

图 1：AdaGrad-Norm 的伪代码

4）文章详解：

文章针对 AdaGrad-Norm 算法的自适应学习率进行了讨论，目标是在机器学习模型的中使用此优化算法，使其在不同的超参（例噪声等级以及 Lipschitz 常数）中皆能收敛，而收敛速度非本文的讨论重心。

证明的假设包括以下几点：

Eξk [G(xk,ξk)] = ∇F(xk) 是∇F (xj )^2 的无偏估计
随机矢量ξk, k = 0, 1, 2, . . .，是互相独立的且对 xk 独立
Eξk[∥G(xk,ξk)−∇F(xk)∥^2]≤σ^2
∥∇F(x)∥^2 ≤ γ^2

在此基础上催生出以下定理：

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

结果显示 AdaGrad-Norm 在任何学习率大于零且 b0>0 的情况下收敛。由此派生出新的定理。

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

证明显示，SGD 算法的常数学习率在大于 2/L 的情况下无法收敛，但 AdaGrad-Norm 可在任何值的 b0 和 η 下收敛。

作者接着对证明出收敛性的算法进行了一系列的实操实验，在使用合成数据的线性回归中得到了如下的结果：

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

图 1：高斯数据在随机设置下优化器的表现。

由图 1 所示，AdaGrad-Norm 和 AdaGrad-Coordinate 自动调整学习率来逼近 Lipschitz 常数，且在大范围的 b0 值中收敛，较 SGD 方法有更好的收敛性。即使在 b0 值初始过小的情况下，AdaGrad-Norm 和 AdaGrad-Coordinate 也会收敛且速度很快。当 b0 的初始值过大的情况下，AdaGrad-Norm 和 AdaGrad-Coordinate 会以 SGD-Constant 相同的速度收敛。

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

图 2：MNIST 数据集，竖轴是 AdaGrad-Norm 在训练数据集和测试数据集上的准确度。

图 2 是在 MNIST 数据集上的使用效果，由图 2 所示，为了使之前的假设成立，网络没有使用正则化、归一化，AdaGrad-Norm 自动找到学习率，其测试的准确率一直高于其他被测试的算法。

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

图 3：左上 6 图为 MNIST 数据集使用两层全连接神经网络所生成的结果，右上为使用 CNN 在 MNIST 上面跑的结果，左下为使用 ResNet-18 在 CIFAR10 上跑的结果且不使用可学习参数，右下为 ResNet-18 在 CIFAR10 使用默认的批量梯度下降法。

如图 3 所示，AdaGrad-Norm 的收敛具有很强的鲁棒性，尤其是针对与 b0 的选择上。当 b0 以很大范围的数值初始化时，AdaGrad-Norm 的收敛性达到 SGD 的收敛性。在 CNN 和 ResNet 的表现上，AdaGrad-Norm 表现也十分出色，在图 3 的右上角，AdaGrad 的非收敛性可以解释为梯度规范的无边界性。而 18 层和 50 层的 ResNet 都针对 b0 的值有很好的鲁棒性。

ICML亮点论文：随机优化算法的证明以及在架构搜索上的应用

图 4：ImageNet 使用 ResNet-50 进行训练，y-轴是平均的训练和测试准确度。训练增加了动量。

在文章的最后，作者给 SGD 算法加入了动量来证明自适应方法在有动量的情况下的鲁棒性。文中使用了动量为 0.9 的默认值，结果显示 AdaGrad-Norm 在有动量的情况下对 SGD 初始化有着很强的鲁棒性。当 b0 比 Lipschitz 常数更大的时候，带动量的 SGD 比 AdaGrad-Norm 表现更好。当 b0 小于 Lipschitz 常数时，AdaGrad-Norm 的表现比 SGD 好。

5）文章亮点：

文章带领我们再次回顾了随机优化中使用自适应学习率的算法，焦点在于 AdaGrad-Norm 算法的收敛性证明。
文章出色地证明出了 AdaGrad-Norm 的收敛性优于 SGD，即使在初始值过大或过小的情况下，收敛性依然很好。
证明出的收敛率在真实和虚构的数据集上均有很好的表现，针对与 b0 不同的初始化值有极强的鲁棒性。

6）分析师见解：

文章的数学论证严谨，很好地证明了 AdaGrad-Norm 算法的收敛性及鲁棒性。
文章的立意是非常有价值的，通过证明一个常用的自适应学习优化算法数学上的收敛性以及在数据集上的收敛性，很好的推广至带动量 SGD 自适应算法的收敛性。
文章的考虑十分周到，从理论的证明到实例的应用，从模拟数据集到真实的 MNIST 和 ImageNet 数据集，都有很严谨的实验和论证，给优化算法的证明类型的论文提供了很好的模版。

7）引用：

[1] Y. Nesterov. Introductory lectures on convex programming volume i: Basic course. 1998.

[2] H. Robbins and S. Monro. A stochastic approximation method. In The Annals of Mathe- matical Statistics, volume 22, pages 400–407, 1951.

[3] J. Duchi, E. Hazan, and Y. Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12(Jul):2121–2159, 2011.

[4]K. Levy. Online to offline conversions, universality and adaptive minibatch sizes. In Advances in Neural Information Processing Systems, pages 1612–1621, 2017.

论文 2：Gradient Descent Finds Global Minima of Deep Neural Networks

链接： https://arxiv.org/pdf/1811.03804.pdf
作者：Simon S. Du，Jason D. Lee，Haochuan Li，Liwei Wang，Xiyu Zhai