不用批归一化也能训练万层ResNet，新型初始化方法Fixup了解一下

内容简介：前几天，我们介绍了「近日，Tesla AI 总监 Andrej Karpathy 也发推提及了这篇论文，这篇论文到底如何，我们一起来看一下吧。

前几天，我们介绍了「机器学习领域的七大谣传」，其中一个谣传就是「训练超深度残差网络怎么少得了批归一化（BN）！」。文中介绍了论文《Fixup Initialization: Residual Learning Without Normalization》表明在不引入任何归一化方法的情况下，通过使用原版 SGD ，可以有效地训练一个 10,000 层的深度网络。也就是说「训练超深残差网络可以不用批归一化」。

近日，Tesla AI 总监 Andrej Karpathy 也发推提及了这篇论文，这篇论文到底如何，我们一起来看一下吧。

归一化层是当前最优神经网络架构的重要组成部分。人们普遍认为归一化层可以稳定训练、实现较高的学习率、加速收敛并提高泛化能力，尽管其有效的原因仍然是一个活跃的研究课题。这篇论文就挑战了这一「共识」，认为这些好处并不独属于归一化。

研究者提出了一种新型初始化方法 fixed-update initialization (Fixup)，试图在训练开始时通过恰当地调整初始化来解决梯度爆炸和梯度消失问题。实验证明，使用 Fixup 训练残差网络与使用归一化训练残差网络一样稳定，甚至在训练 10000 层的深度网络时也是如此。此外，经过恰当的正则化后，Fixup 使残差网络在不使用归一化的情况下也能在图像分类和机器翻译任务中达到当前最优性能。

不用批归一化也能训练万层ResNet，新型初始化方法Fixup了解一下 左图是 ResNet，红色为批归一化层。中间图是堆叠在一起也能稳定训练的简单 Fixup 网络（移除了偏置项）。右图是添加偏置项参数后的 Fixup。

作者在论文开头就提出了两个问题：

没有归一化，深度残差网络可以得到可靠的训练吗？
如果可以的话，那么使用和不使用归一化的深度残差网络，在相同学习率和最优化方法时，收敛速率和泛化性能能否一致？

而这篇论文中给出的答案是两个「Yes」！

该研究解释了给出这个答案的原因：

归一化为什么有助于模型训练？论文作者推导出残差网络在初始化时，梯度范数的下界，从而解释了为什么在使用标准初始化时，归一化技术对于用大学习率训练深度残差网络是必需的。
关于不使用归一化的模型训练，作者提出了一种新初始化方法 Fixup。通过调整网络架构对残差分支的标准初始化进行重缩放，Fixup 可使深度残差网络在不使用归一化技术的情况下以最大学习率进行稳定训练。

作者还在图像分类和机器翻译任务上对以上第二点结论进行了验证：

图像分类：作者在图像分类基准数据集 CIFAR-10 上训练 Wide-ResNet、在 ImageNet 数据集上训练 ResNet，但将批归一化技术替换成了 Fixup，结果发现经过恰当正则化的 Fixup 性能堪比使用归一化技术的精调基线模型。
机器翻译：作者在机器翻译基准IWSLT 和 WMT 上训练 Transformer 模型，但将层归一化替换成了 Fixup，结果发现新模型优于基线模型，且同样的架构输出结果却达到了新高。