谷歌开源分布式机器学习库GPipe，用于扩展深度神经网络培训

栏目: 后端 · 发布时间: 6年前

内容简介：谷歌人工智能研究团队昨天宣布开源GPipe，这是一个分布式机器学习库，用于在Lingvo框架下有效地训练大规模深度神经网络模型。GPipe利用同步随机梯度下降和管道并行性进行训练。它将网络层划分为加速器和流水线执行，以实现高硬件利用率。 GPipe还允许研究人员轻松部署加速器以训练更大的模型并在不调整超参数的情况下扩展性能。去年12月，谷歌人工智能研究人员还发表了一篇题为“

谷歌人工智能研究团队昨天宣布开源GPipe，这是一个分布式机器学习库，用于在Lingvo框架下有效地训练大规模深度神经网络模型。

GPipe利用同步随机梯度下降和管道并行性进行训练。它将网络层划分为加速器和流水线执行，以实现高硬件利用率。 GPipe还允许研究人员轻松部署加速器以训练更大的模型并在不调整超参数的情况下扩展性能。

去年12月，谷歌人工智能研究人员还发表了一篇题为“ GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism ”的论文。在本文中，研究人员展示了使用管道并行性来扩展深度神经网络以克服当前加速器的内存限制。让我们来看看GPipe的主要亮点。

GPipe有助于最大限度地提高内存和效率

GPipe有助于最大化模型参数的内存分配。研究人员对云TPUv2进行了实验。这些云TPUv2中的每一个都包含8个加速器核心和64 GB内存（每个加速器8 GB）。通常，没有GPipe，由于内存限制，单个加速器能够训练多达8200万个模型参数，但是，GPipe能够在单个加速器上将立即激活内存从6.26 GB降低到3.46GB。

研究人员还测量了GPipe对AmoebaNet-D模型吞吐量的影响，以测试其效率。研究人员发现，训练中几乎有线性加速。 GPipe还使用11x的加速速度在1024个令牌句子上启用了80亿个参数Transformer语言模型。

谷歌开源分布式机器学习库GPipe，用于扩展深度神经网络培训

研究人员使用GPipe验证了扩大现有神经网络的假设可以帮助实现更好的模型质量。对于该实验，在ImageNet ILSVRC-2012数据集上训练具有5.57百万个模型参数和输入图像尺寸为480×480的AmoebaNet-B。研究人员观察到该模型能够在不使用任何外部数据的情况下达到84.3％的前1/97％前5种单作物验证准确度。

研究人员还在CIFAR10和CIFAR100数据集上进行了转移学习实验，他们观察到巨型模型将最佳公布的CIFAR-10精度提高到99％，将CIFAR-100精度提高到91.3％。

研究人员说：“我们很高兴为更广泛的研究界提供GPipe，并希望它是有效培训大规模DNN的有用基础设施”。

有关更多信息，请查看官方 GPipe博客文章。