一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

栏目: 数据库 · 发布时间: 5年前

内容简介：随着计算机视觉的发展，语义分割成为了很多应用场景必不可少的一环。比如网络直播有着实时剔除背景的要求，自动驾驶需要通过语义分割识别路面，与日俱增的应用场景对语义分割的精度和速度的要求不断提高。同时，语义分割数据集也在不断地进化，早期的Pascal VOC2，其分辨率大多数在1000像素以下。而Cityscape的语义分割数据集分辨率全部达到了1024*2048，总共5000张图片（精细标注），包含19类。这些数据集对研究者，计算设备，甚至框架都带来了更大的考验。DeepLab v3+ 是DeepLab语义分

一、图像语义分割模型DeepLab v3

随着计算机视觉的发展，语义分割成为了很多应用场景必不可少的一环。比如网络直播有着实时剔除背景的要求，自动驾驶需要通过语义分割识别路面，与日俱增的应用场景对语义分割的精度和速度的要求不断提高。同时，语义分割数据集也在不断地进化，早期的Pascal VOC2，其分辨率大多数在1000像素以下。而Cityscape的语义分割数据集分辨率全部达到了1024*2048，总共5000张图片（精细标注），包含19类。这些数据集对研究者，计算设备，甚至框架都带来了更大的考验。

DeepLab v3+ 是DeepLab语义分割系列网络的最新作，其前作有 DeepLab v1，v2, v3, 在最新作中，Liang-Chieh Chen等人通过encoder-decoder进行多尺度信息的融合，同时保留了原来的空洞卷积和ASSP层，其骨干网络使用了Xception模型，提高了语义分割的健壮性和运行速率。其在Pascal VOC上达到了 89.0% 的mIoU，在Cityscape上也取得了 82.1%的好成绩，下图展示了DeepLab v3+的基本结构4：

一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

DeepLab v3+在主干网络之后连接了Encoder和Decoder，能够在扩大网络感受的同时获得更加高清的分割结果。

在PaddlePaddle的模型库中已经包含了DeepLab v3+的训练以及测试的代码。我们首先安装最新版本的PaddlePaddle并且下载PaddlePaddle的模型库：

pip install -U paddlepaddle
git clone https://github.com/PaddlePaddle/models.git

当模型仓库成功克隆，你将可以在目录fluid/PaddleCV/deeplabv3+ 下看到用于训练以及测试的代码：

ls fluid/PaddleCV/deeplabv3+
# ├── models.py # 网络结构定义脚本
# ├── train.py # 训练任务脚本
# ├── eval.py # 评估脚本
# └── reader.py # 定义通用的函数以及数据预处理脚本

二、开始训练

当数据和代码都已经准备好，我们可以开始训练了，训练的参数和指令如下：

CUDA_VISIBLE_DEVICES=0 FLAGS_fraction_of_gpu_memory_to_use=0.99 inplace_normalize=1 fuse_relu_before_depthwise_conv=1  python 3 /home/cjld/nfs/liangdun/deeplabv3+/train.py --batch_size=-1 --train_crop_size=-1 --total_step=10 --base_lr=0.005 --train_set=train --norm_type=gn --save_weights_path=$YOUR_SAVE_WEIGHTS_PATH –dataset_path=$YOUR_DATASET_PATH

在这个命令中，我们没有使用任何预训练模型，从噪音开始训练DeepLab v3+。并且是直接使用全分辨率进行训练（1024x2048，batch size=1）。几个比较关键的参数解释如下：

环境变量CUDA_VISIBLE_DEVICES=0限制了训练过程仅使用一张GPU，如果存在多张GPU，可以通过修改参数来得到训练速度的提升。
环境变量FLAGS_fraction_of_gpu_memory_to_use=0.99，该环境变量将会让PaddlePaddle占用99%的显存，可以根据实际情况进行调节。
环境变量inplace_normalize=1，该参数是PaddlePaddle进行显存优化的关键，打开该开关将会让框架对normalize layer进行 inplace 操作来优化显存，现在支持的 normalize layer 有 group normalize。
环境变量fuse_relu_before_depthwise_conv=1，该参数是显存优化的另一个关键参数。这个参数会融合relu和depthwise conv来优化显存。
参数--save_weights_path=$YOUR_SAVE_WEIGHTS_PATH，这里你需要填入保存模型的路径。
参数--dataset_path=$YOUR_DATASET_PATH，这里你需要填入数据集的路径。

三、空间时间消耗分析

根据打印出来的信息，我们可以发现，PaddlePaddle在训练DeepLab v3+时，输入一张全分辨率的图片，显存消耗为10.2GB。得益于显存消耗小于11G，我们可以使用1080ti完成训练，训练中每次迭代速度约为0.85s。

我们还可以使用工具，分析DeepLab v3+各部分显存消耗情况：

一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

在该图中，显存消耗最多的是主干网络，占用了68.1%，其次是decoder部分，占用了16.4%，以及encoder占用了5.3%，剩下其他部分为损失函数和数据预处理的显存消耗。

显存消耗最多的是主干网络，占用了68.1%，我们可以继续查看主干网络内部显存消耗情况：

一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

这个图展示了在主干网络中的显存消耗，Xception主干网络主要由三部分组成， EntryFlow，MiddleFlow，以及ExitFlow，可以发现显存消耗最大的是EntryFlow。

在上图中，我们可以发现，尽管Xception主干网络层数最多的部分是MiddleFlow，但是显存消耗最大的却是EntryFlow，这是因为在EntryFlow里的特征还没有被充分下采用，分辨率相当高，同时EntryFlow里的通道数也不容小觑，因此造成了EntryFlow巨大的显存开销，这也为我们的优化指明了方向。

一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

DeepLab v3+使用的主干网络 Xception， MiddleFlow中的分离卷积块重复了16次，层数相比较EntryFlow和ExitFlow要多得多，然而显存消耗最大的却是EntryFlow。

框架对比

除开对网络内部的显存消耗进行分析，我们还对不同框架的显存消耗进行了对比，下表展示了PaddlePaddle和TensorFlow1.12的显存消耗以及性能对比，以下对比实验使用的输入数据是1024x2048全分辨率的图片，batch size为1，测试设备P40(24G)：

一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

四、优化原理

这里我们采用的显存优化策略是 fuse_relu_before_depthwise_conv 和 inplace_normalize。顾名思义,fuse_relu_before_depthwise_conv 是讲relu和depthwise_conv融合为同一个operator, 达到显存的节省。而 inplace_normalize 则是使用原地操作来节省显存。在卷积神经网络中，conv+normalize+activation是常见模式，在这种模式下，使用这两种优化策略，可以节省3倍的显存。这两种优化策略归纳起来就是操作融合和原地计算, 是显存优化中的常见策略, 对于不同的框架常常需要耗费人力进行开发, 而我们通过paddle的显存优化可以很轻松的实现这一点。该优化图示如下：

一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

在该图中，红框标注的data为会消耗显存的数据块，可以看到，通过inpalce和fuse两种操作，原来需要存储6个数据块，优化后仅仅需要2个数据块。

在上图中，我们可以发现，inplace和fuse两种操作，都分别帮助我们在每一个conv+normalize+activation块中节省了1个数据块，所以显存节省的更多了，我们的分割网络也可以消耗更少的显存资源。

总结

显存空间优化和时间优化一样，对空间消耗的压榨是没有止境的。层出不穷的模型，各种不同的优化方式，都对框架提出了很高的要求，选择一款兼顾效果和性能的深度学习框架，往往能够让项目事半功倍。

1. The cityscapes dataset for semantic urban scene understanding.
2. The pascal visual object classes challenge.
3. The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes.
4. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

首席增长官

张溪梦 / 机械工业出版社 / 2017-11-1 / 69.9

增长是企业永恒的主题，是商业的本质。人口红利和流量红利的窗口期正在关闭，曾经“流量为王”所带来的成功经验正在失效，所造成的思维逻辑和方法论亟待更新。在互联网下半场，企业要如何保持增长？传统企业是否能跟上数字化转型的脚步，找到新兴业务的增长模式？为什么可口可乐公司用首席增长官取代了首席营销官职位？数据驱动增长正在成为企业发展的必需理念，首席增长官、增长团队和增长黑客将是未来商业的趋势......一起来看看《首席增长官》这本书的介绍吧!

码农工具

一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

一、图像语义分割模型DeepLab v3

二、开始训练

三、空间时间消耗分析

框架对比

四、优化原理

总结

首席增长官

JSON 在线解析

RGB转16进制工具

UNIX 时间戳转换

一块GPU就能训练语义分割网络，百度PaddlePaddle是如何优化的？

一、 图像语义分割模型DeepLab v3

二、开始训练

三、空间时间消耗分析

框架对比

四、优化原理

总结

首席增长官

JSON 在线解析

RGB转16进制工具

UNIX 时间戳转换

一、图像语义分割模型DeepLab v3