亚马逊提出目标检测训练秘籍（代码已开源）

栏目: 软件资讯 · 发布时间: 7年前

内容简介：重磅干货，第一时间送达

点击上方“ CVer ”，选择"星标"和“置顶”

重磅干货，第一时间送达

前戏

最近目标检测方向，出了很多paper，CVer也立即跟进报道（点击可访问）：

本文介绍一篇很棒的目标检测训练技巧论文。该论文是由Amazon Web Services 提出，其中作者团队中就有李沐等大神。之前Amazon还提出图像分类的Tricks论文，详见亚马逊：用CNN进行图像分类的Tricks

简介

《Bag of Freebies for Training Object Detection Neural Networks》

亚马逊提出目标检测训练秘籍（代码已开源）

arXiv: https://arxiv.org/abs/1902.04103

github: https://github.com/dmlc/gluon-cv

作者团队： Amazon Web Services

注：2019年02月11日刚出炉的paper

Abstract：目标检测训练与图像分类模型的研究相比，相对缺少普遍性。由于网络结构和优化目标明显更加复杂，因此针对某些检测算法而不是其他检测算法专门设计了各种训练策略和 pipelines。在这项工作中，我们探索了有助于将最先进的目标检测模型的性能提升到一个新水平而不牺牲推理（inference）速度的通用调整。我们的实验表明，这些训练秘籍（freebies）可以在精度上增加5％，因此每个人都应该考虑在一定程度上将这些训练秘籍应用于目标检测训练中。

正文

主要贡献

1）我们是第一个系统地评估各种目标检测 pipelines 中应用的各种训练启发式方法，为未来的研究提供了有价值的实践指导。

2）我们提出了一种用于训练目标检测网络的 visually coherent image mixup 方法，该方法被证明在提高模型通用能力方面非常有效。

3）在不改变网络结构和损失函数的情况下，基于现有模型，我们 achieved up to 5% out of 30% absolute average precision。

4）我们扩展了目标检测数据增广领域的研究深度，显著增强了模型泛化能力，有助于减少过度拟合问题。实验还揭示了可以在不同网络结构中一致地提高目标检测性能的良好技术。

所有相关代码都是开源的，模型的预训练权重可在GluonCV工具包中获得。

GluonCV : https://github.com/dmlc/gluon-cv

具体创新点

1. Visually Coherent Image Mixup for Object Detection

这个创新点是受前段时间很出名的用于图像分类的数据增广论文：《mixup: Beyond empirical risk minimization》(ICLR 2018) 启发。用于图像分类的mixup方法如下：

亚马逊提出目标检测训练秘籍（代码已开源）

用于目标检测的方法如下：

亚马逊提出目标检测训练秘籍（代码已开源）

注意mixup中最重要的超参数就是 α 和 β ，不同的值对结果(mAP)会有很大影响，结果如下所示：

亚马逊提出目标检测训练秘籍（代码已开源）

Effect of various mix-up approaches

2. Classification Head Label Smoothing

这个创新点是受《Rethinking the inception architecture for computer vision》论文启发。

亚马逊提出目标检测训练秘籍（代码已开源）

3. Data Pre-processing

随机几何变换。包括随机裁剪（带约束），随机扩展，随机水平翻转和随机缩放（随机插值）。
随机颜色抖动（jittering），包括亮度，色调，饱和度和对比度。

4. Training Scheduler Revamping

the step schedule
cosine learning rate adjustment
Warm up learning rate

亚马逊提出目标检测训练秘籍（代码已开源）

Visualization of learning rate scheduling with warm-up

enabled for YOLOv3 training on Pascal VOC

5. Synchronized Batch Normalization

做了大量实验，调研 Synchronized Batch Normalization 对 YOLOv3的实验影响

注：有卡任性，哈哈

6. Random shapes training for single-stage object detection networks

为了适应内存限制并允许更简单的批处理，许多 single-stage 目标检测网络采用固定形状进行训练。本论文中，将一小批N个训练图像的大小调整为Nx3xHxW，其中H和W是D = randint（1; k）的multipliers。例如，使用H = W ∈ {320; 352; 384; 416; 448; 480; 512; 544; 576; 608} 用于YOLOv3训练。

实验结果

论文中使用 YOLOv3 和 Faster R-CNN 作为实验的目标检测框架。

YOLOv3 改进实验结果(在VOC数据集上)

亚马逊提出目标检测训练秘籍（代码已开源）

Training Refinements on YOLOv3, evaluated at 416×416

on Pascal VOC 2007 test set

Faster R-CNN 改进实验结果(在VOC数据集上)

亚马逊提出目标检测训练秘籍（代码已开源）

Training Refinements on Faster-RCNN, evaluated at 600 × 1000 on Pascal VOC 2007 test set

注： 从实验结果来看，涨点很明显 ，将这些tricks用在你当前的研究项目中，应该会有很大帮助。

想要了解 最新最快最好 的论文速递、开源项目和干货资料，欢迎加入CVer学术交流群。涉及图像分类、目标检测、图像分割、人脸检测&识别、目标跟踪、GANs、学术竞赛交流、Re-ID、风格迁移、医学影像分析、姿态估计、OCR、SLAM、场景文字检测&识别和超分辨率等方向。

亚马逊提出目标检测训练秘籍（代码已开源）

扫码进群

这么硬的 论文速递 ，麻烦给我一个好看

亚马逊提出目标检测训练秘籍（代码已开源）

▲长按关注我们

麻烦给我一个好看！

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

模糊数学基础及实用算法

李鸿吉编 / 科学出版社 / 2005-1 / 55.00元

本书开发了模糊数学常用的计算机程序，并以大量的算例系统地介绍了模糊数学的实用算法。本书可以作为模糊数学的应用程序包，在详细解释源代码的同时，对应用程序开发所用到的Visual Basic 6.0方法做了系统介绍，其目的是为读者做进一步的自主开发提供便利。本书所提供的源程序可以作为读者自主开发的素材。本书配有光盘，分章节提供程序源代码。本书可以作为大专院校、培训班的教学参考书。对需......一起来看看《模糊数学基础及实用算法》这本书的介绍吧!

码农工具

亚马逊提出目标检测训练秘籍（代码已开源）

前戏

最近目标检测方向，出了很多paper，CVer也立即跟进报道（点击可访问）：

简介

arXiv: https://arxiv.org/abs/1902.04103

github: https://github.com/dmlc/gluon-cv

正文

1. Visually Coherent Image Mixup for Object Detection

2. Classification Head Label Smoothing

3. Data Pre-processing

4. Training Scheduler Revamping

5. Synchronized Batch Normalization

6. Random shapes training for single-stage object detection networks

实验结果

YOLOv3 改进实验结果(在VOC数据集上)

Faster R-CNN 改进实验结果(在VOC数据集上)

模糊数学基础及实用算法

URL 编码/解码

XML、JSON 在线转换

XML 在线格式化