​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

栏目: IT技术 · 发布时间: 4年前

内容简介:From: Google&arxiv; 编译: T.R在图像任务中卷积网络通常将输入图像编码成一系列中间特征来捕捉图像局部和全局的语意信息,特征的空间分辨率也会随着层数的增加而减小。然而,这种以牺牲空间分辨率为代价的模型结构对于需要多尺度特征的识别任务来说并不能获取非常有效的特征,尤其像是目标检测和语意分割任务中,类别识别和目标定位同样重要。像FCN和DeepLab等工作都提出了

关注并星标

从此不迷路

Jiangmen

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

From: Google&arxiv; 编译: T.R

在图像任务中卷积网络通常将输入图像编码成一系列中间特征来捕捉图像局部和全局的语意信息,特征的空间分辨率也会随着层数的增加而减小。然而,这种以牺牲空间分辨率为代价的模型结构对于需要多尺度特征的识别任务来说并不能获取非常有效的特征,尤其像是目标检测和语意分割任务中,类别识别和目标定位同样重要。像FCN和DeepLab等工作都提出了 多尺度的编解码器架构 来解决这一问题,利用牺牲尺度的模型来作为编码器,同时利用解码器来恢复空间信息。

虽然这种架构成功地提升了识别和定位任务的性能,但使用了降采样的编码器依旧损失了空间信息,需要解码器进行恢复,但这种恢复无法保留足够的原始空间信息。人们不禁想到,

如果可以设计出一种主干模型避免空间信息的损失,是不是就能天然地同时适应于图像识别与定位任务了

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

几种不同的尺度轮换架构

在这种思想的指导下,研究人员在今年的 CVPR论文SpineNet 中提出了一种名为 尺度轮换模型(scale-permuted) 的元结构,从两个方面提升了主干结构的性能。中间特征图的空间分辨率应该可以在任意层提升或者减小,以便在网络加深时保持空间信息的有效性;其次特征图间的连接应该跨越特征尺度来促进多尺度信息的融合。在新架构下,研究人员利用了 神经架构搜索(Neural Architecture Search,NAS)方法 在新的搜索空间中寻找有效的尺度轮换模型。结果表明这种模型 在多尺度视觉任务中超过了标准的尺度缩减主干网络,在多个基准上实现了优异性能指标。

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

左图显示了尺度缩减结构,右图显示了尺度置换主干网络。每个矩形表示了一个模块,颜色和尺寸显示了空间分辨率和特征维度的变化,箭头表示了不同层间的连接。

一、SpineNet的架构设计

为了高效地设计SpingNet的架构,避免耗时的手工设计、参数搜索和设计,研究人员设计了 NAS 来优化模型结构。主干模型在COCO数据集上进行了训练,同时强化了识别和定位任务的需求。在架构搜索阶段,研究人员主要在三个方面进行了处理:

  • 尺度轮换 :由于需要从已有的模块进行构建, 网络模块的顺序 十分重要。在搜索中通过重整中间特征和输出模块的序列关系来重新定义了尺度轮换空间。

  • 交叉尺度连接 :为每个模块定义了 两个输出连接 ,可以来自于任意的低层模块或主干网络模块。

  • 模块自适应 (可 选):模块可以 自适应地调节其尺度和种类

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

从尺度缩减到尺度轮换的架构搜索过程对比

NAS搜索中使用了 ResNet-50 主干网络 来作为搜索种子,首先学习了 尺度轮换和交叉连接的方式 。研究人员使用了基于递归神经网络的控制器来实现架构搜索,这是目前最适合于尺度轮换的搜索架构。为了加速搜索过程,研究人员还设计了 SpineNet代理 ,将SpineNet- 49的特征维度缩减因子设置为0.25,设置重采样因子α为0.25,并在bbox检测和分类中使用了64维的特征。 为了防止搜索空间的指数增加,研究人员限制了中间架构仅仅允许最后五个block搜索,并在在现有block中进行检索。 针对每个样本,代理训练512分辨率的图像5个epoch,同时验证集上的AP被作为奖励来优化结构。实际中使用了100个TPU来运行,来搜索最好的结构。

所有备选架构的计算量都几乎相同,因为在这一过程中仅仅轮换了特征模块的顺序。 最终学习到的尺度轮换模型在目标检测任务中比ResNet-50-FPN高了2.9%的AP。

如果添加搜索选项来适应模块的尺度和种类(包括残差模块或者瓶颈模块)还能够减少10%的浮点运算提升效率。

下图显示了标准尺寸和mobile尺寸的SpingNet性能。

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

研究人员将得到的49层尺度轮换主干架构命名为 SpineNet-49 ,如果利用重复模块叠加和维度拓展可以方便地构建出SpineNet-96/143/190等架构。

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

下图展示了 RestNet-50-FPN SpineNet-49 的对比情况。

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

ResNet 主干 (左) 和 基于NAS搜索得到的SpineNet 主干 (右) 的比较。

二、性能

通过与ResNet-FPN的比较展示了新架构在性能上的大幅度提升。 在使用相同模块的情况下,SpineNet比ResNet-FPN提升了3%的AP,同时还减少了10-20%的浮点计算。值得一提的是 最大的SpineNet-190模型在COCO实现了52.1%的AP ,在没有使用多尺度测试的情况下单模型结果超过了先前的检测器架构。SpineNet同时在分类任务基准iNaturalist细粒度数据集上取得了5%的top-1精度提升。

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

SpineNet模型和ResNet-FPN模型在bbox检测上的性能比较。

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

SpineNet和ResNet模型在iNaturalist细粒度图像分类任务上的性能比较。

同时在研究中发现, 联合优化尺度轮换和尺度交叉连接比在固定尺度下优化交叉连接效果更好。 交叉连接在不同尺度特征融合过程中扮演着重要的角色。研究人员通过 选择性图破坏链接来探索交叉连接的重要性 ,包括移除短程连接、移除长程连接、同时移除长短连接并将其连接到先前的序列模块上。下表显示了性能衰减,发现短程连接并不能有效处理频率分辨率的演变。

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

三、结论和展望

研究人员认为 尺度缩减模型 无法同时有效地处理识别和定位任务,提出的 尺度轮换模型 作为一种新的架构解决了这一问题。同时还通过 神经架构搜索 的方式来提升这一架构的性能,并在目标检测和分类中得到了显著的性能提升。这一独特的模型架构将为各种视觉任务提供更多的选择和性能提升。

如果想要了解更多详细信息,请参考论文和代码:

paper: https://arxiv.org/pdf/1912.05027.pdf

code:

https://github.com/tensorflow/tpu/tree/master/models/official/detection

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

pic ref:

https://cdn.dribbble.com/users/393446/screenshots/10070945/toggles_4x.png https://cdn.dribbble.com/users/398490/screenshots/3665764/cat-animated_still_2x.gif https://cdn.dribbble.com/users/2245614/screenshots/9177516/lottie_2_still_2x.gif

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

本周上新!扫码观看!

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位

来扫我呀

关于我“门”

将门 是一家 以专注于 发掘、加速及投资技术驱动型创业公司 的新型 创投机构 ,旗下涵盖 将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务 专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群 专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金 专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括 机器智能、物联网、自然人机交互、企业计算。 在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、 宽拓科技、 杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务, 欢迎发送或者推荐项目给我“门”:  bp@thejiangmen.com

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位     

点击右上角,把文章分享到朋友圈

​谷歌提出基于神经网络搜索的目标检测新型架构,同时适应图像识别+定位  

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com

点击“ ❀在看 ”,让更多朋友们看到吧~


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Don't Make Me Think

Don't Make Me Think

Steve Krug / New Riders Press / 18 August, 2005 / $35.00

Five years and more than 100,000 copies after it was first published, it's hard to imagine anyone working in Web design who hasn't read Steve Krug's "instant classic" on Web usability, but people are ......一起来看看 《Don't Make Me Think》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

随机密码生成器
随机密码生成器

多种字符组合密码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码