这是专栏《图像分割模型》的第10篇文章。在这里,我们将共同探索解决分割问题的主流网络结构和设计思想。
深度信息的引入往往会给分割带来更好的结果。之前提到的ENet除了直接变成ReSeg分割网络,同样也可以结合RGB-D信息实现更准确的分割。
作者 | 孙叔桥
编辑 | 言有三
本期论文
《 LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling 》
1 RGB-D分割
前面我们已经讨论过许多基于RGB信息的分割网络了,今天就来谈谈RGB-D分割。RGB-D分割中的D指的是“Depth”,即“深度”,也就是相机到物体在实际空间中的距离。
那么既然RGB信息已经能够实现分割,为什么要用到深度信息呢?原因很简单:引入深度信息后,其提供的额外结构信息能够有效辅助复杂和困难场景下的分割。比如,与室外场景相比,由于语义类别繁杂、遮挡严重、目标外观差异较大等原因,室内场景的分割任务要更难实现。 此时,在结合深度信息的情况下,能够有效降低分割的难度。
虽然道理容易,但是如何实现RGB-D分割还是有些问题需要解决的:
-
如何有效地表述和融合共存的深度和光度(RGB)数据
-
如何在特征学习过程中有效获取全局场景上下文
下面我们就通过LSTM-CF网络结构来了解一下,如何实现RGB-D下的分割。
2 LSTM-CF
上一篇文章我们已经介绍过了ReNet,这里简单回顾一下。ReNet是通过在两个正交方向上级联应用RNN来获取图像中的2D依赖项。ReNet的具体实现方式如下图所示:
基于ReNet,LSTM-CF利用长短时间记忆和DeepLab实现分割。LSTM-DF 主要包括四个部分:用于竖直深度上下文提取的层,用于竖直光度上下文提取的层,用于整合光度和深度上下文成2D全局上下文的记忆融合层,和像素级场景分割层。
下图是LSTM-CF网络模型:
输入深度信息后,LSTM-CF利用HHA描述,将深度信息转换成视差、表面法线和高这三个通道的信息。随后,利用ReNet提取不同方向上的上下文信息,并在两个方向进行双向传播。
与此同时,对于RGB通道信息,网络利用如上图所示的卷积结构提取特征,利用插值将各级特征恢复到相同分辨率下,并级联。之后,同样利用ReNet获取上下文信息。
细心的读者可能注意到了,RGB通道比深度通道多出了两层。这是因为,考虑到光度图像比离散、稀疏的深度图像包含的信息多,网络对光度图像分支给予更多的关注。
概括起来,LSTM-CF的分割流程可以总结为下图的形式:
3 实验结果
为了验证深度信息和长短信息记忆等模块对于分割任务的影响,LSTM-CF对网络结构进行了剥离实验。下图是实验结果:
可见,分割的主要精度还是来源于RGB信息的,但是引入了深度信息和上下文信息后,网络的精度能够得到一定的提升。
下图是LSTM-CF在SUNRGBD数据库下的实验结果:
第一行为图像,第二行为真值,第三行为LSTM-CF分割结果
如果想了解更多,欢迎加入图像分割星球
总结
经过10期的介绍,语义分割问题上应该了解的基础网络结构就基本说完了。下一期我们来聊聊与语义分割稍有差异的实例分割网络结构。
本周直播(点击图片跳转)
今日看图猜技术
今日知识汇总
有三AI生态
更多精彩内容请关注知乎专栏《有三AI学院》
转载文章请后台联系
侵权必究
往期精选
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 【图像分割模型】用BRNN做分割—ReSeg
- 视觉工具包torchvision重大更新:支持分割模型、检测模型,还有许多数据集
- 实例分割模型Mask R-CNN
- 从人脸检测到语义分割,OpenCV预训练模型库
- 谷歌最新语义图像分割模型 DeepLab-v3+ 现已开源
- 谷歌的开源AI图像分割模型为云TPU优化
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Automate This
Christopher Steiner / Portfolio / 2013-8-9 / USD 25.95
"The rousing story of the last gasp of human agency and how today's best and brightest minds are endeavoring to put an end to it." It used to be that to diagnose an illness, interpret legal docume......一起来看看 《Automate This》 这本书的介绍吧!