作者丨孙明珊
学校丨哈尔滨工业大学(深圳)
研究方向丨目标检测
研究动机
在购物超市中,商品陈列区中摆放了密集而繁多的商品,它们大多是相同或极其相似的,并且位置十分靠近。当前主流的检测网络在这种场景下充满挑战,效果并不是很理想。
本文的精确物体检测就是在这种场景基于主流检测方法,提出了以下几个方面的改进:
-
提出 Soft-IoU 层进行 IoU 的预测;
-
引入一个基于 EM 算法的高斯混合聚类方法来解决探测重叠的问题;
-
制作了公开数据集 SKU-110K,并在相关的零售场景数据集中进行训练和测试,包括 SKU-110K, CARPK 和 PUCPR+。
其与 RetinaNet 的探测效果对比图如下所示:
其中红框表示 RetinaNet 效果,蓝色表示本文的方法,(c) 和 (d) 是 (a) 和 (b) 的放大图。
可见在这种场景下探测的主要难点在于怎么确认矩形框的结束和下一个并列矩形框的开始。可见 RetinaNet 中大多数矩形框是重叠的,而本文的方法个个分明,在精确密集检测中很有优势。
研究方法
Soft-IoU层预测IoU
在非密集场景中,NMS 可以解决矩形框的重叠。然而,在密集检测中,多个重叠的边界框通常会映像多个紧密排列的目标,其中许多目标获得了高分数。在这种情况下,NMS 不能区分重叠物体之间的缝隙,或者抑制物体的不完整检测。
为了解决此问题,我们需要针对每个预测框再额外预测一个 IoU,这是由一个在 RPN 后面添加的第三个全连接分支来完成,搭配二值交叉熵。其实,这与 IoU-net 的想法是一样的,既然零售场景中的密集检测关注交叠探测那么 IoU 就是一个很好的信息。其中 IoU 的损失函数如下所示:
那么训练 RPN 的 loss 就由三部分组成,如下式:
基于EM算法的去交叠
我们将原始的单个物体的探测转化为以一个以探测目标为中心的簇,首先假定来自神经网络输出的 N 个矩形框由一系列二维高斯核产生,其中矩形框的中心是高斯核的均值,方差用来衡量矩形框的长宽。将这一系列的高斯核叠加得到了混合高斯模型,其中 IoU 的占比决定了高斯混合模型中的混合系数。模型的概率密度如下式:
这样就可以将其看作一个热力图,将原始的探测问题转换成了基于热力图来判定每个像素与 ground truth 交叠的置信度,每个区域的权重就是高斯核的混合系数,可以由 Soft-IoU 层的预测结果进行衡量。
不相交的矩形框探测可以采用高斯混合模型进行聚类得到,那么什么是高斯混合聚类方法,此处简要说明一下:假定我们所有最终的矩形框都是由高斯混合模型生成的,那么我们只要根据数据推出混合模型的概率分布来就可以了,然后混合模型的 K 个组成部分就对应了 K 个簇,也就是 K 个矩形框。
因为我们的问题是需要将交叠的矩形框去重叠之后得到非交叠的部分,又因为聚类之后的簇中心代表的就是去重叠之后的矩形框中心(ground truth 的中心),那么我们的簇中心必定远小于网络直接生成的 N 个矩形框,也就是混合模型的高斯核个数 K 远小于网络产生的矩形框个数。那么我们需要找到这 K 个高斯核混合而成的概率分布:
用 KL 散度来度量两个矩形框的相似度:
而我们寻找的这个由 K 个高斯核混合的模型是为了最小化预测框和 ground truth 的 KL 散度,而解决该最小化问题我们采用了 EM 的思想。首先,E 步会将预测出来的每个矩形框对应到与其距离最近的簇中心如下式:
然后,M 步是重新估计模型的参数:
整个流程和 K-means 聚类差不多,聚类簇数目的选定采用层次聚类的结果,还会采用辅助手段进行验证:依据一张图片的像素面积去除以一件商品的像素面积,这种方法要求拍摄的距离固定以及商品的像素面积事先测定(感觉有点不智能啊!):
除此之外,还有一个后处理步骤用于去除一些置信度较低但是和其它高斯核交叠率超阈值(也就是距离过近 KL 散度过小)的高斯核,所以实际最后得到的高斯核要小于 K,写为 K’。
为了获取最终的探测结果,我们将网络预测的矩形框中心点落在 K’ 个高斯核标准差以内的所有矩形框求均值作为该探测结果的中心。最后效果如下图:
构建SKU-110K标准数据集
基于商场中商品陈列区的目标检测数据集,主要是针对密集目标见检测和细粒度目标检测在零售行业的应用。
实验内容及分析
该方法是基于 RetinaNet,在 GPU 加速的情况下,添加 Soft-IoU 和 EM-Merger 的速度与基础模型差不多,具体时间如下表:
其 AP,MAE 和 RMSE 指标结果如下表:
在自己提出的数据集 SKU-110K 上探测效果对比图如下所示:
除此之外,在 CARPK 和 PUCPR+ 数据集上的 MAE 和 RMSE 的结果如下表所示:
总结
针对实体零售场景下密集商品的探测问题构建了一个相应场景的数据集,并且发现此场景下现有的探测模型具有以下问题:目标的密集性导致大量的边框由交叠,无法做到个个分明。
针对这个问题提出了两个方法来改进:增加 Soft-IoU 层来预测每个预测框与 ground truth 的 IoU,并且采用高斯核替代探测框的方式构建基于 EM 的高斯核聚类方法从而筛选重叠的探测框。
点击以下标题查看更多往期内容:
# 投 稿 通 道 #
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是 最新论文解读 ,也可以是 学习心得 或 技术干货 。我们的目的只有一个,让知识真正流动起来。
:memo: 来稿标准:
• 稿件确系个人 原创作品 ,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
:mailbox_with_mail: 投稿邮箱:
• 投稿邮箱: hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
:mag:
现在,在 「知乎」 也能找到我们了
进入知乎首页搜索 「PaperWeekly」
点击 「关注」 订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击 「交流群」 ,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文 & 源码
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
使用HTML5和Node构建超媒体API
【美】Mike Amundsen(麦克.阿蒙森) / 臧秀涛 / 电子工业出版社 / 2014-5 / 55.00元
《使用HTML5和Node构建超媒体API》探讨了超媒体API 的设计,介绍了作为超媒体API 的构件块的超媒体因子,并讲解了基本格式、状态转移、领域风格和应用流程这4 种超媒体设计元素;之后作者结合具体的场景,通过3个动手实验章节,从超媒体因子和超媒体设计元素入手,用实际的代码向我们详细地演示了超媒体API 的设计;最后介绍了超媒体设计的文档编写、注册与发布等内容。 《使用HTML5和No......一起来看看 《使用HTML5和Node构建超媒体API》 这本书的介绍吧!