云从科技在自然场景OCR任务取得重大技术突破

栏目: R语言 · 发布时间: 7年前

内容简介：日前，云从科技在自然场景OCR中的文本检测这个环节取得了技术突破，在检测准确率和检测效率两个综合维度上，获得了至今为止最好的结果。和面对高质量文档图像的传统OCR相比，自然场景OCR跳出了对输入图像的质量和场景束缚，能够在更宽泛的领域中获取应用，引起了学术界以及工业界的极大关注。在自然场景文本检测测试集ICDAR2015上，云从科技提出的Pixel-Anchor文本检测框架，取得87.68分的检测准确率（FMeasure，一种检出率和精确度的加权）, 获得单尺度文本检测准确率的第一名，同时该文本检测框架

日前，云从科技在自然场景OCR中的文本检测这个环节取得了技术突破，在检测准确率和检测效率两个综合维度上，获得了至今为止最好的结果。和面对高质量文档图像的传统OCR相比，自然场景OCR跳出了对输入图像的质量和场景束缚，能够在更宽泛的领域中获取应用，引起了学术界以及工业界的极大关注。在自然场景文本检测测试集ICDAR2015上，云从科技提出的Pixel-Anchor文本检测框架，取得87.68分的检测准确率（FMeasure，一种检出率和精确度的加权）, 获得单尺度文本检测准确率的第一名，同时该文本检测框架在960×1728的分辨率下检测效率达到了10FPS，既有较强的学术意义，又可以满足实际生产环境的实时性需求。为了验证算法的有效性，Pixel-Anchor文本检测框架在难度更高的多语言自然场景文本检测测试集ICDAR2017 MLT上，经过简单的尺度组合，在学术界所有公开文献的竞争方法中以74.54的分数获得了多语言综合文本检测准确率的第一名, 特别对于ICDAR2017 MLT中的东亚语言部分，该文本检测框架的表现尤为出色，在多个子测试集上（包括中文）都获得了第一。该框架在所有测试集上只用到了文本的通用特征，未引入文本识别作为反馈信息。

文章地址：https://arxiv.org/abs/1811.07432

背景导读

OCR技术有着悠久的发展历史，从上世纪60年代第一个识别英文字母的OCR产品面世以来，OCR的识别领域逐步扩展到数字，符号，进而其他语言，譬如拉丁语系中的法文，德文，意大利文等，东亚语系中的中文，日文，韩文等。OCR一般包含两个基本模块，文本检测和文本识别。在深度学习技术发展之前，传统OCR的文本检测依赖于一些浅层次的图像处理方法或者图像分割方法以及一些复杂繁琐的后处理技术进行文字定位，譬如早期基于二值化的连通域提取，或者后期基于极大稳定区域的字符区域提取，之后再配合这些被提取区域进行一系列的连接操作来完成最终的文本定位。因为这些技术的使用，传统OCR所处理的对象往往局限于成像清晰，背景干净，字体简单而同时又排列规整的文档图像。

随着深度学习的发展，在OCR的文本检测领域中，也涌现出一系列端到端的深度学习检测框架，OCR所能处理的对象逐步从高质量的文档图像扩展到成像质量高低不等，背景复杂，字体多样，文本方向任意的自然场景中。应用范围也从文档识别扩展到图片广告过滤，场景理解，商品识别，街景定位，票据识别等广泛的领域。下图是几个自然场景文本检测的例子。

研究成果

目前基于深度学习的文本检测框架可以分为两类，一类是基于像素级别的图像语义分割，另一类是来源于通用的物体检测框架，譬如基于锚(anchor)的检测和回归。基于像素分割的文本检测框架首先通过图像语义分割获得可能的文本像素，之后通过像素点直接回归或者对文本像素的聚合得到最终的文本定位；而基于锚检测回归的文本检测框架是在通用物体检测的基础之上，通过设置更多不同长宽比的锚来适应文本变长的特性，以达到文本定位的效果。基于像素分割的文本检测往往具有更好的精确度，但是对于小尺度的文本，因为适用的文本像素过于稀疏，检出率通常不高，除非以牺牲检测效率为代价对输入图像进行大尺度的放大；基于锚检测回归的文本检测对文本尺度本身不敏感，对小文本的检出率高，但是对于大角度的密集文本块，锚匹配的方式会不可避免的陷入无法适从的矛盾之中，此外，由于这种方法是基于文本整体的粗粒度特征，而并不是基于像素级别的精细特征，它的检测精度往往不如基于像素分割的文本检测。对于中文这样文本长度跨度很大的语言，目前的这两种方法在长文本上的效果都不尽人意。

针对这些问题，云从科技提出了一种端到端的深度学习文本检测框架Pixel-Anchor，通过特征共享的方式高效的把像素级别的图像语义分割和锚检测回归放入一个网络之中，把像素分割结果转换为锚检测回归过程中的一种注意力机制，使得锚检测回归的方法在获得高检出率的同时，也获得高精确度。此外，对于如中文这样文本长度跨度很大的语言，在Pixel-Anchor中，我们提出了一个自适应的预测层，针对不同层级的特征所对应的感受野范围，设计不同的锚以及锚的空间位置分布，以更高的效率更好的适应变化的文本长度。如前所述，在两个具有挑战性的自然场景文本检测测试集ICDAR2015以及ICDAR2017 MLT，Pixel-Anchor在检测准确率和检测效率两个综合维度上，获得了至今为止最好的结果（具体结果见下面Table 1，Table 2和Table 3）。该框架在满足生产环境实时性要求的基础上获得了很高的检测准确率，目前该框架已在云从科技的证件票据识别系统和图片广告过滤系统中上线。

云从科技在自然场景OCR任务取得重大技术突破

文章导读

Pixel-Anchor这套文本检测框架，和目前主流的文本检测框架相比，提出了两个大的改进点：

第一点是提出了把像素级别的图像语义分割以及基于锚的检测回归方法高效融合在一起，可端到端训练的检测网络。在该网络中，像素级别的图像语义分割以及基于锚的检测回归方法共享基础特征，而像素级别的图像语义分割结果作为一种注意力机制，用以监督锚检测回归的执行过程，在有效保证文本检出率的同时，提升了文本检测的精度。

云从科技在自然场景OCR任务取得重大技术突破

总体框架见上图，Pixel-Anchor采用学术界通用的ResNet-50作为特征提取主干网络，提取出1/4,1/8,1/16的特征图作为像素级别语义分割模块（Figure 5）以及锚检测回归模块（Figure 6）的基础特征，同时语义分割模块的输出结果以热力图的形式注入到锚检测回归模块中。整个网络简单轻巧，可通过ADAM优化方法进行端到端的训练。

云从科技在自然场景OCR任务取得重大技术突破

第二点是在锚检测回归这个模块中引入了自适应预测层“Adaptive Predictor Layer”，该预测层连接在不同层级的特征图之后，根据各特征图感受野的不同，调整锚的长宽比，卷积核的形状以及锚的空间密度（anchor density，见Figure 7），用以高效的获得各特征图上的文本检测结果，进而对文本长度的变化获得更好的适应性。自适应预测层在检测水平长文本上的性能非常出色，和经典的CTPN方法相比，我们的方法不需要复杂的后处理，更鲁棒的同时效率更高。

云从科技在自然场景OCR任务取得重大技术突破

以上所述就是小编给大家介绍的《云从科技在自然场景OCR任务取得重大技术突破》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

基于MVC的JavaScript Web富应用开发

麦卡劳(Alex MacCaw) / 李晶、张散集 / 电子工业出版社 / 2012-5 / 59.00元

《JavaScript Web 富应用开发》Developing JavaScript Web Applications是 Alex MacCaw 的新作（由O'Reilly出版发行），本书系统而深入的讲解了如何使用最前沿的Web技术构建下一代互联网富应用程序。作者 Alex MacCaw 是一名Ruby/JavaScript 程序员，在开源社区中很有名望，是Spine框架的作者，同时活跃在纽约、......一起来看看《基于MVC的JavaScript Web富应用开发》这本书的介绍吧!

码农工具

在线进制转换器

各进制数互转换器

RGB HSV 转换

RGB HSV 互转工具