谷歌开源TensorFlow Object Detection API物体识别系统

栏目: 软件资讯 · 发布时间: 7年前

内容简介:谷歌开源TensorFlow Object Detection API物体识别系统

选自Google Open Source

作者:Jonathan Huang

机器之心编译

参与:黄小天、李泽南

近日,谷歌在其开源博客上发表了一篇名为《Supercharge your Computer Vision models with the TensorFlow Object Detection API》的文章,通过 TensorFlow Object Detection API 将谷歌内部使用的物体识别系统(2016 年 10 月,该系统在 COCO 识别挑战中名列第一)开源给更大的社区,帮助打造更好的计算机视觉模型。机器之心对该文进行了编译,原文链接请见文末。

在谷歌,研究人员开发了最高水平的计算机视觉机器学习系统,不仅可以用于谷歌自身的产品和服务,还可以推广至整个研究社区。创造能够在同一张图片里定位和识别多种物体的机器学习模型一直是业内的核心挑战之一,谷歌宣称自己已投入大量时间训练和实验此类系统。

谷歌开源TensorFlow Object Detection API物体识别系统

其中一个模型在示例图片中(来自 COCO 数据集)对象识别的效果

2016 年 10 月,谷歌内部的物体识别系统达到了业内最佳水平,在 COCO 识别挑战中名列第一。自那时起,该系统为大量文献提供了结果,并被一些谷歌的产品所采用,如 NestCam,同样的理念也被识别谷歌街景街道名称和门牌号的 Image Search 采用。

今天,我们很高兴通过 TensorFlow Object Detection API 把该系统开源给更大的研究社区。这个代码库是一个建立在 TensorFlow 顶部的开源框架,方便其构建、训练和部署目标检测模型。我们设计这一系统的目的是支持当前最佳的模型,同时允许快速探索和研究。我们的第一个版本包含:

  • 一个可训练性检测模型的集合,包括:

  • 带有 MobileNets 的 SSD(Single Shot Multibox Detector)

  • 带有 Inception V2 的 SSD

  • 带有 Resnet 101 的 R-FCN(Region-Based Fully Convolutional Networks)

  • 带有 Resnet 101 的 Faster RCNN

  • 带有 Inception Resnet v2 的 Faster RCNN

  • 上述每一个模型的冻结权重(在 COCO 数据集上训练)可被用于开箱即用推理。

  • 一个 Jupyter notebook 可通过我们的模型之一执行开箱即用的推理

  • 借助谷歌云实现便捷的本地训练脚本以及分布式训练和评估管道

SSD 模型使用了轻量化的 MobileNet,这意味着它们可以轻而易举地在移动设备中实时使用。在赢得 2016 年 COCO 挑战的研究中,谷歌使用了 Fast RCNN 模型,它需要更多计算资源,但结果更为准确。

如需了解更多细节,请参阅谷歌发表在 CVPR 2017 上的论文:https://arxiv.org/abs/1611.10012

准备好了吗?

这些代码在谷歌的计算机视觉应用中非常有用,谷歌希望本次开源能够将这份便利带给所有人。谷歌同时也欢迎更多贡献者参与进来。现在,你可以下载代码,使用 Jupyter notebook 尝试在图片中识别物体,也可以开始在 Cloud ML 引擎中训练你自己的识别器了。

  • 代码:https://github.com/tensorflow/models/tree/master/object_detection

  • Jupyter notebook:https://github.com/tensorflow/models/blob/master/object_detection/object_detection_tutorial.ipynb

  • Cloud ML:https://cloud.google.com/blog/big-data/2017/06/training-an-object-detector-using-cloud-machine-learning-engine

参考资料

1. Speed/accuracy trade-offs for modern convolutional object detectors (https://arxiv.org/abs/1611.10012), Huang et al., CVPR 2017 (paper describing this framework)

2. Towards Accurate Multi-person Pose Estimation in the Wild (https://arxiv.org/abs/1701.01779), Papandreou et al., CVPR 2017

3. YouTube-BoundingBoxes: A Large High-Precision Human-Annotated Data Set for Object Detection in Video (https://arxiv.org/abs/1702.00824), Real et al., CVPR 2017 (see also our blog post (https://research.googleblog.com/2017/02/advancing-research-on-video.html))*

4. Beyond Skip Connections: Top-Down Modulation for Object Detection (https://arxiv.org/abs/1612.06851), Shrivastava et al., arXiv preprint arXiv:1612.06851, 2016

5. Spatially Adaptive Computation Time for Residual Networks (https://arxiv.org/abs/1612.02297), Figurnov et al., CVPR 2017

6. AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions (https://arxiv.org/abs/1705.08421), Gu et al., arXiv preprint arXiv:1705.08421, 2017

7. MobileNets: Efficient convolutional neural networks for mobile vision applications (https://arxiv.org/abs/1704.04861), Howard et al., arXiv preprint arXiv:1704.04861, 2017

原文地址:http://opensource.googleblog.com/2017/06/supercharge-your-computer-vision-models.html

版权声明

本文仅代表作者观点,不代表百度立场。

阅读量: 0

0

0


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

一目了然

一目了然

Robert Hoekman, Jr. / 段江玲 / 机械工业出版社华章公司 / 2012-3-19 / 59.00元

可用性或易用性是软件或Web设计师的重要设计目标之一。本书深入阐述了如何设计出简单易用的基于Web的软件,以帮助读者理解、掌握显性设计的精髓。作者从软件开发初期谈起,一直到软件设计后期,分析诸多案例并论证了自己的见解或设计原则。本书在第1版的基础上进行了重大改进,尤其是在设计思想上,作者在本书中谈到“以用户为中心的设计”、“以任务为中心的设计”以及“以情景为中心的设计”的理念。这种设计理念也将更直......一起来看看 《一目了然》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具