微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

栏目: 编程工具 · 发布时间: 6年前

内容简介：编者按：计算机视觉技术有着广泛的应用场景和市场需求。微软近期发布了Windows Vision Skills预览版，旨在简化计算机视觉技术在Windows上的部署，帮助开发者通过简单调用一组API来解决一些计算机视觉问题。目前，Windows Vision Skills已包含可用于实现特定类型的计算机视觉技能的一组API，包括：

编者按：微软近期发布了Windows Vision Skills预览版，目前包含物体检测、人体骨架检测、情感识别等API。有了Windows Vision Skills，无需了解复杂的计算机视觉知识，你就可以轻松调用API解决一些计算机视觉问题。

计算机视觉技术有着广泛的应用场景和市场需求。微软近期发布了Windows Vision Skills预览版，旨在简化计算机视觉技术在Windows上的部署，帮助开发者通过简单调用一组API来解决一些计算机视觉问题。目前，Windows Vision Skills已包含可用于实现特定类型的计算机视觉技能的一组API，包括： 物体检测、人体骨架检测和情感识别 。

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

图1：从左到右展示了物体检测、人体骨架检测、和情感识别的结果

对于开发者而言，Windows Vision Skills框架极大地降低了计算机视觉技术的应用门槛。应用开发人员可以使用WinRT APIs来轻松地在Windows应用（.NET、Win32和UWP）上集成已搭建好的视觉技术，例如物体检测、人体骨架检测等，而无需了解技术内部复杂的算法和设计，大大缩短开发周期，提升开发效率。另外，计算机视觉开发者可以借助Windows设备上的硬件加速框架来将其方案打包成一个视觉技术包，而无需担心底层的设计。

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

在已发布的这三项计算机视觉API中，人体骨架检测技术来自微软亚洲研究院智能多媒体组。由于实际应用对于模型的处理速度和资源消耗有着极高的要求，用于研究目的的人体骨架检测模型难以满足实际需求。为此，微软亚洲研究院智能多媒体组的研究人员设计了高效的 轻量级骨架检测模型 ，参数量仅为4M。

我们将该轻量级骨架检测模型与目前被业界广泛使用的开源模型OpenPose进行了对比。由于OpenPose的神经网络相对复杂，并不适合直接应用于产品中，所以我们将OpenPose模型进行了简化处理（即将6个stages减为1个stage来降低模型复杂度）。与简化版的OpenPose模型相比，我们提出的轻量级骨架检测模型在计算量（FLOPS）上实现了90%的减少（86G FLOPS vs. 9G FLOPS），CPU处理速度提升了4倍。

微软亚洲研究院首席研究员曾文军博士表示，“微软亚洲研究院长期致力于基础研究，并将成果落地于产品。我们的一系列视觉技术，如物体跟踪、行人重识别等，将陆续在Windows Vision Skills框架和微软认知服务平台上发布。”

人体骨架检测是计算机视觉中一项基础任务，对图像及视频中的人的理解和分析起着重要作用。骨架检测模型可将图片及视频中人的关键点（例如肩膀、手腕、膝盖等）检测和定位出来，如图2所示。由于人体骨架蕴含了人的体征、姿态、运动等众多信息，所以骨架检测模型在娱乐、教育、医疗等领域有着巨大的应用价值。

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

图2：人体骨架检测

人体的骨架检测有以下应用场景：

• 虚拟现实： 在社交和娱乐中，人们有时候希望基于人的骨架加入特效，以产生增强的有趣内容来辅助传递信息。

• 行为识别： 人体骨架蕴含了身体的姿态及动作信息，对人的行为类型的识别提供了重要信息。心理物理学家Gunnar Johansson所做的生物观察工作表明，可以通过观察人体有限关节点的运动来识别人的行为。近些年来，很多工作都在研究如何设计基于骨架的行为识别模型。

• 人机交互： 在机器智能中，感知和理解人的语言乃至身体语言来做出及时的响应是核心问题之一。显式的骨架信息能为身体语言、指令的理解提供便利。

• 运动分析： 在医疗康复及体育运动中，对人的运动进行智能分析可以大大减少人力投入，提升康复和训练效率。例如，在骨关节病评估及康复过程中，可以借助骨架检测来分析病人走路的模式，进而评估关节的灵活度以及病症的严重程度。

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

您可以在下方网站查看微软Windows Vision Skills人体骨骼检测、物体检测、情感识别API的使用示例：

使用示例

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

https://github.com/Microsoft/WindowsVisionSkillsPreview/tree/master/samples

更多信息请参考Windows Vision Skills使用教程以及NuGet.org包：

使用教程

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

https://github.com/Microsoft/WindowsVisionSkillsPreview

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

https://docs.microsoft.com/en-us/windows/ai/windows-vision-skills/tutorial

NuGet包

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

https://www.nuget.org/profiles/VisionSkills

作为高层次的人体语义信息，人体骨架也常作为有效的辅助信息被应用于其他研究任务中。例如，在行人重识别（Person Re-identification）的任务中，人体骨架信息常被用于辅助进行身体部位的检测，以解决不同图片间存在的空间语义不对齐（misalignment）问题。近期，我们会在另一篇文章中详细讲解在CVPR 2019上发表的一篇关于行人重识别的学术论文。在该论文中，为了解决行人重识别中存在的空间不对齐的实际挑战，我们借助于更细粒度的稠密语义（Dense Pose）来帮助网络学习鲁棒的特征。

论文：Densely Semantically Aligned Person Re-identification, CVPR, 2019

Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Zhibo Chen

作者简介

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

兰翠玲，微软亚洲研究院智能多媒体组主管研究员，从事计算机视觉、信号处理方面的研究。研究兴趣包括行为识别、姿态估计、行人重识别、视频分析等，并在多个顶级会议、期刊上发表了30篇论文。

你也许还想看：

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Ruby on Rails敏捷开发最佳实践

李刚 / 电子工业出版社 / 2008-4 / 79.80元

《Ruby on Rails敏捷开发最佳实践》适用于正在使用Ruby On Rails进行应用开发的开发人员、渴望了解Ruby On Rails框架的开发人员，尤其适合有初步的Java EE开发经验，想从Java EE平台过渡到Ruby On Rails开发平台的开发者。 Ruby On Rails框架一经推出，立即引起B/S结构应用开发领域革命性的变化：开发者无需理会架构，只需要按Rail......一起来看看《Ruby on Rails敏捷开发最佳实践》这本书的介绍吧!

码农工具

微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

作者简介

Ruby on Rails敏捷开发最佳实践

Base64 编码/解码

MD5 加密

XML、JSON 在线转换