全息显示、空间锚点以及计算机视觉的未来

栏目: 编程工具 · 发布时间: 6年前

编者按:从世界上第一台计算机到我们今天生活中不可或缺的智能手机,计算机的形态发生了天翻地覆的变化。在未来的某一天,我们能不能将计算机像戴眼镜一样戴在头上?微软混合现实设备HoloLens为我们揭示了一种新的可能。在这篇文章里,Marc Pollefeys教授为我们讲述了HoloLens背后的黑科技与他对未来计算机的愿景。本文编译自微软研究院播客文章“Holograms, spatial anchors and the future of computer vision with Dr. Marc Pollefeys”。

全息显示、空间锚点以及计算机视觉的未来

Marc Pollefeys博士是瑞士苏黎世联邦理工学院的计算机科学教授,也是微软科学总监、微软混合现实与人工智能实验室主任。他是计算机视觉研究领域的杰出引领者,致力于探索计算机视觉的未来与计算机的未来形态,在2012年被评选为IEEE Fellow。

采访音频:

如果你有一台台式计算机,你可以用它搜到前往某地的路线信息,但由于体积庞大,它无法实时定位你的位置。当你拥有了智能手机,你就能方便地将这台小型移动计算机随身携带,并通过自己大致的定位信息,享受到导航、共享出行等服务。

而在下一代的混合现实中,空间定位技术将更加精确。无需携带小型设备,或紧盯计算机屏幕,通过微软HoloLens这样的混合现实设备,你将拥有实时跟随你移动和调整的屏幕,能以自然的方式将数字信息置于真实世界的环境中。AI会帮你选择和呈现你所需要的信息,让你更轻松地进行阅读、处理和操作。未来,HoloLens会更轻便,而佩戴HoloLens将像今天人们戴眼镜那样普通。

虽然实现这一愿景还需要很长时间,但在企业应用场景中, HoloLens已经证明了它的实力。

HoloLens是作为开发套件诞生的,它是一台完整的头戴式电脑,可以协助机器修理工、外科医生等多种职能完成复杂的任务。HoloLens能根据使用者的需要,把尽可能多的虚拟信息放置于使用者周身的真实环境中,并通过对话、手势等自然的方式进行交互,使你用双手在真实世界中操作时,依然能方便地获取所有帮助你完成操作的信息。

除了企业场景,HoloLens还能为计算机视觉、机器人等领域的研究者提供很大的帮助。HoloLens内置的传感器能跟随使用者的视角来观察世界。HoloLens上设有四个跟踪环境的摄像头,其中的深度摄像头包含两种模式,一种用于跟踪使用者的手部动作,另一种模式可以感知更远的距离,用于重建3D环境。因此,研究者可以从这些传感器上收集到丰富的实时数据,进行各种各样的计算机视觉实验,尤其是可以从第一人称视角了解用户的行为方式。

视觉惯性测距Visual Inertial Odometry

HoloLens设计中至关重要的一点,是在人们戴上HoloLens并转动头部、四处走动时,用户透过HoloLens看到的全息图要在特定环境中处于静止状态,这就要求HoloLens能精确追踪自己在环境中的物理移动。我们运用惯性传感器和摄像头来实现这一目标,并通过分析图像数据计算HoloLens在真实世界中的移动位置。

作为人类,我们通过眼睛的视觉感知与内耳的惯性感知来确定自己的空间位移。在HoloLens中,我们也运用了相似的机制——视觉惯性测距(Visual Inertial Odometry),根据视觉的惯性数据定位自身的运动状态。它也被称作同步定位与地图构建(Simultaneous localization and mapping),能在定位相对运动的同时建立起一张环境地图,在此后访问同一环境时,就可以根据地图记录纠正所在位置,并在后续定位中将这些因素纳入考量。这一技术在混合现实、增强现实的移动应用、机器人、自动驾驶等领域有着广泛的应用。

全息处理器HPU

在使用中,HoloLens需要持续跟踪使用者的空间定位和手部动作,第二代HoloLens还能通过眼球跟踪来了解使用者的视线方向、根据使用者虹膜进行身份识别等。这些任务要求HoloLens具有优异的续航能力。

因此微软开发了HoloLens专用的小型协处理器HPU(Holographic Processing Unit),不仅在通用计算方面可与最先进的手机处理器相媲美,更能为这些高耗能的计算机视觉处理任务保证续航。HPU能始终以小于10瓦的低功耗状态,高效地进行大规模计算机视觉和信号处理任务。事实上,HoloLens的整体设计都围绕着降低能耗进行。

HPU的设计倾入了很多努力——既要高效,适合图像处理,又要降低渲染延迟,还要通过硬件加速,更要时时刻刻注意降低能耗。

空间锚点Azure spatial anchors

空间锚点是对现实世界的一种视觉锚定。

假设你通过HoloLens将一张全息图放置于现实世界的一个位置,当你再次来到同一个地点,就可以在原来的位置再次看到全息图。这是因为当你将设备移动到某个特定的位置,系统会根据当前环境生成一张地图。你在环境中放置信息时,就把信息添加到了这个地图上。

空间锚点不仅能让你能提取本地地图,还能与云中的其他用户共享全息图。在一个地点放置全息图后,只要用手机通过ARKit或ARCore查找,你在任何时候都能在原来的地点找到它。

这一技术能应用在许多消费端应用中,比如室内导航,我可以将一个物品放在真实世界中,让你通过导航找到它。再举个例子,假设你要为一家拥有各类机器和传感器的企业做一个“数字孪生”应用,你可以在云中对真实世界中的设备其进行数字化的表示。这样,只要打开HoloLens,你就可以在真实世界的机器上看到与它们相关的所有信息。根据你和本地机器的定位,空间锚点技术将为你还原这些信息,并允许你对信息进行删除和移动。

Microsoft Kinect

Kinect最初作为游戏设备引入Xbox,并获得了巨大的成功。同时,Kinect也宣布开放,让人们能够访问Kinect生成的3D感应数据。

这在机器人和计算机视觉领域引发了巨大的变革,人们能使用标准化、功能强大且价格低廉的3D摄像头来进行研究。世界各地的计算机视觉和机器人实验室都开始使用Kinect,并基于Kinect开发了许多有趣的技术,许多技术又回到微软,使我们的开发工作受益。我们很高兴看到Kinect在研究领域所发挥的作用。这也是我们在HoloLens上提供研究模式的初衷之一,在为研究界提供一台视觉研究利器的同时,我们也能从意想不到的科研成果中学习和受益。

专为第二代HoloLens 打造的传感器是一款性能极其优异的传感器,它能以每秒3帧的速度,在低于1瓦的功耗下完成100万次百万像素级的独立深度测量。我们将这款传感器置于第三代Kinect中,以面向智能云的使用场景。配合彩色摄像头与最先进的麦克风阵列,这款传感器让Kinect以更高的质量呈现在大众面前。

传感器时代的数据隐私

无论是HoloLens,自动驾驶、辅助驾驶,还是家用机器人,我们的未来生活将被置入越来越多的传感器。我非常关注它们对人类隐私的影响。

在构建帮助我们解决问题的系统时,获取个人信息是不可或缺的,设备必须知道你身处何处,才能为你提供全息图和其他相关信息,同时它不能暴露这些信息。目前我们正在积极研究的相关技术。比如在第一代HoloLens中,我们让连续运行的传感器数量恰好足以维持HoloLens的运转,而且所有数据都只允许操作系统访问,不允许应用程序访问;它们被隔离在HPU中,而不是暴露于运行应用程序的通用处理器上,这是一种通过硬件设计来保护隐私的方式。

为了兼顾功能和隐私,我们必须开展更多的相关研究,为人类营造一个值得信赖的未来。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

JavaScript Patterns

JavaScript Patterns

Stoyan Stefanov / O'Reilly Media, Inc. / 2010-09-21 / USD 29.99

What's the best approach for developing an application with JavaScript? This book helps you answer that question with numerous JavaScript coding patterns and best practices. If you're an experienced d......一起来看看 《JavaScript Patterns》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码