CVPR 2019 程序主席发文泼冷水：计算机视觉的黄金时代靠的都是记忆

栏目: 编程工具 · 发布时间: 5年前

内容简介：雷锋网 AI 科技评论按，随着计算机视觉技术日趋火热，作为该领域的顶级学术会议，CVPR 参与人数逐年猛增。上周在美国长滩举办的 CVPR 2019 热度还未散去，6 月 26 日，会议的程序主席 Derek Hoiem 发表了一篇博文。在博文中，Derek Hoiem 表示，现在是计算机视觉技术的黄金时代，同时他也表示，目前的计算机视觉技术只是记忆，而不是智力。雷锋网 AI 科技评论将他的文章编译如下。对于计算机视觉研究者来说，这是一个激动人心但难以抗拒的时代。上周二，我有幸在 CVPR 2019 大会

雷锋网 AI 科技评论按，随着计算机视觉技术日趋火热，作为该领域的顶级学术会议，CVPR 参与人数逐年猛增。上周在美国长滩举办的 CVPR 2019 热度还未散去，6 月 26 日，会议的程序主席 Derek Hoiem 发表了一篇博文。在博文中，Derek Hoiem 表示，现在是计算机视觉技术的黄金时代，同时他也表示，目前的计算机视觉技术只是记忆，而不是智力。雷锋网 AI 科技评论将他的文章编译如下。

对于计算机视觉研究者来说，这是一个激动人心但难以抗拒的时代。上周二，我有幸在 CVPR 2019 大会上向 9277 名与会者发表开幕词。作为四个程序主席之一，我的工作是管理论文决策过程，这其中包括协调 132 个区域主席、2887 名审稿人和提交 5160 篇论文的 14104 名作者，以及规划 1296 张海报的展示和 288 次演讲。这是有史以来最大的计算机视觉会议，但在短短四个月内又将会有一次会议——ICCV 2019。如此多的事情正在发生——谁能跟上？

CVPR 2019 程序主席发文泼冷水：计算机视觉的黄金时代靠的都是记忆

CVPR 每年提交（蓝色）和接收（绿色）论文数量

计算机视觉不再只是一种学术追求。数十亿美元被用于从智能摄像头到自动驾驶的计算机视觉应用程序中。大多数教授把至少一半的时间花在工业界的研究上，即使是初出茅庐的博士生，也能拿到六位数的丰厚薪水。但这是否是一场泡沫？我们如何将成熟的商业化突破与大肆宣传的概念证明区分开来？

首先，让我们简单回顾一下我们是如何做到这一点的：

1963 年：Robert 的经典「Blocks World」论文使用精心设计的特征和规则，从图像构建三维对象。
1981 年：Lucas 和 Kanade 在仅仅长达六页纸的论文中提出了有效的运动跟踪和立体视觉算法。随之而来的是几何视觉和图像处理的进步。
1996 年：Rowley、Baluja 和 Kanade 描述了第一个现代物体检测，即一个训练用来检测人脸的神经网络。数字图像激增，数据取代了规则。
2012 年：数以百万计的标记图像和 GPU 处理为 Krizevsky、Sutskever 和 Hinton 提供了证明深度学习强大力量的基础，相比原来的方法，深度学习方法的错误率降低了一半。数据取代了手工标记特征。
2019 年：面部识别、身体追踪和常见物体的检测就像魔术一样神奇。单张图像的深度预测看起来很棒。但只有门外汉试图解决标签图像少于 100000 张的问题。数据标注产业应运而生。

所以， 这就是计算机视觉成功的秘密： 它是记忆，而不是智力 。让我们以单视图深度预测为例。2005 年，我苦苦钻研这个问题，首次提出了从室外图像自动创建 3D 模型的方法。它的关键是学习「识别」几何图形，将像素标记为地面、垂直物体和支撑物，并使用透视几何规则构建场景几何的简单模型。这花费了大约 30% 的时间。

早期的单视图 3D 重建方法：一点数据、手工设计的特征和一些数学

单视图构建 3D 模型是现在的一个热门话题，仅在 CVPR 2019 上就有 35 篇论文。有一些方法可以从全景图生成场景布局，从图像生成对象网格，从一个视图生成深度图。然而，正如我们小组和 UCI 在 2018 年指出的，以及 Freiburg 和 Intel 的研究人员在 CVPR 2019 所指出的那样，许多似乎解释了几何学的方法实际上只是在学习和检索与输入类似例子的记忆以做出预测。预测出来的的 3D 模型可能看起来不错，但这些方法并不能推广到新的形状或场景中。

因此，让我们考虑两个非常有意思的问题：

图像深度。如果你能在现场拍摄一张照片，并将其发送到办公室进行 3D 测量和质量控制，这难道不是一件很棒的事情吗？再见，昂贵的激光扫描仪和笨重的摄影测量仪！好了，梦做完了，现在睁开眼睛。Matterport 最近公布了 360 全景的深度预测，这是一个令人印象深刻的数据收集和机器学习壮举。它的相对深度很好，边缘也在正确的位置。Ricoh Theta 需要以已知的高度固定在三脚架上，这消除了由于未知的相机参数和姿势而产生的一些变化。但是它在精度上仍然达不到可用的标准，它使用的编解码器模式也只是一种记忆形式，因此，各种各样不同的重建场景中的深度预测可能在接下来很长一段时间内都会容易出错。我所在的 Reconstruct 公司最近推出了基于 360 度全景视频的三维重建，由于它使用的是老式的相关性和优化方法，它工作起来非常可靠。目前，我觉得这种 3D 重建最好只用在无人机、视频捕捉和扫描仪等。不过，即便我这么说了，我还是对单视图识别的深度方法与多视图方法相结合来产生精确几何的潜力感到非常兴奋。”
自动化进度监控。在重建时，我们将点云和图像与 BIM 对齐，因此可以很容易地自动比较构建计划和评估进度。我们有一些基本方法的专利和论文，但它们并不像看上去那么简单，而且，它们还没有准备好迎接这个黄金时代。最大的挑战是各种各样的建筑元素和任务、不完整的观察结果、评估几何和材料特性（例如，板岩与喷漆墙）、获取标记数据的挑战。有些人声称有自动进度监控，但由于缺乏数据和专业知识，我认为这些说法不可信，无法广泛应用。但是，有了正确的数据以及最近在语义分割方面取得的进展，这可能在未来一两年内实现，至少对于已经完成的粗略测量工作来说是如此。

总而言之，如果有人声称刚解决了一个很难的识别或预测的问题，那么问问你自己：他们是否有足够的数据，就像我关心的类型一样，他们的方法能够记住所有的答案？这就要求：

他们是否用了足够多的数据，以至于他们的方法只需要记住所有的答案就够了；
他们在标注上花费了数百万美元，或者有一种自动化的方式来获得监督（例如，Matterport 深度扫描仪）；
预测问题足够简单，并且你的领域也足够有限，以至于可能会被他们的数据和实验室所覆盖。数十亿美元的图像标注产业的存在是有原因的，到目前为止，还没有什么东西能代替数据。

via： https://medium.com/reconstruct-inc/the-golden-age-of-computer-vision-338da3e471d1

雷锋网 (公众号：雷锋网)

雷锋网版权文章，未经授权禁止转载。详情见转载须知。