CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT

栏目: 编程工具 · 发布时间: 6年前

内容简介：LaSOT视觉跟踪是计算机视觉中最重要的问题之一，其应用领域包括视频监控、机器人技术、人机交互等。随着跟踪领域的巨大进步，人们提出了许多算法。在这一过程中，跟踪基准对客观评估起到了至关重要的作用。LaSOT的推出，也是希望为行业提供一个大规模的、专门的、高质量的基准，用于深度跟踪训练和跟踪算法的真实评估。

LaSOT 贡献

视觉跟踪是计算机视觉中最重要的问题之一，其应用领域包括视频监控、机器人技术、人机交互等。随着跟踪领域的巨大进步，人们提出了许多算法。在这一过程中，跟踪基准对客观评估起到了至关重要的作用。LaSOT的推出，也是希望为行业提供一个大规模的、专门的、高质量的基准，用于深度跟踪训练和跟踪算法的真实评估。

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT 图1：常用跟踪数据集统计示意图。包括OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017和LaSOT。圆直径与数据集的总帧数数成比例。所提出的LaSOT比所有其他基准都要大，并且专注于长期跟踪。

观察和比较不同的跟踪算法发现，其进一步发展和评估受到现有评测集的限制，存在的问题主要包括：

规模小。 现有数据集很少有超过400个序列，由于缺乏大规模的跟踪数据集，很难使用跟踪特定视频训练深度跟踪器。
短时跟踪。 理想的跟踪器能够在相对较长的时间内定位目标，目标可能消失并重新进入视图。然而，大多数现有的基准都集中在短期跟踪上，其中平均序列长度小于600帧（即20秒左右），而且目标几乎总是出现在视频帧中。
类别偏见。 一个稳健的跟踪系统应该表现出对目标所属类别的不敏感性，这意味着在训练和评估跟踪算法时都应该抑制类别偏差（或类别不平衡）。然而，现有的基准通常只包含几个类别，视频数量不平衡。

许多数据集被提议处理上述问题，然而，并都没有解决所有的问题。

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT

基于上述动机，我们为社区提供了一个新的大型单目标跟踪（LaSOT）基准， 并提供了多方面的贡献：

LaSOT包含1400个视频，每个序列平均2512帧。每一帧都经过仔细检查和手动标记，并在需要时对结果进行目视检查和纠正。这样，可以生成大约352万个高质量的边界框注释。

此外，LaSOT包含70个类别，每个类别包含20个序列。据了解，LaSOT是迄今为止最大的具有高质量手动密集注释的对象跟踪数据集。

与之前的数据集不同，LaSOT提供了可视化边界框注释和丰富的自然语言规范，这些规范最近被证明对各种视觉任务都是有益的，包括视觉跟踪。这样做的目标是鼓励和促进探索集成视觉和语言功能，以实现强大的跟踪性能。
为了评估现有的跟踪器，并为将来在LaSOT上的比较提供广泛的基准，团队在不同的协议下评估了35个具有代表性的跟踪器，并使用不同的指标分析其性能。

LaSOT 大规模多样化的数据采集

LaSOT数据集的构建遵循大规模、高质量的密集注释、长期跟踪、类别平衡和综合标记五个原则。

LaSOT基准数据采集涵盖了各种不同背景下的各种对象类别，包含70个对象类别。大多数类别是从ImageNet的1000个类别中选择的，但少数例外（如无人机）是为流行的跟踪应用程序精心选择的。以往的数据集通常含有的类别少于30个，并且一般分布不均匀。相比之下，LaSOT为每个类别提供相同数量的序列，以减轻潜在的类别偏差。

在确定了LaSOT中的70个对象类别之后，我们从YouTube中搜索了每个类的视频。最初，我们收集了5000多个视频。考虑到追踪视频的质量和LaSOT的设计原则，我们挑选了1400个视频。但是，由于大量无关内容，这1400个序列不能立即用于跟踪任务。例如，对于个人类别的视频（例如，运动员），它通常在开始时包含每个运动员的一些介绍内容，这不适合跟踪。因此，我们仔细过滤掉每个视频中不相关的内容，并保留一个可用于跟踪的剪辑。此外，LaSOT的每一个分类都包含20个目标，反映了自然场景中的分类平衡和多样性。

最终，我们通过收集1400个序列和352万帧的YouTube视频，在Creative Commons许可下，编译了一个大规模的数据集。LaSOT的平均视频长度为2512帧（即30帧每秒84秒）。最短的视频包含1000帧（即33秒），最长的视频包含11397帧（即378秒）。

LaSOT 提供可视化边界框注释

为了提供一致的边界框注释，团队还定义了一个确定性注释策略。对于具有特定跟踪目标的视频，对于每个帧，如果目标对象出现在帧中，则标注者会手动绘制/编辑其边界框，使其成为最紧的右边界框，以适合目标的任何可见部分；否则，标注者会向帧提供一个“目标不存在”的标签，无论是不可见还是完全遮挡。请注意，如任何其他数据集中所观察到的那样，这种策略不能保证最小化框中的背景区域。然而，该策略确实提供了一个一致的标注，这对于学习物体的运动是相对稳定的。

虽然上述策略在大多数情况下都很有效，但也存在例外情况。有些物体，例如老鼠，可能有细长和高度变形的部分，例如尾巴，这不仅会在物体的外观和形状上产生严重的噪声，而且对目标物体的定位提供很少的信息。我们在LaSOT中仔细识别这些对象和相关的视频，并为它们的注释设计特定的规则（例如，在绘制它们时不包括鼠标的尾部）。

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT 图2：LaSOT示例序列和标注序列的自然语言规范由描述目标的颜色、行为和环境的句子表示。对于LaSOT，我们为所有视频提供1400个描述语句。请注意，语言描述旨在为跟踪提供辅助帮助。例如，如果追踪器生成进一步处理的建议，那么语言规范可以作为全局语义指导，帮助减少它们之间的模糊性。

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT

构建高质量密集跟踪数据集的最大努力显然是手动标记、双重检查和纠错。为了完成这项任务，我们组建了一个注释小组，包括几个在相关领域工作的博士生和大约10名志愿者。

35 个代表性跟踪器的评估

我们没有对如何使用LaSOT进行限制，但我们提出了两种协议来评估跟踪算法，并进行相应的评估。

方案一：在方案一中，我们使用1400个序列来评估跟踪性能。研究人员可以使用除了LaSOT中的序列以外的任何序列来开发跟踪算法。方案一旨在对跟踪器进行大规模评估。

方案二：在方案二中，我们将LaSOT划分为训练和测试子集。根据80/20原则（即帕累托原则），我们从每类20个视频中选出16个进行培训，其余的进行测试。具体来说，训练子集包含1120个视频，2.83m帧，测试子集包含280个序列，690k帧。跟踪程序的评估在测试子集上执行。方案二的目标是同时提供一大套视频用于训练和评估跟踪器。

根据流行的协议（如OTB-2015[53]），我们使用OPE作为量化评估标准，并测量两个协议下不同跟踪算法的精度、标准化精度和成功率。我们评估了LaSOT上的35种算法，以提供广泛客观的基准，Tab. 3按时间顺序总结这些跟踪器及其表示方案和搜索策略。

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT 表3：已评估跟踪程序的摘要。 方案一评估结果

方案一旨在对LaSot的1400个视频进行大规模评估。每个跟踪器都按原样用于评估，没有任何修改。我们使用精度、标准化精度和成功率在OPE中报告评估结果，

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT 图3：利用精度、归一化精度和成功率对一号方案下的算法量化评估。

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT 图4：在协议I下，追踪器在三个最具挑战性的属性上的代表性结果。

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT 图5：六大典型挑战序列上的的定性评价结果。

方案二评估结果

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT 图6：使用精度、标准化精度和成功率对方案II下的跟踪算法评估。

根据方案二，我们将LaSOT分为训练集和测试集。研究人员可以利用训练集中的序列来开发他们的跟踪器，并评估他们在测试集中的表现。为了提供测试集的基线和比较，我们评估了35种跟踪算法。每个跟踪器都被用于评估，没有任何修改或再培训。使用精度、归一化精度和成功率的评价结果如图6所示。

除了对每一种跟踪算法进行评估外，我们还对两种具有代表性的深跟踪算法MDNET[42]和SIAMFC进行了重新培训，并对其进行了评估。评估结果表明，这些跟踪器在没有重训练的情况下具有相似的性能。一个潜在的原因是我们的重新培训可能和原作者使用配置不同。

我们对SiamFC的LaSOT训练集进行了再培训，以证明使用更多的数据如何改进基于深度学习的跟踪器。Tab. 4报告了OTB-2013和OTB-2015的结果，并与在ImageNet视频上培训的原始SIAMFC的性能进行了比较。请注意，我们使用彩色图像进行培训，并应用3个比例的金字塔进行跟踪，即SIAMFC-3S（彩色）。所有培训参数和

表4在LaSOT上对siamfc进行再培训。

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT

跟踪在这两个实验中保持不变。我们在两个评测集上观察到了一致的性能提升，显示了针对深度追踪器的特定大规模训练集的重要性。

LASOT主页： https://cis.temple.edu/lasot/

数据集下载： https://cis.temple.edu/lasot/download.html

算法测评和工具包： https://cis.temple.edu/lasot/results.html

论文： https://arxiv.org/abs/1809.07845

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

修改代码的艺术

Michael Feathers / 刘未鹏 / 人民邮电出版社 / 2007-09-25 / 59.00元

我们都知道，即使是最训练有素的开发团队，也不能保证始终编写出清晰高效的代码。如果不积极地修改、挽救，随着时间流逝，所有软件都会不可避免地渐渐变得复杂、难以理解，最终腐化、变质。因此，理解并修改已经编写好的代码，是每一位程序员每天都要面对的工作，也是开发程序新特性的基础。然而，与开发新代码相比，修改代码更加令人生畏，而且长期以来缺乏文献和资料可供参考。本书是继《重构》和《重构与模式》之后探讨......一起来看看《修改代码的艺术》这本书的介绍吧!

码农工具

CVPR 2019| 亮风台推出全球最大单目标跟踪数据集LaSOT

方案二评估结果

修改代码的艺术

HTML 压缩/解压工具

HTML 编码/解码

HEX CMYK 转换工具