CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

栏目: 编程工具 · 发布时间: 5年前

内容简介:视觉跟踪是计算机视觉中最重要的问题之一,其应用领域包括视频监控、机器人技术、人机交互等。随着跟踪领域的巨大进步,人们提出了许多算法。在这一过程中,跟踪基准对客观评估起到了至关重要的作用。LaSOT的推出,也是希望为行业提供一个大规模的、专门的、高质量的基准,用于深度跟踪训练和跟踪算法的真实评估。观察和比较不同的跟踪算法发现,其进一步发展和评估受到现有评测集的限制,存在的问题主要包括:

LaSOT 贡献

视觉跟踪是计算机视觉中最重要的问题之一,其应用领域包括视频监控、机器人技术、人机交互等。随着跟踪领域的巨大进步,人们提出了许多算法。在这一过程中,跟踪基准对客观评估起到了至关重要的作用。LaSOT的推出,也是希望为行业提供一个大规模的、专门的、高质量的基准,用于深度跟踪训练和跟踪算法的真实评估。

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT 图1:常用跟踪数据集统计示意图。包括OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017和LaSOT。圆直径与数据集的总帧数数成比例。所提出的LaSOT比所有其他基准都要大,并且专注于长期跟踪。

观察和比较不同的跟踪算法发现,其进一步发展和评估受到现有评测集的限制,存在的问题主要包括:

  1. 规模小。现有数据集很少有超过400个序列,由于缺乏大规模的跟踪数据集,很难使用跟踪特定视频训练深度跟踪器。

  2. 短时跟踪。理想的跟踪器能够在相对较长的时间内定位目标,目标可能消失并重新进入视图。然而,大多数现有的基准都集中在短期跟踪上,其中平均序列长度小于600帧(即20秒左右),而且目标几乎总是出现在视频帧中。

  3. 类别偏见。一个稳健的跟踪系统应该表现出对目标所属类别的不敏感性,这意味着在训练和评估跟踪算法时都应该抑制类别偏差(或类别不平衡)。然而,现有的基准通常只包含几个类别,视频数量不平衡。

许多数据集被提议处理上述问题,然而,并都没有解决所有的问题。

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

表1 与其他数据集的比较

基于上述动机,亮风台为社区提供了一个新的大型单目标跟踪(LaSOT)基准,并提供了多方面的贡献:

LaSOT包含1400个视频,每个序列平均2512帧。每一帧都经过仔细检查和手动标记,并在需要时对结果进行目视检查和纠正。这样,可以生成大约352万个高质量的边界框标注。

此外,LaSOT包含70个类别,每个类别包含20个序列。据了解,LaSOT是迄今为止最大的具有高质量手动密集标注的对象跟踪数据集。

与之前的数据集不同,LaSOT提供了可视化边界框标注和丰富的自然语言规范,这些规范最近被证明对各种视觉任务都是有益的,包括视觉跟踪。这样做的目标是鼓励和促进探索集成视觉和语言功能,以实现强大的跟踪性能。

为了评估现有的跟踪器,并为将来在LaSOT上的比较提供广泛的基准,团队在不同的协议下评估了35个具有代表性的跟踪器,并使用不同的指标分析其性能。

LaSOT大规模多样化的数据采集

LaSOT数据集的构建遵循大规模、高质量的密集标注、长期跟踪、类别平衡和综合标记五个原则。

LaSOT基准数据采集涵盖了各种不同背景下的各种对象类别,包含70个对象类别。大多数类别是从ImageNet的1000个类别中选择的,但少数例外(如无人机)是为流行的跟踪应用程序精心选择的。

以往的数据集通常含有的类别少于30个,并且一般分布不均匀。相比之下,LaSOT为每个类别提供相同数量的序列,以减轻潜在的类别偏差。

在确定了LaSOT中的70个对象类别之后,从YouTube中搜索了每个类的视频。最初,收集了5000多个视频。考虑到追踪视频的质量和LaSOT的设计原则,挑选了1400个视频。

但是,由于大量无关内容,这1400个序列不能立即用于跟踪任务。例如,对于个人类别的视频(例如,运动员),它通常在开始时包含每个运动员的一些介绍内容,这不适合跟踪。

因此,仔细过滤掉每个视频中不相关的内容,并保留一个可用于跟踪的剪辑。此外,LaSOT的每一个分类都包含20个目标,反映了自然场景中的分类平衡和多样性。

最终,通过收集1400个序列和352万帧的YouTube视频,在Creative Commons许可下,编译了一个大规模的数据集。LaSOT的平均视频长度为2512帧(即30帧每秒84秒)。最短的视频包含1000帧(即33秒),最长的视频包含11397帧(即378秒)。

LaSOT提供可视化边界框标注

为了提供一致的边界框标注,团队还定义了一个确定性标注策略。对于具有特定跟踪目标的视频,对于每个帧,如果目标对象出现在帧中,则标注者会手动绘制/编辑其边界框,使其成为最紧的右边界框,以适合目标的任何可见部分;否则,标注者会向帧提供一个“目标不存在”的标签,无论是不可见还是完全遮挡。

请注意,如任何其他数据集中所观察到的那样,这种策略不能保证最小化框中的背景区域。然而,该策略确实提供了一个一致的标注,这对于学习物体的运动是相对稳定的。

虽然上述策略在大多数情况下都很有效,但也存在例外情况。有些物体,例如老鼠,可能有细长和高度变形的部分,例如尾巴,这不仅会在物体的外观和形状上产生严重的噪声,而且对目标物体的定位提供很少的信息。

在LaSOT中仔细识别这些对象和相关的视频,并为它们的标注设计特定的规则(例如,在绘制它们时不包括老鼠的尾部)。

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

图2:LaSOT示例序列和标注

序列的自然语言规范由描述目标的颜色、行为和环境的句子表示。对于LaSOT,为所有视频提供1400个描述语句。请注意,语言描述旨在为跟踪提供辅助帮助。例如,如果追踪器生成进一步处理的建议,那么语言规范可以作为全局语义指导,帮助减少它们之间的模糊性。

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

表2 LaSOT 中14种不同属性描述及与其他库的比较

构建高质量密集跟踪数据集的最大努力显然是手动标记、双重检查和纠错。为了完成这项任务,亮风台组建了一个标注小组,包括几个在相关领域工作的博士生和大约10名志愿者。

35个代表性跟踪器的评估

没有对如何使用LaSOT进行限制,提出了两种协议来评估跟踪算法,并进行相应的评估。

方案一:使用1400个序列来评估跟踪性能。研究人员可以使用除了LaSOT中的序列以外的任何序列来开发跟踪算法。方案一旨在对跟踪器进行大规模评估。

方案二:将LaSOT划分为训练和测试子集。根据80/20原则(即帕累托原则),从每类20个视频中选出16个进行训练,其余的进行测试。具体来说,训练子集包含1120个视频,2.83m帧,测试子集包含280个序列,690k帧。跟踪程序的评估在测试子集上执行。方案二的目标是同时提供一大套视频用于训练和评估跟踪器。

根据流行的协议(如OTB-2015[53]),使用OPE作为量化评估标准,并测量两个协议下不同跟踪算法的精度、标准化精度和成功率。评估了LaSOT上的35种算法,以提供广泛客观的基准,Tab. 3按时间顺序总结这些跟踪器及其表示方案和搜索策略。

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

表3:已评估跟踪程序的摘要

方案一评估结果

方案一旨在对LaSot的1400个视频进行大规模评估。每个跟踪器都按原样用于评估,没有任何修改。使用精度、标准化精度和成功率在OPE中报告评估结果,

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

图3:利用精度、归一化精度和成功率对一号方案下的算法量化评估

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

图4:在协议I下,追踪器在三个最具挑战性的属性上的代表性结果

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

图5:六大典型挑战序列上的的定性评价结果

方案二评估结果

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

图6:使用精度、标准化精度和成功率对方案II下的跟踪算法评估

根据方案二,将LaSOT分为训练集和测试集。研究人员可以利用训练集中的序列来开发他们的跟踪器,并评估他们在测试集中的表现。为了提供测试集的基线和比较,评估了35种跟踪算法。每个跟踪器都被用于评估,没有任何修改或再训练。使用精度、归一化精度和成功率的评价结果如图6所示。

除了对每一种跟踪算法进行评估外,还对两种具有代表性的深跟踪算法MDNET[42]和SIAMFC进行了重新训练,并对其进行了评估。评估结果表明,这些跟踪器在没有重训练的情况下具有相似的性能。一个潜在的原因是重新训练可能和原作者使用配置不同。

文中又对SiamFC的LaSOT训练集进行了再训练,以证明使用更多的数据如何改进基于深度学习的跟踪器。Tab. 4报告了OTB-2013和OTB-2015的结果,并与在ImageNet视频上训练的原始SIAMFC的性能进行了比较。请注意,论文中使用彩色图像进行训练,并应用3个比例的金字塔进行跟踪,即SIAMFC-3S(彩色)。所有训练参数和跟踪在这两个实验中保持不变。最后在两个评测集上观察到了一致的性能提升,显示了针对深度追踪器的特定大规模训练集的重要性。

CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT

表4在LaSOT上对SiamFC进行再训练

LASOT主页:

https://cis.temple.edu/lasot/

数据集下载:

https://cis.temple.edu/lasot/download.html

算法测评和 工具 包:

https://cis.temple.edu/lasot/results.html

论文:

https://arxiv.org/abs/1809.07845


以上所述就是小编给大家介绍的《CVPR 2019 | 亮风台发布全球最大单目标跟踪数据集LaSOT》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Code Reading

Code Reading

Diomidis Spinellis / Addison-Wesley Professional / 2003-06-06 / USD 64.99

This book is a unique and essential reference that focuses upon the reading and comprehension of existing software code. While code reading is an important task faced by the vast majority of students,......一起来看看 《Code Reading》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具