Visual Object Tracking for Unmanned Aerial Vehicles:
A Benchmark and New Motion Models
###
###
#####
#####
#####
摘要
尽管最近视觉追踪领域有许多新的进展,但到目前为止大多数研究都聚焦在观测模型上。对于追踪系统的另一个重要的组成部分运动模型尤其是一些极端情况却很少有人涉足。本文,我们用组装在无人机或飞行器上的摄像头来考虑这样一种极端情景。我们建立了一个高度多样化的基准数据集,包含了由无人机摄像头捕捉到的70段视频影像。为了解决摄像头剧烈运动这样一个具有挑战性的问题,我们通过基于背景特征点的几何变换设计了一个简单的基线来将摄像头的运动模型化。最近最先进的追踪器为的广泛对比与这些追踪器在我们的无人机追踪数据集上的运动模型变化同时证实了数据集的必要性和所提出方法的有效性。我们做这个工作的目的是为在无人机追踪领域进一步的研究筑好基础。
引言
- 视觉追踪是与许多现实应用有关的一个基础问题,这些应用包括视频监控,自动驾驶,人机交互以及更多。给出视频帧中目标物体的初始状态(例如位置和尺寸),追踪的目标是自动评估移动物体在后续帧中的状态。虽然视觉追踪已经被研究了几十年了,但由于大量的因素例如部分闭塞,物体快而突然的移动,照明变化,还有视角和姿势的大差异等等而遗留了一个具有挑战性的问题。
- 最近几年我们见证了新型机器人,无人飞行器或无人机的进展。尽管在过去无人机大多被运用在军事应用上,但最近商业无人机革命也见证了越来越多的致力于研发小型、可购买的人性化的无人机的研究室。商业无人机的迅速发展可能会民间应用上有重大的影响,包括运输、通信。同时,在这个平台上一些可预见的应用将需要视觉追踪作为一个可行的核心科技。举几个例子,视觉追踪会对追踪动物、找人和监控实时交通状况等有用。
- 本文,我们在无人机平台上研究视觉追踪。除了一般的研究视觉追踪的共同问题,我们还要面对一个新的挑战即当使用无人机捕捉视频时频繁遇到摄像头突然移动。特别地,一个小的干扰例如摄像头的轻微旋转经常导致目标位置在图像场景中大的移位。同时,当无人机起飞时,它的运动通常会比许多传统的追踪应用有更高的自由度。因此,需要一个更复杂的运动模型。结果就是传统的运动模型对于带有固定的低速摄像机的追踪应用就不再适用了。本文的一个关注点是进行一个基准评估并且提出基线算法来明确估算自主运动。
- 本文的目标有三点:1. 用统计学的详细分析构造一个统一的无人机追踪基准数据集;2. 设计通用的基线算法来估算摄像机运动并将它们整合到不同的追踪系统中;3. 为了在视觉追踪领域开放一个新的研究方向这个目的,进行大量的实验对比并为视觉追踪模型提供基本见解。
Camera Model
- 一款摄像机型描述了3D世界与2D平面图的一个映射。大量关于多视图几何学的摄像机型号已经被仔细地研究过了(Hartley and Zisserman 2003)。最广泛使用的一款是通用针孔摄像机型。Hoiem, Efros, and Hebert 2008 提出了一种简化的摄像机模型,假设所关注到的所有物体都停留在地面上。这个简化的摄像机模型已经被用来追踪地面物体例如汽车和行人((Choi,Pantofaru, and Savarese 2013)。然而,所有的摄像机模型需要摄像机的初始化信息来推断物体的3维定位和校准摄像头。不幸的是,这些信息在许多物体追踪应用中并不容易获得。
- 在这里我们通过在2D图像平面中直接参数化摄像机来采用一种不同方法。我们注意到由于无人机上的摄像头通常离目标很远,我们可能会简单地忽略掉任何目标和背景线索之间深度的不同,并因此假设所捕捉到的框架可以被看成不同的平面目标。然后,从双视图几何的角度来看,这些平面通过射影变换联系在一起,射影变换也被称为二维同形。在数学上,让gt和gt-1分别代表t和t-1帧中静态特征点的齐次坐标。接下来我们就可以通过变化矩阵H来将相机模型参数化了。请注意因为我们介绍相机模型的主要目的是大概地为追踪指导一下搜索区域而不是决定精确的位置,上面的同形近似值在实际中效果不错。因此,我们只需要估算变换矩阵H。由于相机的初始信息不再需要,这个方法在其适用性上更为普遍。
Baseline Method
- 在传统的追踪方法上,只有目标移动被模型化。让zt和zt-1分别代表t和t-1帧中的目标坐标。运动模型就被简单地表示成:
zt=zt-1+Δzt
基于粒子过滤的方法采用高斯分布Δzt 模型,而基于滑动窗的方法基于局部均匀分布的Δzt模型。这个简单的移动模型在一般情况下效果不错。然而,在极端情况下例如无人机追踪,仅仅Δzt模型是不够的。具体来说,假定一个小的Δzt将会丢失下一个帧中的目标,而假定一个大的Δzt将会增加漂移的风险。 - 基于上面的相机假设,我们可以将新的运动模型表示成相机投影和目标运动的结合:
zt=Htzt-1+Δzt
Ht代表相机移动,Δzt是由于目标移动而引起的位置替换。一旦我们对相机移动Ht有了一个合理的评估,那么目标移动替换在局部地区也可以更精确地估算。 - 注意这个基线算法可以更轻易地被纳入到已有地追踪方法中。具体来说,我们首先通过特征点匹配来估算同形图Ht(Fischler and Bolles 1981)。然后,之前的目标位置估算通过Ht投影到当前地图像平面。对于基于滑动窗地追踪器,以转换后的目标坐标为中心地局部区域将会被搜索。对于基于粒子过滤器的追踪器,所有被维护的候选样本将会被转换到当前的图像平面中。除了这些修改,每一个追踪器还是以同样的方式工作。
Conclusion and Future Work
- 本文探讨了在无人机平台上进行视觉追踪的潜力。我们提出了一个统一的无人机追踪基准,它包含了由无人机摄像头捕捉到了一些影像。为了解决摄像头突然移动这个有挑战性的问题,我们通过基于背景特征线索的投影变换设计了简单基线来将相机移动模型化。我们将最先进的追踪器以及它们在无人机追踪基准上的移动模型变化进行了大量的对比。结果表明,通过明确地模型化相机移动,追踪器可以在所提出地移动模型下实现巨大的性能提升。
- 虽然我们提出的基线方法是有效的,但也确实存在一些失败的例子。例如,相机估算是基于传统的低级特征点检测,而低级特征点检测在某些情况下是嘈杂的甚至是错误的。如何设计卷积神经网络在视频数据上来学习更多的相机模型是一个有趣的问题。目前的基线方法中,相机估算是以脱机方式工作的。将相机估算和目标追踪结合在一个连贯的学习框架中希望可以有用。在未来工作中我们将致力于研究这些方面。
重点部分完结,撒花~~~