神经形态视觉多车检测与跟踪

原创于 2025-10-15 09:40:51 发布 · 828 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#神经形态视觉 #多车辆跟踪 #智能交通 #事件传感器 #聚类检测

面向智能交通系统的神经形态视觉多车辆检测与跟踪

陈广,1,2曹虎,3穆罕默德·阿法克,2陈杰能,4叶灿波,1弗洛里安·勒尔贝因,2约尔格·康拉特, 5陈凯,1邴振山,2刘星博,1 GereonHinz,2沃尔特·施特歇尔,6和阿洛伊斯·克诺尔2
1中国同济大学汽车工程学院2机器人学与嵌入式系统，德国慕尼黑工业大学¨atM¨unchen, Germany 3中国湖南大学汽车车身先进设计制造国家重点实验室4中国同济大学电子与信息工程学院5瑞典皇家理工学院计算科学与技术系6集成系统，德国慕尼黑工业大学¨atM¨unchen, Germany
通讯作者：陈广；guang@in.tum.de
R收稿日期2018年8月10日；修订日期2018年10月1日；接受日期2018年11月6日；出版日期201 8
学术编辑：克日什托夫·奥卡拉马版权所有©2018Gua ngChen等。本文是一篇开放获取文章，遵循知识共享署名许可协议发布 , 允许无限制在任何媒介中使用、分发和复制，前提是必须正确引用原作品。

神经形态视觉传感器是一种新型的被动感知模态，是一种无帧传感器，相较于传统相机具有多项优势。神经形态视觉传感器不会以固定帧率浪费性地传输整幅图像，而仅在场景中的运动发生时传输由其引起的局部像素级变化at the ti me they occur。这带来了诸多优势特性，包括低功耗、高动态范围、稀疏事件流和低响应延迟，这些特性对于需要高效无线数据通信和低功耗嵌入式计算资源的现代智能交通系统（ITS）中的智能感知系统非常有用。本文提出了首个基于神经形态视觉的多车辆检测与跟踪系统应用于智能交通系统（ITS）。我们使用安装在高速公路桥上的神经形态视觉传感器所记录的数据集对系统的性能进行了评估。我们开展了初步的多车辆基于聚类的跟踪研究，采用了三种经典聚类方法和四种跟踪方法。实验结果表明，通过充分利用低延迟和稀疏事件流，我们可以轻松集成一个以高帧率运行的在线聚类跟踪系统，其性能远超传统基于帧的相机的实时能力。如果优先考虑准确率，采用不同算法组合也可在相对较高的速率下稳健地完成跟踪任务。我们还提供了我们的数据集和评估方法，作为智能交通系统（ITS）中的首个神经形态基准，有望推动针对智能交通系统（ITS）应用的神经形态视觉传感器的进一步研究。

1. 引言

受生物视觉启发的神经形态视觉传感器采用事件驱动的无帧方法来捕捉视觉场景中的瞬态变化。与传统相机不同，神经形态视觉传感器仅在场景中的运动发生时传输由该运动引起的局部像素级变化（称为“事件”），并提供信息丰富的事件流，延迟在几十微秒以内。具体而言，单个事件是一个元组(t, x, y, p)，其中x、y为事件在二维空间中的像素坐标，t是事件的时间戳， p 是事件的极性，表示亮度变化的符号（增加或减少）。此外，由于事件流具有稀疏性，对数据存储和计算资源的需求显著降低。除了低延迟和高存储效率外，神经形态视觉传感器还具有120dB的动态范围。综上所述，神经形态视觉传感器的这些特性为智能交通系统的全新设计提供了灵感。在接下来的部分中

《Hindawi先进交通杂志》2018年卷，文章编号4815383，13页 https://doi.org/10.1155/2018/4815383
本文档由funstory.ai的开源PDF翻译库BabelDOCv0.5.10(http://yadt.io)翻译，本仓库正在积极的建设当中，欢迎star和关注。

2 高级运输杂志
为了更清楚地阐明神经形态传感器的机制，图1展示了标准帧式相机与神经形态视觉传感器之间的对比。
传统上，基于帧的视觉传感器作为智能交通系统（ITS）中视觉感知任务的主要信息来源，这导致了一些众所周知的挑战，例如实时性能有限和计算成本巨大。
关键问题在于，传统相机以固定频率对其环境进行采样并生成一系列帧，这些帧实际上包含大量冗余信息，同时丢失了两个相邻帧之间的所有信息。因此，传统视觉传感器一方面浪费了内存访问、能量、计算能力和时间，另一方面也丢弃了连续帧之间的大量重要信息。这些特性使其在应用上受到极大限制。对于配备传统相机的智能交通系统而言，基于学习方法的外观特征提取是环境感知任务的主要策略，但该方法被公认为计算需求较高 [3]。此外，为了获得良好的检测与跟踪性能，训练和学习过程离不开大量标注数据以及专用且昂贵的硬件（如图形处理器（GPU））。

本文提出了一种基于神经形态视觉传感器的智能交通系统（ITS）跟踪系统的新方法。我们还将发布数据集和评估方法，旨在提供首个面向智能交通系统的神经形态基准，并推动神经形态视觉传感器在智能交通系统解决方案中的进一步研究。为了充分展示该方法的可行性和潜力，本文提出并比较了不同的检测与跟踪算法。
在检测阶段，我们采用并评估了三种经典的聚类方法：均值漂移聚类（MeanShift）[4],、基于密度的带噪声应用空间聚类（DBSCAN）[5],和WaveCluster[6]。
在跟踪阶段，我们通过四种不同的算法实现在线多目标跟踪：简单在线实时跟踪（SORT）[7],、高斯混合概率假设密度滤波器（GM‐PHD）[8],、基数化概率假设密度滤波器（GM‐CPHD）[9],以及概率数据关联滤波器（PDAF）[10]。
综合而言，我们提出了首个基于神经形态视觉的多车辆检测与跟踪系统应用于智能交通系统，并结合了上述神经形态视觉传感器的独特特性。该系统的性能通过安装在高速公路桥上的神经形态视觉传感器所采集的数据集进行评估。根据实验结果，基于聚类的跟踪系统运行速率可超过110赫兹，远高于传统基于帧的相机的实时性能。在优先保证准确率的前提下，通过采用不同的算法组合，跟踪任务也能更加鲁棒和精确地完成。本工作扩展自发表于德国/奥地利人工智能联合会议的一篇会议论文， 2017[11]。我们从四个方面对其进行了扩展：首先，扩展了测试数据序列用于实验部分的3个序列。其次，我们评估了3种基于聚类的检测方法，而不是[11]中的2种。第三，我们扩展为评估 4种跟踪方法，而不是[11]中的1种。最后，基于这些差异，我们从不同角度分析结果并得出新的结论[11]。

本文的其余部分组织如下。在第2节中，我们列出了以往多车辆检测与跟踪方法的相关工作。在第3节中，我们介绍了神经形态视觉传感器及其数据集。用于检测与跟踪的算法分别在第4节中进行说明。实验结果在第 5节中进行了分析和讨论。在第6节中，我们得出结论并指出了可能的后续工作方向。

2. 相关工作

在过去十年中，为交通监控、交通控制和道路交通信息系统进行交通场景中的多车辆检测与跟踪，已成为智能交通系统的一个新兴研究领域[12–15]。大多数现有的车辆跟踪系统基于视频摄像机[16]。以往基于视觉的多车辆检测与跟踪方法可分为四类：帧间差分与基于运动的方法[17–19],、背景减除方法[15, 20],以及基于特征的方法[21, 22]。同时，近年来出现了一些用于车辆检测与跟踪的基于相机的数据集[23–25],，推动了智能交通系统的研究。
所有先前的多车辆检测与跟踪方法均依赖于传统基于帧的相机所获取的图像。传统相机可能会受到多种与运动相关的问题（如运动模糊、卷帘快门等）影响，从而对高速车辆的检测与跟踪性能造成不利影响。神经形态视觉传感器已广泛应用于机器人学[26–29]和车辆 [30–32]领域。近年来，已发布了一些相关的神经形态视觉数据集[33, 34]，推动了神经形态视觉在目标检测与跟踪中的应用。近年来也涌现出利用神经形态视觉传感器进行检测与跟踪的各种应用，例如特征跟踪 [35, 36],、线条跟踪[37],和微粒跟踪[38]。
然而，尽管神经形态视觉传感器在高速运动记录方面具有天然优势，能够相应地促进智能交通系统中的高速多车辆检测与跟踪，但目前在智能交通系统中仍缺乏神经形态数据集以及相关的神经形态视觉传感器应用。因此，将神经形态视觉技术应用于智能交通系统具有重要意义。

3. 神经形态视觉传感器和数据集

3.1. 神经形态视觉传感器

本节简要描述了不同版本的神经形态视觉传感器，如[11]中所述。目的是鼓励不熟悉神经形态视觉传感器的研究人员探索其潜在应用
高级运输杂志 3
神经形态视觉传感器
基于帧的相机
输出
输出
一个旋转的圆盘
带有一个黑点
帧
事件(t,x,y,p)
示意图0

在智能系统中。图2展示了不同版本的神经形态视觉传感器。
动态视觉传感器(DVS)。动态视觉传感器(DVS)是新一代的相机，对光强变化敏感，更具体地说，是对光强对数变化敏感。当一个边缘经过DVS像素时，该像素通常会产生一到四个事件（脉冲）。DVS的输出由时间上连续的事件（脉冲）流组成，每个事件具有亚微秒级时间分辨率，用于表示所观测到的运动现实的变化过程，而无需等待组装或扫描人为的时间约束帧（图像）。
嵌入式动态视觉传感器(eDVS)。对于无人机等移动机器人中的嵌入式系统，通过USB接口传输原始事件是不可取的，使用台式计算机进行事件处理也是不可接受的。为此，开发了一种小型嵌入式DVS(eDVS)，它由一个DVS芯片和一个直接连接到DVS芯片的紧凑型64MHz32位微控制器组成。
微型嵌入式动态视觉传感器（meDVS）。eDVS的微型版本（meDVS）是目前体积最小（18cm×18cm）、重量最轻（2.2克）的动态视觉传感器，典型功耗为300 毫瓦。meDVS的优势使其非常适合在智能系统的嵌入式设备上应用于存储、带宽受限以及低延迟的场景。
动态有源像素视觉传感器(DAVIS)。本文使用了一种名为动态有源像素视觉传感器（DAVIS）[39]的新型神经形态视觉传感器。DAVIS240型号相机具有240×180的更高分辨率、更高的动态范围、更低的功耗，并允许同时读取全局快门图像帧，这些图像帧是使用与 DVS事件生成相同的光电二极管捕获的。在本研究中，我们仅使用事件数据。

3.2. 数据集与基准

我们提供了一个标注数据集，用于评估智能交通系统领域的在线多车辆检测与跟踪系统。原始事件数据由安装在高速公路场景桥梁上的神经形态视觉传感器采集。本文使用的神经形态视觉传感器称为动态有源像素传感器（DAVIS），型号为DAVIS240C。本研究中标注了三个事件序列。第一个事件序列（命名为 EventSeq‐Vehicle1）长度为45.4s，具有110.7MeVents，平均包含2, 438Keps （千事件每秒）。第二个事件序列（命名为EventSeq‐Vehicle2）长度为32.4s，具有79. 4MeVents，平均包含2, 450Keps。第三个事件序列（命名为EventSeq‐Vehicle3）长度为21.8s，具有53.4MeVents，平均包含2, 450Keps。车辆在多个车道中朝向和远离摄像头双向行驶。数据集中的车辆类型从小型汽车到拖车和卡车均有涵盖，使得该数据集具有多样性和挑战性。
我们使用公开的视频标注工具ViTBAT[40]，对三个事件序列中所有车辆的位置和唯一身份进行了手动标注。为了进行标注，视频是从二进制事件数据文件生成的。我们将事件数据在三个不同时间间隔（ 10ms、 20ms和 30ms）内累积为视频帧。我们数据集的描述和数据格式可参见表1。

4. 在线多目标检测与跟踪

本节介绍我们的基于聚类的多目标跟踪系统。与传统目标检测相比
4 高级运输杂志
示意图1 动态视觉传感器128(DVS128)。(b)嵌入式动态视觉传感器(eDVS)。(c)微型嵌入式动态视觉传感器(meDVS)。(d)动态有源像素视觉传感器(DAVIS)。该图摘自[11])

与现有方法不同，我们直接利用测量数据通过经典的聚类方法生成目标假设。其优势在于可以跳过背景建模步骤（即动态前景分割），因为动态视觉传感器传输的大部分事件均由动态物体产生。为了估计实际目标的状态，我们在系统中集成了一种在线多目标跟踪方法。我们认为，只有高效且支持在线处理的跟踪方法才能充分发挥神经形态视觉相机的优势。

4.1. 基于聚类的车辆检测

由于神经形态传感器仅传输每个像素的相对光强变化，因此依赖外观特征（如颜色和纹理）作为输入的方法无法被使用。相反，聚类方法非常适用于这种情况。因此，本文在本节中介绍了三种不同的聚类算法，这些算法不依赖于簇的数量和形状的先验知识。此外，只能从神经形态视觉传感器获得以稀疏流形式存在的异步时间戳事件的动态信息。为了得到有意义的解释并充分利用神经形态视觉传感器的优势，在应用聚类算法之前有必要对事件流进行累积。我们对不同时间间隔（10毫秒、20毫秒和30毫秒）的事件数据进行累积，使其同步且信息更丰富，之后进行三种经典聚类方法，MeanShift[4],DBSCAN[5]和 WaveCluster[6],被实施并进行比较。以下小节简要说明这些聚类方法。

Detection by MeanShift[11]

Fukunaga和Hostetler在 [41]中提出了通过MeanShift进行密度函数梯度估计以及迭代模式搜索的方法。由于具备数据压缩和降维的特性，MeanShift算法已被应用于底层计算机视觉任务中，包括图像分割、颜色空间分析、人脸跟踪等[4]。具体而言，MeanShift算法将输入视为概率密度函数，其目标是寻找该函数的模态，这些模态代表所发现簇的中心。输入点被送入核密度估计，然后对密度估计应用梯度上升法。密度估计核使用两个输入：点的总数和带宽（即窗口大小）。MeanShift算法的主要缺点在于其迭代特性以及难以滤除噪声。

通过DBSCAN[11]进行检测

DBSCAN使用基于密度的空间聚类来处理含噪声的应用。对于每个点p，通过计算在指定半径Eps（从该点出发的邻域最大半径）范围内的搜索区域中的点的数量，来计算其关联的密度，高级运输杂志 5 点。密度高于指定阈值MinPts（形成密集区域所需的最小点数）的点被分类为核心点，其余的则被分类为非核心点。如果 p是一个核心点，则生成一个簇；否则，如果 p是一个边界点，则没有点从 p密度可达， DBSCAN将从数据库[5]中取下一个点。DBSCAN的主要优点是它能够发现任意形状的簇。

Detection by WaveCluster

WaveCluster的基本思想是首先对图像的特征空间进行量化，然后对其应用离散小波变换，之后可以在变换后的特征空间[6]的子带中找到连通分量（簇）。为了获得最佳聚类效果，应根据原始数据选择合适的量化尺度以及组件连接算法。在本文背景下，累积事件数据可被视为二维数据。通过在每个维度上选择间隔 m，现在可以将事件数据划分为 m2个网格，每个网格 i包含 Ni个数据点。考虑到小波变换的多分辨率特性，可以在变换的不同尺度上采用不同的网格大小。在WaveCluster算法的第二步中，将对量化后的特征空间[6]应用离散小波变换，随后获得一个新的特征空间Tk。我们还可以通过选定的阈值在Tk中滤除噪声。基于新的单元集合T k，可以在变换后的特征空间中检测出连通分量作为簇。该算法的详细信息可参考 [6]。

4.2. 在线多目标跟踪

为了充分利用事件数据的优势，我们选择了四种经典的跟踪算法，这些算法计算量相对较小且效率高。我们的在线多目标跟踪是一种简单而标准的方法，在传统基于相机的多目标跟踪中被广泛研究 [42]。由于事件数据缺乏纹理信息，我们采用边界框重叠作为数据关联问题的简单关联度量。所有这些跟踪算法将在以下章节中简要描述。

Tracking by SORT[11]

我们采用单假设跟踪方法，结合标准卡尔曼滤波器和基于匈牙利方法的数据关联[7]。为了将检测到的聚类分配给现有目标，通过预测每个目标在当前帧中的新状态来估计其几何形状和图像坐标。每个检测到的聚类与每个现有目标之间的代价矩阵计算为交并比距离（IoU）。使用匈牙利算法最优地求解分配问题。我们还定义了最小IoU，以拒绝那些检测到的聚类与目标聚类重叠小于阈值的分配。当新的聚类进入相机视场或现有目标离开相机视场时，目标身份会相应更新，即添加新ID或进行删除。本工作采用了与[7]中所述相同的跟踪方法。而不是在全球分配中求解检测以实现跟踪为解决此问题，我们采用了一种早期删除丢失目标的策略，以防止跟踪器数量无限制增长。

基于GM-PHD的跟踪

GM‐PHD滤波器是一种递归算法，能够在存在数据关联不确定性、噪声、虚警和检测不确定性的情况下，从观测集合中联合估计时变目标数量及其状态。该算法将目标集合和测量数据分别建模为随机有限集，并递归应用概率假设密度（PHD）进行后验强度传播，后验强度本质上是随机有限集在时间上的统计一阶矩。在满足线性和高斯假设的前提下，目标动力学、出生过程以及任意时刻的后验强度均被视为高斯混合。通过管理高斯成分的数量实现递归，提高了算法效率。在跟踪领域，强度也被称为概率假设密度[8]。关于该算法及其递归线性高斯版本的更多数学细节可参考[8]。如前一节所述，本文选择线性模型作为目标的出生模型，该设定同样适用于本研究及后续的跟踪方法。

基于GM-CPHD的跟踪

在概率假设密度（PHD）滤波器中，目标随机有限集的后验强度被递归地传播。在基数化PHD（CPHD）滤波器中，后验强度和后验基数分布被联合传播，从而使其成为PHD递归的推广。通过引入基数信息[9]，提高了准确率和稳定性。本工作主要是在线性高斯目标动力学和出生模型假设下，实现 CPHD递归的闭式解。该算法还可以通过线性化和无迹变换技术扩展到非线性模型。与标准PHD滤波器相比， CPHD滤波器不仅避免了传统跟踪方法中的数据关联任务，还提高了单个目标状态估计的准确率以及目标数量估计方差的准确性[9]。

基于PDAF的跟踪

概率数据关联滤波器（PDAF）为每个有效量测计算被跟踪目标的关联概率。这种量测源不确定性通过该概率性或贝叶斯信息得以考虑。由于假设目标生成动态和量测方程的线性模型，因此所开发的 PDAF算法基于卡尔曼滤波器。PDAF在当前时刻的有效量测上运行，并针对每个量测计算关联概率，以确定该量测在组合新息中的权重。此组合新息有助于更新状态估计。最后，更新状态协方差以计算量测源不确定性 [10]。关于PDAF算法及其扩展的详细数学原理可参见 [10]。

6 高级运输杂志
表2：车辆检测的评估指标，TP为真正例总数，FP为假正例总数，GT表示真实值。
| 指标 | 越好 | 完美 | 描述 |
| — | — | — | — |
| 精确率 | 更高 | 100% | TP/(TP+FP)的比率 |
| 召回率 | 更高 | 100% | 正确检测数与总数的比率真实框数量 |
6 高级运输杂志
表2：车辆检测的评估指标，TP为真正例总数，FP为假正例总数，GT表示真实值。
| 指标 | 越好 | 完美 | 描述 |
| — | — | — | — |
| 精确率 | 更高 | 100% | TP / (TP+FP) 的比率 |
| 召回率 | 更高 | 100% | 正确检测数与总数的比率真实框数量 |

5. 实验与结果

我们在数据集上评估了多种基于聚类的跟踪实现方法的性能。评估结果依据标准MOT挑战指标[43]提供。我们分析了三种经典聚类算法以及四种用于多车辆基于聚类跟踪任务的跟踪算法的性能和运行时间，其中流输入在不同的时间间隔（10毫秒、20毫秒和30毫秒时间间隔）进行累积。

5.1. 指标

为了进行性能评估，我们遵循当前用于视觉目标检测和多目标跟踪的评估协议。尽管这些协议是为基于帧的视觉传感器设计的，但它们仍然适用于对我们跟踪方法的定量评估。在本工作中，我们将事件按不同时间间隔累积成帧。本文采用了两种评估指标（见表 2），其定义见[44]。
由于我们从聚类方法得到的检测结果没有概率分数，因此无法提供平均精确率来总结精确率/召回率（ ROC）曲线的形状，而该指标在计算机视觉中的目标检测评估中被广泛采用。本文所使用的多车辆跟踪评估指标定义在[43],，即著名的MOT挑战指标。评估脚本可在MOT挑战官方网站（ https://motchallenge.net）获取。更多细节如下：
(i) MOTA(↑)：多目标跟踪准确率。该指标结合了三种误差来源：假正例、漏检目标和身份切换。
(ii) MOTP(↑)：多目标跟踪精确度。表示标注的边界框与预测的边界框之间的错位程度。
(iii) MT(↑)：大部分被跟踪的目标。指在各自生命周期中至少80%的部分被跟踪假设覆盖的真实轨迹的比例。
(iv) PT(↑)：部分被跟踪的轨迹数量。
(v) ML(↓)：大部分丢失的目标。指在各自生命周期中至多20%的部分被跟踪假设覆盖的真实轨迹的比例。
(vi) FP(↓)：误报总数。
(vii) FN(↓)：漏报总数（漏检目标）。
(viii) IDs(↓)： ID切换次数。
(ix) FM(↓)：轨迹断裂的总次数（即跟踪过程中中断的次数）。

5.2. 性能评估

在本节中，我们报告了所选方法在多车辆检测与跟踪方面的性能和运行时间。首先，我们比较了三种聚类方法（DBSCAN、MeanShift和 WaveCluster）的检测性能。然后研究了不同采样时间间隔对检测结果的影响。最后，评估了不同跟踪方法的跟踪性能和运行时间。

5.2.1. 在线多车辆检测

在本研究中，事件数据被视为纯二维点数据。采用聚类技术生成目标候选。不同时间间隔（10毫秒、20毫秒和30毫秒）的事件数据被累积，如图3所示。显然，事件数据的簇反映了移动车辆。每个簇周围的噪声事件主要由环境变化和传感器噪声产生。
因此，在生成目标假设之前，执行背景活动滤波步骤以滤除事件中的噪声。对于每个事件，活动滤波器检查其 8个（垂直和水平）邻近像素之一是否在过去“us Time”微秒内发生过事件。如果没有，则将该事件视为噪声并予以剔除。换句话说，一个新事件被视为“信号”还是“噪声”，取决于在设定的时间间隔（us Time）内是否有邻近事件产生。图4显示了应用活动滤波器前后累积事件帧的情况。
示意图2 在10毫秒时间间隔内累积的事件。(b)在20毫秒时间间隔内累积的事件。(c)在30毫秒时间间隔内累积的事件)
示意图3 滤波前在20毫秒时间间隔内累积的事件。(b)滤波后在20毫秒时间间隔内累积的事件。该图摘自[11])

图5(a)显示了DBSCAN聚类结果。对于DBSCAN，搜索半径Eps被设置为5，密度阈值MinPts被设置为10。密度高于指定阈值MinPts的点被分类为核心点，其余的则被分类为非核心点。这些非核心点也被归类为噪声点。共检测到七个簇，包括噪声事件。图5(b)显示了 MeanShift聚类结果，所选带宽为20。MeanShift算法成功检测到了六个簇。从图5(c)可以看出， WaveCluster检测到了许多簇。MeanShift将大量噪声和物体划分到同一个簇中，而WaveCluster将大量噪声视为单个簇。它们的共同缺点是无法很好地分辨物体（此处为汽车）与噪声。
检测性能通过聚类方法以召回率和精确率指标进行评估。DBSCAN、MeanShift和WaveCluster在不同时间间隔下的神经形态数据上的评估结果如表3所示。
我们可以看到，聚类算法性能从10毫秒时间间隔到20毫秒时间间隔显著提升，这表明本文所采用的基于聚类的检测方法在每个时间间隔内事件越多时表现越好。但是，从30毫秒时间间隔的性能也可以得知，随着事件的累积，噪声点越来越多，检测算法的准确率下降。结果表明检测性能高度依赖于累积时间内的事件数量。这指出了另一种替代方法，即累积固定数量的事件而非固定时间间隔，可能会提高我们基于聚类的检测方法的鲁棒性。
在三种算法中，MeanShift表现最差。其原因是 MeanShift的密度估计受到DAVIS随机噪声的影响。其次，由于MeanShift旨在实现球状聚类，在检测时可能会合并一些小目标，如图5所示。最后，由于核带宽和窗口大小在检测过程中保持不变，导致在检测快速移动且尺寸变化的车辆时性能较差。从表3可以看出， WaveCluster的整体检测准确率更高。但在10毫秒时间间隔下，WaveCluster的检测效果相对较差，噪声无法消除，且检测性能受事件数量影响较大。为了使跟踪算法在三个数据集的不同时间间隔下获得更好的性能，我们选择DBSCAN作为用于比较跟踪结果的检测算法。
示意图4 将DBSCAN聚类应用于以20ms时间间隔累积的事件数据。(b)将MeanShift聚类应用于以 20ms时间间隔累积的事件数据。(c)将WaveCluster聚类应用于以20ms时间间隔累积的事件数据（彩色查看效果最佳）)

5.2.2. 在线多车辆跟踪

在本部分中，已实现了四种跟踪算法，即简单在线实时跟踪（SORT）、GM‐PHD滤波器、 GM‐CPHD滤波器和PDA滤波器。以下展示了四个跟踪器在三个车辆序列数据集上的跟踪性能。
图6展示了在20毫秒时间间隔的一系列输入事件下， SORT、GM‐PHD滤波器、GM‐CPHD滤波器和PDA滤波器的跟踪结果。从连续的图像如图6(a)、图6(b)和图 6(c)可以看出，当有新车辆进入相机视场或已有目标离开相机视场时，我们的跟踪算法在移动车辆上的表现更好，目标身份通过添加新ID或相应删除得到更新。
如果当前事件帧中的任何检测目标与前一帧中的未跟踪的已检测目标存在重叠，则会为其分配一个新的ID。从图6可以看出，大多数目标都被较好地跟踪。特别是在同一连续时间间隔内，SORT跟踪了29个目标，是四种算法中跟踪目标数量最多的。GM‐PHD跟踪了19个目标，其次 GM‐CPHD跟踪了15个。然而，从图6(d)–6(l)也可以观察到存在ID切换或目标丢失错误的情况。在目标数量、ID分配和漏检目标方面，PDAF的表现最差。并且可以
8 高级运输杂志
示意图5

从图6(k)和6(l)可以明显看出，同一目标在不同时刻被分配了不同的ID，表明发生了目标丢失。因此，我们的算法性能在一定程度上反映了基于聚类的跟踪系统的局限性。
表4显示了四个跟踪器（即SORT、GM‐PHD滤波器、GM‐CPHD滤波器和PDA滤波器）在输入事件序列‐车辆1的情况下，每个10毫秒、20毫秒和30毫秒时间间隔的跟踪性能指标，即MOTA、MOTP、MT、 PT、ML、FP、FN、ID切换次数和碎片化。由于跟踪组件高度依赖于检测结果，因此因检测结果不一致导致的ID切换（IDs）次数较多。从表4的整体跟踪性能评估结果来看，四种跟踪算法的MOTA和MOTP值相对较高。在应用这些基于逐帧的跟踪方法后，出现大量的误检、漏检、ID切换和碎片化（FM）现象并不意外。一种可能减少漏检、ID切换和碎片化（FM）次数的方法是将本文中使用的简单关联度量替换为包含运动信息的更优度量，这能够使目标在经历较长时间的遮挡或消失后仍能被持续跟踪。表5和表6分别给出了 EventSeq‐Vehicle2和EventSeq‐车辆3的跟踪性能指标，其结果不如事件序列‐车辆1的情况。尤其在EventSeq‐Vehicle2的30毫秒时间间隔中表现明显，其中跟踪算法的MOTA评估指标非常低。其主要原因是如图7所示的大量噪声的偶尔闪现，这会严重遮挡跟踪目标，导致算法性能出现周期性波动。这种“噪声闪现”现象可归因于传感器工作状态不稳定以及环境条件的变化。这也表明我们的三个数据集具有很高的代表性和挑战性。神经形态视觉传感器的这一局限性也将在第 6.2节中进行讨论。
作为首个基于神经形态视觉传感器的多目标跟踪工作，我们无法与最先进的跟踪算法进行比较。相反，我们提供评估结果作为基线跟踪器，供未来基于神经形态视觉的多目标跟踪方法参考。
示意图6 ,(b),和(c)是带有噪声的原始图像；(d),(e),和(f)是检测结果（建议彩色查看） )

运行时间

实验在一台配备2.60GHz四核处理器和8.00 GB内存的Intel Corei7‐6700HQ CPU笔记本电脑上进行。表7显示，DBSCAN算法在10毫秒、20毫秒和30毫秒时间间隔下的平均FPS分别为36、17和8。帧率下降是由于密度搜索区域中的事件数量增加，导致迭代过程增多。当然，运行时间性能与算法的选择相关；例如，WaveCluster在相同条件下的帧率几乎保持一致不同时间间隔。此外，尽管计算机资源普通，MeanShift仍具有较高的运行效率。对于跟踪组件，SORT能够达到552 FPS，如表8所示。如此高的帧率表明了其良好的前景传感器的应用。根据实验结果，当我们的基于聚类的跟踪系统与高效的检测算法（如MeanShift）结合时，跟踪算法的运行速率可超过110 Hz。
10 高级运输杂志
表3：聚类算法性能。
| 数据集 | Tis | DBSCAN | | MeanShift | | WaveCluster | |
| — | — | — | — | — | — | — | — |
| | | 召回率 | 精确率 | 召回率 | 精确率 | 召回率 | 精确率 |
| 事件序列‐车辆1 | 10ms | 53.1% | 60.6% | 44.5% | 41.9% | 44.4% | 49.2% |
| 事件序列‐车辆1 | 20ms | 62.8% | 64.5% | 46.6% | 40.7% | 63.1% | 64.4% |
| 事件序列‐车辆1 | 30ms | 61.9% | 61.9% | 44.3% | 40.7% | 61.8% | 64.9% |
| EventSeq‐Vehicle2 | 10ms | 46.4% | 51.9% | 39.8% | 38.0% | 38.7% | 41.4% |
| EventSeq‐Vehicle2 | 20ms | 52.3% | 53.3% | 38.3% | 35.0% | 51.9% | 53.0% |
| EventSeq‐Vehicle2 | 30ms | 46.2% | 47.2% | 33.2% | 33.5% | 47.2% | 52.1% |
| EventSeq‐车辆3 | 10ms | 41.1% | 54.4% | 35.1% | 40.1% | 32.1% | 41.8% |
| EventSeq‐车辆3 | 20ms | 49.7% | 59.4% | 35.5% | 36.8% | 49.6% | 58.0% |
| EventSeq‐车辆3 | 30ms | 47.7% | 55.6% | 33.5% | 35.3% | 49.0% | 57.5% |

表4：使用不同跟踪方法（SORT、GM‐PHD、GM‐CPHD和PDAF）通过DBSCAN聚类进行检测，在10毫秒到30毫秒时间间隔下对事件序列‐车辆1的跟踪性能研究。
| Tis | 跟踪器 | MOTA↑ | MOTP↑ | MT↑ | PT↑ | ML↓ | FP ↓ | FN↓ | IDs↓ | FM↓ |
| — | — | — | — | — | — | — | — | — | — | — |
| 10ms | SORT | 36.2% | 69.2% | 8 | 79 | 20 | 2891 | 16369 | 146 | 1302 |
| 10ms | GM‐PHD | 24.0% | 69.1% | 1 | 85 | 21 | 4924 | 16649 | 1541 | 4097 |
| 10ms | GM‐CPHD | 21.1% | 69.2% | 3 | 89 | 15 | 7480 | 15621 | 900 | 3616 |
| 10ms | PDAF | 20.9% | 69.1% | 0 | 86 | 21 | 5653 | 18228 | 158 | 4678 |
| 20ms | SORT | 35.0% | 70.2% | 18 | 71 | 18 | 2905 | 6893 | 92 | 444 |
| 20ms | GM‐PHD | 35.1% | 70.6% | 18 | 70 | 19 | 2523 | 7019 | 323 | 770 |
| 20ms | GM‐CPHD | 25.7% | 70.5% | 12 | 75 | 20 | 3974 | 7180 | 152 | 716 |
| 20ms | PDAF | 24.5% | 70.4% | 4 | 80 | 23 | 3576 | 7815 | 95 | 1371 |
| 30ms | SORT | 28.5% | 70.4% | 12 | 69 | 26 | 1950 | 5190 | 94 | 265 |
| 30ms | GM‐PHD | 23.6% | 70.8% | 14 | 67 | 26 | 2323 | 5224 | 190 | 478 |
| 30ms | GM‐CPHD | 18.3% | 70.7% | 8 | 76 | 23 | 2870 | 5259 | 135 | 481 |
| 30ms | PDAF | 19.3% | 70.5% | 1 | 76 | 30 | 2402 | 5701 | 66 | 900 |

表5：使用不同跟踪方法（SORT、GM‐PHD、GM‐CPHD 和 PDAF）通过 DBSCAN 聚类进行检测时，EventSeq‐Vehicle2 的跟踪性能。研究了时间间隔从 10毫秒到 30毫秒的影响。
| Tis | 跟踪器 | MOTA↑ | MOTP↑ | MT↑ | PT↑ | ML↓ | FP ↓ | FN↓ | IDs↓ | FM↓ |
| — | — | — | — | — | — | — | — | — | — | — |
| 10ms | SORT | 24.4% | 70.2% | 3 | 53 | 29 | 2170 | 14929 | 183 | 942 |
| 10ms | GM‐PHD | 13.4% | 69.4% | 0 | 60 | 25 | 3807 | 14994 | 1000 | 2524 |
| 10ms | GM‐CPHD | 7.8% | 69.7% | 2 | 69 | 14 | 7452 | 13084 | 528 | 2524 |
| 10ms | PDAF | 13.8% | 69.8% | 0 | 57 | 28 | 4403 | 15206 | 100 | 3050 |
| 20ms | SORT | 5.7% | 68.1% | 7 | 49 | 28 | 3304 | 7393 | 81 | 331 |
| 20ms | GM‐PHD | 15.6% | 70.6% | 11 | 52 | 21 | 2839 | 6524 | 290 | 729 |
| 20ms | GM‐CPHD | 11.3% | 70.6% | 10 | 57 | 17 | 3824 | 6196 | 118 | 655 |
| 20ms | PDAF | 11.5% | 70.5% | 4 | 58 | 22 | 3091 | 6948 | 76 | 995 |
| 30ms | SORT | 0% | 67.3% | 3 | 45 | 37 | 2069 | 5496 | 53 | 183 |
| 30ms | GM‐PHD | 7.6% | 70.3% | 5 | 50 | 30 | 1888 | 5001 | 149 | 328 |
| 30ms | GM‐CPHD | ‐0.7% | 70.1% | 4 | 57 | 24 | 2872 | 4694 | 100 | 389 |
| 30ms | PDAF | 5% | 69.9% | 3 | 55 | 27 | 1969 | 5216 | 49 | 542 |

表6：使用不同跟踪方法（SORT、GM‐PHD、GM‐CPHD和PDAF）通过DBSCAN聚类进行检测时，EventSeq‐车辆3在10毫秒到 30毫秒时间间隔下的跟踪性能。
| Tis | 跟踪器 | MOTA↑ | MOTP↑ | MT↑ | PT↑ | ML↓ | FP ↓ | FN↓ | IDs↓ | FM↓ |
| — | — | — | — | — | — | — | — | — | — | — |
| 10ms | SORT | 24.6% | 69.5% | 1 | 34 | 24 | 1258 | 10838 | 109 | 611 |
| 10ms | GM‐PHD | 12.9% | 68.9% | 1 | 42 | 16 | 2484 | 10956 | 666 | 1903 |
| 10ms | GM‐CPHD | 12.5% | 69.1% | 2 | 41 | 16 | 3844 | 9957 | 363 | 1646 |
| 10ms | PDAF | 13.8% | 69.0% | 0 | 38 | 21 | 2710 | 11173 | 70 | 2166 |
| 20ms | SORT | 10.1% | 69.3% | 5 | 33 | 21 | 1990 | 5225 | 64 | 235 |
| 20ms | GM‐PHD | 21.4% | 70.1% | 5 | 38 | 16 | 1475 | 4699 | 188 | 490 |
| 20ms | GM‐CPHD | 13.4% | 70.4% | 5 | 36 | 18 | 2218 | 4698 | 94 | 402 |
| 20ms | PDAF | 17.4% | 70.2% | 1 | 40 | 18 | 1682 | 4948 | 59 | 707 |
| 30ms | SORT | 4.0% | 69.0% | 1 | 32 | 26 | 1329 | 3815 | 41 | 141 |
| 30ms | GM‐PHD | 14.3% | 70.3% | 7 | 35 | 17 | 1199 | 3311 | 120 | 285 |
| 30ms | GM‐CPHD | 6.1% | 70.4% | 4 | 34 | 21 | 1712 | 3300 | 58 | 240 |
| 30ms | PDAF | 12.9% | 70.6% | 3 | 34 | 22 | 1112 | 3548 | 46 | 406 |

表7：使用不同检测方法（DBSCAN、MeanShift 和 WaveCluster）对事件序列‐车辆1进行处理时的帧率。研究了时间间隔从10毫秒到30毫秒的影响。
| 检测器 | Tis | FPS |
| — | — | — |
| DBSCAN | 10ms | 36 |
| MeanShift | 10ms | 160 |
| WaveCluster | 10ms | 17 |
| DBSCAN | 20ms | 18 |
| MeanShift | 20ms | 107 |
| WaveCluster | 20ms | 19 |
| DBSCAN | 30ms | 8 |
| MeanShift | 30ms | 71 |
| WaveCluster | 30ms | 15 |

表8：使用不同跟踪方法（SORT、GM‐PHD、GM‐CPHD 和 PDAF）对事件序列‐车辆1的帧率。
| 跟踪器 | FPS |
| — | — |
| SORT | 552 |
| GMPHD | 3 |
| GMCPHD | 4 |
| PDAF | 46 |

相比之下，尽管使用了高性能图形处理器（GPU）， DeepSort方法[45]的运行速度仅达到40赫兹。

6. 结论与讨论

6.1. 结论

本文提出了智能交通系统（ITS）中首个基于神经形态视觉的多车辆检测与跟踪系统。我们提供了数据集和方法，作为未来基于神经形态视觉的多目标跟踪方法的基线跟踪器。文中展示了多种用于执行跟踪任务的算法，可根据不同的准确率和速率要求选择不同的组合。希望我们的初步研究能够推动该领域的进一步探索，因为传感器产生的事件数据稀疏流仅捕捉运动和显著信息，这非常适合智能基础设施系统。所提出的基于事件的在线多目标聚类跟踪系统采用了极为简单的算法，同时在运行时需求方面实现了良好的检测与跟踪性能。
具体而言，研究了三种聚类算法，即DBSCAN、 MeanShift和WaveCluster，用于处理来自神经形态传感器的稀疏数据。在研究检测结果后，由于DBSCAN具有更强的鲁棒性和更准确的结果，因此被选用于进一步的检测阶段。基于DBSCAN的检测结果，研究了四种不同的跟踪器，并对其结果进行了比较。所选的跟踪器包括SORT、GM‐PHD滤波器、 GM‐CPHD滤波器和PDA滤波器。实验结果表明，与 DBSCAN结合的跟踪算法可以实现更高的准确率，而与MeanShift结合则可实现超过110赫兹的更高帧率。根据不同对准确率和实时性能的需求，可应用不同的算法组合。

6.2. 讨论

据我们所知，所提出的系统是神经形态视觉传感器在智能交通系统中的首次应用，这使其非常适合作为基线，便于新研究人员开展神经科学与智能系统的交叉领域研究。在未来工作中，我们将尝试不同的事件编码方法，探索自适应算法，并将基准扩展到行人检测与跟踪。除了基本的活动滤波器可用于滤除来自神经形态视觉传感器的输入数据中的噪声。作为基线，包括近期基于深度学习的方法在内的新方法应能提升检测与跟踪性能，特别是识别车辆类型（如卡车和汽车）以及不同行人（如老年人、儿童等）的能力。
Limitation。诚然，我们的算法仍有一些不足之处。从图7可以看出，随着噪声变得更为严重，跟踪系统将出现错误，例如如漏检、将多个目标检测为一个目标、将噪声点误检为目标等。主要原因在于神经形态传感器技术尚不成熟。具体而言，当前神经形态传感器的固有缺陷导致事件信息采集不稳定，从而影响数据质量，并降低算法的性能。因此，在神经形态传感器广泛应用于智能交通系统（ ITS）之前，对其改进和发展是必不可少的。还需要特别指出的是，为了充分利用事件数据，必须开发全新的神经形态视觉算法需要采用新的方法，而不是扩展现有的计算机视觉方法，以考虑神经形态视觉传感器全新的信息流和极高的帧率。