创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
跟着全球定位系统(global positioning system, GPS)、WiFi、高分辨率相机、视频监控以及无线传感器集中等期间的不停发展, 各式挪动物体的轨迹数据迅速增长, 包括行东说念主行动轨迹、交通车辆轨迹、海域船舶轨迹和遨游器轨迹等, 这些轨迹为咱们提供了前所未有的信息来领略挪动物体偏执步履. 同期, 东说念主们对基于位置的干事(location-based service, LBS)需求不停加多, 促进了智能交通系统、复杂酬酢集中和自动视频监控的庸碌应用. 是以, 奈何从大范围轨迹数据中发掘有用的学问已成为首要的研究课题免费视频, 并受到计较机科学、社会学、生物学、地舆学等稠密领域的温煦.
轨迹挖掘的主要任务包括轨迹分类[1, 2]、轨迹聚类[3, 4]、轨迹预测[5, 6]、轨迹显露[7]、轨迹生成[8-10]、轨迹模式挖掘[11, 12]、轨迹特地检测[13-15]等. 早期的轨迹数据是以时期和位置的步地从录像机记载的监控视频中索取而来. 连年来, 成绩于定位开导和位置追踪开导的普及, 各式大小挪动物体的轨迹信息齐不错被实时追踪. 举例, 交通管理部门通过车载GPS开导监控城市交通和指挥阶梯[16], 动物学家在动物身上装配遥感开导来研究它们的生态步履[17], 气象学家欺骗雷达和卫星来分析测量台风登陆情况[18]. 采集到的海量轨迹数据需要灵验的算法进行处理, 以促进轨迹数据挖掘的研究和相干应用. 关联词, 由于探伤器开导故障、传输链路失真、病笃事故发生或其他可能的影响因素等各式原因, 追踪采集到的轨迹数据不可幸免地会受到毁坏, 而且往往包含不安妥数据模子一般分散的数据项, 称为离群值或特地值.
Chandola等东说念主[19]对特地的界说为: 特地是数据中不安妥正常步履界说的模式. 轨迹特地值是指与轨迹数据中通常出现的轨迹模式不同, 或是不安妥预期模式的事件和不雅测值. 从数据挖掘的角度来看, 特地检测是将特地不雅测值从正常不雅测值中识别分离出来. 在轨迹挖掘的配景下, 这意味着发现与数据聚拢其余轨迹在某些相似性度量上存在局部或全局不一致的轨迹.
特地检测在现实中有许多跨领域的应用, 举例, 集中入侵检测[20, 21]、金融和电信欺骗检测[22, 23]、工业故障检测[24, 25]、医学会诊[26, 27]、生物信息学[28, 29]等. 这些领域包括复杂的数据类型, 如图像、视频、文本、时期序列、生物序列等, 这对特地检测算法在复杂高维数据上的检测效果提倡了较高的要求. 相同地, 轨迹特地检测连年来备受温煦, 在研究和工业应用中也具有首要的真谛和实用价值. 图1为2010–2022年轨迹特地检测研究发表论文数. 从图中咱们不错看出, 在昔日的10年里, 这一领域的研究好奇越来越浓厚. 在实践中, 轨迹特地检测可用于分析视频监控轨迹[30]、检测智能交通特地[31, 32]、预警东说念主群聚拢事件[33, 34]、识别出租车驾驶欺骗步履[35, 36]等. 另外, 轨迹特地检测在自动驾驶、航空海事、边境安全等领域也有庸碌的应用, 底下咱们只辩论几个具有代表性的应用领域进行不详先容.
图 1 2010–2022年轨迹特地检测研究发表论文数(1) 轨迹数据清洗
灵验的数据挖掘必须建立在高质料数据基础之上, 轨迹数据在采集传输过程中, 由于受到大气层、GPS开导自身短处或其他信号遮盖骚扰等因素的影响, 获取的部分轨迹数据可能包含“脏数据”, 通过邻接其他数据清洗方法和轨迹特地检测过程不错提高数据质料. 轨迹数据的清洗和校正方法是教学高质料模子和轨迹信息挖掘的症结[11, 14].
(2) 交通视频监控
在聪敏交通监控领域, 车辆的特地步履, 如遽然加速、偏离说念路、位置漂移等, 可能示意存在与酒后驾驶、交通碰撞、说念路违规相干的危急[30, 35, 36], 实时查明和评估感好奇区域内的特地轨迹对于主动采用治理措施至关首要. 若多条特地轨迹出当今归拢条说念路中, 还不错为城市路网的建筑及筹画提供参考.
(3) 自动驾驶导航
自动驾驶汽车邻接各式传感器来感知周围环境并进行导航筹画[16, 31, 32]. 提前检测感知周围交通个体的特地步履轨迹, 不错匡助无东说念主车愈加速捷地选拔合理的行驶旅途, 避让危急路段, 从而擢升自动驾驶系统的安全性和可靠性, 缩短说念路事故率.
(4) 动物习性分析
动物习性分析[17, 28]是轨迹特地挖掘的一个极端首要的应用, 动物的特地民风或挪动倾向可能存在不安妥群体老例清爽模式的事件, 这些特地的发现不错极地面促进生物学家的研究好奇.
(5) 气象特地检测
气象特地检测一般是针对飓风、台风和旋风等天然灾害的发生进行提前预警[18]. 举例, 通过对飓风轨迹进行监测和记载, 实时发现飓风清爽过程中的特地景色, 不错为飓风的灾情预告提供补助.
本文第1节先容轨迹特地检测领域现存的代表性综述偏执主要内容. 在第2节中, 对轨迹数据相干的界说进行概述, 并分析特地轨迹产生的原因以及常见的特地类型. 第3节主要剖析面前轨迹特地检测研究濒临的挑战与待治理问题. 第4节对公开文件中已发表的轨迹特地检测算法进行总结和分类, 并详备分析每种算法的基开心趣、代表性方法、复杂度、优点和局限性等. 第5节对连年来轨迹特地检测的代表性方法进行了详尽分类, 总结了现存文件中常用的轨迹数据集, 征询了特地检测算法评估方针以及用于特地检测的开源器用. 第6节给出了轨迹特地检测系统架构, 并对轨迹特地检测改日研究场所和发展趋势进行了分析和预测.
1 轨迹特地检测相干综述由于轨迹信息量过载, 而且在现实应用场景中, 录像机位置、采样频率以及场景结构存在互异, 所获取的清爽轨迹通俗在时期和空间特征上会有所不同, 无法通过东说念主工分析来完成特地检测任务. 因此, 需要瞎想自动的特地检测算法来对轨迹信息进行挖掘与分析. 经过几十年的表面发展, 学者们对轨迹特地检测进行了深入研究, 提倡了无数分析轨迹信息的新方法, 特别是针对不同的应用领域, 发表了轨迹特地检测研究综述. Chen等东说念主[37]从算法旨趣、本性和时期复杂度等方面追想了3种典型的轨迹特地检测方法, 分别为基于统计的方法、基于距离的方法、基于密度的局部特地检测方法. 通过辩论两个不同维度的交通数据集: 旅行时期和交通流量, 使用南京城市交通数据对3种算法进行了比较研究. 此外, 一些东说念主工合成的特地轨迹被引入到交通流数据, 以不雅察不同算法对它们的检测效果. 闭幕标明, 经典的特地检测算法对于检测交通数据聚拢的特地轨迹点是可行灵验的. Zheng[38]总结了不同的轨迹显露步地, 包括序列、矩阵、图形、张量等, 以及不同的轨迹数据预处理任务, 如噪声过滤、舆图匹配和轨迹压缩等. 追想了轨迹、子轨迹上的特地和噪声点检测, 以及基于轨迹的特地事件识别, 包括事故、指挥、抗议、清爽、庆祝、晦气和其他事件. Bhowmick等东说念主[39]先容了处理城市交通数据中轨迹特地值的相干职责, 笔据处理方法中使用的方法将现存的轨迹特地检测算法进行了分类, 分别为基于距离、基于密度和基于轨迹历史相似度的特地检测方法, 并建议使用轨迹特地检测来识别不章程交通事件, 如说念路事故或车辆故障形成的交通拥挤等. Meng等东说念主[40]从3个角度分析了现存的轨迹特地检测算法, 领先是辩论多属性的算法, 即尽可能多地探索轨迹症结属性, 举例速率、场所、位置、时期, 来显露原始轨迹并与其他轨迹进行比较. 其次, 用于预计轨迹之间互异的距离度量阵势. 第三, 改进现存算法缩短时期和空间复杂度. Zhang等东说念主[41]追想了城市特地分析的最新研究效率, 概述了城市特地的4种类型: 交通特地、东说念主群特地、环境特地和个体特地. 此外, 文件[41]总结了从不同开导获取的各式类型的城市数据集, 包括轨迹、出行记载、酬酢媒体、监控录像头等, 对城市特地检测与预测期间中存在的问题进行了全面分析, 征询了研究挑战和待治理问题. Belhadi等东说念主[42]研究了轨迹特地检测算法在不同工业领域的应用, 包括智能城市交通、视频监控、景色变化领域等. 通过3种不同的分类法对现存的轨迹特地检测算法进行分类: 基于应用的方法(智能交通、视频分析)、基于输出的方法(轨迹、子轨迹)和基于算法的特地检测方法(距离、密度、模式挖掘), 并在不同大小范围的轨迹数据集上对10种特地检测算法进行了评估. Djenouri等东说念主[31]先容了与轨迹特地检测相干的两个问题. 第1个问题是群体轨迹特地检测, 第2个问题是个体轨迹特地和群体轨迹特地的偏离点检测, 并将轨迹特地检测算法分为两类: 只可检测轨迹特地的离线方法和能够识别产生特地的子轨迹的在线方法.
表1总结了现存的轨迹特地检测代表性综述文件偏执主要内容, 不错看出, 现存职责齐聚拢在总结基于统计、轨迹间距离、轨迹密度等传统的特地检测方法. 跟着深度学习期间在特地检测研究的庸碌应用, 咱们需要对新期间新方法进行对比分析, 以扩张轨迹特地检测的应用领域. 与以往的综述文件比较, 本文追想了近20年轨迹特地检测方法的研究进展, 并按照不同的分类模范对每种特地检测算法进行了深入全面的分析, 包括算法旨趣、优点和局限性、计较复杂度以及应用场景等, 终末指出改日可能的研究场所. 通过本文的总结和分析, 渴望为轨迹特地检测改日的研究提供一些有价值的参考.
表 1 轨迹特地检测相干综述 2 轨迹相干标记与界说轨迹点记载了挪动对象在不同期当前的空间位置信息, 相邻点之间有着密切的险峻文关系, 这些有序的点组成的汇注即为轨迹. 浅薄起见, 本文作念如下界说.
界说1 (轨迹点). 轨迹点是由导航应用(如谷歌舆图、百度舆图、腾讯舆图)、拼车平台(如Didi Taxi、Hellobike)、配备GPS的车辆(如Apollo、Waymo)采集的GPS坐标. 时空轨迹点不错显露为$ p = (x, y, t) $, 包括位置信息$ (x, y) $(即经度纬度或局部坐标)以实时期戳$ t $.
界说2 (轨迹). 轨迹是由时空轨迹点组成的序列, 显露为$ T = < {p_1}, {p_2},\ldots, {p_k} > $, 其中$ {p_i}\;(i \in \{ 1, 2,\ldots, k\} ) $显露轨迹点, $ k $为轨迹点个数.
界说3 (轨迹数据集). 轨迹数据集是一系列轨迹的汇注, 显露为$ {T} = \{ {T_1}, {T_2},\ldots, {T_n}\} $, 其中$ n $为轨迹数量.
界说4 (特地轨迹). 轨迹特地检测的方针是从来自真实采集或编造仿果真海量轨迹数据中识别出特地轨迹. 笔据真实寰宇的交通章程和行驶法律解释以及挪动对象速率、场所的变化, 特地轨迹一般包括: ① 复杂多变的交通景色导致的剧烈变速; ② 轨迹万古间偏离说念路或位置漂移; ③ 违反交通章程逆向行驶等. 以车辆轨迹为例, 本文将特地交通流轨迹归纳为以下8种类型: 遽然加速、万古间住手、通常变速、傍边舞动、逆向行驶、遽然住手、偏离说念路范围、剧烈转弯, 如图2所示, 图中虚线部分显露该段轨迹存在特地.
图 2 车辆轨迹特地类型 3 轨迹特地检测研究的问题与挑战 3.1 研究问题的本性不同于大多数轨迹挖掘问题和任务, 它们齐有明确的数据分散模式, 特地检测旨在发现小概率、不笃定和陌生的事件, 导致轨迹特地检测问题具有专有的复杂性, 对检测算法的安祥性和鲁棒性提倡了较高要求. 不详总结, 轨迹特地检测问题具有如下本性.
3.1.1 特地轨迹类型各样在轨迹数据采集过程中挪动对象自身出现特地步履, 或者受到环境、开导故障等客不雅因素骚扰, 在不同的采集场景下, 可能会产生各式各样的特地轨迹. Chandola等东说念主[19]研究了3种绝对不同类型的特地, 即点特地、条目特地、汇注特地. 参照Chandola等东说念主[19]的分类阵势, 以交通流轨迹为例, 点特地是指空间上隔离大多数轨迹分散的个别轨迹点, 如车辆逆向行驶、偏离历史轨迹、剧烈拐弯、超出说念路监测范围. 条目特地, 又称为险峻文特地, 是指在特定险峻文中才会出现的特地轨迹, 而在其他情况下视为正常步履, 如车辆遽然加速、遽然住手、强行变说念、违规超车. 汇注特地是指举座而言将轨迹看作特地类型, 而其中的局部片断可能不是特地, 如轨迹不一语气或缺失、轨迹点荒芜. 不错看到, 上述多种特地类型仅针对车辆轨迹, 如果辩论交通流中其他挪动对象, 如非活泼车、行东说念主等, 产生的特地轨迹数量和类型将会更多, 因此, 特地类型各样性是轨迹特地检测问题的主要本性.
3.1.2 轨迹类别比例失衡轨迹类别抗击衡问题是指轨迹数据聚拢正常轨迹和特地轨迹数量极不平衡. 特地通俗是陌生的数据实例, 而正常实例通俗占数据的绝大部分. 样本抗击衡在其他应用中亦然一种非时常见的景色. 举例, 在欺骗往复检测中, 欺骗往复的订单一般占总往复数量极少部分; 工场中居品性量检测问题, 及格居品的数量精深于分歧格居品数; 信用卡的征信问题中往往亦然正常样本居多. 由于特地事件的艰苦, 东说念主工很难采集特地数据实例, 这导致在大多数应用中无法使用大范围的标记轨迹数据径直进行特地检测.
3.1.3 特地轨迹不可预测特地轨迹受到多种外部因素的影响, 其产生一般齐是未知和立地的, 因此很难对特地轨迹提前作念出灵验的预测, 梦想情况是借助挪动对象历史轨迹信息进行参考判断. 另外, 特地轨迹是不章程的, 因此, 一类特地轨迹可能阐扬出与另一种特地轨迹绝对不同的特征. 举例, 恐怖紧要事件中嫌疑对象在预谋、实施暴恐、闪避、潜逃等不同阶段的步履轨迹多具有特地性, 一般不同阶段的轨迹特征也不调换, 而嫌疑对象的轨迹又往往掩饰在稠密芜杂的轨迹之中, 这导致安防部门无法预测嫌疑东说念主萍踪轨迹, 提前采用安全措施.
3.1.4 特地轨迹艰苦界说轨迹特地检测的症结是灵验地发现和显露轨迹的正常旅途, 算作时空序列数据的代表, 轨迹数据跟着时期推移在不停变化, 是以, 在不同的地舆位置, 轨迹可能分别阐扬为正常和特地, 即正常和特地轨迹步履范围通俗莫得精准的界说. 举例, 轨迹序列中的子轨迹可能是特地的, 或者统共这个词轨迹序列相对于一组正常的轨迹序列汇注可能是特地的.
3.2 研究挑战第3.1节所述复杂的问题性质给传统的轨迹特地检测方法和面前庸碌使用的深度学习方法带来了许多检测挑战. 一些常见的贫穷与输入数据的性质、特地值类型、轨迹数据标签、检测准确率以及计较复杂度相干. 连年来有些挑战性问题还是得到很好的治理, 但大部分尚未透彻找到灵验的治理路子, 总结起来, 面前轨迹特地检测任务存在的症结挑战如下.
3.2.1 艰苦标签信息的轨迹模式学习由于采集大范围带标记特地轨迹数据的难度和本钱, 有监督的特地检测算法往往难以应用, 因为它假设标定正常和特地类别标签的教学轨迹数据具有可用性. 在昔日的10年中, 主要的研究职责聚拢在不需要任何标记教学数据的无监督特地检测. 关联词, 无监督方法莫得任何真实特地的先验学问, 它们在很大程度上依赖于对特地分散的假设. 通俗来说, 不错采集或手动标记正常轨迹数据和少量的特地数据[14, 35, 43, 44], 或者借助仿真算法生成部分特地轨迹并注入数据集[13, 45, 46], 欺骗这些有限的标记数据来学习正常和特地轨迹的特征对于准确的特地检测至关首要. 其他的研究方法如半监督和弱监督轨迹特地检测, 前者假设存在一组有标注的轨迹教学数据, 后者假设有一些特地类的标签, 但类别标签是不齐备或不准确的. 是以, 面前边临的主要挑战是奈何使用少量标记轨迹数据学习正常和特地轨迹特征, 以及奈何学习泛化性较高的模子, 由给定的标记数据发现新的特地轨迹.
3.2.2 轨迹特地检测调回率低由于特地轨迹极端陌生且不均匀, 是以很难检测到统共特地. 许多正常轨迹被造作地分类为特地, 真实而复杂的特地却被遗漏了. 在轨迹特地检测评估中, 通俗调回率的权重分派会远高于准确率, 这是由施行应用的方针决定的. 举例, 在车辆轨迹特地检测中, 漏报付出的代价比误报高许多, 因为一朝漏报, 特地轨迹就难以被实时发现, 可能导致潜在的交通事故, 而误报的影响则不错通过进一步的查验进行排斥. 尽管连年来出现了许多特地检测方法, 但当前检测效果最好的方法, 特别是基于无监督的方法, 在真实数据集上仍然产生较高的误报率[47, 48]. 奈何减少误报和提高检测调回率是当前轨迹特地检测中最贫穷的挑战之一.
3.2.3 抗噪声轨迹特地检测在轨迹序列数据中, 特地检测算法的性能很容易受到噪声的影响. 关联词, 在现实场景采集的轨迹数据中噪声是普遍存在的, 东说念主们可能无法获取算法所要求的“干净数据”用以教学. 许多半监督、弱监督轨迹特地检测方法假设给定的标记数据是干净的, 但这么的假设很可能形成特地轨迹和噪声数据标签夹杂, 缩短模子学习轨迹特征的智力. 有研究将原始数据分为正常数据和噪声、特地数据两部分, 然后瓜代教学以提高模子的抗噪声智力[49]. 但由于噪声数量不定且不章程地分散在数据空间, 在特地检测过程中仍然对算法形成一定的骚扰. 是以, 将特地轨迹跟噪声数据区分开来亦然一项具有挑战性的任务.
3.2.4 在线轨迹特地检测现存的轨迹特地检测方法大齐是为离线学习而瞎想的, 因为从模子教学运行就假设统共的教学轨迹数据齐是可用的, 基于批量教学数据, 对固定的模子参数进行治愈, 然后类似用于特地检测. 违反, 瞎想用于在线学习的特地检测算法会跟着每次新的教学轨迹的不雅察而增量地更新模子参数. 为了在特地发生时迅速采用对策, 需要支抓对特地轨迹的灵验在线检测. 关联词, 因为轨迹往往以极端高的速率产生, 而且数据范围巨大, 以北京市为例, 在一周时期里出租车生成的GPS轨迹点个数可达1500万[50], 是以奈何开发低延时响应的在线轨迹特地检测算法对研究东说念主员来说亦然极大的挑战.
3.2.5 可解释的轨迹特地检测可解释性显露模子能够使用东说念主类可知道的说法进行呈现和领略的程度[51, 52], 现存的轨迹特地检测研究基本侧重于瞎想精准的检测模子, 也即是由数据驱动的黑盒模子, 冷漠了对已识别特地的解释智力. 许多新发表职责齐考据了不错在特定特地检测任务上取得雅致的性能, 但仍然需要从更为详备的角度领略得出论断的原因. 为模子赋予较强的可解释性成心于确保其公说念性和鲁棒性, 证实输入到输出之间各状态的因果关系, 擢升算法的实在度. 从轨迹特地检测方法推导合理的特地解释仍然是一个未治理的问题, 特别是对于结构复杂的模子. 开发具有可解释性的特地检测模子至关首要, 但奈何平衡模子的可解释性和灵验性亦然一个主要挑战.
4 轨迹特地检测研究近况分析轨迹特地检测算作一项首要的研究课题, 还是在稠密领域得到了应用. 尽管当前边临着许多毒手的挑战, 但跟着研究方法的不停深入与改进, 研究东说念主员还是提倡了各式特地检测算法来治理这些问题. 纵不雅轨迹特地检测近20年的研究效率, 本文笔据不同的分类模范, 将现存方法分为3大类. 具体来说, 笔据轨迹数据标签的可用性, 特地检测算法包括基于有监督、弱监督、半监督、无监督的方法; 笔据算法旨趣或研究方法, 轨迹特地检测有基于距离、密度、分类、聚类、统计、图、模式学习的方法; 笔据特地检测算法的职责阵势, 不错分为在线和离线的轨迹特地检测. 详备分类情况如图3所示. 本节笔据图3所示的分类模范, 对公开文件中已发表的轨迹特地检测算法进行总结与分析, 并详备剖析每种算法的基开心趣、代表性方法、复杂度、优舛误等.
图 3 轨迹特地检测算法分类 4.1 基于数据标签的可用性笔据轨迹数据标签的可用性, 本节将轨迹特地检测研究分为有监督、弱监督、半监督、无监督等方法.
4.1.1 有监督轨迹特地检测方法有监督的特地检测方法在性能上优于无监督特地检测, 因为有监督方法在模子构建过程中使用了标记数据. 有监督特地检测从一组带标签的轨迹数据中学习分离范围(教学阶段), 然后使用学习的模子将测试轨迹分类为正常或特地(测试阶段). 通俗, 基于有监督的特地检测方法包含两个子任务, 即轨迹特征索取和轨迹分类. 深度模子则需要盈篇满籍的教学数据来灵验地学习轨迹特征显露, 以区分不同的类别. 由于艰苦干净的数据标签, 监督特地检测方法往往不如半监督和无监督方法使用庸碌.
Mondal等东说念主[53]使用基本的粗放表面来检测视频中挪动对象的速率和旅途偏差. 该方法领先笔据每条轨迹将视频帧图像分割为一组片断并得到每个分割区域的图像, 然后计较出每个区域的平均速率, 接着, 求解了教学集的平均旅途偏差, 并笔据统共轨迹旅途偏差的粗放性进行分类. 在已毕速率粗放后, 通过支抓向量机检测到特定区域的特地轨迹. Laxhammar等东说念主[54-56]借助Conformal Prediction表面[57] (即欺骗历史教会来笃定最新预测的置信度水平)在轨迹特地检测方面作念了无数职责, 提倡了基于Hausdorff距离的最隔邻特地检测器SHNN-CAD用于在线学习和轨迹序列特地检测. 算作一种轻量级的监督特地检测算法, SHNN-CAD为特地阈值的治愈提供了合理的方法. 作家研究了算法在如图4所示的轨迹数据集(含标签信息)上在线学习和一语气特地检测的性能, 图4中灰色轨迹标记为正常, 玄色轨迹标记为特地. 闭幕标明, SHNN-CAD以最小的参数治愈已毕了较好的分类效果. Ma等东说念主[58]提倡了基于轮回神经集中的轨迹距离度量方法来计较轨迹间相似性并进行特地检测. 该方法领先使用自编码器来拿获轨迹的动态特征, 两条轨迹之间的距离由基于学习模子的重构错误界说. 然后, 欺骗提倡的度量模范, 基于最隔邻方法完成轨迹特地检测. 值得醒目的是, 该方法能够以有监督或无监督的阵势处理不同场景中的特地轨迹, 作家在4个开源的带标签轨迹数据集上完成了考据.
图 4 轨迹实例可视化有监督的轨迹特地检测方法计较复杂度取决于输入轨迹数据的范围和算法模子的复杂程度. 举例, 基于深度学习的特地检测模子, 计较复杂度会跟着模子掩饰层数量线性加多, 需要更多的模子教学和更新时期. 有监督的特地检测方法优点在于比半监督和无监督方法领有更高的准确率, 局限性是监督方法需要对各式正常类和特地类轨迹进行准确的标记, 而这在施行应用中往往是阻难易获取的.
4.1.2 弱监督轨迹特地检测方法正如第4.1.1节所述, 尽管当前监督学习方法还是取得了巨大奏效, 然而由于数据标注过程的本钱太高, 很厚情况下难以获取全部的真值标签. 而无监督学习过程相对贫穷, 因此, 采用弱监督的计策是可取的[59]. 通俗来说, 弱监督学习不错分为3种类型: 第1类是接续对监督, 即只消教学集的一个很小的子集是有标签的, 其他数据莫得标签. 第2类是不确切监督, 即数据只消粗粒度的标签. 第3种是不准确监督, 即数据标签不老是真值, 有可能存在标签造作的情况.
连年来对于弱监督特地检测的研究侧重于视频中的特地事件和特地轨迹检测. Sultani等东说念主[60]提倡了一种基于深度多实例排序的弱监督算法, 本色上是采用两阶段学习计策的框架, 分别通过两个集中模子完成特征索取和特地分值获取, 辩论到特地标记可能会受到噪声的影响, 以及特地事件的一语气性属性, 给特地检测部分加多了荒芜管制和时期平滑管制. 文件[60]另外一个孝顺是提倡了一个真实场景下的大范围特地事件检测数据集UCF-Crime. 该数据集包含13种特地事件, 共有1900个视频, 分裂有1610个视频作念教学集, 其中正常类别800个, 特地类别810个. 测试部分包括290个视频, 其中正常类别有150个. UCF-Crime在视频数量和特地事件类型上齐远超以往数据集, 对近几年视频特地检测场所的研究起到了很大的匡助作用. Zhong等东说念主[61]将文件[60]中的多实例学习问题更动为噪声标签下的监督学习问题, 此处的噪声标签是指特地视频中正常片断的造作标注. 通过对特地部分的标注进行一定的噪声吊销, 不错径直在弱监督特地检测的情况下经受一个全监督动作分类器, 以生成更可靠的分类闭幕, 作家在UCF-Crime数据集上经过了3次标签噪声吊销后得到了最好的阐扬闭幕. 文件[60,61]中的方法天然不错灵验地检测特地, 然而当特地事件与正常事件只消渺小的互异时, 很容易产生误检. 为了治理这一问题, Tian等东说念主[62]提倡了一种鲁棒的时期特征量学习模子RTFM, 该方法通过教学特征量学习函数来灵验地识别正样本实例, 大大提高了多实例学习方法对特地视频中负样本的鲁棒性. RTFM还借助耀见识机制拿获长期和短期的时期依赖性来更好地学习特征. 作家在UCF-Crime等4个数据集上的实验标明, RTFM权贵擢升了多实例学习方法对渺小特地事件的判别智力. 连年来, 有监督学习和无监督学习方法还是在轨迹特地检测问题中得到了奏效的应用, 而研究东说念主员对介于二者之间的弱监督学习期间也产生了浓厚的好奇. 由于标注数据的获取本钱较高, 有研究者尝试用迁徙学习和数据众包的阵势来治理标签艰苦问题.
4.1.3 半监督轨迹特地检测方法半监督学习的目的是欺骗易于获取的未标记数据来提高监督分类器的性能. 半监督轨迹特地检测方法假设统共教学数据只消一种类别标签, 在输入空间和特征学习空间中相互接近的轨迹点有可能分享归拢个标签, 不属于多数类的测试轨迹则被标记为特地.
Sillito等东说念主[63]提倡了一种新的学习框架来发现视频监控数据中的特地步履轨迹, 在东说念主工操作的匡助下, 渐渐教学区分正常轨迹和特地轨迹模式的分类器. 作家从清爽轨迹的角度辩论行东说念主的步履, 并使用3次样条弧线的限定点来参数化轨迹. 然后, 使用增量式半监督学习方法, 不错在未标记的轨迹和偶尔正常的轨迹中发现特地步履. 现存的大部分轨迹特地检测方法参数明锐且需东说念主工手动调理, 导致算法艰苦安祥性和可扩张性. 针对上述问题, 黄添强等东说念主[64]提倡一种基于半监督期间的特地检测方法STOD, 笔据已知的轨迹信息笃定明锐参数, 并从举座与局部相邻接的角度瞎想轨迹相似性度量, 以发现更深档次专诚想的特地轨迹. 大多数对于轨迹特地检测的研究齐旨在发现相邻时空轨迹之间的互异, 但忽略了正常轨迹之间以极端范围式相互作用而产生的特地轨迹. 为了治理这个问题, Wang等东说念主[65]提倡了一种基于荒芜主题模子的半监督方法来检测视频监控中的特地步履轨迹, 该方法对获取清爽信息具有较强的鲁棒性. 领先, 为了增强轨迹点的空间和时期关系, 经受Fisher核方法态状每条轨迹, 并将视频看作由轨迹生成的可视笔墨组成的文档. 然后, 文中提倡了荒芜主题模子, 它不仅不错拿获清爽模式, 还不错对可视笔墨进行编码, 已毕视频场景的荒芜显露. 终末, 应用半监督学习方法增强模子的识别智力, 提高特地检测的性能. 视频监控场景中特地事件的本性是挪动对象存在不章程的轨迹模式, Aljaloud等东说念主[66]最近提倡了一种新颖的不章程感知半监督深度学习模子IA-SSLM用于检测特地事件. 该方法欺骗半监督深度模子从有限数量的标记数据样本中自动学习特征显露, 在教学阶段从标记和未标记数据中索取有用的场景特征以提高特地检测性能.
基于半监督的轨迹特地检测方法计较复杂度与有监督检测方法相似, 主要取决于模子掩饰层数量和轨迹数据范围. 由于存在一种类别的标签可用, 半监督特地检测方法往往取得比无监督方法更好的检测性能, 然而在基于半监督方法的模子中, 掩饰层索取的轨迹特征可能无法代表较少的特地轨迹, 因而容易出现过拟合问题.
详尽第4.1.2节和第4.1.3节的内容不错看到, 研究东说念主员在基于轨迹信息的视频特地事件检测方面作念了无数职责, 在检测算法不停创新的同期, 也提倡了多种场景下的特地数据集, 对轨迹特地检测和视频特地事件检测的研究提供了强有劲的支抓. 本文对现存研究中几个典型的基准数据集进行不详先容, 每个数据集分别收用了3个代表性的场景示例, 如图5(a)–(d)所示. 其中, 图5(a)为UCF-Crime数据集[60], 共包含13种特地事件, 视频总时长128 h. 图5(b)所示为Violent Flows数据集[67], 包括246个真实寰宇的东说念主群暴力视频(123个暴力和123个非暴力). 该数据集独一的目的是评估东说念主群暴力分类算法, 这是一个相对较新的数据集, 还莫得得到庸碌测试. 图5(c)为UCF Web Crowd Abnormality数据集[68], 该数据集采集自托管网站, 一共由20个视频组成, 其中, 行东说念主或正常东说念主群步履相干视频有12个, 潜逃焦灼、请愿者冲突、东说念主群打斗等特地步履视频有8个. 图5(d)所示为UMN Unusual Crowd Activity数据集[69], 该数据集采集自明尼苏达大学, 由逃遗闻件的11个不同场景视频组成. 每个视频片断齐以正常步履运行, 以一系列特地步履收尾. 其他视频特地检测数据集, 如Shanghai-Tech[70]、XD-Violence[71]、UCSD[72]、CUHK Avenue[73]等也常被用来评估特地检测算法的性能, 在此不作详备先容.
图 5 视频特地检测数据集 4.1.4 无监督轨迹特地检测方法无监督模式下的轨迹特地检测算法不需要带标注的教学数据, 因此在研究和工业领域得到了最庸碌的应用. 当轨迹数据莫得标签信息时, 教学数据和测试数据之间通俗莫得区别, 基于无监督的特地检测方法隐含的假设是数据聚拢正常轨迹所占的比例精深于特地轨迹, 不然, 就会产生很高的误报率. 传统的无监督学习主要通过聚类方法将正常轨迹与特地轨迹区分开来, 跟着深度学习模子的出现, 自编码器、生成对抗集中等生成式模子成为无监督特地检测的主要架构.
Das等东说念主[74]针对拥挤场景提倡了一种改进的基于聚类的无监督特地轨迹检测算法. 该方法主要包括4个方法, 领先, 使用多方针追踪器索取拥挤场景视频中统共挪动对象的轨迹; 然后索取轨迹数据多个特征(举例, 密度、神色、中间位置、模范差等)并将它们更动为孤独的特征空间; 接着将Mean Shift聚类算法应用于上述特征矩阵以获取不同的聚类; 终末瞎想基于信息熵的检测器来检测特地轨迹. 文中还使用投票表决机制来选拔在大多数情况下阐扬出特地步履的轨迹. Zhao等东说念主[75]提倡了一个轨迹特地检测与定位框架, 该框架由特地轨迹忖度和一致性清爽对象构建两个阶段组成. 同期, 为了更好地捕捉场景中轨迹点的细粒度时空信息, 文中提倡了一种称为基于轨迹点的光流直方图(PT-HOF)的新特征. 在第1阶段, 索取轨迹新特征PT-HOF并通过无监督自编码器集中对其进行编码, 用于忖度每条轨迹特地的可能性. 在第2阶段中, 将局部区域内清爽相似的轨迹点聚类为一致性清爽对象. 终末, 邻接轨迹点特地的可能性和一致性清爽对象, 经受投票表决机制检测和定位特地轨迹. 在现存的轨迹特地检测研究中, 一些研究东说念主员觉得, 不错通过重构正常轨迹的特征来笃定测试轨迹是否特地, 因为当特地轨迹或事件发生时, 往往伴跟着场景和轨迹分散的变化. 事实上, 交通特地通俗波及很大的时期和空间范围, 场景变化也具有各样性, 是以, 不详地欺骗轨迹重构想想来瞎想特地检测模子并不成保证其安祥性和健壮性. 为此, Zhao等东说念主[76]基于轨迹追踪方法, 提倡了一个鲁棒的框架治理无监督交通特地检测问题, 即从视频配景图像序列中检测和追踪潜在的特地. 领先, 瞎想了一种新的多方针追踪算法, 从视频配景序列中获取轨迹. 然后, 提倡了一种自适当的无监督说念路掩码生成方法, 以过滤说念路区域除外的造作特地检测. 终末, 邻接获取的轨迹信息, 欺骗决策模子来笃定轨迹特地的可能性, 并精笃定位特地事件的运行时期. 现存的一些轨迹特地检测算法不成充分辩论轨迹的本性, 检测闭幕艰苦可解释性, 同期也受到轨迹空间属性的截止. 针对上述问题, Wang等东说念主[77]提倡了一种基于深度显露的无监督轨迹特地检测算法TAD-FM, 从数据获取与处理到最终特地检测, 算法主要分为4个阶段. 在轨迹数据分裂阶段将每条轨迹分裂为线段. 在深度特征索取阶段, 领先将轨迹段更动为浅层特征序列, 然后将浅层特征序列输入到基于自编码器的深度特征交融模子中, 得到轨迹段的深度特征序列显露. 在聚类阶段, 经受经典的基于密度的聚类算法DBSCAN[78], 通过度量交融特征序列之间的余弦距离进行聚类. 在特地检测阶段, 通过比较交融特征序列之间的余弦相似度索取特地轨迹段, 然后辩论特地轨迹段在举座轨迹中的比例, 终末检测特地轨迹.
从上述研究文件不错看出, 传统的无监督特地检测通俗基于聚类方法已毕, 而自编码器是无监督轨迹特地检测方法中最常用的深度模子, 模子复杂度主要取决于聚类迭代次数、集中参数和掩饰层数量等, 而且教学自编码器的计较复杂度远高于聚类方法. 无监督的特地检测方法不错学习固有的数据特征, 以更好地分类正常和特地轨迹, 而且无监督方法亦然相对经济灵验的选拔, 因为它不需要带标记的数据来教学算法. 然而, 无监督方法对噪声数据极端明锐, 在准确性方面的阐扬通俗不如监督或半监督方法. 另外, 在使用自编码器的模子中, 有许多超参数需要不停治愈才能取得最好检测闭幕, 这对于特地检测算法优化来说也存在一定的挑战.
基于数据标签可用性的特地检测方法详备分类情况对等到代表性方法如表2所示.
表 2 基于轨迹数据标签可用性的特地检测方法分类 4.2 基于算法旨趣 4.2.1 基于距离的轨迹特地检测方法基于距离的轨迹特地检测方法的基本想想是, 如果一条轨迹距离大多数其他轨迹来说齐很远, 则该轨迹可能为特地轨迹. 基于距离的方法在轨迹特地检测研究初期就还是得到了庸碌的应用, 因为这类方法更容易笃定轨迹之间专诚想的距离度量阵势, 而不是笃定统计分散模子. 另外, 现存文件也提供了多种可供选拔的度量轨迹间距离的方法. 本节领先对常用的轨迹间距离或轨迹相似性度量方法进行总结, 主要包括Euclidean距离[79]、DTW距离[80]、Hausdorff距离[81]、LCSS距离[82]、基于HMM的距离[83].
轨迹是用二维或三维坐标显露的时期序列, 在这里, 浅薄起见, 将轨迹显露为二维坐标步地, 如公式(1), 公式(2)所示.
$ ((a_1^x, a_1^y), (a_2^x, a_2^y), \ldots , (a_n^x, a_n^y)) $ (1) $ ((b_1^x, b_1^y), (b_2^x, b_2^y), \ldots , (b_m^x, b_m^y)) $ (2)公式(1), 公式(2)显露长度分别为$ N $和$ M $的二维轨迹A与B. 以下是5种轨迹相似性度量方法(详备见对应参考文件).
(1) Euclidean距离[79]
欧氏距离是最常见的两点或多点之间的距离显露法, 经受两条轨迹上对应点之间的平均距离, 该方法计较不详, 但需要醒目的是, 欧氏距离容易受到噪声的影响, 而且计较时两条轨迹的长度必须调换. 轨迹$ A $、$ B $之间欧氏距离计较如下:
$ {D_1}(A, B) = \frac{1}{N}\sum\limits_{n = 1}^N {{{\left[ {{{\left( {a_n^x - b_n^x} \right)}^2} + {{\left( {a_n^y - b_n^y} \right)}^2}} \right]}^{\frac{1}{2}}}} $ (3)(2) DTW距离[80]
当两条轨迹等万古, 不错使用欧氏距离来度量二者的相似性. 然而当轨迹长度不一样时, 欧氏距离就难以施展作用了. 为此, 国际学者提倡了动态时期迂曲距离(dynamic time warping, DTW) 算作一种新的相似性度量方法, 通过调理时期点之间的对应关系, 能够寻找两个任性长度轨迹序列之间的最好匹配旅途$ W $, 不错更灵验地度量轨迹之间的相似性. 由于DTW不要求两条轨迹序列中的点逐一双应, 因此适用范围更庸碌. 但DTW时期复杂度更高, 计较代价较为富贵. DTW距离不错显露为:
$ {D_2}(A, B) = \min \left\{ {\frac{1}{K}{{\left[ {\sum\limits_{k = 1}^K {{w_k}} } \right]}^{\frac{1}{2}}}} \right\} $ (4)其中, $ {w_k} $为匹配旅途$ W $的第$ k $个元素.
(3) Hausdorff距离[81]
Hausdorff距离是态状两组点集之间相似程度的一种度量方法, 具体到轨迹汇注, $ A $与$ B $之间的Hausdorff距离界说为:
$ {D_3}(A, B) = \max \{ d(A, B), d(B, A)\} $ (5)其中,
$ d(A, B)=\underset{a\in A}{\mathrm{max}}\underset{b\in B}{\mathrm{min}}\Vert a-b\Vert $ (6)(4) LCSS距离[82]
DTW和欧氏距离对轨迹中的噪声点齐比较明锐, 因为包括噪声在内的统共点算法齐需要进行匹配. 为了治理这一问题, 研究东说念主员提倡了最长寰球子序列(longest common subsequence, LCSS)来更鲁棒地度量轨迹间的距离. LCSS的基本想想是允许忽略一些距离较远的轨迹点, 以增强算法对噪声数据的鲁棒性. 假设$ Head(A) $是轨迹$ A $的前$ N - 1 $个点, $ Head(B) $是轨迹$ B $的前$ M - 1 $个点, 给定断绝阈值$ \delta $和距离$ \varepsilon $, 对于轨迹数据$ A $与$ B $, 它们的最长寰球子序列的长度为:
$ {\mathit{LCSS}}_{\delta , \varepsilon }(A, B)=\left\{\begin{array}{l}{0},\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\quad A或B为空\\ 1+{\mathit{LCSS}}_{\delta , \varepsilon }({Head}(A), {Head}(B)){, }\qquad\qquad\qquad\quad 如果\Vert {a}_{N}-{b}_{M}\Vert < \varepsilon 而且|N-M|\leqslant \delta \\ {\max}\left({\mathit{LCSS}}_{\delta , \varepsilon }({Head}(A), B), {\mathit{LCSS}}_{\delta , \varepsilon }(A, {Head}(B))\right), 其他\end{array} \right.$ (7)基于上述公式, 最长寰球子序列的相似度为:
$ {D_{\text{4}}}(\delta , \varepsilon , A, B) = 1 - \frac{{{{\mathit{LCSS}}_{\delta , \varepsilon }}(A, B)}}{{\max (N, M)}} $ (8)(5) 基于HMM的距离[83]
基于隐马尔可夫模子(hidden Markov model, HMM)的距离度量方法由Porikli[83]提倡, 其中每条轨迹经受HMM进行拟合. 基于HMM的距离界说为:
$ \begin{array}{*{20}{r}} {{D_5}(A, B) = \mid d\left( {A;{\lambda _A}} \right) + d\left( {B;{\lambda _B}} \right)} { - d\left( {A;{\lambda _B}} \right) - d\left( {B;{\lambda _A}} \right)\mid } \end{array} $ (9)其中, $ d\left( {A;{\lambda _A}} \right) $和$ d\left( {B;{\lambda _B}} \right) $显露轨迹来自自身模子的可能性, $ d\left( {A;{\lambda _B}} \right) $和$ d\left( {B;{\lambda _A}} \right) $显露该轨迹由其他轨迹模子生成的可能性.
另外, 还有基于裁剪距离的EDR (edit distance on real sequence)[84]和ERP (edit distance with real penalty)[85]以及Fréchet距离[86]等度量方法也常应用于轨迹相似性分析和特地检测. 基于距离的轨迹特地检测及代表性方法如图6所示.
图 6 基于距离的轨迹特地检测方法Knorr等东说念主[87, 88]最早引入了基于距离的特地值的办法, 并提倡了轨迹特地检测算法. 他们将原始轨迹更动成由几个孤独属性组成的对象, 即从轨迹中抽取几个症结特征来显露原始轨迹. 这些特征包括: 显露轨迹着手和极度属性的坐标信息, 显露长度属性的轨迹点个数, 显露场所属性的轨迹点切线场所的最大值和最小值以及显露速率属性的整条轨迹中的最大速率和最小速率等. 在轨迹特地检测阶段主要经受基于距离的特地点检测方法. 此类方法的优点是旨趣不详, 借助轨迹间距离计较方法即可已毕, 然而跟着轨迹长度和复杂度渐渐加多, 如果只是通过上述几个全局特征来判断特地轨迹昭着是不准确的, 而且此类方法是以整条轨迹算作特地检测单元, 因此可能无法检测出偏离旅途的特地子轨迹.
针对轨迹特地检测算法检测特地子轨迹智力有限的问题, Lee等东说念主[89]先容了一种新的轨迹特地点检测框架, 该框架将整条轨迹分割成一组线段, 然后对这组线段进行特地点检测, 优点是不错从轨迹数据中检测特地子轨迹. 在此基础上, 文中提倡了轨迹特地检测算法TRAOD, TRAOD包括两个阶段, 领先在分割阶段, 对轨迹进行粗粒度和细粒度两级分裂计策, 保证轨迹分裂的准确性; 然后在检测阶段, 经受基于距离和密度的方法检测特地轨迹. 实验闭幕标明, TRAOD能够从真实的轨迹数据中准确地检测出特地子轨迹, 但该方法时期复杂度较高.
TRAOD[89]中所使用的距离度量仅波及子轨迹神色和局部清爽模式的不同, 并莫得排斥子轨迹之间的共同偏差. 刘良旭等东说念主[90]提倡了一种基于R-Tree的轨迹特地检测算法, 该算法以$ k $个一语气轨迹点组成的片断算作基本比较单元, 然后经受Hausdorff距离度量比较单元之间的相似性, 当方针轨迹莫得豪阔的相似比较单元时, 将其判断为特地轨迹. 比较TRAOD算法来说, 该方法具有较高的计较效率. 接着, Liu等东说念主[91]又提倡了一种基于相对距离的轨迹特地检测新框架RTOD, 在RTOD中, 领先使用相对距离来预计轨迹段之间的互异, 然后笔据距离度量负责界说特地轨迹. 为了提高时期性能, 文中使用R-Tree和局部特征相干矩阵来排斥不相干的轨迹段. 实验闭幕标明, RTOD方法比文件[89,90]中的算法具有更高的检测效率.
Laxhammar等东说念主[55]研究了基于数据驱动的轨迹特地检测, 提倡了一种新的参数轻量级在线学习和自动轨迹特地检测算法SNN-CAD. SNN-CAD算法的症结本性是特地检测的虚警率校准雅致, 如果教学数据与新的正常数据是孤独同分散的, 则渴望的虚警率等于既定的特地阈值. 因此, 与之前提倡的算法比较, SNN-CAD不需要任何指定的特地阈值. 文中提倡了两种基于Hausdorff距离的无参数非相似性度量方法, 用于预计任性长度的两个多维轨迹间的非相似性. 分别基于模拟和真实视频轨迹的两个寰球轨迹数据集, 实证研究了与 SNN-CAD 的学习和分类性能相干的基本本性以及两种不同的度量方法.
为了提高轨迹特地检测的准确率, Zhu等东说念主[92]同期辩论时期和空间特地, 提倡了时期依赖的特地检测算法TPRO. 对于每一组具有调换来源和目的地的轨迹, 领先瞎想一个随时期变化的传递图, 在不同的时期段, 不错得到top-k条最受宽贷的阶梯算作参考阶梯. 对于这段时期内的待检测轨迹, 如果在空间维度和时期维度上与所选阶梯存在较大互异, 则将其标记为特地. 为了定量地度量轨迹与阶梯之间的互异, 文中提倡了一种基于时空裁剪距离的时变距离度量方法. Wang等东说念主[93]专注于出租车轨迹特地检测研究, 提倡了基于裁剪距离和档次化聚类的轨迹特地检测算法, 以推断司机欺骗行驶阶梯和不良交通事故的发生. 领先, 从出租车轨迹中获取统共穿过调换源-目的地对的出租车轨迹, 并将这些轨迹算作聚类对象. 其次, 改进裁剪距离算法以度量轨迹的相似性. 然后, 经受基于最好聚类数的自适当档次聚类方法来区分正常轨迹和特地轨迹. 为了邻接轨迹险峻文信息进行特地检测, San等东说念主[94]提倡了一组用于轨迹态状的新特征, 以及一种新的险峻文感知距离CaD, 该距离由轨迹角度差的加权平均值, 欧氏距离, 以及每条轨迹上的点数等参数构建. 基于CaD距离, 文中提倡了一种无监督方法来识别从视频监控系统中索取的特地行东说念主轨迹. 该方法主要分为4个阶段: 特征索取、距离矩阵计较、聚类和特地检测. 特征索取经受线性分割算法对轨迹进行简化产生子轨迹向量. 然后, 使用基于险峻文感知的距离CaD计较轨迹间的距离矩阵. 距离矩阵提供了一种无监督学习方法来索取轨迹的同质组. 接着, 对每个同质组的轨迹进行聚类. 终末, 在每个聚类簇中, 使用$ k $隔邻(k-nearest neighbor, kNN)方法检测特地轨迹.
对于任何基于距离的特地检测方法来说, 合适的距离度量齐是相配首要的, 不仅局限于轨迹特地检测领域的应用, 距离度量方法在轨迹分类和聚类等研究中也施展着首要作用. 从本节着手部分总结的轨迹间距离的度量方法不错看出, 基于距离的特地检测算法时期复杂度从$ {\rm{O}}(N) $到$ {\rm{O}}(N\times M) $不等, 是以收用合适的距离度量阵势, 不错灵验缩短算法计较本钱. 基于距离的轨迹特地检测算法优点在于旨趣不详, 在文件中有丰富的表面支抓, 已毕过程不需要依赖各式假设的分散来拟合数据. 关联词, 这类算法最坏的时期复杂度可能会达到$ {\rm{O}}({N^2}) $, 计较本钱过高, 无法处理大范围场景的轨迹数据. 此外, 这些方法对计较过程中引入的超参数也比较明锐.
4.2.2 基于密度的轨迹特地检测方法第4.2.1节中所述的基于距离的轨迹特地检测算法齐需要选拔一个合适的全局距离阈值来判断轨迹是否特地, 用全局距离阈值检测到的特地轨迹不错视为全局特地. 关联词, 轨迹数据集可能呈现出复杂多变的分散特征, 很厚情况下特地轨迹与其邻域的轨迹密度相干, 特别是当轨迹局部密集时, 由于距离阈值收用贫穷, 基于距离的方法无法很好地检测特地轨迹. 基于密度的方法与基于距离的轨迹特地检测方法密切相干, 因为密度通俗是由距离来界说的. 基于密度的特地检测方法的中枢想想是: 低密度区域内的值被判定为特地点, 而正常点则出当今相对繁密的区域. 尽管基于密度的特地检测方法比较基于距离的方法领有更复杂的特地点建模机制, 然而基于密度的检测方法的不详性和灵验性使得这类方法仍然被庸碌地应用于轨迹特地检测.
Breunig等东说念主[95]引入了一种新的局部特地值办法, 即笔据局部邻域的密度来度量方针数据被判定为特地值的程度, 并提倡了局部特地因子(local outlier factor, LOF), LOF是最早的基于密度的特地检测方法之一. 对于任何给定的数据实例, LOF得分等于该数据实例的$ k $个最隔邻数据的平均局部密度与数据实例自己的局部密度之比. 为了计较数据实例的局部密度, 文中领先找到以该数据为中心, 包含其$ k $个最隔邻数据的最小超球的半径. 然后, 局部密度的计较方法是用$ k $除以这个超球的体积. 对于位于繁密区域的正常数据, 其局部密度与左近数据相似, 而对于特地数据, 其局部密度则低于左近数据. 因此, 特地数据将获取更高的LOF分数. 在后期的研究中, 学者们渐渐提倡了LOF方法的多种变体步地, 其中有些变体以不同的阵势计较方针数据的局部密度, 有些变体对原始LOF方法进行了治愈, 以适当更复杂的数据类型, 其中具有代表性的职责有: Tang等东说念主[96]对LOF进行了改进, 提倡了一种基于贯穿的特地因子(connectivity-based outlier factor, COF)方法, 该方法与LOF极端视似, 独一的区别是计较数据$ k $邻域的阵势不同. 在COF中, 数据实例的邻域以增量阵势计较. 领先, 将与方针数据距离最近的实例添加到邻域集. 然后, 添加到邻域集的下一个实例与现存邻域集的距离是统共剩尾数据实例中最小的. 单独的数据实例和一组实例之间的距离界说为给定数据和属于该汇注的任性实例之间的最小距离. 终末, 数据邻域以这种阵势增长, 直到大小为$ k $. 数据邻域计较收尾后, COF采用跟LOF调换的阵势完成特地评分. Goldstein等东说念主[97]通过不同应用领域的数据集比较了COF和LOF等特地检测方法, 发现LOF的球形密度忖度不利于灵验检测特地值. 现存的特地检测方法常用于一维或二维数据, Tang等东说念主[98]针对大范围城市交通视频数据, 提倡了一种基于密度的有界LOF (bounded LOF, BLOF)特地检测方法. 该方法领先通过主因素分析对时空交通数据进行降维, 然后将BLOF分别应用在二维和三维数据域上进行对比测试与评估. 此外, 文中还将经典LOF方法[95]扩张到了三维数据域进行特地检测. 从上述方法旨趣先容不错看出, LOF算法偏执变体方法的时期复杂度均为$ {\rm{O}}({N^2}) $, 其中$ N $显露数据集大小. 天然LOF算法不错灵验检测特地点, 但它的时期复杂度相对较高, 导致这类方法往往不安妥交通流轨迹等大型数据集特地检测任务. 为了克服LOF方法的舛误, 研究东说念主员基于密度的想想瞎想了复杂度更低、检测效率更高、精度更准的轨迹特地检测算法.
为了捕捉特地清爽轨迹的演化本色, Ge等东说念主[99]提倡了一种进化的轨迹特地检测方法TOP-EYE, 该方法辩论了两种类型的特地轨迹: 方进取的特地轨迹和密度上的特地轨迹. 将一语气空间破碎为小网格, 欺骗概率模子将网格中轨迹的场所信息滚动为向8个场所挪动的概率. 因此, 场所趋势是通过对一段时期内无数轨迹的挪动场所进行汇总而产生的. 然后, 一朝有些个体沿着与汇总场所绝对不同的场所穿过该区域, 通过测量被不雅测个体与汇总场所之间的相似性, 就不错实时标记为特地点. 每个网格内的轨迹密度被忖度为穿过这个网格的轨迹数量. 轨迹特地评分不错笔据网格中的轨迹密度来度量. TOP-EYE方法的优点是不错提前识别出进化的特地轨迹.
Liu等东说念主[100]提倡了一种基于密度的轨迹特地点检测方法DBTOD, 该方法弥补了TRAOD[89]算法在轨迹局部密集时无法检测到特地的残障. DBTOD引入的轨迹密度由两个重量组成: 子轨迹间的距离和给定范围内子轨迹的数量. 类似于TRAOD, DBTOD算法也包括分割和检测两个阶段. 在分割阶段, 经受TRAOD中的两级分裂计策对每条轨迹进行分割. 在检测阶段, 经受基于密度而不是基于距离的检测算法发现特地子轨迹. DBTOD算法的优点是它既能检测特地子轨迹也不错检测局部特地轨迹. 相同针对TRAOD算法无法从局部密集轨迹中检测特地点的问题, Luan等东说念主[101]提倡了一种基于局部密度的轨迹特地检测算法LDTRAOD. 该算法欺骗分割检测框架计较每条分裂轨迹的局部密度, 并笔据局部密度计较其局部特地因子. 如果局部特地因子大于检测阈值, 则该条分裂轨迹被标记为特地. Lan等东说念主[102]使用轨迹序列的裁剪距离[84]和密度来检测工东说念主的特地轨迹, 以实时发现职责景色的病笃情况与安全事故. 文中提倡的特地检测决策包括两个阶段: 在离线阶段笃定距离阈值与密度阈值, 在线阶段则完成轨迹特地判断. 使用距离阈值计较输入轨迹的邻居密度. 然后, 如果输入轨迹的密度小于密度阈值, 则将其标记为特地. 为了检测万古间交通景色欠安的特地区域, Kong等东说念主[103]提倡了一种万古交通流轨迹特地检测方法LoTAD. LoTAD包括以下方法: 领先, 创建时空轨迹段TS, 这一步的目的是从公交轨迹和公交车站显露数据库创建TS数据库. 然后, 计较轨迹特地指数. 使用曼哈顿距离度量方法计较每个路段TS的密度, 并应用LOF算法查找特地路段. 终末, 笃定交通特地区域. 对公交车站显露数据应用K-means算法[104]寻找相似区域, 将每个区域所属路段的LOF值相加得到该区域的特地评分. Huang等东说念主[105]邻接了$ k $隔邻和LOF算法各自的优点, 提倡了KNN-LOF方法, 用于船舶步履轨迹特地检测. 该方法领先通过$ k $隔邻对船舶特地数据候选集进行过滤, 然后欺骗LOF算法计较轨迹局部偏差指数, 终末通过确立阈值来判断船舶特地轨迹.
在基于密度的轨迹特地检测方法中, 轨迹密度忖度过程长短参数的, 不依赖任何假设的分散来拟合数据. 经典的基于密度的方法如LOF[95]、TOP-EYE[99]等还是成为许多后续研究的参考基准, 其他基于密度的方法主如若弥补TRAOD[89]算法在轨迹局部密集时无法检测到特地的残障. 由于基于密度的方法是通过轨迹邻域密度来判断特地轨迹, 是以这类方法在轨迹局部特地检测方面比较基于距离的算法具有较大的上风. 尽管一些基于密度的方法还是被解说具有更好的特地检测性能, 然而在大多数情况下, 它们的计较本钱照旧相对较高, 而且算法对参数确立也很明锐, 比如笃定邻居大小、特地密度阈值等.
4.2.3 基于分类的轨迹特地检测方法基于分类的特地检测方法在教学阶段使用无数轨迹数据学习分类模子, 然后在测试阶段使用学习的分类器将待评估轨迹分类为正常或特地, 分类器的学习过程不错经受有监督或无监督的方法. 基于分类的轨迹特地检测算法假设分类器不错从给定的轨迹数据中学习正常轨迹和特地轨迹的特征互异, 从而具备区分轨迹类别的智力. 笔据教学阶段标签的可用程度, 不错将基于分类的轨迹特地检测方法分为两类: 多类轨迹特地检测(multi-class trajectory anomaly detection, MCTAD)和单类轨迹特地检测(one-class trajectory anomaly detection, OCTAD). 多类轨迹特地检测方法假设教学数据包含属于多个正常类的标记轨迹, 分类器需要学会区分每个具体的正常类和其余类. 如果测试轨迹莫得被任何分类器分类为正常, 则觉得该轨迹为特地, 如图7(a)所示. 单类轨迹特地检测假设统共教学轨迹数据只消一个类标签. 分类器通过单类别分类算法(如单类支抓向量机、单类核Fisher判别器)来学习正常轨迹周围的判别范围, 任何不在学习范围内的轨迹数据齐被视为特地轨迹, 如图7(b)所示.
图 7 基于分类的轨迹特地检测Li等东说念主[106]提倡了一种用于挪动对象轨迹特地点检测的清爽分类器Motion-Alert, 该分类器实行过程包括以下3个方法. 领先, 从挪动对象旅途中索取时空相干的清爽特征motif, 每条旅途齐由一系列motif抒发式组成, 这些抒发式与时期和位置相干的值相干联. 然后, 为了发现挪动对象清爽过程中的特地, 经受基于motif的泛化方法对相似的对象清爽轨迹片断进行聚类. 终末, 将挪动对象放入多层特征空间中, 由不错处理高维特征空间的分类器进行分类, 以区分特地轨迹和正常轨迹. 在Motion-Alert算法的基础上, Li等东说念主[107]又提倡了一种基于分类的轨迹特地检测算法ROAM. ROAM框架由3个部分组成: 基于motif的特征空间、特征空间档次自动索取、基于章程的档次分类器. 基于motif的特征空间通过将轨迹分裂为motif来寻找轨迹挪动中最具代表性的模式, 并基于motif构建具相干联属性的多维特征空间. 特征空间档次自动索取通过查验轨迹的模式, 自动索取特征空间中的档次结构, 这成心于分析多条轨迹特征间的复杂关系. 基于章程的档次分类器用于探索档次特征空间, 并找到灵验的分类区域以完成轨迹特地检测. 实验标明ROAM能够灵验地检测挪动方针的特地轨迹. 然而, 该方法在处理复杂场景时, 基于motif的轨迹分裂可能会覆盖部分局部特地, 导致无法检测到统共区域的特地轨迹. Piciarelli等东说念主[108]提倡了一种基于单类支抓向量机(one-class support vector machine, OCSVM)的轨迹学习和特地检测算法. 在该方法中, 每条轨迹由原始轨迹均匀采样点的固定维度特征向量显露, 在莫得轨迹特地点分散先验信息的情况下完成轨迹分类. 此外, 该算法还不错自动检测和排斥教学轨迹数据中的特地. 现存大多数方法在特地检测过程中会忽略轨迹局部特地, 为了充分辩论子轨迹中存在的局部微小特地, Yang等东说念主[109]提倡了一个基于轨迹分割和多实例学习的三阶段局部特地检测框架TRASMIL. TRASMIL领先将每条清爽轨迹分割为孤独的子轨迹, 并提倡了具有各样性和粒度的分割质料度量方针. 其次, 经受序列学习模子对分割后的子轨迹进行建模. 终末, 将特地轨迹和子轨迹分别视为包和实例, 欺骗多实例学习对特地轨迹和子轨迹进行检测.
基于分类的轨迹特地检测不错欺骗刚劲的算法来区分不同类别的轨迹, 算法复杂度往往取决于所使用的分类器, 举例, 教学决策树的速率一般很快, 而SVM等波及二次优化的方法教学本钱较高. 跟着各式分类器的提倡, 特别是基于深度学习期间的分类器数见不鲜, 为进一步研究基于分类的特地检测方法提供了坚实的表面基础. 然而, 基于分类的方法依赖于正常轨迹的精准标签信息, 而这在施行应用中往往是阻难易获取的.
4.2.4 基于聚类的轨迹特地检测方法聚类用于将相似的数据实例分组成簇, 属于一种无监督的期间, 因为它不需要任何先验学问. 基于聚类的方法用于发现强关联的数据组, 而特地检测的目的是发现与其他数据弱关联或无关联的数据. 尽管聚类和特地检测之间存在本色上的区别, 然而在聚类闭幕中, 包含较少数据对象、范围较小的簇可能被标记为特地值, 因此, 不错用聚类方法来检测特地点. 同期, 也有无数的研究死力于于欺骗聚类闭幕来界说特地, 如聚类大小、方针数据到聚类中心的距离、聚类中心之间的距离、聚类成员关系等. 到面前为止, 有许多聚类算法不错用来检测数据聚拢的特地值, 如K-means[104]、DBSCAN[78]、CURE[110]、STING[111]、WaveCluster[112]等. 基于聚类的特地检测方法假设正常数据实例属于数据聚拢的某个簇, 而特地数据不属于任何簇, 或者正常数据属于大型密集集群, 而特地数据属于微型或荒芜集群. 基于聚类的特地检测方法的性能很大程度上取决于聚类算法在拿获正常数据的分散结构方面的灵验性. 对于轨迹数据来说, 不错欺骗当时期、空间、邻居信息等特征进行聚类, 以发现轨迹特地步履模式为方针, 瞎想基于聚类的轨迹特地检测方法.
Piciarelli等东说念主[113]提倡了一种在线轨迹聚类算法, 该算法经受树状结构组织聚类, 加上概率信息, 不错用于检测视频监控系统中的特地事件. 在线聚类是在获取传入数据时进行聚类计较, 主要目的是幸免经典的两步聚类法(即数据采集和离线处理), 进而使用聚类信息进行挪动物体在线步履分析. 为了检测拥塞轨迹特地, Ying等东说念主[114]提倡了一种基于聚类方法的拥塞特地检测框架CTOD, 该框架主要包括相似性度量和聚类两个阶段. 为了度量轨迹段之间的相似性, 通过邻接空间维度和时期维度, 引入了基于最小范围框的度量方法. 然后, 将DBSCAN聚类算法应用于整条轨迹的统共路段, 聚类闭幕中超密集轨迹簇被视为拥塞轨迹特地点, 类似于TRAOD算法, CTOD也不错检测特地子轨迹.
大多数轨迹聚类算法齐是将相似的轨迹算作一个举座进行分组, 然而这种聚类阵势可能会遗漏寰球子轨迹而无法检测到轨迹间的相似部分, 为了治理这一问题, Lee等东说念主[115]提倡了一种新的轨迹聚类框架, 该框架将轨迹分裂为一组线段, 然后将相似线段分组到归拢个簇中. 该框架的优点是不错从轨迹数据中发现寰球子轨迹. 在此基础上, 文中提倡了轨迹聚类算法TRACLUS, 该算法由轨迹分裂和聚类分组两阶段组成. 在第1阶段, 提倡了一种基于最小态状长度旨趣的步地化轨迹分裂算法. 在第2阶段, 提倡了一种基于密度的轨迹聚类算法, 将不同于大多数轨迹段的部分标记为特地点. 为了生成高质料的轨迹特征并达到较好的聚类闭幕, Lee等东说念主[116]提倡了一种特征生成框架TraClass, 该框架通过对轨迹进行分裂, 并探索两种类型的聚类(基于区域的聚类和基于轨迹的聚类)来生成特征档次结构. 基于区域的聚类在不借助任何清爽模式的情况下拿获基于区域的高等次特征, 而基于轨迹的聚类使用清爽模式拿获轨迹的低档次特征, 两种类型的聚类不错协同索取区域和子轨迹的特征.
TPRO[92]算法专注于找出历史轨迹数据聚拢的统共特地值, 但在大多数情况下, 东说念主们更关默算法对历史轨迹之外的任性新轨迹的特地检测闭幕. 为此, Zhu等东说念主[117]提倡了TPRO算法的改进版, 即基于时期依赖的流行阶梯实时轨迹特地检测方法TPRRO. TPRRO是一种实时检测算法, 它主要包含离线轨迹预处理和在线特地检测两个阶段. 在离线预处理方法中, 笔据历史轨迹数据构建时期依赖挪动指数TTI和时期依赖挪动图TTG, 这两种高效的数据结构不错记载在不同的时期段内每条说念路经过的轨迹数. 在TTG的匡助下, TPRRO不错准确地检索指定时期段内最受宽贷的$ k $条阶梯. 在在线特地检测方法中, 欺骗TTI和TTG缓存加速检测速率, 灵验地提高了算法响适时期. 实验闭幕标明, TPRRO比TPRO具有更好的轨迹特地检测效率.
为了快速而准确地判断给定的轨迹是否属于特地值, Lv等东说念主[44]在真实出租车轨迹数据上作念了较为深入的研究, 并提倡了两种基于轨迹聚类的特地检测算法. 领先, 文中提倡了一种称为前缀树搜索的特地检测算法PTS算作研究基准, PTS方法天然能得到准确的检测闭幕, 但耗时较长. 为了提高特地检测效率, 文中提倡了基于K-medoids[118]想想的原型特地轨迹检测算法PBOTD. K-medoids算法将轨迹数据分裂为$ k $个聚类, 每个聚类齐由一个medoid算作代表性的数据来显露. 然后通过比较聚类闭幕中选拔的有代表性的轨迹与待评估的轨迹, 快速判断测试轨迹是否特地. 但由于$ k $的选拔和局部最优问题, PBOTD方法不成达到很高的检测精度. 为了克服这个残障, 文中又提倡了一种基于密度聚类的特地轨迹检测算法DBOTD. DBOTD使用DBSCAN方法进行聚类, 并选拔中枢旅途算作各个聚类的代表性轨迹, 偏离代表性轨迹的点即判断为特地值, 与PBOTD算法比较, DBOTD能较好地索取代表聚类闭幕的轨迹, 愈加灵验地进行特地值检测. 基于聚类的特地检测通俗需要选拔合适的$ k $算作算法输入, 为了排斥$ k $值选拔的主不雅影响, Kumar等东说念主[119]针对极少据和大数据场景案例, 提倡了两种新的轨迹特地检测方法iVAT+和clusiVAT+, 并将它们应用于真实的寰球轨迹数据集. 文中的特地检测方法包括两个阶段, 第1阶段使用相似性度量对轨迹进行分组, 将具有相似旅途但清爽场所可能不同的轨迹分为一组. 第2阶段对生成的每个聚类使用场所相似性来分离场所违反的轨迹. 从轨迹集群中, 通过识别与归拢集群中的其他轨迹距离太远的轨迹, 或通过识别轨迹数量太少的集群来获取轨迹特地值. 实验标明, 这种两阶段聚类方法不错在真实轨迹数据集上生成天然且信息丰富的轨迹集群, 成心于愈加准确地进行轨迹特地检测.
基于聚类的轨迹特地检测不需要数据分散的先验学问, 属于无监督的方法, 是以在特地检测研究中不错庸碌应用. 特别是跟着深度学习期间的发展, 基于深度聚类的方法不错愈加灵验地索取轨迹特征, 与传统聚类方法比较, 更容易发现特地值. 然而, 聚类过程可能会受到教学数据中噪声的骚扰, 导致聚类显露产生偏差而影响特地检测效果. 大多数聚类方法齐依赖于用户事先指定的聚类数量k, k值的选拔也给已毕数据的精准聚类带来了一定的贫穷. 另外, 聚类方法的时空复杂度会跟着聚类数量k的加多呈线性增长, 这导致基于聚类的特地检测方法不安妥实时性要求较高的应用场景.
4.2.5 基于统计的轨迹特地检测方法基于统计的特地检测是最早亦然相对不详的特地值检测期间[120, 121], 从本色上来讲, 现存对各式类型数据进行特地检测的应用齐不错归纳为这种方法. 基于统计的特地检测也称为基于模子的特地检测方法, 它的基本想想是将一个立地模子作用于给定的数据, 然后应用统计推断测试来笃定待测数据是否属于该模子, 特地检测遵命的基本假设是: 正常的数据实例出当今立地模子分散的高概率区域, 而特地则出当今立地模子分散的低概率区域. 基于统计的特地检测方法通俗分为参数方法和非参数方法两大类, 不错使用监督、半监督、无监督等步地来已毕. 参数方法在给定的数据中假设了潜在的分散模子, 并从已知的数据中忖度分散模子的参数, 而非参数方法莫得任何分散模子的先验学问假设. 本文将面前使用统计方法检测特地值的代表性研究按参数方法和非参数方法进行分类并征询, 需要醒目的是, 由于立地模子的各样化, 文中征询的方法不仅不错应用于轨迹特地检测, 多数方法也不错扩张到其他类型的数据完成特地值检测任务. 基于统计的轨迹特地检测及代表性方法如图8所示.
图 8 基于统计的轨迹特地检测方法如前文所述, 参数方法假设正常数据是由带参数的立地模子生成的, 模子参数由给定数据来忖度, 测试实例的特地评分通过概率密度函数计较得到. 笔据假设的数据分散类型, 参数方法不错进一步分为基于高斯夹杂模子[122]的方法和基于转头模子[123]的方法.
高斯模子是用于检测特地值的最常用的统计方法之一, 在高斯模子中, 教学阶段使用最大似然忖度方法(maximum likelihood estimation, MLE)[124]对高斯分散进行均值和方差忖度. 在测试阶段, 经受统计不一致性测验(如箱线图、均值-方差测验)来完成特地检测. Yang等东说念主[125]引入了基于范例的全局最优高斯夹杂模子(Gaussian mixture model, GMM), 并提倡了一种无监督的特地点检测方法. 在该方法中, 领先应用一个可解说的全局最优渴望最大化算法拟合GMM到给定的数据集, 高斯分散以每个数据点为中心, 因此, 忖度的夹杂比例不错解释为所特地据点成为聚类中心的概率. 然后将每个数据点上的特地因子界说为夹杂比例的加权和, 其中权重显露与其他数据点的相似性. 是以, 文中提倡的特地因子抒发了数据集的全局本性, 这与大多数局部特地检测方法形成了对比. 另外, 该方法不错通过在给定数据聚拢的每个数据点拟合GMM, 来治理基于聚类的方法在噪声稠浊存在时无法检测特地值的问题. 复杂非高斯过程可能会发生动态操作场景更动, 从而导致传统的特地检测方法性能下落. 为了擢升算法鲁棒性, Tang等东说念主[126]提倡了一种基于子空间学习和高斯夹杂模子的能量瓦解特地点检测方法. 与主因素分析(principal component analysis, PCA)比较, 子空间学习的局部保留投影算法(locality preserving projections, LPP)能够灵验地保抓数据的邻域结构, 揭示数据固有的流形结构, 并使得特地点隔离正常数据. Lam等东说念主[127]提倡了一种基于GMM的方法来自动检测城市说念路十字街头交通数据中的特地事件. 领先将视频神色记载的交通数据通过统计更动为时空交通讯号, 然后使用PCA将时空交通讯号投影到二维坐标平面以进行降维. GMM方法觉得交通数据是由高斯分散的夹杂形成的, 文中假设教学数据遵照高斯分散, 然后确立置信区域完成测试数据特地检测.
在时期序列数据中, 使用转头模子进行特地检测已被庸碌研究. 针对不同特地检测问题的数据属性, 用户选拔的转头模子不错是线性的, 也不错长短线性的. 通俗来说, 基于转头模子的方法包括两个方法: 第1步为教学阶段, 即构建一个安妥数据的转头模子, 然后第2步为测试阶段, 通过评估每个数据实例来测试转头模子, 当施行值与转头模子产生的预期值之间出现权贵偏差时, 该数据实例被标记为特地值, 偏差的大小不错用作测试实例的特地评分. Dalatu等东说念主[128]通过分析接受者操作本性弧线(receiver operating characteristic curve, ROC弧线), 对特地值检测的线性转头模子和非线性转头模子进行了比较研究. 闭幕标明, 非线性模子比线性模子领有更高的评价方针, 愈加安妥特地检测任务. 是以, 在多数应用中普遍经受非线性模子进行特地检测. 为了提高风洞系统马赫数预测的准确性, Zhao等东说念主[129]研究了基于转头模子的特地点检测框架来改进马赫数预测闭幕. 具体来说, 该方法使用Bagging期间来减小教学阶段未知特地值的影响, 然后, 引入极值分析的办法为计较出的特地值笃定合适的检测阈值. 文中还经受了基于 Hampel 标记符[130]的鲁棒缩放方法来缓解特地值对数据缩放的影响. 实验闭幕标明, 如果辩论对于因变量的先验学问, 基于转头模子的特地检测器通俗会有更好的性能.
非参数方法的统计模子结构不是事先界说的, 而是笔据给定的数据来笃定. 与参数方法比较, 这类方法通俗对数据作念出较少的假设. 在特地检测中, 常用的非参数方法有基于直方图的方法和基于核函数的方法.
最不详的非参数统计期间是使用直方图来保重正常数据的轮廓, 这种方法也被称为基于频率或基于计数的方法. 基于直方图的方法在入侵检测和欺骗检测中庸碌应用, 因为在这些场景中数据的步履不错使用直方图模子灵验地拿获. 基于直方图的特地检测方法包括两个方法: 第1步是基于教学数据中该特征的不同值构建直方图. 在第2步中, 查验测试实例是否落在直方图的任何一个矩形区域(Bin)中, 如果是, 则测试实例属于正常数据, 不然为特地值. 基于直方图方法的一个主要变体是笔据每个测试实例落入的矩形区域的高度(频率)为其分派一个特地评分. 为了识别特地的集中流量步履, 擢升集中干事的安全性, Kind等东说念主[131]提倡了一种新的基于特征和直方图的特地检测方法. 具体来说, 该方法包括以下4个方法: 第1步, 选拔特征和构建直方图. 有些流量特地可能在一个特征维度上阐扬不澄澈, 但不错借助更多特征或特征组合来识别. 第2步, 映射到度量空间. 将教学直方图的向量映射到一个度量空间, 两个相似的直方图在空间上很接近, 而两个不同的直方图在空间上距离很远. 第3步, 聚类和模子索取. 在教学过程中, 将相似的直方图聚类在沿途. 第4步, 检测与分类. 在检测过程中, 对集中的运行进行监控, 并构建不同特征的向量. 然后, 将这些向量与已构建的模子进行比较, 以预计不雅察到的在线步履是否存在特地. Becirovic等东说念主[132]将基于直方图的特地检测方法应用到了金融领域, 主要目的是在小额信贷公司往复总账中发现特地往复. 实验标明, 在大多数情况下, 检测到的特地并非管帐环境真谛上的特地, 真实的特地通俗是造作的密码输入、支付失败、往复取消等.
核密度忖度(kernel density estimation, KDE)[133]是检测特地值的另一种常用的非参数方法. 由于核密度忖度方法不欺骗相干数据分散的先验学问, 对数据分散不附加任何假设, 是一种从数据样本自己动身研究数据分散特征的方法, 因而, 在统计学表面和应用领域均受到高度的醉心. 基于核密度忖度的特地检测方法旨趣相对不详, 在已知数据概率分散的情况下, 如果测试数据实例出当今不雅测中, 则觉得该数据实例的概率密度很大, 不错将它判断为正常数据, 不然为特地值. Latecki等东说念主[134]提倡了一种欺骗核函数进行特地值检测的无监督方法. 领先, 使用变量查对非参数密度忖度进行改进, 得到一个鲁棒的局部密度忖度. 然后通过比较每个点的局部密度与其相邻点的局部密度来检测特地点. 与经典的基于密度的特地检测方法比较, 该方法在大多数情况下具有更好的检测性能. 关联词, 该方法在现实生涯中的大型高维数据集上艰苦适用性. 为了治理这个问题, Schubert等东说念主[135]分析了密度忖度和特地值检测的相互作用, 通过对这两个过程进行明晰的解耦, 提倡了一种基于核密度忖度的特地检测算法KDEOS. KDEOS领先通过KDE建立密度忖度, 然后进行鲁棒的统计, 终末, 将基于密度忖度的特地评分归一化. 上述方法中的任何一步齐不错修改, 以此加多了特地检测方法在大型数据集上的适用性和可扩张性. 为了擢升智能交通系统的可靠性, 研究东说念主员需要对交通数据中的特地值进行筛查, 针对这一问题, Xu等东说念主[136]提倡了一种基于核密度忖度的特地点检测算法. 领先, 欺骗KDE算法得到交通数据概率密度函数的最优忖度. 然后, 借助概率密度函数构建置信度函数, 对检测数据的实在度进行评估. 终末, 笔据数据的实在度对其进行筛选, 从而检测出特地值. 要而论之, 大多数基于KDE的特地检测方法主要舛误是通俗具有高计较本钱和维数晦气问题, 这导致它们在实践中艰苦可靠性. 尽管与其他非参数方法比较, KDE 的特地检测性能更好, 但经受基于KDE的方法来治理轨迹特地检测问题的文件总体相对较少.
基于统计的轨迹特地检测方法的计较复杂度取决于用来拟合数据的统计模子的性质. 假设需要拟合指数函数族的单参数分散, 举例高斯分散、泊松分散、多项式分散等, 复杂度在数据大小和属性数量上通俗是线性的. 假设拟合复杂分散, 举例夹杂模子、隐马尔可夫模子, 使用渴望最大化方法等迭代忖度期间, 算法管制速率可能很慢. 对基于核密度忖度的方法来说, 笔据数据范围大小, 可能具有二次时期复杂度, 计较本钱相对较高.
基于统计的轨迹特地检测方法旨趣不详, 易于已毕, 在数学上有合理的表面复古, 而且不错在无监督的阵势下运行, 不需要任何带标记的教学数据. 然而, 基于统计的方法依赖于数据分散模子的假设, 由于艰苦对于数据潜在分散的先验学问, 所产生的检测闭幕对于施行应用而言大多是不可靠的. 多数统计模子只适用于单变量特征空间, 在处理多变量数据时会产生很高的计较本钱, 因此, 不安妥实时性要求较高的应用场景. 另外, 基于统计的方法也不适用于处理高维数据.
4.2.6 基于图的轨迹特地检测方法从本色上看, 物理学、生物学、社会科学和信息系统等庸碌学科中的数据实例齐具有内在的筹谋, 在特地检测时需要辩论数据聚拢对象的相互关系, 图为灵验拿获相互依赖的数据对象之间的长期相干性提供了刚劲的复古. 通过在数据对象之间引入贯穿边, 图天然地显露了对象之间的相互依赖, 图显露还有助于复杂数据聚拢对象之间相互作用的抒发. 举例, 在城市交通数据聚拢, 交通个体类型包括车辆、行东说念主、非活泼车等, 将每个交通个体看作图中的节点, 它们之间的连线即为图中的边疆系, 不错用来抒发个体之间的相互作用, 由于个体类型、行驶速率、前进场所等各有互异, 是以个体间相互作用大小也不同. 然而, 通过图中的节点、边以及权重等, 不错明晰地抒发复杂交通中的交互关系. 基于图的特地检测方针是笔据给定的数据, 构造抒发数据特征的图结构, 找出图中不同于其他数据对象的点、边、子结构等. 基于图的特地检测主要包括静态图的特地检测与动态图的特地检测. 静态图的特地检测欺骗通常的子结构和子图模式来发现特地, 找出与图中不雅察到的模式权贵偏离的节点、边、子结构. 动态图的特地检测主如若时期维度特地模式的发现, 对应于特地事件发生的时期戳或者对特地事件发生孝顺最大的节点、边、子结构等. 跟着图论的发展以及图数据的普及, 基于结构化图的特地检测研究越来越多, 因此, 图不错算作治理多个应用领域特地检测问题的统一框架.
大范围出租车出行记载中的特地轨迹检测因其纷乱的数据量和复杂的语义而存在着巨大的期间挑战. Zhang[137]提倡了一种基于图的方法MoNav-TT, 用于检测大范围城市交通集中中的出租车出行特地. MoNav-TT算法分为两个阶段: 第1阶段为预处理, 通过计较行程特征(上车和下车位置)与说念路集中之间的相似性, 将每次行程的上车位置和下车位置与其最近的说念路段进行匹配. 如果相似性距离大于距离阈值, 则出租车行程被判断为一级特地. 第2阶段为最短旅途的笃定, 使用MoNav算法[138]为每个独一的上车和下车节点对计较最短旅途, 然后将计较出的最短旅途距离与司机记载的行程距离进行比较, 如果计较出的距离大于记载的距离, 则该行程被标记为二级特地. MoNav-TT算法在纽约市上亿条出租车行程记载中进行了测试, 在检测出租车出行特地的同期还不错匡助交通部门了解纽约市不同地区之间的筹谋强度. 针对长序列数据中的子序列特地检测问题, Boniol等东说念主[139]提倡了一种适用于领域未知子序列特地检测的无监督方法Series2Graph. 该方法基于子序列低维镶嵌的图显露, 它不需要任何标记实例和无特地数据, 而且允许使用调换的模子来检测不同长度的特地. 在合成数据集和真实数据集上的实验闭幕标明, Series2Graph在数据特征未知的情况下, 不错正确检测单个和类似出现的特地, 而且在准确性、通用性和实行时期方面也阐扬出了雅致的性能.
Akoglu等东说念主[140]对基于图的特地检测期间进行了全面和结构化的综述. 该综述给出了在不同确立下算法分类的一般框架, 包括: 无监督与(半)监督方法、静态图与动态图、属性图与普通图. 文等分析了这些方法的灵验性、可扩张性、通用性以及鲁棒性等. 此外, 该综述还强调了特地归因的首要性, 并先容了有助于挖掘特地压根原因的相干期间, 以便进一步分析和判断特地. Das Bhattacharjee等东说念主[141]提倡了一种基于图的险峻文感知特地检测框架, 通过用户画像分析来识别特地用户行动. 文中提倡的基于查询自适当图的优化方法充分欺骗用户模子之间的相似性以及它们各自与查询的相似性来筛选用户画像, 以已毕更可靠的特地检测. Wang等东说念主[142]受邻域方法以及欺骗图显露和立地游走的模子的启发, 提倡了一种新的特地检测模子, 该模子基于各式立地游走过程的沉稳分散的不同变化模式. 文中提倡的模子通过使用自动笃定的邻域大引言列, 从原始数据集构建一个加权有向邻域图的汇注. 欺骗局部信息的不同方面对预界说的图实行马尔可夫立地游走过程, 以推导出每个对象的特地值. 本文在第4.2.1节中先容了基于距离的特地检测方法, 然而当应用标准濒临大型数据集时, 基于距离的方法时期复杂度较高, 计较资源支拨较大. 针对上述问题, Ahmed等东说念主[143]通过有向加权图分别构造了正常图与特地图结构, 并提倡了一种基于图的轨迹特地检测方法, 该方法经受基于图节点的相似性度量闭幕来比较不同组的轨迹并判断特地. 在真实数据集的实验标明, 该方法的速率和精度澄澈优于基于机器学习的特地检测方法.
图具有刚劲的数据显露智力, 不错很天然地抒发数据实例之间的相互依赖关系, 而特地检测领域的问题大多是关系型问题, 特地事件的本色不错阐扬为数据对象之间相互关系的变化, 是以, 基于图的方法是特地检测研究领域一个首要的分支, 不错庸碌应用于多种数据类型和施行场景. 天然基于图的特地检测方面还是出现了无数可参考的职责, 然而, 施行问题中所波及的数据集通俗体积纷乱且内容丰富, 未必候还需要辩论噪声等附加信息的影响, 这可能导致图模子结构极端复杂, 是以, 算法时期复杂度也远高于传统的特地检测方法. 另外, 现存基于图的特地检测方法多数是基于静态图伸开研究, 这类算法无法适用于实时性要求较高的应用. 对轨迹特地检测来说, 在改日的研究中, 不错欺骗动态图实时建模轨迹与周围环境的交互作用, 拿获轨迹空间和时期维度的变化, 瞎想检测效率更高, 可扩张性更强, 鲁棒性更好的图特地检测方法.
4.2.7 基于模式学习的轨迹特地检测方法在早期的研究中, 基于模式学习的轨迹特地检测通俗经受机器学习方法瞎想分类器, 分类器通过不雅察轨迹数据的分散, 在教学过程中不停优化分类范围, 分类器的分类性能决定了特地检测算法的准确性. 连年来, 跟着深度学习期间在高维数据、序列数据、空间数据、图等数据类型方面的应用, 研究东说念主员提倡了无数基于深度学习的轨迹特地检测方法, 这类方法的主要想想是通过瞎想深度学习模子, 让算法学习正常轨迹和特地轨迹之间的时空特征互异来识别特地. 在各式现实应用中还是解说, 基于深度学习的特地检测方法的阐扬澄澈优于其他方法, 是以, 本节先容的基于模式学习的轨迹特地检测主要以深度学习方法为主.
轮回神经集中(recurrent neural network, RNN)不错径直从海量时期序列中自动学习数据的时空特征, 因此, 被庸碌应用于语音识别、视频领略、轨迹预测、轨迹特地检测等时序数据挖掘任务. 基于深度学习的轨迹特地检测通俗借生长短时挂牵集中(long short-term memory, LSTM)或门控轮回单元集中(gated recurrent unit, GRU)等RNN模子来完成轨迹时序建模与特征学习. 通过教学自编码器 (auto-encoder, AE)[144], 生成对抗集中(generative adversarial network, GAN)[145]等生成式模子偏执变体, 对输入的轨迹进行重构, 然后对比重构后的轨迹和原始输入轨迹之间的互异来检测特地轨迹. RNN模子充分辩论了所不雅察时期段内交通轨迹的清爽特征, 不错学习正常轨迹和特地轨迹之间的形态互异, 使用正常轨迹数据教学的模子无法很好地对特地轨迹进行重构, 因此, 会产生较大的重构错误, 通过重构错误对比即可完成轨迹特地检测.
最近, 一些研究东说念主员针对基于深度学习的特地检测方法进行了全面的窥察与研究. Chalapathy等东说念主[146]追想了基于深度学习的特地检测方法在不同领域中的应用, 并评估了这些方法的灵验性. 文中笔据算法所经受的基本假设, 将现存深度学习特地检测方法进行了分类, 在每个类别中概述了算法基开心趣、症结假设以及相干变体, 文中还对比分析了统共算法的上风和劣势, 终末总结了现存研究中未治理的问题以及改日濒临的挑战. Di Mattia等东说念主[147]调研了基于GAN的最新的特地检测方法并评估了它们的优舛误, 在不同数据集上考据了GAN特地检测模子的灵验性, 同期凸起原始著作与文中实验之间的互异, 终末作家提供了使用 GAN 进行特地检测的齐备开源器用箱, 该器用箱旨在为统共但愿径直使用特地检测算法的科研东说念主员提供一种模块化的现成治理决策. Pang等东说念主[148]综述了基于深度学习的特地检测研究并进行了详尽分类, 主要包括3个高级类别的研究进展和11个细粒度类别方法. 著作分别追想了这些分类下相干方法的方针函数、基本假设、优舛误等, 终末征询了特地检测研究中改日可能际遇的挑战以及治理这些问题的新想路. 为了笃定特地检测方法共同的基开心趣以及各式方法通俗隐含的假设, Ruff等东说念主[149]在经典的“浅层”方法和最新的“深度”方法之间建立了筹谋, 并展示了这种筹谋如安在上述两种类型的方法中交叉扩张使用. 著作进一步提供了对现存主流方法的实验评估, 并使用最近的可解释性期间丰富了这些方法. 终末, 文中概述了特地检测问题中症结的绽放性挑战, 由此笃定了改日特地检测研究的具体旅途.
基于深度学习的轨迹特地检测通俗借助LSTM或GRU等RNN模子来完成轨迹时序建模与特征学习. 通过教学AE与GAN等生成式模子偏执变体, 对输入的轨迹进行重构, 然后对比重构后的轨迹和原始输入轨迹之间的互异来检测特地轨迹. 本节将从以AE或GAN偏执变体模子为基本架构两方面, 对现存的基于深度学习的轨迹特地检测方法进行分类, 并梳理相干代表性方法的发展端倪. 图9展示了基于自编码器偏执变体的轨迹特地检测方法发展端倪.
图 9 基于自编码器偏执变体的轨迹特地检测方法发展端倪自编码器模子的方针是以无监督的阵势学习轨迹数据的潜在显露. 自编码器由编码器妥协码器集中组成, 编码器接受原始的轨迹输入并索取固定尺寸的特征显露算作隐空间变量(latent representation), 隐空间显露进一步算作解码器集中的输入, 解码器集中通过教学重构原始输入轨迹. 经过上述过程, 自编码器充分索取了解释轨迹数据特征的专诚想的信息, 这与主因素分析等降维期间类似. 图10态状了自编码器的模子结构, 不错看出, 自编码器是一种具有调换输入和输出的集中模子架构.
图 10 自编码器集中结构如图10所示, 编码阶段负责从输入轨迹中索取特征, 编码器以原始轨迹$ {\boldsymbol{x}} $为输入, 在每个时期步计较掩饰状态$ h_E^j $. 在解码阶段, 轨迹$ {\boldsymbol{x}} $的隐空间显露被输入解码器完成重构与输出. 解码器采纳前一个解码器的掩饰状态$ h_D^{j - 1} $和上一步输出$ {\hat x^{j - 1}} $来计较当前时期步的掩饰状态$ h_D^j $和重构输出$ {\hat x^j} $. 自编码器模子中编码妥协码计较过程如公式(10).
$ \left\{\begin{array}{*{20}{c}} {{{\boldsymbol{h}}_E} = {\sigma _1}\left( {{\boldsymbol{w}}_1^{\rm{T}}{\boldsymbol{x}} + {{\boldsymbol{b}}_1}} \right)} \\ {\hat {\boldsymbol{x}} = {\sigma _2}\left( {{\boldsymbol{w}}_2^{\rm{T}}{{\boldsymbol{h}}_E} + {{\boldsymbol{b}}_2}} \right)} \end{array} \right.$ (10)其中, $ {\boldsymbol{x}} $为模子输入, $ {\boldsymbol{w}}_1^{\rm{T}} $和$ {\boldsymbol{w}}_2^{\rm{T}} $分别为编码器妥协码器的权值矩阵, $ {{\boldsymbol{h}}_E} $显露编码器的输出, $ {\sigma _1} $和$ {\sigma _2} $为激活函数, 用来对隐空间的输出进行非线性激活, $ {{\boldsymbol{b}}_1} $和$ {{\boldsymbol{b}}_2} $为偏置向量, $ \hat {\boldsymbol{x}} $为自编码器的输出, 自编码器模子教学的方针即最小化$ \hat {\boldsymbol{x}} $和$ {\boldsymbol{x}} $之间的互异. 底下, 本文按照时期步调对基于自编码器偏执变体的轨迹特地检测方法进行态状.
自编码器模子旨趣不详, 易于已毕, 在深度学习轨迹特地检测中得到了庸碌的探索. Zhou等东说念主[49]提倡了一种鲁棒的自编码器模子RDA, 该模子不仅不错保抓深度自编码器发现高质料非线性特征的智力, 还不错检测特地值和噪声, 而无需借助任何“干净”的教学数据. 此外RDA还具有特地检测研究中容易忽略的模子去噪智力. 真实视频场景中的特地事件检测是一个具有挑战性的问题, 现存的方法大多使用局部空间区域的手工特征来识别特地. Zhao等东说念主[150]提倡了一种时空自编码器模子STAE, 该模子欺骗深度神经集中自动学习视频显露, 并通过三维卷积操作从空间和时期维度索取清爽特征. 由于大多数特地检测数据集仅包含外不雅特地或不天然的清爽特地, 因此, 作家还从无数真实寰宇的交通监控视频中采集了一个新的数据集. Chong等东说念主[151]提倡了一种适用于拥挤场景视频特地检测的新架构, 该架构主要包括两个组件: 视频空间特征索取器和时期编码器-解码器, 分别用于显露视频空间特征和学习视频空间特征的时期演变. 文中仅使用由正常场景组成的视频数据进行端到端模子教学, 方针是使学习模子所重构的输入视频与输出视频之间的重构错误最小. 模子经过教学后不错学习正常场景的时空特征, 是以对于正常视频的重构错误较小, 而由特地场景组成的视频重构错误相对较大. 通过无数考据实验不错笃定统一的特地阈值, 最终完成测试视频的特地检测以及特地定位. Ma等东说念主[58]经受不详而灵验的最隔邻法来处理不轸恤况下的轨迹特地检测问题, 文中提倡了一种新的轨迹相似性度量方法, 该方法基于RNN构造的自编码器来计较轨迹之间的距离. 自编码器用来拿获轨迹的动态特征, 轨迹之间的距离由学习模子的重构错误界说, 然后, 欺骗文中提倡的相似性度量模范, 完成基于最隔邻的轨迹特地检测. 为了评估轨迹间距离对不同特地类型的明锐性, 文中度量了6种特地轨迹模式与正常轨迹的相似性, 常见的特地模式包括: 轨迹平移、轨迹偏离、逆向行驶、回路行驶、恭候住手、斯须加速. 文件[58]另一个首要孝顺是引入了4种真实场景交通轨迹数据集并手动进行了特地标注, 这对轨迹特地检测研究具有首要的使用价值.
Bouritsas等东说念主[152]提倡了一种Seq2Seq (sequence to sequence)架构用于实时检测行东说念主特地轨迹. 在该方法中, 行东说念主轨迹通过基于LSTM的自编码器进行显露, 编码器集中将每条轨迹样本的信息编码到隐空间, 即特征相似的轨迹在隐空间中距离较近. 解码器通过使用从隐空间采样的输入来学习生成重构轨迹. 通过最小化输入轨迹和重构轨迹之间的距离, 不错对模子进行离线教学. 接着, 预教学好的模子不错径直用于在线检测任性轨迹段中的特地. 现存的大多数轨迹特地检测算法不成处理轨迹数据的复杂性和各样性, 也不支抓在线高效的特地检测, 为了治理上述挑战, Liu等东说念主[13]提倡了一种基于深度生成模子的轨迹特地在线检测方法, 即高斯夹杂变分序列自编码器GM-VSAE. GM-VSAE模子能够拿获包含在轨迹中的复杂步调信息, 从轨迹中发现不同类型的正常旅途, 并将它们显露在一语气的隐空间中, 支抓高效的在线特地检测. 由于艰苦可用于轨迹特地检测的标记数据, 为了幸免手动标记特地, 文中将生成的两种特地轨迹注入数据集进行算法评估. Fan等东说念主[153]提倡了一种端到端的高斯夹杂全卷积自编码器模子GMFC-VAE来检测视频中的特地步履. GMFC-VAE模子的基本想想是正常样本不错与高斯夹杂模子的至少一个高斯重量相干联, 而不成与任何高斯重量相干联的测试样本则被识别为特地. GMFC-VAE编码器-解码器结构经受全卷积集中(fully convolutional network, FCN), 以保抓输入视频帧图像和输出特征映射之间的相对空间坐标. 基于各高斯夹杂重量的搭伙概率, 文中提倡了一种基于样本能量的图像测试块特地评分方法. Li等东说念主[154]提倡了一种名为ST-CaAE的级联分类器用于检测监控视频中的特地步履, 该分类器包括时空对抗自编码器ST-AAE和时空卷积自编码器ST-CAE两个自编码器模子, ST-AAE和ST-CAE不错充分欺骗来自视频数据的时期和空间信息. 此外, 文中还经受一个双流框架来交融外不雅和清爽特地, 以获取更齐备的检测闭幕. 智能交通系统和自动驾驶系统的通讯和计较部件很容易受到黑客期间的蜿蜒与毁坏, 从而导致威迫生命的安全问题. 为此, Ashraf等东说念主[32]面向智能交通系统提倡了一种基于深度学习的入侵检测系统(intrusion detection system, IDS), 该系统瞎想了基于LSTM的自编码器模子来识别自动驾驶系统中的黑客入侵事件, 不错发现车载集中、车辆之间通讯以及车辆与基础设施集中中的特地行动.
通过分析监控视频中清爽对象的轨迹不错领略其步履, Santhosh等东说念主[155]提倡了基于卷积神经集中(convolutional neural network, CNN)和变分自编码器(variational autoencoder, VAE)的轨迹特地检测模子来识别常见的交通特地. 通过教学CNN-VAE夹杂集中模子进行轨迹分类和特地检测. 在公开的监控视频数据集上的实验闭幕标明, 文中瞎想的夹杂模子不错奏效地识别常见的交通特地, 如车辆不遵命车说念行驶、遽然发生速率变化、遽然住手行驶、行驶场所造作等. 海上运输船舶的特地轨迹可能会导致千里船事故, 形成巨大的经济损成仇东说念主员伤一火. Hu等东说念主[156]提倡了一种基于迁徙学习的轨迹特地检测计策TLTAD. 在TLTAD中, 基于LSTM的变分自编码器用于索取正常轨迹之间的潜在筹谋, 而图变分自编码器用于探索正常轨迹之间的空间相似性. 然后, 将迁徙学惯用于减少模子教学时期, 并开发了一种高效的数据集更动机制来提高模子迁徙效率. 为了让自动驾驶汽车快速识别周围的特地驾驶情况以幸免交通事故, Wiederer等东说念主[157]提倡时空图自编码器STGAE来学习正常的驾驶步履. 为了进行轨迹特地检测, 领先对STGAE学习的轨迹特征显露进行核密度忖度, 然后在低密度区域检测特地. 由于艰苦用于自动驾驶中特地检测的多智能体轨迹数据集, 文中还开发了一种多智能体交通模拟器, 并基于此模拟器创建了包含正常和特地驾驶步履的数据集MAAD, 然后在该数据集上考据了STGAE方法对轨迹间交互作用的建模智力以及特地检测效果. 连年来, 跟着城市智能交通与监控系统的普及, 自动驾驶车辆的特地步履检测受到了越来越多的温煦. 关联词, 面前存在的主要挑战是: (1) 艰苦豪阔的轨迹数据来教学灵验的特地检测模子; (2) 无法获取涵盖统共可能特地类型的轨迹数据. 天然第1个挑战不错通过万古间的轨迹数据采集来治理, 但对于第2个挑战而言, 需要从数据采集和算法瞎想的角度动身, 开发愈加鲁棒的特地检测模子. 为此, Islam等东说念主[158]为监控视频数据中的特地检测提供了一个高效而鲁棒的框架, 并提倡了一种交融2D-CNN和RNN的夹杂模子. 具体来说, 该夹杂模子使用CNN算作输入视频的特征索取器, 然后输入到基于RNN的自编码器进行序列学习和特地检测. 同期, 该模子是轻量级的, 不错确保其在旯旮开导中的适用性.
自编码器和变分自编码器等基于数据重构的方法不错对不同类型的数据径直进行处理, 通用性较强, 自编码器模子的不同变体步地也不错用来进行特地检测. 关联词, 在正常数据上教学的自动编码器模子不成充分重构特地数据的假设需要通过教会进行评估. 另外, 数据重构的方针函数主要用于降维或数据压缩, 而不是特地检测. 因此, 最终得到的数据显露是对潜在法律解释的一般总结, 这些法律解释并莫得针对特地检测问题进行优化.
生成对抗集中GAN是由Goodfellow等东说念主[145]在2014年提倡的一种生成式模子, 它不错笔据从教学数据中不雅察到的数据分散来生成样本. 与上文先容的自编码器模子不同, GAN集中模子包含生成器和判别器两个相互对抗的神经集中, 从而将博弈论的想想引入到无监督学习中. 简化的GAN集中结构如图11所示, 通过教学生成器$ G $来学习函数$ G:Z \to X $, 即教学数据从潜在空间$ Z $到原始数据空间$ X $的映射. 输入生成器的噪声$ {\textit{z}} $ ($ {\textit{z}} \in Z $)基本遵照均匀分散, 是以不错从$ Z $进行采样以生成新的样本$ G({\textit{z}}) $. 违反, 教学判别器$ D $的目的是区分来自$ X $的真实样本和生成样本$ G({\textit{z}}) $. 因此, GAN最终学习到的函数是$ D:X \to [0, 1] $, 以便判别器忖度出输入样本属于教学数据给出的真实数据分散的概率. 在教学过程中, 通过最小-最大博弈$ {\mathrm{min}}_{G}{\mathrm{max}}_{D}V(D, G) $对生成器$G $和判别器$ D $进行优化, 文件[145]中界说的耗损函数如公式(11).
青萆橾在线视频 图 11 生成对抗集中结构 $ \underset{G}{\mathrm{min}}\underset{D}{\mathrm{max}}V(D, G)={\mathbb{E}}_{x\sim {p}_{\rm data}(x)}[\mathrm{log}D(x)]+{\mathbb{E}}_{{\textit{z}}\sim {p}_{{\textit{z}}}({\textit{z}})}[\mathrm{log}(1-D(G({\textit{z}})))] $ (11)GAN教学过程中, 生成器$ G $试图“诳骗”判别器$ D $将生成的样本$ G({\textit{z}}) $分类为真实样本, 而判别器$ D $则试图将统共样本正确分类. 表面上, 这两个集中的抓续对抗教学不错产生高质料的样本, 使得判别器$ D $无法区分生成样本和从原始数据分散中抽取的样本.
一般来说, GAN具有以无监督的阵势从任性领域学习数据的潜在特征的智力, 如在图像生成、图像更动、视频预测、视频生成等任务上均得到了庸碌应用. 因此, GAN也算作一种流行的深度特地检测方法, 不错用于检测多元数据中的特地模式. 基于GAN的轨迹特地检测方法通俗旨在学习生成器集中$ G $的潜在特征空间, 使该潜在空间能够很好地拿获给定轨迹数据包含的正常属性, 然后将真实轨迹与生成轨迹之间某种步地的残差界说为特地评分. 具体来说, 在教学阶段, GAN集中学习正常轨迹的数据分散, 即得到的集中模子只可生成或重构正常轨迹. 在测试阶段, 将立地采样的噪声向量和待检测轨迹算作输入, 然后欺骗教学好的GAN模子对待检测轨迹进行重壮盛成. 需要醒目的是, 此时GAN集中中生成器的参数是固定的, 即模子只可生成落在正常数据分散的轨迹. 如果生成的待测轨迹和原始输入一样或者接近, 标明待检测轨迹为正常轨迹, 不然是特地轨迹. 图12展示了基于GAN偏执变体的轨迹特地检测方法发展端倪. 底下, 本文按照时期步调对基于GAN偏执变体的轨迹特地检测代表性方法进行态状与分析.
图 12 基于GAN偏执变体的轨迹特地检测方法发展端倪为了拿获轨迹数据的时序信息, 同期辩论特地检测过程中可能出现的数据荒芜性问题, Song等东说念主[159]提倡了一种基于RNN的特地检测方法ATD-RNN. ATD-RNN欺骗RNN拿获轨迹的序列信息并态状特地轨迹与正常轨迹之间的内在特征, 通过扩张无数历史轨迹来缓解潜在的数据荒芜性问题. 需要醒目的是, 实验部分轨迹数据经受了聚类算法对轨迹进行分档次聚类以获取标签信息, 而不是手动标记特地. 文件[159]解说了RNN不错灵验地对轨迹数据进行时序建模, 受此启发, Cheng等东说念主[14]改进了ATD-RNN模子并提倡了一种新的轨迹特地检测算法ST-RNN. ST-RNN克服了传统轨迹特地检测方法不成灵验欺骗整条轨迹信息的问题, 而且在特地检测过程中不需要一语气查询数据集, 缩短了计较复杂度和空间资源徒然. ST-RNN还引入了耀见识机制, 耀见识机制不错自动挖掘历史轨迹上的有价值信息, 提高轨迹显露的质料, 在一定程度上幸免了RNN中的长期依赖问题. Zhang等东说念主[160]提倡了一种基于时空数据的瓦解方法来检测城市特地, 实时幸免由大范围东说念主群聚拢或交通事故等特地事件形成的生命和财产耗损. 该方法将时空特征输入全贯穿神经集中来忖度正常城市动态, 并通昔日除真实动态中的正常重量来获取特地城市动态. 在特地评分模块中, 将索取的特地重量输入通用特地检测器, 对特定时段和区域内的特地程度进行评分.
Nawaratne等东说念主[161]提倡了一种增量时空学习器ISTL来治理实时视频监控中的特地检测和定位问题. ISTL是一种无监督的深度学习方法, 它不错跟着时期的推移主动学习正常步履的时空模式. 如果检测到的视频帧为特地, 则将分类后的帧发送给东说念主类不雅察者进行考据, 在东说念主类不雅察者反馈之后, 标记为正常的视频帧将被用来一语气教学ISTL模子, 并更新对于正常视频的特征信息, 是以, 东说念主类不雅察者反馈的目的是主动地向学习模子提供动态变化的正常步履. Ji等东说念主[162]创新性地提倡基于LSTM预测集中的Seq2Seq轨迹建模方法SL-Modelling, 以及基于时空和语义信息的特地轨迹检测方法. 基于LSTM的特征索取模块不错径直得到不同长度正常轨迹的序列信息, 用于后续特地检测. 然后, 引入Hausdorff距离[81]和语义好奇序列的办法, 充分欺骗轨迹的时空和语义信息. 终末, 计较模子预测闭幕与待检测轨迹的时空和语义相似度, 将两种相似度度量的加权值与阈值进行比较, 以检测特地轨迹. Smolyak等东说念主[163]辩论将GAN应用于挪动数据以生成真实的车辆轨迹和速率分散. 现存的基于GAN的特地检测算法通俗无法处理多模态数据, 为此, 文中引入了无穷高斯夹杂模子IGMM[164]以及双向GAN集中BiGAN[165], 并提倡了使用IGMM改进的GAN特地检测模子IGMM-GAN, 以同期生成真实的轨迹数据和检测特地. 笔据忖度的多模态密度, IGMM-GAN还不错进一步对特地值进行界说. Dias等东说念主[166]从概率密度忖度的角度来处理轨迹数据分析任务, 提倡了一种带归一化流的团员特地检测方法GRADINGS. GRADINGS使用归一化流方法为每个轨迹段忖度概率密度, 预计被判定为正常的轨迹段比特地的轨迹段领有更高的概率密度忖度. 然后, 将这些段的概率密度团员成统一的轨迹特地分数.
面前, 基于深度学习的监控视频特地检测方法基本欺骗了视频中有限的时期信息, 如一语气清爽帧之间的光流信息等. Madan等东说念主[167]辩论使用轨迹的长期依赖来进行特地检测, 并提倡了一种基于轨迹预测的特地检测方法. 领先, 通过在两个常用的数据集Shanghai-Tech[70]和CUHK Avenue[73]上运行追踪器来获取轨迹. 然后, 假设通过交融基于时期的特地检测系统和基于空间的特地检测系统能够达到最优的检测效果, 并在两个基于空间的特地检测方法上考据了该假设. 遨游轨迹容易受到天气、空域欺骗率、遨游员知道等各式复杂因素的影响, 为了保证航空空间的安全, Aksoy等东说念主[168]提倡了一种夹杂模子对遨游轨迹进行特地检测. 该夹杂架构由自编码器和GAN两部分组成. 自编码器中编码器妥协码器部分均由LSTM已毕, 特地检测由GAN集中完成, GAN能够拿获历史遨游轨迹的分散, 在生成器部分生成时期步调依赖的轨迹, 而判别器则笔据分类错误预测轨迹特地趋势. Fu等东说念主[169]提倡了一种基于双向LSTM (bi-directional LSTM, Bi-LSTM)和耀见识机制的轨迹特地检测算法, 该算法的中枢想想是将轨迹特地点检测问题滚动为有监督的二分类问题. 模子举座输入是具有一定长度的轨迹点, 输出为轨迹点类型, 该模子能够自动学习具有清爽特征的正常点与相邻特地点之间的互异. Doshi等东说念主[170]提倡了一种基于车辆检测和配景建模的交通视频特地检测方法. 文中使用高斯夹杂模子领先排斥场景中的挪动车辆. 然后, 使用预教学的语义分割模子来排斥泊车场中的车辆和一些造作检测. 欺骗回溯特地检测算法计较检测区域的结构相似性统计量, 以笃定特地发生的时期. 轨迹特地检测还不错用来识别出租车司机的欺骗步履, 对于出租车干事, 一般不错通过驾驶时期和驾驶距离两个方针来预计司机是否存在欺骗步履. 为了提高特地检测的精度, 准确识别司机的违规步履, Qian等东说念主[36]提倡了一种基于时空关系的在线特地出租车轨迹检测方法STR. STR的基本想想是给定从着手至极度的位移, 当乘客行程运行时, 位移应该不停加多, 如果行驶时期和行驶距离不在正常范围内, 则位移可能不会遵命这一趋势, 因此将该轨迹识别为特地. 在真实出租车轨迹数据集上的评估标明, STR具有更低的误检率和更短的检测时期, 成心于在线检测特地轨迹.
基于GAN的轨迹特地检测方法优点在于现存无数可用的GAN相干的模子和表面, 而且GAN在生成正常轨迹方面阐扬出了雅致的性能, 这增强了模子检测从隐空间重构的特地轨迹的智力. 然而, GAN集中的教学过程往往存在管制较慢、模式崩溃等问题, 导致特地检测模子的教学难度较大. 生成器集中可能会被误导, 并生成正常轨迹分散外的数据实例, 特别是当给定数据集的真实分散很复杂或者教学数据包含无数特地值时. 另外, 基于 GAN 的特地评估分数可能是次优的, 因为它们建立在生成器集中上, 主要方针是为了数据合成, 而不是特地检测. 基于模式学习的特地检测方法不错克服传统特地检测方法对轨迹分散密度和相似性度量的依赖, 深度学习模子有助于治理轨迹特征索取、高维数据和非结构化数据处理等问题, 不错更灵验地检测大范围数据中的特地值. 此外, 基于模式学习的方法不需要炫夸地界说轨迹的正常模式和特地类型. 基于模式学习的方法计较复杂度与模子结构密切相干, 一般来说, 深度特地检测模子计较支拨相对较大. 基于深度学习的特地检测期间仍处于探索阶段, 在改日研究中具有广漠的应用出路.
4.3 基于算法职责阵势笔据轨迹特地检测算法的职责阵势, 不错把统共的方法分为离线特地检测方法和在线特地检测方法. 第4.1节和第4.2节中早期的多数特地检测方法齐是为离线学习而瞎想的, 在离线方法中, 统共的教学轨迹数据从算法瞎想运行就假设是可用的, 笔据一批教学数据, 对固定的模子参数和特地阈值进行最终忖度和优化, 然后反复用于其他数据集的特地轨迹检测. 比较之下, 瞎想用于在线学习的特地检测算法, 在不雅察到每个新的教学轨迹时增量地更新模子参数. 离线学习算法的计较复杂度通俗比在线算法高, 这可能会截止离线算法在施行场景中的应用. 另外, 离线算法只可检测到轨迹中的特地点, 而通过在线学习的特地检测算法不错识别出引起轨迹特地的子轨迹.
4.3.1 离线轨迹特地检测方法为了从出租车的GPS轨迹中发现特地的驾驶模式, 自动检测出出租车欺骗步履, Zhang等东说念主[35]提倡了一种基于艰涩的轨迹特地检测算法iBAT. iBAT由轨迹数据预处理和特地检测两个方法组成. 在预处理阶段, 将城市舆图分裂为大小相配的网格单元, 并将统共穿越同沿途点-目的地单元对的轨迹进行分组. 在特地检测阶段, iBAT莫得使用基于距离或密度的度量方法, 而是通过引入自适当的艰涩丛林iForest[171], 从无数阐扬相似的轨迹中找出不章程的特地实例. 通过分裂轨迹汇注直到统共的轨迹齐被艰涩已矣来生成立地树, 立地树的生成过程为隔分手常轨迹提供了更短的旅途, 最终iBAT将以较少方法迅速艰涩的轨迹识别为特地. 相同针对出租车欺骗检测问题, Zhou等东说念主[172]提倡了另一种类型的特地轨迹检测方法, 专门用于检测出租车司机在未激活计价器的情况下搭载乘客的步履. 该方法的基本想想是欺骗出租车轨迹数据和计价器记载, 通过将轨迹中的每个点与计价器记载相匹配, 寻找未被计价器记载但与老例计价器行程相似的驾驶轨迹. 在真实出租车轨迹数据集上的实验闭幕标明, 该方法不错灵验地检测未激活计价器的情况下出租车特地运行的次数.
4.3.2 在线轨迹特地检测方法在线轨迹特地检测算法对轨迹数据或视频监控系统中的事件进行在线实时辰析, 算法反适时较低, 能够实时完成特地步履的检测, 在线特地检测方法通俗比离线方法具有愈加庸碌的应用. 然而当轨迹范围较大时, 在线方法可能会出现检测漏报或误报的景色.
Chen等东说念主[43]在iBAT[35]方法的基础上进行了改进, 提倡了基于艰涩的在线轨迹特地检测算法iBOAT. iBOAT算法的方针是实时地发现特地出租车子轨迹, 并辅导潜在的欺骗步履, 幸免乘客在行程中走不消要的弯路. iBOAT主要分为两个方法, 领先, 在预处理阶段, 文中对出租车轨迹的处理方法与文件[35]调换, 最终, 将特地轨迹检测问题滚动为从具有调换着手-极度单元对的统共轨迹中寻找特地轨迹的问题, 并将少数不同于正常轨迹簇的轨迹界说为特地. 然后, 在特地检测阶段, iBOAT算法基于艰涩轨迹的想想, 欺骗自适当窗口计策检测特地轨迹, 即特地子轨迹与大多数轨迹艰涩, 而正常轨迹将会由无数的轨迹点复古, 轨迹的复古点越少, 其特地程度就越高. 具体来说, iBOAT通过保重一个最新传入的轨迹点的自适当窗口来与历史轨迹集进行比较. 当自适当窗口加多一个新的轨迹点时, 通过删除与自适当窗口中子轨迹不一致的轨迹来修剪历史轨迹集. 只消自适当窗口中子轨迹的复古点在特地阈值以上, 该窗口中就会不停加多新的轨迹点. 如果复古点下落到特地阈值以下, 则自适当窗口将减少到只包含最新的轨迹点. 终末, 笔据特地子轨迹的长度和密度计较出一个即时特地分数, 以实时判定特地轨迹偏离正常轨迹的程度.
现存的出租车轨迹特地检测方法如iBAT[35]和iBOAT[43]本色上齐是经受基于计数的计策来区分轨迹类别. 为了检测城市出租车欺骗步履, Han等东说念主[173]提倡了一种基于深度概率模子的在线轨迹特地检测方法DeepTEA. DeepTEA经受CNN拿获不同地点的交通各样性特征, 由于交通景色实时通常变化, 该方法还使用RNN模子来建模不停变化的交通动态. 为了实时检测特地步履, 减少算法教学的时期本钱, 文中提倡了DeepTEA的快速版块, 支抓在新的轨迹点到来时更新特地评分.
详尽上述轨迹特地检测现存研究不错发现, 特地检测问题复杂的本性给传统的轨迹特地检测方法和面前庸碌使用的深度学习方法带来了许多检测挑战. 一些常见的挑战包括艰苦可供学习的带标签数据、特地检测调回率低、在线特地检测、抗噪声特地检测以及可解释的特地检测等. 从前文研究近况分析中得知, 连年来部分挑战性问题还是得到很好的治理, 其中也不乏一些代表性的方法. 举例, 为了在线处理轨迹数据的复杂性和各样性, 面前主流的想想是基于轨迹模式学习[13,152,157], 通过深度神经集中灵验学习轨迹数据的时空特征, 动态更新特地检测模子, 以适当不停变化的数据模式,或者使用自适当方法来处理新的特地类型. 为了治理带标签轨迹数据匮乏的问题, 通俗不错通过采集或者东说念主工标注的方法获取特地轨迹数据集[14,35,43,44,58], 也有部分研究借助交通流仿真模拟算法生成带特地轨迹的数据集[13,45,46], 这在很大程度上不错省俭手动标注形成的东说念主力和时期本钱. 而在艰苦准确特地轨迹标签的情况下, 最灵验的想路是瞎想无监督或弱监督[61]的方法, 如基于聚类的方法[74,77]或者基于生成模子的方法[49,75,151]来完成轨迹特征学习与重构, 通过对比重构错误判断特地轨迹. 传统基于距离和密度的轨迹特地检测方法往往调回率很低, 跟着机器学习[113,115]和深度学习方法[163,169]的不停发展与应用, 轨迹特地检测的调回率得到了权贵的擢升. 终末, 有的轨迹特地检测闭幕普遍艰苦可解释性, 为了提高特地检测的可解释性, 不错使用特征选拔和特征工程期间[40,53,77], 充分辩论车辆速率、加速率、场所变化等特征. 另外, 可视化亦然提高模子方法可解释性的有劲器用, 不错通过绘图实时轨迹数据分散图、热力求、时期序列图等阵势已毕轨迹数据可视化[54–56], 以便更直不雅地领略特地检测闭幕.
5 轨迹数据集、特地检测评估方针、开源器用 5.1 轨迹特地检测方法详尽分类为了更直不雅地对比第4节中总结剖析的轨迹特地检测方法, 本文在表3中对具有代表性的算法进行了详尽分类(按照第4节汉文件援用的先后步调), 以匡助相干研究东说念主员快速了解特地检测领域的研究近况.
表 3 轨迹特地检测方法分类通过表3不错不雅察到: 大多数轨迹特地检测方法在无监督模式下运行, 即使存在少量有监督或半监督方法, 数据标签亦然通过东说念主工或算法标注来获取; 在轨迹特地检测研究初期, 研究者们主要温煦基于距离、密度以及统计的方法. 跟着机器学习表面的不停熟谙, 基于分类、聚类以及图论的方法渐渐被提倡. 近几年由于深度学习期间在各式应用领域的普及, 基于轨迹模式学习的特地检测方法数见不鲜; 从表3还不错看出, 现存方法基本以离线检测阵势为主, 在改日的研究中, 不错对在线特地检测方法进行深入研究; 从交通和遨游轨迹特地检测到监控视频中的特地事件识别, 轨迹特地检测算法齐施展了首要作用.
5.2 开源轨迹数据集由于采集大范围带标签特地轨迹的难度和本钱较高, 轨迹特地检测研究中最大的阻扰是艰苦真实的特地轨迹数据集. 许多研究东说念主员对真实轨迹数据集通过手动或算法来标记少量的特地轨迹[14, 35, 43, 44, 58, 159], 或者欺骗交通流仿真算法合成部分特地轨迹[13, 45, 46], 以此来评估提倡的特地检测方法. 然而, 合成数据中的特地特征可能与真实特地轨迹不同, 无法充分体现特地检测方法的性能. 是以, 在轨迹特地检测算法评估中, 通俗需要同期使用真实寰宇采集的数据集和合成数据集. 需要醒目的是, 对于真实寰宇的数据集, 出于阴私和安全方面的辩论, 许多数据无法公开走访. 本文表4总结了轨迹特地检测研究中常用的数据集[174–214].
表 4 开源轨迹数据集表4中, 这些数据集涵盖了以各式数据类型呈现的不同应用领域. 文中总结的数据集约莫不错分为5类: 车辆轨迹(汽车、出租车、卡车等)、行东说念主轨迹、遨游器轨迹(飞机、航拍器)、船舶轨迹、其他轨迹(飓风、动物). 车辆轨迹数据集多数采集自各个国度的大城市偏执郊区地带, 特别是东说念主口稠密的地区, 如北京、上海、洛杉矶、纽约等. 连年来, 跟着自动驾驶期间的不停发展, 许多用于无东说念主车测试的数据集(如Argoverse[183]、ApolloScape[184])被接踵提倡, 以提高自动驾驶系统的安全性. 在行东说念主轨迹方面, 除了现存研究中常用的UCY[199]和ETH[200]等代表性数据, 本文还调研了相干新式冠状病毒(COVID-19)患者的行动轨迹数据集, 该部分数据不错为研究东说念主员和政府部门研究疫情传播与防控提供首要的参考. 其他数据如遨游器轨迹、船舶轨迹、飓风和动物轨迹等可用的数据集相对较少. 表4中调研的数据集采集抓续时期从小时到年不等, 采样频率通俗是秒或分钟水平, 轨迹数量由GPS敷陈的轨迹数或轨迹点统计得到, 由于数据聚拢轨迹数量较多, 往往无法获取准确的轨迹条数, 为了浅薄对比, 文中以数量级的步地显露每个数据聚拢的轨迹数量.
5.3 轨迹特地检测评估方针连年来, 对于轨迹特地检测的研究聚拢在引入新的检测方法来缩短误检率和检测时期, 很少有研究提倡更好的检测评估期间. 与传统分类问题比较, 特地检测算法的性能评估更为复杂, 轨迹特地检测本色上属于二分类任务, 为此, 机器学习研究东说念主员还是提供了几种度量方法来评估检测算法的性能[215]. 领先, 笔据轨迹真实标签和模子预测标签的组合情况, 特地检测算法共有4种检测闭幕, 即: 信得过例(true positive, TP)、真反例(true negative, TN)、假正例(false positive, FP)、假反例(false negative, FN), 具体分类情况如表5所示.
表 5 二分类闭幕稠浊矩阵本文总结了常用的特地检测算法评价方法和方针, 包括精度(accuracy, ACC)、准确率(precision, P)、调回率(recall, R)、F1值(F1-score, F1)等. 其中, ACC显露正确分类轨迹数占统共轨迹数的比例, P界说为正确分类的特地轨迹数占统共预测为特地轨迹数的比例, R为正确分类的特地轨迹数占施行特地轨迹总和的比例. 在轨迹特地检测任务中, 正常轨迹数占总和据的比例远远跨越特地轨迹, 而且这类任务的方针是尽可能多地识别到特地轨迹, 是以多数研究方法重心温煦调回率方针R. 另外, 由于F1是一种统一平均数, 它同期辩论了准确率P和调回率R, 是以它对于样本数量不平衡的二分类数据来说是一种比精度ACC更好的度量阵势, F1值越高, 标明模子分类效果越好. 上述评价方针的计较方法如公式(12)–(15).
$ ACC = \frac{{TP + TN}}{{TP + TN + FP + FN}} $ (12) $ P = \frac{{TP}}{{TP + FP}} $ (13) $ R = \frac{{TP}}{{TP + FN}} $ (14) $ {F_1} = \frac{{2 \cdot P \cdot R}}{{P + R}} $ (15)笔据表5所示的稠浊矩阵, 还不错得到另外两个评估方针: 信得过类率(true positive rate, TPR), 未必候也称为灵敏度(sensitivity), 该方针等同于调回率R. 假正类率(false positive rate, FPR), 显露被造作分类的正常轨迹占统共正常轨迹的比例, TPR和FPR的计较方法如公式(16)和公式(17).
$ \mathit{TPR} = \frac{{TP}}{{TP + FN}} $ (16) $ \mathit{FPR} = \frac{{FP}}{{FP + TN}} $ (17)除了上述定量评价方针, 还不错通过绘图方针间的关系弧线来更直不雅地完成特地检测算法评价, 常见的关系弧线有P-R弧线(precision-recall, P-R弧线)和ROC弧线, 分别如图13(a)和图13(b)所示.
图 13 分类模子评价方针P-R弧线以准确率P算作纵坐标, 调回率R算作横坐标, 对于归拢个模子, 通过治愈分类阈值, 不错得到不同的P-R数值对, 从而绘图P-R弧线. 通过计较模子与坐标轴围成的面积大小来比较分类器的性能, 模子与坐标轴围成的面积越大, 则模子的性能越好. 当弧线之间存在交叉情况时, 弧线底下积一般阻难易估算, 是以繁衍出了“平衡点(break-event point, BEP)”的办法, 即当P=R时的分类阈值, 平衡点的取值越高, 模子性能越好, 举例在图13(a)中, 基于BEP的比较觉得模子3的检测性能优于模子2和模子1. ROC弧线又称为接受者操作特征弧线, 弧线对应的纵坐标是TPR, 横坐标是FPR. ROC弧线的绘图过程与PR弧线类似, 弧线上每个点齐对应一个分类阈值. ROC弧线下方的面积叫作念AUC (area under curve, AUC), AUC的值介于0–1之间, AUC算作数值不错直不雅地评价特地检测算法的性能, AUC越大, 代表模子的性能越好. 举例在图13(b)中, 基于AUC的比较觉得模子3的检测性能优于模子2和模子1. 与P-R弧线比较, ROC弧线相对来说更安祥, 当正负样本数量相配的时候, ROC和P-R弧线的闭幕趋势相似, 然而当负样本数量澄澈大于正样本时, ROC弧线的效果通俗优于P-R弧线. 但对于归拢模子而言, P-R弧线和ROC弧线齐不错证实一定的问题, 而且二者有一定的相干性, 因此, 不错借助这两种弧线详尽进行评价.
5.4 轨迹特地检测开源器用为了轨迹特地检测研究效率的快速应用, 而且加速特地检测算法的研究进度, 研究东说念主员针对不同的数据类型和应用场景, 还是开发了许多不错径直使用的特地检测器用. 本文总结了特地检测研究过程中几种常用的开源器用, 相干先容如表6所示.
表 6 轨迹特地检测开源器用不出丑出, 面前轨迹特地检测器用库的选拔还比较有限, 由于大部分特地检测算法齐是无监督学习, 是以对器用包集成开发职责来说存在很大的挑战. 本文先容的几种不同谈话已毕的特地检测器用包基本齐是由研究东说念主员开发的, 是以算法表面性和鲁棒性较强. 总体来看, 基于Python谈话已毕的特地检测器用库相对比较全面, Java和R谈话开发的器用库在轨迹可视化方面得到了庸碌的应用, 另外, 也有研究东说念主员基于Matlab开发了特地检测器用库.
6 轨迹特地检测改日研究趋势预测 6.1 轨迹特地检测系统架构传感器期间和挪动互联网期间的马上发展催生了无数挪动对象的轨迹数据, 这些数据蕴含了车辆、行东说念主、动物的各式步履信息, 不错形容挪动个体和群体的时空动态性, 同期对城市说念路交通、车辆驾驶步履监控、东说念主群聚拢性事件检测等应用具有首要的价值. 为了已毕真实轨迹数据的欺骗价值, 连年来, 学术领域和工业应用领域针对轨迹数据预处理、轨迹数据存储管理、轨迹特地检测等问题开展了无数研究职责, 并形成了一套相对完备的轨迹数据挖掘进程. 图14态状了轨迹特地检测系统架构, 该架构由4个档次组成, 包括轨迹数据采集和预处理、轨迹可视化、轨迹特地检测、轨迹特地检测扩充与应用. 欺骗日益熟谙的定位感知期间, 不错获取各式类型挪动个体的轨迹数据, 领先需要对采集的原始轨迹数据进行预处理, 包括轨迹清洗、轨迹分段、轨迹压缩等操作, 通过预处理过程不错减小轨迹数据冗余, 缩短数据存储范围, 接着使用索引结构将轨迹数据进行高效地存储管理. 然后, 为了便于进一步研究与分析已存储的轨迹数据, 通俗使用可视化器用将其直不雅地展现出来. 接着, 针对不同类型、不同场景的轨迹数据, 瞎想合适的特地检测算法, 对表率化的轨迹数据进行索取并完成特地检测. 终末, 邻接可视化的特地检测闭幕, 分析不同场景下的轨迹数据信息和个体步履模式.
图 14 轨迹特地检测系统架构底下简要先容图14所示系统架构的内容与操作.
(1) 轨迹数据采集和预处理
通过GPS或挪动终局开导不错实时探伤车辆、行东说念主、动物等个体的挪动状态并采集局部位置信息, 然而原始轨迹数据采集过程可能会受开导故障、传输信号欠安等因素影响, 导致采集到的轨迹包含噪声数据或者存在位置漂移等特地, 是以, 在轨迹数据挖掘相干任务之前, 需要进行大范围数据预处理. 通俗来说, 轨迹数据预处理包括以下操作: 数据清洗、数据分段、数据压缩、停留点检测以及舆图匹配. 数据清洗的目的是从轨迹上去除一些可能由定位系统的弱信号引起的噪声点和冗余点, 这些点不仅会加多后续轨迹数据存储的范围, 还会给检测精度带来较大影响. 轨迹分段目的是笔据前后轨迹点的距离和时期断绝进行轨迹段的分割, 保证归拢轨迹段在时空上具有一语气性. 轨迹压缩是在保抓轨迹基本形态的同期, 对轨迹症结神色点进行索取, 以此已毕轨迹长度压缩, 同期不错减少数据存储的支拨. 停留点检测通过算法识别清爽物体在一定距离阈值范围内停留一段时期的位置, 停留点一般代表了轨迹途中的标志性建筑或景点等, 是以比轨迹中的其他点承载更多的语义信息. 轨迹舆图匹配将轨迹上的每个点投影到该点施行对应的舆图路段上, 这不错匡助修正轨迹数据的精度, 舆图匹配操作一般针对车辆轨迹数据. 通过上述轨迹预处理操作, 已毕了对原始轨迹数据的质料擢升. 接着, 将各式挪动物体的轨迹数据按照不同的神色存储到方针轨迹数据库. 跟着城市交通轨迹数据量越来越纷乱, 特别是在北京、纽约、东京等大城市. 传统的关系型数据库由于数据存取效率较低, 无法满足海量轨迹数据的存储管理需求. 因此, 在处理大型交通数据时, 不错借助不同领域的先进期间: 高性能计较 (high performance computing, HPC)[219]通过使用高端硬件开导或将多个孤独单元的计较智力进行整合, 并欺骗并行架构加速治理决策, 以此来处理模范计较开导无法完成的数据密集型计较任务. 面前比较流行的并行架构有图形处理器 (graphics processing unit, GPU)[220]、超等计较机集群[221]、MapReduce[222]、Spark[223]等. 连年来, 学术界和工业界还是开发了高效的分散式数据库系统(distributed database system, DDBS)来存储管理轨迹数据, 将轨迹存储为一系列时期一语气的点, 而且不错实行搜索、对比等轨迹高级查询功能.
(2) 轨迹可视化
轨迹可视化是轨迹数据挖掘系统不可短缺的部分, 通过轨迹可视化不错直不雅地炫夸轨迹数据的分散与走向, 同期不错加强特地轨迹数据的可解释性. 常用的轨迹可视化方法有地舆信息系统(geographic information system, GIS)、舆图应用标准编程接口(application programming interface, API)、图形用户界面(graphical user interface, GUI)等. 主流的GIS软件有ArcGIS和QGIS, 通过集成开发环境不错成立各式可视化参数. 百度舆图、腾讯舆图、高德舆图等位置干事商面向用户提供的API能够已毕在线轨迹可视化. 同期, 也不错笔据不同的场景需求, 基于Python、Matlab、R等谈话自主开发GUI标准, 完成轨迹可视化分析. 另外, 在时空数据可视化渲染方面, 也走漏出了许多优秀的应用软件, 如ECharts、Mapv、MapBox GL、Leaflet等.
(3) 轨迹特地检测
轨迹特地检测是从轨迹存储管理系统保存的表率化轨迹数据中找出与通常出现的轨迹模式不同的数据, 不错是在某些相似度方针上与其他数据权贵不同的轨迹, 也不错是不安妥预期模式的不雅察事件等. 轨迹特地检测方法的基本瞎想原则是针对特定的应用场景, 算法在时期效率和空间支拨方面须要满足一定的条目. 笔据不同的瞎想旨趣与想想, 常见的特地检测算法有基于距离或密度度量的方法、基于轨迹分类或聚类的方法、基于轨迹本性统计的方法、基于静态图或动态图的方法以及基于轨迹模式学习的方法等. 同期, 笔据特地检测算法的职责阵势, 通俗不错瞎想离线方法和在线方法. 为了充分施展轨迹特地检测的服从, 在施行扩充应用中, 应该瞎想响应速率更快、具有实时处忠良力的在线方法. 需要醒目的是, 上述方法齐不错通过有监督、半监督、无监督等阵势来已毕.
(4) 轨迹特地检测应用
轨迹特地检测不错用于发现说念路交通事故、分析视频监控步履、预警城市聚拢事件以及识别出租车欺骗步履等. 另外, 轨迹特地检测在自动驾驶导航、动物习性分析、天然气象预测等方面也有庸碌的应用. 邻接轨迹可视化闭幕, 将检测到的特地轨迹应用于上述领域, 进一步分析不同场景下的轨迹数据信息和个体步履模式.
6.2 轨迹特地检测研究趋势预测轨迹特地检测研究具有首要的理讲价值和实践真谛, 本文对近20年来轨迹特地检测领域取得的研究效率进行了全面综述与分析, 从综述内容不错看出, 尽管轨迹特地检测期间取得了长足的进展, 但由于轨迹数据的专有性和复杂性, 给数据驱动的轨迹特地分析带来了基础和表面上的挑战, 在轨迹特地检测研究和应用方面仍然存在许多绽放性问题有待治理. 底下, 本文强调了几个症结的绽放性问题, 并提倡了轨迹特地检测改日研究的一些潜在方法和想想, 但愿对相干研究东说念主员提供有用的参考与率领.
(1) 大范围特地标注轨迹数据集与可视化
数据是一切研究的基础, 由于艰苦大范围带标签的特地轨迹数据, 现存轨迹特地检测职责聚拢在不需要任何标记数据的无监督方法, 也有部分研究东说念主员通过手动标记或合成数据来获取带标签轨迹. 关联词, 特地轨迹数据在现实寰宇中的产生机制是极其复杂各样的, 仅通过不详的标注章程险些不成模拟真实寰宇中的特地步履, 是以, 该领域需要更多具有挑战性的标注数据集来促进相干特地检测期间的发展. 在瞎想特地检测算法的同期, 有必要采集大范围的真实特地轨迹数据, 然后邻接监督或半监督等方法, 开发泛化性能较高的特地检测模子.
跟着智能终局感知开导数量的急剧加多, 在改日的研究中, 不错充分欺骗5G、云计较、旯旮计较等期间, 使计较处理和数据存储更聚集轨迹数据生成的位置, 实时采集处理交通轨迹, 已毕轨迹数据的大范围采集与限定, 同期还不错缩短东说念主工采集与标注本钱. 另外, 跟着高分遥感、北斗卫星、物联网等期间的不停熟谙, 说念路交通舆图由传统导航舆图鼎新为了高精度舆图. 高精度舆图不错更准确更全面地体现交通特征, 同期记载交通轨迹的详备信息, 如轨迹行进状态、轨迹周围环境、轨迹属性变化、说念路属性等, 是以, 借助高精度舆图丰富的交通元素, 也不错采集大范围轨迹数据偏执标注信息. 另外, 奈何对智能终局开导产生的海量轨迹数据进行灵验的采集、存储、查询、分析亦然当前研究中的热门问题. 跟着用户对轨迹数据存储的要求越来越高, 由于传统的关系型轨迹数据库表结构和数据类型过于固定, 还是难以满足时空轨迹数据的存储和管理需求. 而大范围时空数据库能够存储、管理时期序列以及空间地舆位置相干的数据, 而且不错同期处理轨迹数据的时期和空间属性, 易于集成、适用场景庸碌. 面向轨迹挖掘与分析的时空数据库需具备高性能计较、高可靠干事、多场景支抓、低存储徒然的智力, 针对上述问题与需求, 奈何瞎想高效的时空数据库索引和查询优化方法、提高分散式时空计较智力、已毕GPU加速等齐是改日亟待研究的内容.
轨迹数据可视化对特地检测与其他轨迹挖掘任务齐具有首要的应用价值, 面前轨迹可视化方法与器用基本完成了二维空间平面内的轨迹展示, 跟着研究需乞降可视化期间的渐渐提高, 在改日不错基于高精度舆图开发更直不雅的三维轨迹可视化系统, 通过多维数据展示与管理, 为轨迹挖掘任务提供全面的数据分析和高效的实时交互. 同期, 为了高度复原轨迹行进过程, 还不错借助游戏引擎渲染、编造现实(增强现实、夹杂现实)体感开导、三维重建等期间技巧, 使三维可视化场景愈加真实传神, 全场所增强轨迹可视化效果. 另外, 跟着计较机视觉、数字孪生等期间的发展, 大致在不远的将来, 元六合下的交通轨迹可视化平台也将成为现实. 最径直的应用即自动驾驶车辆的轨迹监测与驾驶系统安全性测试. 举例, 如果使用真车或真东说念主在元六合中的模拟形象来监测其轨迹状态, 或者径直使用该模拟形象算作自动驾驶系统安全性的测试方针, 这么不错更真实地响应交通个体的清爽模式, 致使在轨迹发生特地的情况下, 比如车辆或行东说念主出现碰撞时, 对行东说念主的伤害程度、说念路交通的拥挤影响以及车辆的损坏程度等信息齐不错得到展示与反馈, 而且, 在元六合中, 可视化平台体现出的车辆轨迹相干的监测和测试数据, 还不错进一步率领现实生涯中车辆的重新分娩与立异, 从而促进自动驾驶期间的发展与应用.
(2) 基于深度学习方法的轨迹特地检测
深度学习方法在拿获复杂的时期、空间依赖关系以及学习轨迹序列特征方面具有优厚的性能, 尽管深度学习方法在轨迹挖掘其他任务上还是奏效应用并扩充, 关联词, 针对轨迹特地检测问题的深度学习方法相对较少. 基于深度学习的轨迹特地检测方法主要想想是通过瞎想高效的深度学习模子来学习正常轨迹和特地轨迹之间的特征互异, 从而完成特地判断. 面前常用的模子架构是自编码器和GAN等生成模子, 一般来说使用正常轨迹教学的模子不错灵验地重构正常轨迹, 而特地轨迹的重构错误较大. 在轨迹挖掘领域, 轨迹特征学习主要在于场景中多条轨迹之间的相互关系建模与交互作用抒发, 大多数方法径直借助LSTM或GRU等RNN模子来完成轨迹时序建模与特征学习.
由于RNN模子在处理数据万古间依赖关系的时候存在一定的局限性, 在改日的研究中, 不错借助图神经集中(graph neural network, GNN)[224]刚劲的数据建模智力, 将场景中的挪动物体看作图的极端, 而挪动物体之间的相互作用通过图中的边进行抒发, 这么即可完成挪动物体间全局交互关系建模以实时空特征学习. 为了减小全局交互建模带来的高复杂度运算, 还不错辩论引入耀见识机制, 通过已毕交融了耀见识的图神经集中(graph attention network, GAT)[225]来对轨迹间相互作用进行建模, 这么不仅不错愈加明确模子需要温煦的轨迹特征, 还不错幸免无数复杂的矩阵运算. 最近, Transformer[226]集中在天然谈话处理和计较机视觉领域取得了冲破性的进展, Transformer模子相同使用耀见识机制来建模数据之间的时期依赖性, 然而, 比较传统RNN模子, Transformer澄澈改善了时期建模效果. 在改日的研究中, 也不错基于Transformer分别瞎想轨迹时期和空间特征学习模子, 然后欺骗自编码器和GAN等架构完成轨迹重构与特地检测. 关联词, 现阶段基于Transformer的模子仅限应用于非结构化数据序列, 无法处理轨迹特征索取过程中的时期-空间关系缚构图, 是以, 奈何将Transformer模子拓展到图等结构化数据, 并径直建模轨迹间相互作用也有待进一步研究. 由于采集大范围带标记特地轨迹数据的难度和本钱, 有监督的特地检测算法往往难以应用, 因此, 还不错借助对比学习的想想, 通过自监督学习幸免对数据集进行无数的标注. 对比学习连年来还是在计较机视觉领域得到了庸碌的研究与温煦[227, 228], 它是一种基于对比想想的判别式显露学习方法, 通过将数据分别与正样本实例和负样本实例在特征空间进行对比来学习样本的特征显露, 主要用来作念无监督的显露学习. 在改日的研究中, 不错充分欺骗对比学习的本性, 邻接自编码器等生成式模子来构建合理的正负轨迹样本, 在检测过程中更好地重构正常轨迹并扼制特地轨迹的重构, 进一步擢升特地检测的效果.
另外, 与传统方法相似, 现存的深度轨迹特地检测方法主要聚拢在单一数据源上, 多模态轨迹特地检测是一个尚未开发的研究领域, 而传统方法难以弥补多模态信息缺失带来的影响. 从表面上讲, 深度学习不错从不同类型的原始轨迹数据中学习特征显露并进行特地检测, 同期能够处理来自不同数据源的轨迹信息来学习统一的特征. 因此, 深度学习为多模态轨迹特地检测提供了期间复古. 在改日的研究中, 不错借助高精度舆图, 同期辩论场景中的动态视觉特征、静态视觉特征以及场景舆图信息等多模态数据来构建深度轨迹特地检测模子.
(3) 在线轨迹特地检测
现存的轨迹特地检测期间大齐是离线学习的阵势, 即模子教学前还是假设统共的轨迹数据齐是已知可用的, 通过不停教学得到最优模子参数, 然后将此模子类似作用于统共待测轨迹, 并完成特地检测. 违反, 瞎想用于在线学习的特地检测算法会跟着每次新的教学轨迹的不雅察而增量地更新模子参数. 在线轨迹特地检测算法对轨迹数据或视频监控系统中的事件进行在线实时辰析, 算法反适时较低, 能够实时完成特地步履的检测. 在线特地检测方法成心于轨迹特地检测的扩充与落地, 是以, 比较离线方法具有愈加深切的研究真谛. 在改日的研究中, 领先, 不错笔据无数正常的历史轨迹教学基础的特地检测模子, 然后, 在特地检测过程中实时在线更新基础模子. 将待测轨迹输入到基础模子, 初步判断其是否为特地轨迹, 若模子判定为特地轨迹, 则对其进行标注, 若判断为正常轨迹, 则将基础模子进行实时更新, 并将该轨迹算作特地检测模子的教学数据, 从而使得模子抓续适当轨迹数据分散的动态变化.
(4) 轨迹特地检测评估与开源器用
面前轨迹特地检测研究齐死力于于开发新的方法来提高检测精度, 但数据挖掘研究的一个主要挑战是奈何灵验评估新瞎想的算法, 面前最常用的评估方法大多基于机器学习二分类评价方针, 如精度、准确率、调回率等, 很少有研究提倡更好的特地检测评估期间. 在改日的研究中, 不错通过引入多维轨迹特征对比, 举例, 对模子检测出的特地轨迹与正常轨迹的速率、加速率、角度、轨迹点个数等特征进行对比, 同期邻接二分类评价方针, 瞎想基于集成方法的评价章程, 从更庸碌的角度对特地检测闭幕进行评估. 需要醒目的是, 大多数研究者对特地检测问题的主要温煦点在于算法的灵验性和实行效率, 是以, 瞎想评估方法时需要辩论诸如数据集大小、数据维度、参数确立等因素的影响.
在轨迹特地检测开源器用方面, 现存的特地检测器用对于输入数据的神色与表率莫得统一的显露, 导致选拔器用时存在一定的局限性, 使用者无法充分欺骗器用库中的特地检测算法. 在今后的器用库开发中, 对于轨迹数据的输入神色亟待进行统一, 或者开发适配性较强的特地检测器用, 以接受不同数据源神色的轨迹. 另外, 现存的特地检测器用大多数基于CPU已毕, 因此, 无法应用于实时高并发的特地检测场景, 在改日有待进一步研究基于高性能并行计较的特地检测器用, 以满足更高的使用需求. 更首要的是, 由于轨迹数据的专有性, 研究过程中不可幸免地会波及地舆、地形、舆图等症结信息, 为了构建安全可控的期间体系, 在轨迹特地检测器用以及可视化系统的研究与开发中, 要注重建筑国产自主可控软件, 信得过已毕轨迹特地检测领域中枢期间国产化.
(5) 可解释的轨迹特地检测
通过轨迹特地检测算法完成特地轨迹识别后, 还需要证实被检测特地的含义, 解释特地产生的原因. 可解释的特地检测方法对于领略模子检测闭幕、减少潜在风险以及采用决策行动至关首要, 同期可解释的反馈也不错增强模子的透明度, 实时发现模子破绽并改进. 关联词, 在无数的文件中, 对于轨迹特地检测的可解释性和实在性的研究相对较少, 到面前为止, 还莫得任何特地检测方法或轨迹挖掘期间不错治理这个问题. 跟着特地检测任务和轨迹数据越来越复杂, 可解释性和实在性的问题变得越来越紧迫, 在改日的研究中, 不错通过辩论轨迹几何神色、轨迹模式、特地发生时期、特地轨迹邻居等周围骚扰因素, 欺骗因果推理方法, 分别研究上述因素对特地检测闭幕的影响, 开发能够进一步揭示特地值含义的算法. 一般来说, 骚扰因素和特地检测闭幕存在一定的因果关系, 即轨迹时空特征索取决定了特地检测闭幕. 因此, 在充分辩论相干骚扰因素的情况下, 以因果关系为依据的特地轨迹判定会愈加具有公说念性和透明性. 基于因果推理的方法不错直不雅地态状轨迹特征变化对特地检测闭幕的影响, 如果需要辩论特地检测模子中相干变量的本色真谛偏执在特地检测过程中的孝顺, 不错借助模子可解释性器用, 举例未知模子的局部解释方法 [229]、SHAP器用包[230]等.
7 总 结轨迹特地检测在视频监控、智能交通、自动驾驶、航空海事、边境安全等诸多领域有着庸碌的应用价值. 由于轨迹数据复杂的时空本性, 导致特地检测中一些常见的贫穷与轨迹数据的性质、特地类型、轨迹数据标签、检测准确率以及计较复杂度相干. 同期, 给传统的轨迹特地检测方法和最新的深度学习方法带来了诸多挑战. 针对面前边临的问题与挑战, 本文全面综述了近20年来轨迹特地检测期间的研究近况和最新进展. 领先, 对轨迹特地检测问题的本性与面前存在的研究挑战进行分析. 然后, 基于轨迹标签的可用性、特地检测算法旨趣、算法职责阵势平分类模范, 对现存轨迹特地检测算法进行了分类与剖析. 对于每一类特地检测期间, 本文从算法旨趣、复杂度、优舛误等方面进行了详备的分析, 并对50余种具有代表性的轨迹特地检测算法进行了详尽分类. 接着免费视频, 征询了开源的轨迹数据集, 常用的特地检测评估方法与方针以及特地检测器用. 在此基础上, 本文给出了轨迹特地检测系统架构, 形成了从轨迹数据采集到特地检测应用等一系列相对统一的轨迹挖掘进程. 终末, 文中总结了轨迹特地检测领域症结的绽放性问题, 并预测了改日的研究趋势和潜在想路, 期待能有更多研究东说念主员参与到轨迹特地检测的职责中, 也但愿本文能对轨迹特地检测领域改日的研究提供一定的参考价值.