华南理工大学学报(自然科学版) ›› 2024, Vol. 52 ›› Issue (5): 10-19.doi: 10.12141/j.issn.1000-565X.230078
赵建东1,2(), 许慧玲1, 吕行1, 李平安3, 黄诗音3
ZHAO Jiandong1,2(), XU Huiling1, LÜ Xing1, LI Pingan3, HUANG Shiyin3
摘要:
为有效提升高速公路车辆偷逃通行费稽查效率,基于电子不停车收费(ETC)数据,结合K最近邻(KNN)和集成学习(Adaboost)算法及代价敏感学习机制,提出一种高速公路车辆偷逃费行为识别模型。针对原始ETC收费流水数据量大且冗余的特点,制定数据离散化和标准化处理规则,修复并规范数据形态后,提取两类逃费特征。通过分析ETC数据集遴选大车小标等7种逃费类型作为主要研究对象。针对逃费数据“高维”特点导致的模型分类效率低问题,通过Pearson与Spearman相关性分析和ReliefF重要性分析选取表现逃费特性的最佳特征子集。针对逃费车辆与正常车辆的类别“不平衡”现象所引发的模型过拟合问题,构建组合分类模型,在Adaboost算法中将KNN作为基分类器,先通过TomekLinks欠采样缓解不同类边界模糊问题,再引入代价敏感学习机制,提高模型对少数类(逃费车)的重视程度来缓解对多数类(正常车)的判别倾向。最后,对比不同分类模型对各类逃费事件的识别效果,验证融合代价敏感学习机制的KNN-Adaboost模型的性能。结果表明,该研究提出的模型识别精确率达0.98,召回率达0.96,F1系数达0.97,Kappa系数达0.95,较其他模型能更好地解决样本类不均衡问题,对少数类样本具有较高识别精度,可为提升高速公路收费稽查效率提供参考。
中图分类号: