华南理工大学学报(自然科学版) ›› 2025, Vol. 53 ›› Issue (10): 14-28.doi: 10.12141/j.issn.1000-565X.240378
张志清 于晓正 朱雷鹏 孙玉凤 李祎昕
北京工业大学 交通工程北京市重点实验室,北京 100124
ZHANG Zhiqing YU Xiaozheng ZHU Leipeng SUN Yufeng LI Yixin
Beijing University of Technology,Beijing Key Laboratory of Traffic Engineering,Beijing 100124
摘要:
明晰自动驾驶车辆交通事故机理是有效防控安全风险的重要前提。自动驾驶车辆交通事故诱因分析通常基于小样本和不平衡数据进行建模,但这类模型对于少数类预测精度低。基于数据增强的分析框架可以提高模型对于少数类的预测精度。通过表格数据生成对抗网络(Conditional GAN for Generating Synthetic Tabular Data,CTGAN)、联合生成对抗网络(Copula Flows for Synthetic Data Generation,CopulaGAN)以及合成少数过采样(Synthetic Minority Over-sampling Technique, SMOTE)、自适应过采样(Adaptive Synthetic, ADASYN)技术增加样本量,平衡数据集;再基于合成数据确定最佳的机器学习分类算法;最后结合SHAP框架,量化事故关键诱因的重要度,能够准确分析自动驾驶事故关键诱因。结果表明:CTGAN可以有效解决小样本和不平衡数据集分类性能差的问题;CTGAN与随机森林分类算法结合进行模型训练,能够显著提高模型对自动驾驶事故的预测性能;路面状况、夜间行车以及交叉口和街道化程度是导致自动驾驶车辆事故的关键诱因。研究成果可以为自动驾驶车辆测试场景搭建以及现役道路基础设施改造提供参考依据。