华南理工大学学报(自然科学版) ›› 2021, Vol. 49 ›› Issue (1): 29-38,46.doi: 10.12141/j.issn.1000-565X.200513
所属专题: 2021年计算机科学与技术
杨圣豪 吴玥悦 毛佳昕 刘奕群† 张敏 马少平
Sheng-Hao YANG1,
摘要: 案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉 及未成年人的案件文书极有可能会造成未成年人的个人隐私信息泄露。为了能从大量案 件文书中准确地识别出涉及未成年人信息的文书,进而有针对性地对其进行隐私保护处 理。同时,为解决现实数据集因有标注样本缺乏而难以进行有效的有监督学习的问题, 文中提出了基于半监督学习的涉及未成年人案件文书识别方法。首先,对案件文书语料 文本进行预处理后分别使用 Word2Vec 和 BERT-wwm-ext 对文本进行特征提取,将长语 料文本转换为可作为分类模型输入的数据格式; 接着,采用 PU 学习方法训练分类模 型,在正例样本极少的情况下借助大量未标注样本构建有效的分类器; 然后,在分类模 型预测结果的基础上,使用主动学习方法获取关键词并对模型预测结果进行筛选处理, 以进一步提升预测效果。在基于现实场景比例构建的测试集上,文中提出的案件文书识 别方法取得了 98. 67% 的召回率和 81. 02% 的准确率。
中图分类号: