不平衡数据的迁移学习分类算法

doi:10.3969/j.issn.1000-565X.2018.01.016

华南理工大学学报（自然科学版） ›› 2018, Vol. 46 ›› Issue (1): 122-130.doi: 10.3969/j.issn.1000-565X.2018.01.016

不平衡数据的迁移学习分类算法

陈琼,徐洋洋,陈林清

华南理工大学计算机科学与工程学院

收稿日期:2016-12-27 修回日期:2017-03-24 出版日期:2018-01-25 发布日期:2017-12-01
通信作者: 陈琼( 1966-) ，女，副教授，主要从事人工智能、机器学习、智能计算等研究 E-mail:csqchen@scut.edu.cn
作者简介:陈琼( 1966-) ，女，副教授，主要从事人工智能、机器学习、智能计算等研究
基金资助:
国家自然科学基金资助项目( 61573145) ;
广东省自然科学基金资助项目( 2015A030308018)

Transfer Learning for Classification on Imbalanced Data

CHEN Qiong XU Yangyang CHEN Linqing

School of Computer Science and Engineering，South China University of Technology

Received:2016-12-27 Revised:2017-03-24 Online:2018-01-25 Published:2017-12-01
Contact: 陈琼( 1966-) ，女，副教授，主要从事人工智能、机器学习、智能计算等研究 E-mail:csqchen@scut.edu.cn
About author:陈琼( 1966-) ，女，副教授，主要从事人工智能、机器学习、智能计算等研究
Supported by:
The National Natural Science Foundation of China( 61573145) and the Natural Science Foundation of Guangdong Province of China( 2015A030308018)

摘要/Abstract

摘要： 现实中数据分布不平衡的情况越来越多，给以数据分布基本均衡为前提的传统分类算法带来了一定的挑战。利用相关的辅助数据进行迁移学习可以解决目标数据的分布不平衡问题。本文以TrAdaboost算法为基础，提出了一个针对不平衡数据的二分类迁移学习算法UnbalancedTrAdaboost（UBTA）。UBTA算法利用不同类别的Precision-Recall曲线下的面积auprc（the Area Under the Precision-Recall Curve）计算弱分类器权重，对不同类别的样本采取不同的权重更新策略。由于AUC指标对数据分布变化不敏感，结合G-mean和BER能更准确地评估不平衡分类算法的性能。综合三种指标的实验结果表明，UBTA具有较好的分类性能，既能提升对少数类的关注，又能保持多数类的分类准确度。

关键词: 不平衡数据, 分类, 迁移学习, Precision-Recall曲线

Abstract: Traditional classification algorithms based on the balance data meet some challenges, when data distribution become more and more imbalanced. Transfer learning can solve the problem of imbalanced data distribution by using the relevant auxiliary data sets to compensate the imbalanced target data set. In this paper, we proposed the UnbalancedTrAdaboost(UBTA) binary classification algorithm based on TrAdaboost, which calculates the weights of weak classifiers usingthe auprc (the Area Under the Precision-Recall Curve) of different classes and updates the weights of misclassified data of different classes with different mechanisms. The AUC measure is more accurate combined with G-mean and BER when evaluated the unbalanced classification, since AUC is insensitive to changes in class distribution. The results of these three metrics indicate that, the UBTA algorithm achieves better performance for imbalanced data and classifies more minority instances with the high accuracy of majority instances.

Key words: Imbalanced Data, Classification, Transfer Learning, Precision-Recall Curve

中图分类号:

TP181

陈琼徐洋洋陈林清. 不平衡数据的迁移学习分类算法[J]. 华南理工大学学报（自然科学版）, 2018, 46(1): 122-130.

CHEN Qiong XU Yangyang CHEN Linqing. Transfer Learning for Classification on Imbalanced Data[J]. Journal of South China University of Technology (Natural Science Edition), 2018, 46(1): 122-130.

[1]	叶峰, 陈彪, 赖乙宗. 基于特征空间嵌入的对比知识蒸馏算法[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 13-23.
[2]	陈琼谢家亮. 基于自适应采样的不平衡分类方法[J]. 华南理工大学学报(自然科学版), 2022, 50(4): 26-34,45.
[3]	张艳, 吴洛天, 王年, 等. 基于多模块关系网络的2D足迹分类[J]. 华南理工大学学报（自然科学版）, 2021, 49(6): 66-76.
[4]	刘奇, 于斌, 孟祥成, 等. 基于转置卷积神经网络的路面裂缝识别算法[J]. 华南理工大学学报(自然科学版), 2021, 49(12): 124-132.
[5]	杨圣豪, 吴玥悦, 毛佳昕, 等. 基于半监督学习的涉及未成年人案件文书识别方法[J]. 华南理工大学学报(自然科学版), 2021, 49(1): 29-38,46.
[6]	杨春玲郑钊彪李金昊. CVS 中基于块分类的自适应阈值调整组稀疏重构[J]. 华南理工大学学报（自然科学版）, 2020, 48(8): 29-37,48.
[7]	栗云松, 聂琪, 罗永峰, 等. 基于应变能的网壳结构构件重要性分类方法[J]. 华南理工大学学报（自然科学版）, 2020, 48(5): 22-31.
[8]	金龙, 陈秀芳, 陈良铭, 等. 基于单输出切比雪夫多项式神经网络的海洋矿物分类（英文）[J]. 华南理工大学学报(自然科学版), 2020, 48(12): 135-143.
[9]	刘建荣刘志伟. 基于出行者潜在类别的公交出行行为研究[J]. 华南理工大学学报（自然科学版）, 2019, 47(6): 119-126.
[10]	王伟凝李乐敏黄杰雄罗杰波徐向民. 基于多层次深度卷积神经网络的图像情感分类[J]. 华南理工大学学报（自然科学版）, 2019, 47(6): 39-50.
[11]	苏锦钿余珊珊李鹏飞 . 一种结合词性及注意力的句子情感分类方法[J]. 华南理工大学学报(自然科学版), 2019, 47(6): 10-17,30.
[12]	王建鹏宋娟刘欢. 单向分布式视频编码中迭代相关性噪声细化方法[J]. 华南理工大学学报（自然科学版）, 2019, 47(4): 27-34.
[13]	许玉格赖春伶罗飞. 基于不平衡分类的Bagging集成污水处理故障诊断[J]. 华南理工大学学报（自然科学版）, 2018, 46(8): 107-115.
[14]	李祥霞李彬田联房朱文博张莉. 基于放射影像组学和随机森林算法的肺结节良恶性分类[J]. 华南理工大学学报（自然科学版）, 2018, 46(8): 72-80.
[15]	谭舜泉刘光庆曾吉申李斌. 深度残差网络JPEG隐写分析器的特性[J]. 华南理工大学学报(自然科学版), 2018, 46(5): 39-46.

不平衡数据的迁移学习分类算法

Transfer Learning for Classification on Imbalanced Data

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价