华南理工大学学报(自然科学版) ›› 2009, Vol. 37 ›› Issue (5): 123-129.

• 计算机科学与技术 • 上一篇    下一篇

基于稀疏贝叶斯回归的正则化核密度估计算法

尹训福1  郝志峰2   

  1. 1. 华南理工大学 计算机科学与工程学院, 广东 广州 510006;2. 广东工业大学 计算机学院, 广东 广州 510090
  • 收稿日期:2008-07-24 修回日期:2008-12-27 出版日期:2009-05-25 发布日期:2009-05-25
  • 通信作者: 尹训福(1979-),男,博士生,主要从事统计机器学习、核方法和信息论学习研究. E-mail:xunfuyin@yahoo.com.cn
  • 作者简介:尹训福(1979-),男,博士生,主要从事统计机器学习、核方法和信息论学习研究.
  • 基金资助:

    国家自然科学基金资助项目(60433020,10471045);广东省科技计划项目(20088080701005);信息安全国家重点实验室开放课题基金资助项目(04一01);惠州市技术研究与开发资金项目(08-117)

Regularized Kernel Density Estimation Algorithm Based on Sparse Bayesian Regression

Yin Xun-fu Hao Zhi-feng2   

  1. 1. School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006, Guangdong, China; 2. Faculty of Computer, Guangdong University of Technology, Guangzhou 510090, Guangdong, China
  • Received:2008-07-24 Revised:2008-12-27 Online:2009-05-25 Published:2009-05-25
  • Contact: 尹训福(1979-),男,博士生,主要从事统计机器学习、核方法和信息论学习研究. E-mail:xunfuyin@yahoo.com.cn
  • About author:尹训福(1979-),男,博士生,主要从事统计机器学习、核方法和信息论学习研究.
  • Supported by:

    国家自然科学基金资助项目(60433020,10471045);广东省科技计划项目(20088080701005);信息安全国家重点实验室开放课题基金资助项目(04一01);惠州市技术研究与开发资金项目(08-117)

摘要: 为了加快核密度估计(KDE)的计算速度,简化模型复杂度,提出了一种基于稀疏贝叶斯回归的KDE稀疏构造算法SBR—KDE.该算法将经人工加噪处理后的分布函数逼近值作为输入,获得了KDE的极为稀疏表示形式.实验结果表明:与传统KDE算法相比,在保持相当计算精度(多数情况下降低了模型误差)的情况下,文中算法的时空效率大幅度提高,而且在小样本训练集条件下得到的密度估计更光滑;独立成分分析及高斯化变换的应用使文中算法在一定程度上缓解了维数灾难.

关键词: 机器学习, 核密度估计, 贝叶斯回归, 不适定逆问题, 人工加噪正则化, 高斯化

Abstract:

In order to accelerate the computation of kernel density estimation (KDE) and to reduce the complexity of KDE model, a fast KDE algorithm based on sparse Bayesian regression is proposed. The algorithm takes the jittered approximation of the distribution function as the input and obtains the very sparse representation of KDE. Experimental results indicate that, as compared with the conventional KDE algorithm, the proposed algorithm results in a much smoother density estimation when training with a small sample set, and it remarkably improves the space-time efficiency with a comparative computational precision and with a reduced model error in most cases. Moreover, the applications of independent component analysis and Gaussianization to the proposed algorithm allevi- ate the curse of dimensionality to some extent.

Key words: machine learning, kernel density estimation, Bayesian regression, ill-posed inverse problem, jittering regularization, Gaussianization