华南理工大学学报(自然科学版) ›› 2008, Vol. 36 ›› Issue (9): 25-30.

• 计算机科学与技术 • 上一篇    下一篇

基于改进距离的孤立点检测方法

韦佳 彭宏 林毅申   

  1. 华南理工大学 计算机科学与工程学院, 广东 广州 510640
  • 收稿日期:2007-07-26 修回日期:2007-09-21 出版日期:2008-09-25 发布日期:2008-09-25
  • 通信作者: 韦佳(1982-),男,博士生,主要从事人工智能、机器学习研究。 E-mail:wei.jia@mail.scut.edu.cn
  • 作者简介:韦佳(1982-),男,博士生,主要从事人工智能、机器学习研究.
  • 基金资助:

    广东省自然科学基金资助项目(07006474)

Outlier Detection Method Based on Improved Distance

Wei Jia  Peng Hong  Lin Yi-shen    

  1. School of Computer Science and Engineering, South China University of Technology, Guangzhou 510640, Guangdong, China
  • Received:2007-07-26 Revised:2007-09-21 Online:2008-09-25 Published:2008-09-25
  • Contact: 韦佳(1982-),男,博士生,主要从事人工智能、机器学习研究。 E-mail:wei.jia@mail.scut.edu.cn
  • About author:韦佳(1982-),男,博士生,主要从事人工智能、机器学习研究.
  • Supported by:

    广东省自然科学基金资助项目(07006474)

摘要: 局部切空间排列(LTSA)算法是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.为了增强LTSA算法对孤立点的鲁棒性,文中提出了一种基于改进距离的孤立点检测方法.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均匀对孤立点检测算法的影响.实验结果表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,更好地挖掘数据集的本征特性,具有更好的数据可视化效果.

关键词: 数据预处理, 孤立点检测, 改进距离, 流形学习, 局部切空间排列

Abstract:

As an effective manifold-learning method, the local tangent space alignment (LTSA) algorithm is sensitive to outliers. In order to enhance the robustness of LTSA algorithm, an outlier detection method based on the improved distance is presented in this paper. In this method, the improved distance is used to measure the distance of the samples for the purpose of reducing the negative influence of the nonuniform distribution of the samples. Experimental results demonstrate that the proposed data preprocessing method can effectively improve the robustness of the LTSA algorithm and can discover the intrinsic characteristics of the dataset with better visualization effect.

Key words: data preprocessing, outlier detection, improved distance, manifold learning, local tangent space alignment