华南理工大学学报(自然科学版) ›› 2019, Vol. 47 ›› Issue (8): 77-83,95.doi: 10.12141/j.issn.1000-565X.180398

• 计算机科学与技术 • 上一篇    下一篇

分布式低秩张量子空间聚类算法

刘小兰1,2 潘凎1 易淼3 李植鹏4   

  1. 1. 华南理工大学 数学学院,广东 广州 510640; 2. 南京大学 计算机软件新技术国家重点实验室,江苏 南京 210023; 3. 宜春学院 物理科学与工程技术学院,江西 宜春 336000; 4. 华南理工大学 计算机科学与工程学院,广东 广州 510006
  • 收稿日期:2018-08-11 修回日期:2019-02-18 出版日期:2019-08-25 发布日期:2019-08-01
  • 通信作者: 刘小兰(1979-),女,博士,副教授,主要从事优化算法与机器学习研究. E-mail:liuxl@scut.edu.cn
  • 作者简介:刘小兰(1979-),女,博士,副教授,主要从事优化算法与机器学习研究.
  • 基金资助:
    国家自然科学基金资助项目(61502175,61273295);广东省自然科学基金资助项目(2016A030313545);广州市科 技计划项目(201607010069)

Distributed Low-rank Tensor Subspace Clustering Algorithm

LIU Xiaolan1,2 PAN Gan1 YI Miao3 LI Zhipeng4   

  1. 1. School of Mathematics,South China University of Technology,Guangzhou 510640,Guangdong,China; 2. State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210023,Jiangsu,China; 3. College of Physical Science and Technology,Yichun University,Yichun 336000,Jiangxi,China; 4. School of Computer Science and Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China
  • Received:2018-08-11 Revised:2019-02-18 Online:2019-08-25 Published:2019-08-01
  • Contact: 刘小兰(1979-),女,博士,副教授,主要从事优化算法与机器学习研究. E-mail:liuxl@scut.edu.cn
  • About author:刘小兰(1979-),女,博士,副教授,主要从事优化算法与机器学习研究.
  • Supported by:
    Supported by the National Natrual Science Foundation of China(61502175,61273295) and the Natrual Science Foundation of Guangdong Province(2016A030313545)

摘要: 现有基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类 正确率不高,以及分布式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据. 为此, 文中提出了一种基于张量和分布式方法的子空间聚类算法. 该算法首先将高维数据视为 张量,在数据的自表示中引入张量乘法,从而将 LRR子空间聚类算法拓展到高维数据;然 后采用分布式并行计算得到低秩表示的系数张量,并对系数张量的每个侧面切片稀疏化, 得到稀疏相似度矩阵. 在公开数据集 Extended YaleB、COIL20 和 UCSD 上与 DFC-LRR的 对比实验结果表明,文中算法能有效地提高聚类正确率,且分布式计算能明显降低算法的 运行时间.

关键词: 低秩表示, 子空间聚类, 分布式计算, 张量

Abstract: Subspace clustering algorithm based on low-rank representation (LRR) cannot handle large-scale data effectively,and distributed low-rank subspace clustering algorithm (DFC-LRR) cannot handle the high-dimensional data directly. To solve this issue,a distributed low-rank subspace clustering algorithm based on tensor and distribu- ted computing was proposed. The proposed method firstly considered high-dimensional data as tensor and extended LRR subspace clustering algorithm to high-dimensional data by introducing tensorial multiplication into self repre- sentation of data. Then the low-rank coefficient tensor was obtained through the distributed parallel computing,and get the sparse similarity matrix by sparing every lateral slices of the coefficient tensor. Experimental results on the Extended Yale B,COIL20 and UCSD datasets show that the proposed algorithm outperforms DFC-LRR in clustering accuracy,and distributed computing can reduce the running time obviously.

Key words: low-rank representation, subspace clustering, distributed computing, tensor

中图分类号: