华南理工大学学报(自然科学版) ›› 2015, Vol. 43 ›› Issue (11): 35-46,53.doi: 10.3969/j.issn.1000-565X.2015.11.006
黄敏1,丁萍1,2,罗海飚2
Huang Min1 Ding Ping1,2 Luo Hai-biao2
摘要: 为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法. 对图形处理器(GPU)上的计算,有效利用 GPU 多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对 Xeon Phi处理器上的计算,有效利用 Xeon Phi 的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在 GPU 下比在 Xeon Phi 下的加速效果更好.