基于Canopy的K-Means并行化算法

全文: PDF(0 KB)
输出: BibTeX | EndNote (RIS)

摘要针对大数据带来的海量信息，传统的数据挖掘方法已经不再适用。近些年来很多学者提出新的数据挖掘方式，或者在传统的方法上进行改进，但是还远不足以处理这些海量信息。在总结已有方法的基础上，提出一种基于C anopy的K-M eans并行化算法。与传统的K-M eans算法相比，本文提出的改进方法会通过密度确定初始中心，然后在H adoop分布式集群上运行K-M eans算法。实验证明，该方法在保证精度的情况下，能降低运算复杂度从而提高计算效率。

	服务
	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	（）
	作者相关文章
	王颖

关键词 ：数据挖掘, C anopy, 并行化, H adoop

Abstract：Aiming at the massive information brought by big data, the traditional data mining method is no longer applicable. In recent years, many scholars have proposed new data mining methods, or improved the traditional methods. But it is still far from adapting to this vast amount of information. After summarizing the previous methods, an improved K-Means algorithm based on Canopy is proposed in this paper. Compared with the traditional K-Means, the improved method proposed in this paper will first de- termine the initial center by density, and then run the reduced data on the Hadoop distributed cluster. The experimental results show that this method can reduce the computational complexity and improve the computational efficiency under the condition of ensuring the accuracy.

Key words： data mining Canopy deserialize Hadoop

年卷期日期: 2019-07-10 出版日期: 2019-07-13

作者简介: 王颖（1995-），女，安徽池州人，硕士研究生，研究方向为大数据挖掘。

引用本文:

王颖. 基于Canopy的K-Means并行化算法[J]. 电脑与电信, .

链接本文:

https://www.computertelecom.com.cn/CN/ 或 https://www.computertelecom.com.cn/CN/Y2019/V1/I7/30

[1]	黄慧君　王波　李宇中. 地市农商银行整村授信使用率数据分析 ——以H农商银行为例[J]. 电脑与电信, 2024, 1(5): 1-.
[2]	沈培　曹晓静　郑心炜. 基于数据挖掘的网络营销课程项目式教学改革 [J]. 电脑与电信, 2024, 1(4): 35-37.
[3]	李姗姗李忠. 新工科背景下数科专业数据挖掘与分析课程建设 [J]. 电脑与电信, 2023, 1(4): 28-.
[4]	刘然程曼. 基于数据挖掘的校园食品安全事件分析 [J]. 电脑与电信, 2022, 1(4): 65-.
[5]	王茂发王子民汪华登刘振丙. 基于Jupyter的数据挖掘课程建设与研究 [J]. 电脑与电信, 2021, 1(7): 12-16.
[6]	葛晓燕. 数据挖掘课程混合式教学改革探索[J]. 电脑与电信, 2021, 1(6): 43-46.
[7]	杜振鑫. 数据挖掘课程中过程生成式启发教学研究 [J]. 电脑与电信, 2021, 1(12): 47-49.
[8]	郁烨. 交通管理工程专业核心课程成绩数据挖掘 [J]. 电脑与电信, 2021, 1(12): 62-65.
[9]	龚建锋. 基于数据挖掘的云安全评估模型研究 [J]. 电脑与电信, 2021, 1(11): 95-.
[10]	赵宇阔. 通讯痕迹与情报分析系统的设计方法[J]. 电脑与电信, 2018, 1(9): 52-53.
[11]	汪一百. 基于Hadoop 平台的聚类K-means算法的研究[J]. 电脑与电信, 2018, 1(4): 18-20.
[12]	张志文, 何明昌, 杨维伟, 刘仁笑, 王瑜, 胡学友. 校园知识技能变现系统设计与实现[J]. 电脑与电信, 2018, 1(4): 27-30.
[13]	魏爽. 一种文本聚类的增强数据挖掘方法[J]. 电脑与电信, 2018, 1(3): 46-48.
[14]	潘正勇. 基于大数据的水土保持监测站自动数据采集系统设计与应用[J]. 电脑与电信, 2018, 1(1-2): 64-66.
[15]	姜美. 基于隐私保护的数据挖掘综述[J]. 电脑与电信, 2017, 1(8): 31-.