电力通信大数据并行化聚类算法研究

2018-05-31 16:41:36 ChinaAET电子技术应用  点击量: 评论 (0)
随着电力通信技术的发展,产生了大量分布式电力通信子系统以及海量电力通信数据,在海量数据中挖掘重要信息变得十分重要。传统聚类算法在处理海量电力数据时已不能满足时间性能的要求。针对这一问题,提出了一种基于MapReduce模型的并行化k-medoids聚类算法

确度均高于k-medoids并行化算法和DBSCAN并行化算法,并且在处理较大数量级的数据集时,本文算法准确度更占优势。不同数据集上各算法的执行时间如图2。

根据图2,随着数据量的增大,三种算法执行效率差异逐渐增大,本文算法性能明显优于k-medoids并行性算法和DBSCAN并行算法。接着对三个算法使用7个线程时的执行时间进行比较,如图3所示。

从图3中可以看出,使用7个线程在1 000、5 000、10 000数据级时,本文算法执行时间明显优于其他两个算法。

3.3 实验小结

仿真实验可知,在同一线程数时,本文算法比对比算法聚类准确率高,执行时间短;在线程数增加时,本文算法执行时间显著降低;随着数据量的增长,本文算法在保证更高准确度的基础上,执行时间优势逐渐凸显。

4 结论

本文针对电力通信数据的聚类处理问题,提出基于密度的聚类思想对k-medoids算法初始点的选取策略进行优化,并利用MapReduce编程框架实现了算法的并行化处理。通过仿真实验表明本文提出的优化算法可行有效,并具有较好的执行效率。在接下来的研究中可以考虑线程数小于聚类数时的优化分配策略,进一步提高算法性能。

参考文献

[1] 蔡永强,陈平华,李惠.基于云计算平台的并行DBSCAN算法[J].广东工业大学学报,2016,33(1):51-56.

[2] PARK H S,JUN C H.A simple and fast algorithm for k-medoids clustering[J].Expert System with Applications,2009,36(2):3336-3341.

[3] 赵烨,黄泽君.蚁群K-medoids融合的聚类算法[J].电子测量与仪器学报,2012,26(9):800-804.

[4] 马菁,谢娟英.基于粒计算的k-medoids聚类算法[J].计算机应用,2012,32(7):1973-1977.

[5] 吴景岚,朱文兴.基于k中心点的迭代局部搜索聚类算法[J].计算机研究与发展,2004,41(Z):246-252.

[6] Jiang Yaobin,Zhang Jiongmin.Parallel k-medoids clustering algorithm based on Hadoop[C].Proceedings of the IEEE International Conference on Software Engineering and Service Sciences,2014:649-651.

[7] 孙胜,王元珍.基于核的自适应k-medoid聚类[J].计算机工程与设计,2009,30(3):674-677.

[8] 马晓慧.一种改进的可并行的K-medoids聚类算法[J].智能计算机与应用,2015:874-876.

作者信息:

曾 瑛,李星南,刘新展

(广东电网公司 广东电网电力调度控制中心,广东 广州510600)

大云网官方微信售电那点事儿

责任编辑:售电衡衡

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞