聚类发展历史、现状、未来趋势
1、發(fā)展歷史
聚類算法的歷史與有監(jiān)督學習一樣悠久。層次聚類算法出現(xiàn)于1963年[26],這是非常符合人的直觀思維的算法,現(xiàn)在還在使用。它的一些實現(xiàn)方式,包括SLINK[27],CLINK[28]則誕生于1970年代。
k均值算法[25]可謂所有聚類算法中知名度最高的,其歷史可以追溯到1967年,此后出現(xiàn)了大量的改進算法,也有大量成功的應用,是所有聚類算法中變種和改進型最多的。
大名鼎鼎的EM算法[29]誕生于1977年,它不光被用于聚類問題,還被用于求解機器學習中帶有缺數(shù)數(shù)據(jù)的各種極大似然估計問題。
Mean Shift算法[32]早在1995年就被用于聚類問題,和DBSCAN算法[30],OPTICS算法[31]一樣,同屬于基于密度的聚類算法。
譜聚類算法[33]是聚類算法家族中年輕的小伙伴,誕生于2000年左右,它將聚類問題轉(zhuǎn)化為圖切割問題,這一思想提出之后,出現(xiàn)了大量的改進算法。
2、現(xiàn)狀
聚類學習是最早被用于模式識別及數(shù)據(jù)挖掘任務的方法之一,并且被用來研究各種應用中的大數(shù)據(jù)庫,因此用于大數(shù)據(jù)的聚類算法受到越來越多的關(guān)注。Havens等[13]對比3種擴展的模糊c均值(FCM)聚類算法對于大數(shù)據(jù)的執(zhí)行效率。Xue等[14]提出一種壓縮感知性能提升模型用于大數(shù)據(jù)聚類,該模型定量分析整個計算過程中與壓縮有關(guān)的諸多因素的影響。Hall等[15]研究二次抽樣方法以提高聚類算法的可擴展性。Zhao等[16]提出基于MapReduce的 K-means算法,在speedup、sizeup、scaleup這3個指標上獲得較好的并行性能。Papadimitriou等[17]給出一種利用MapReduce模型實現(xiàn)協(xié)同聚類的系統(tǒng)框架—分布式協(xié)同聚類框架,并引入分布式數(shù)據(jù)預處理、協(xié)同聚類等方法,在Hadoop上實現(xiàn)該系統(tǒng)。Ferreira 等[18]給出一種利用MapReduce開展大規(guī)模數(shù)據(jù)聚類的方法。Havens等[19]分析在大數(shù)據(jù)上運行C-mean的困難,指出模糊技術(shù)在處理大數(shù)據(jù)上的有效性,研究抽樣和增量在大數(shù)據(jù)上運行C-mean的作用。
參考
總結(jié)
以上是生活随笔為你收集整理的聚类发展历史、现状、未来趋势的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.4G无线游戏手柄方案开发
- 下一篇: 利用opera的缓冲目录得到网页上的fl