数据挖掘,机器学习,统计学习的区别与联系
這三個領(lǐng)域或?qū)W科交叉和重疊部分很多,數(shù)據(jù)挖掘,機器學(xué)習(xí)和統(tǒng)計學(xué)習(xí)的概念一直有或多或少的混淆,希望同樣有我這樣的困惑的朋友讀完下面的文字能夠清晰一些。
數(shù)據(jù)庫提供數(shù)據(jù)管理技術(shù),機器學(xué)習(xí)和統(tǒng)計學(xué)提供數(shù)據(jù)分析技術(shù)。由于統(tǒng)計學(xué)界往往醉心于理論的優(yōu)美而忽視實際的效用,因此,統(tǒng)計學(xué)界提供的很多技術(shù)通常都要在機器學(xué)習(xí)界進一步研究,變成有效的機器學(xué)習(xí)算法之后才能再進入數(shù)據(jù)挖掘領(lǐng)域。從這個意義上說,統(tǒng)計學(xué)主要是通過機器學(xué)習(xí)來對數(shù)據(jù)挖掘發(fā)揮影響,而機器學(xué)習(xí)和數(shù)據(jù)庫則是數(shù)據(jù)挖掘的兩大支撐技術(shù)。從數(shù)據(jù)分析的角度來看,絕大多數(shù)數(shù)據(jù)挖掘技術(shù)都來自機器學(xué)習(xí)領(lǐng)域。但能否認為數(shù)據(jù)挖掘只不過就是機器學(xué)習(xí)的簡單應(yīng)用呢?答案是否定的。一個重要的區(qū)別是,傳統(tǒng)的機器學(xué)習(xí)研究并不把海量數(shù)據(jù)作為處理對象,很多技術(shù)是為處理中小規(guī)模數(shù)據(jù)設(shè)計的,如果直接把這些技術(shù)用于海量數(shù)據(jù),效果可能很差,甚至可能用不起來。因此,數(shù)據(jù)挖掘界必須對這些技術(shù)進行專門的、不簡單的改造。例如,決策樹是一種很好的機器學(xué)習(xí)技術(shù),不僅有很強的泛化能力,而且學(xué)得結(jié)果具有一定的可理解性,很適合數(shù)據(jù)挖掘任務(wù)的需求。但傳統(tǒng)的決策樹算法需要把所有的數(shù)據(jù)都讀到內(nèi)存中,在面對海量數(shù)據(jù)時這顯然是無法實現(xiàn)的。為了使決策樹能夠處理海量數(shù)據(jù),數(shù)據(jù)挖掘界做了很多工作,例如通過引入高效的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)調(diào)度策略等來改造決策樹學(xué)習(xí)過程,而這其實正是在利用數(shù)據(jù)庫界所擅長的數(shù)據(jù)管理技術(shù)。實際上,在傳統(tǒng)機器學(xué)習(xí)算法的研究中,在很多問題上如果能找到多項式時間的算法可能就已經(jīng)很好了,但在面對海量數(shù)據(jù)時,可能連算法都是難以接受的,這就給算法的設(shè)計帶來了巨大的挑戰(zhàn)。
總結(jié):
1)統(tǒng)計學(xué)習(xí):是其它兩門技術(shù)的基礎(chǔ),更偏重于理論上的完善;
2)機器學(xué)習(xí):是統(tǒng)計學(xué)習(xí)對實踐技術(shù)的延伸,更偏重于解決小數(shù)據(jù)量的問題提供算法技術(shù)支撐;
3)數(shù)據(jù)挖掘:更偏重于大數(shù)據(jù)的實際問題,更注重實際問題的解決,包括真實數(shù)據(jù)的數(shù)據(jù)清洗,建模,預(yù)測,等操作。
知乎:
https://www.zhihu.com/question/29687860/answer/45794666?utm_campaign=rss&utm_medium=rss&utm_source=rss&utm_content=title
我愛機器學(xué)習(xí):
http://www.52ml.net/14518.html
總結(jié)
以上是生活随笔為你收集整理的数据挖掘,机器学习,统计学习的区别与联系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 观复嘟嘟:职场是个技术活-马未都
- 下一篇: 基于电子病历的临床医疗大数据挖掘流程与方