数据挖掘入坑
數據挖掘入坑
0x01什么是數據挖掘
1.定義:從數據中獲取知識。
2.實例:
1.比如你要想知道某輛車從啟動到速度穩定行駛的距離,那么你會先統計從啟動到穩定耗費的時間、穩定后的速度、加速度等參數;然后運用牛頓第二定律(或者其他物理學公式)建立模型;最后根據該車多次實驗的結果列出方程組從而計算出模型的各個參數。通過該過程,你就相當于學習到了一個知識 — 某輛車從啟動到速度穩定行駛的具體模型。此后往該模型輸入車的啟動參數便可自動計算出該車達到穩定速度前行駛的距離。
2.然而,在數據挖掘的思想中,知識的學習是不需要通過具體問題的專業知識建模。如果之前已經記錄下了100輛型號性能相似的車從啟動到速度穩定行駛的距離,那么我就能夠對這100個數據求均值,從而得到結果。顯然,這一過程是是直接面向數據的,或者說我們是直接從數據開發模型的。
3.這其實是模擬了人的原始學習過程 — 比如你要預測一個人跑100米要多久時間,你肯定是根據之前了解的他(研究對象)這樣體型的人跑100米用的多少時間做一個估計,而不會使用牛頓定律來算。
4.以上就是首要原則模型(first-principle models),是科學工程領域最為經典的模型。
3.機器學習與數據挖掘:
機器學習偏向于底層,更側重算法和優化方面。
數據挖掘面向模型。
4.算法:
a. 關聯規則挖掘 (Apriori, FPTree, etc.)
b. 分類 (C4.5, KNN, Logistic Regression, SVM, etc.)
c. 聚類 (Kmeans, DBScan, Spectral Clustering, etc.)
d. 降維 (PCA, LDA, etc.)
e. 推薦系統 (基于內容的推薦,協同過濾,如矩陣分解等)
參考資料:
領域簡介
計算機的潛意識
數據挖掘概述-By幕晨
zhihu如何學習數據挖掘
10大算法一覽表
學習資料
Coursera吳恩達
Google的課程
Microsoft的數據挖掘
深度學習公開課匯總-CSDN
數據全棧
fengjunchen-學習資料
宏倫養成
python之用
shareditor
轉載于:https://www.cnblogs.com/gwj1314/p/9444883.html
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
- 上一篇: Android Studio提示忽略大小
- 下一篇: hadoop集群环境搭建