机器学习资料整理,收藏了不后悔!
學習Machine Learning也有很長一段時間了,前段時間在paper中應用了GTB(Gradient Tree Boosting)算法。在我的數據集上GTB的performance比Random Forest要稍微強一點,整個experiment做完之后,有許多東西都來不及及時整理,很多都遺忘了。打算接下來的時間里,好好整理下自己的學習資料,這份資料絕對不是一時半會就整理得完的,先開個頭吧,以后會間斷性更新該blog的。
下面來做個資料整理吧。
書籍推薦
機器學習的書籍很多,下面推薦幾本本人用過而且覺得還不錯的書籍。優于機器學習是一門跨領域的學科,所以在書籍上并非全是機器學習的書籍:
-
1.《機器學習實戰》Machine Learning in Action [美] Peter Harington 著。該書貫穿了10個最受歡迎的機器學習算法,提供了案例研究問題并用Python代碼實例來解決。我本人比較喜歡這本書,因為里面的代碼給了我很大的幫助,自己在學習機器學習算法的時候,理論上很多東西不太理解透,通過該書實踐之后,在算法層面又有了進一步的提高。
-
2.《統計學習方法》 李航著。該書比較詳細地介紹了算法的原理,只從理論層面來研究算法。通過這本書和《機器學習實戰》兩本書相結合,一本講理論,一本著手實踐,加在一起會有事半功倍的效果。
-
3.《數據挖掘概念與技術》 韓家煒著。該書介紹了數據挖掘的常用技術,比較詳實,但本人覺得不太適合初學者,當時自己初學的時候看的就是這本書,結果最后很多地方理解的不是很好,后來通過《統計學習方法》和算法實踐之后,再回頭看《數據挖掘概念與技術》,感覺就輕松多了。
-
4.《數學之美》 吳軍著。本書可以當做業余書籍來看,可以在無聊的時候看看,不過里面講的東西還是挺有用的。
-
5.《Python科學計算》該書可以當做Python編程參考書籍,但前提是你喜歡使用Python,并愛上了它,不然這本書還是蠻貴的,我自己也是通過“研究生自由探索項目”才買的這本書,因為可以報銷嘛。
學習工具
機器學習的tools很多,這里只列出幾個參考工具。
-
Scikit-learn.基于Python語言的scikit-learn庫,里面涵蓋了分類、聚類、回歸的大部分算法,并且有常用的評估指標以及預處理數據的方法,是一個不錯的學習庫,強力推薦。附一篇博文:SOME USEFUL MACHINE LEARNING LIBRARIES.
-
R語言,語言就是一門工具,R語言現在在商業界是用的最多的,在統計方面功能強大,而且也有封裝好的算法庫可以直接使用。附:R語言參考卡片.
-
Weka,是一個基于java開發的數據挖掘工具,可以嘗試一下。它為用戶提供了一系列據挖掘API、命令行和圖形化用戶接口。你可以準備數據、可視化、建立分類、進行回歸分析、建立聚類模型,同時可以通過第三方插件執行其他算法。除了WEKA之外,?Mahout是Hadoop中為機器學習提供的一個很好的JAVA框架,你可以自行學習。如果你是機器學習和大數據學習的新手,那么堅持學習WEKA,并且全心全意地學習一個庫。
-
Matlab,里面有很多的工具包,不過本人不怎么用過。參考:Matlab Codes and Datasets for Feature Learning和Statistics and Machine Learning Toolbox。此外matlab中的Octave可以很方便地解決線性和非線性問題,比如機器學習算法底層涉及的問題。如果你有工程背景,那么你可以由此入手。
-
BigML:可能你并不想進行編程工作。你完全可以不通過代碼,來使用 WEKA那樣的工具。你通過使用BigMLS的服務來進行更加深入的工作。BigML通過Web頁面,提供了機器學習的接口,因此你可以通過瀏覽器來建立模型。
-
如果你使用Python,這里推薦一個IDE,WinPython,IDE版本就是Python的版本,自行選擇!
下面給出一個比較圖,具體想要學什么,還需自己抉擇。
學習視頻
由于本人比較崇拜Andrew Ng,所以關于視頻,首先推薦的便是Andrew Ng的斯坦福大學的機器學習課程。這套視頻在網上有兩個網址,國外和國內的都有,全程英語教學,內容很好,有時間建議你去聽聽:
-
一個是國外的Coursera公開課,該課程在機器學習領域很火,是很多入門學者的首選。地址:https://www.coursera.org/;講義地址:[Stanford?CS229 course下載講義和筆記](http://cs229.stanford.edu/);
-
一個是國內的網易公開課,鏈接地址:http://open.163.com/movie/2008/1/U/O/M6SGF6VB4_M6SGJURUO.html
下面是一個機器學習視頻庫,由加州理工學院(Caltech)出品。
-
機器學習視頻庫,地址:http://work.caltech.edu/library/
其它的視頻庫
-
Machine Learning Category on VideoLectures,這個網站的視頻比較多。你可以找出比較感興趣的資源,然后深入學習。
機器學習最近在國內比較火,許多培訓機構都相應的開了該門課程,如果想要聽中文教程的,可以去網上搜索下,這里就不給培訓機構打廣告了。
博客和文章推薦
大牛們的博客,會讓你感到興奮,讓你覺得你不是一個人在奮斗,讓你時刻記住你的前方已經有很多的學者正在等著你,你要加油。他們的經驗會讓我們少走些冤枉路,能讓我們在他們的基礎上進一步理解。下面推薦幾個我所知道的或者說我了解到的幾位牛人博客和幾篇文章:
-
pluskid,真名張弛原,一位技術大牛,畢業于浙江大學,后來出國深造。他的博文質量非常高,深入淺出,其SVM三層境界的講解讓人茅塞頓開,應該給了很多人啟發吧,很值得學習。現在的博客網址:Chiyuan Zhang,原博客網址:Chiyuan Zhang
-
Rachel Zhang,真名張睿卿,很有氣質的一位軟妹紙,目前是百度深度學習實驗室研發工程師,在CSDN中的博客人氣絕對屈指可數,算是IT界的一位女中豪杰。博客網址:CSDN博客-Rachel Zhang
-
July,對算法研究獨具一格,目前是七月在線科技創始人兼CEO。博客網址:July
-
Jason,一位國外機器學習愛好者,其博客內容詳實,多篇文章被國內機器學習者翻譯。博客網址:http://machinelearningmastery.com/blog/
-
一個國外很好的機器學習博客,里面介紹了詳細的算法知識,很全面,從感知機、神經網絡、決策樹、SVM、Adaboost到隨機森林、Deep Learning.網址:A Blog From a Human-engineer-being
-
一篇涵蓋許多機器學習資料的文章:機器學習(Machine Learning)&深度學習(Deep Learning)資料
-
Edwin Chen?,機器學習愛好者,博客內容涵蓋數學、機器學習和數據科學。分享其中一篇博文:Choosing a Machine Learning Classifier
-
一篇以前的博文:A List of Data Science and Machine Learning Resources,有時間好好閱讀閱讀,對你絕對有幫助。
-
A Few Useful Things to Know about Machine Learning,一篇很有幫助的機器學習文章,里面包括了特征選擇與模型的簡化。
-
The Discipline of Machine Learning機器學習規則。該文章比較老,2006年發布的,作者是Tom Mitchell,但很有參考價值,其中定義了機器學習的規則。Mitchell在說服CMU總裁為一個百年內都存在的問題建立一個獨立的機器學習部門時,也用到了這本書中的觀點。希望能對你也有所幫助。
-
分享一個網站:簡書。
國內外網站
如果你想搜索比較新穎的機器學習資料或是文章,可以到以下網站中搜索,里面不僅包括了機器學習的內容,還有許多其它相關領域內容,如數據科學和云計算等。
-
InfoWord:http://www.infoworld.com/reviews/
-
Kdnuggets:http://www.kdnuggets.com
-
Datasciencecentral:http://www.datasciencecentral.com/
-
Datascienceplus:http://datascienceplus.com
-
數據分析網:http://www.afenxi.com/
數據科學競賽
關于數據分析的競賽,國內國外都有,下面推薦幾個比較火的競賽網站 :
-
Kaggle比賽,網址:https://www.kaggle.com/
-
DataCastle比賽,網站:http://www.pkbigdata.com/
-
阿里大數據競賽,目前沒有消息了,2015年有個【2015天池大數據競賽】
ML相關算法參考
-
決策樹-參考:decision Tree(Python實現)
-
SVM支持向量機-參考:pluskid支持向量機三重境界
-
Adaboost-參考:組合算法-Adaboost
-
Random Forest-參考:隨機森林算法
-
樸素貝葉斯算法-參考:Naive Bayes算法實現
-
人工神經網絡-參考:http://www.cnblogs.com/luxiaoxun/archive/2012/12/10/2811309.html
-
Apriori算法-參考地址:Apriori關聯分析
-
K最近鄰算法-參考:KNN從原理到實現
-
梯度樹提升GTB算法-參考:Gradient Tree Boosting(或GBRT)
-
K-means聚類-參考:K-means cluster
-
組合算法總結-參考:Ensemble算法總結
-
EM期望最大算法-參考:EM算法
-
Logistic回歸-參考:邏輯回歸
-
HMM隱馬爾可夫模型,參考:HMM
-
條件隨機場,參考:CRF
-
隨機森林和GBDT,參考:決策樹模型組合之隨機森林與GBDT
-
特征選擇和特征提取,參考:特征提取與特征選擇
-
梯度下降法,參考:gradient descent
-
牛頓法,參考:牛頓法
-
線性判別分析,參考:線性判別
-
深度學習-深度學習概述:從感知機到深度網絡
個人譯文
下面是本人在CSDN云計算欄目發布的翻譯文章,如有翻譯不準確的地方,還望多多包涵,希望能給大家帶來點幫助,譯文列表如下:
-
2015-09-14?LSTM實現詳解
-
2015-09-10?從零實現來理解機器學習算法:書籍推薦及障礙的克服
-
2015-08-31?機器學習開發者的現代化路徑:不需要從統計學微積分開始
-
2015-08-27?基于Python的卷積神經網絡和特征提取
-
2015-08-20?你應該掌握的七種回歸技術
-
2015-08-11?機器學習API Top 10:AT&T Speech、IBM Watson和Google Prediction
-
2015-08-03?從Theano到Lasagne:基于Python的深度學習的框架和庫
-
2015-07-15?Airbnb欺詐預測機器學習模型設計:準確率和召回率的故事
-
2015-07-13?開發者成功使用機器學習的十大訣竅
下面是相關譯者的譯文,僅供參考:
-
2015-09-16?各種編程語言的深度學習庫整理
-
2015-09-11?機器學習溫和指南
-
2015-09-10?關于數據科學,書上不曾提及的三點經驗
從這些牛人的博客中,你能學到很多。慢慢地你會體會到,不是你一個人在戰斗,還有很多人,所以你不用害怕孤獨。
作者:劉帝偉(授權發布)
來源:http://www.csuldw.com/2015/09/23/2015-09-23%20Machine%20learning%20materials/
溫馨提示:文中有較多鏈接,點擊“閱讀原文”可查看詳細內容。
版權聲明:本公眾號的內容部分來自互聯網,轉載請注明原文鏈接和作者,如有侵權或出處有誤請聯系我們。
官方網站:數據分析網(www.afenxi.com)-大數據資訊、觀點、技術研究中心。
官方微信:數據分析精選(sjfxjx)
總結
以上是生活随笔為你收集整理的机器学习资料整理,收藏了不后悔!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不要做一个浮躁的程序员
- 下一篇: 机器学习物语(1):世界观设定