机器学习资料整理,收藏了不后悔!
學(xué)習(xí)Machine Learning也有很長一段時間了,前段時間在paper中應(yīng)用了GTB(Gradient Tree Boosting)算法。在我的數(shù)據(jù)集上GTB的performance比Random Forest要稍微強一點,整個experiment做完之后,有許多東西都來不及及時整理,很多都遺忘了。打算接下來的時間里,好好整理下自己的學(xué)習(xí)資料,這份資料絕對不是一時半會就整理得完的,先開個頭吧,以后會間斷性更新該blog的。
下面來做個資料整理吧。
書籍推薦
機器學(xué)習(xí)的書籍很多,下面推薦幾本本人用過而且覺得還不錯的書籍。優(yōu)于機器學(xué)習(xí)是一門跨領(lǐng)域的學(xué)科,所以在書籍上并非全是機器學(xué)習(xí)的書籍:
-
1.《機器學(xué)習(xí)實戰(zhàn)》Machine Learning in Action [美] Peter Harington 著。該書貫穿了10個最受歡迎的機器學(xué)習(xí)算法,提供了案例研究問題并用Python代碼實例來解決。我本人比較喜歡這本書,因為里面的代碼給了我很大的幫助,自己在學(xué)習(xí)機器學(xué)習(xí)算法的時候,理論上很多東西不太理解透,通過該書實踐之后,在算法層面又有了進一步的提高。
-
2.《統(tǒng)計學(xué)習(xí)方法》 李航著。該書比較詳細地介紹了算法的原理,只從理論層面來研究算法。通過這本書和《機器學(xué)習(xí)實戰(zhàn)》兩本書相結(jié)合,一本講理論,一本著手實踐,加在一起會有事半功倍的效果。
-
3.《數(shù)據(jù)挖掘概念與技術(shù)》 韓家煒著。該書介紹了數(shù)據(jù)挖掘的常用技術(shù),比較詳實,但本人覺得不太適合初學(xué)者,當(dāng)時自己初學(xué)的時候看的就是這本書,結(jié)果最后很多地方理解的不是很好,后來通過《統(tǒng)計學(xué)習(xí)方法》和算法實踐之后,再回頭看《數(shù)據(jù)挖掘概念與技術(shù)》,感覺就輕松多了。
-
4.《數(shù)學(xué)之美》 吳軍著。本書可以當(dāng)做業(yè)余書籍來看,可以在無聊的時候看看,不過里面講的東西還是挺有用的。
-
5.《Python科學(xué)計算》該書可以當(dāng)做Python編程參考書籍,但前提是你喜歡使用Python,并愛上了它,不然這本書還是蠻貴的,我自己也是通過“研究生自由探索項目”才買的這本書,因為可以報銷嘛。
學(xué)習(xí)工具
機器學(xué)習(xí)的tools很多,這里只列出幾個參考工具。
-
Scikit-learn.基于Python語言的scikit-learn庫,里面涵蓋了分類、聚類、回歸的大部分算法,并且有常用的評估指標以及預(yù)處理數(shù)據(jù)的方法,是一個不錯的學(xué)習(xí)庫,強力推薦。附一篇博文:SOME USEFUL MACHINE LEARNING LIBRARIES.
-
R語言,語言就是一門工具,R語言現(xiàn)在在商業(yè)界是用的最多的,在統(tǒng)計方面功能強大,而且也有封裝好的算法庫可以直接使用。附:R語言參考卡片.
-
Weka,是一個基于java開發(fā)的數(shù)據(jù)挖掘工具,可以嘗試一下。它為用戶提供了一系列據(jù)挖掘API、命令行和圖形化用戶接口。你可以準備數(shù)據(jù)、可視化、建立分類、進行回歸分析、建立聚類模型,同時可以通過第三方插件執(zhí)行其他算法。除了WEKA之外,?Mahout是Hadoop中為機器學(xué)習(xí)提供的一個很好的JAVA框架,你可以自行學(xué)習(xí)。如果你是機器學(xué)習(xí)和大數(shù)據(jù)學(xué)習(xí)的新手,那么堅持學(xué)習(xí)WEKA,并且全心全意地學(xué)習(xí)一個庫。
-
Matlab,里面有很多的工具包,不過本人不怎么用過。參考:Matlab Codes and Datasets for Feature Learning和Statistics and Machine Learning Toolbox。此外matlab中的Octave可以很方便地解決線性和非線性問題,比如機器學(xué)習(xí)算法底層涉及的問題。如果你有工程背景,那么你可以由此入手。
-
BigML:可能你并不想進行編程工作。你完全可以不通過代碼,來使用 WEKA那樣的工具。你通過使用BigMLS的服務(wù)來進行更加深入的工作。BigML通過Web頁面,提供了機器學(xué)習(xí)的接口,因此你可以通過瀏覽器來建立模型。
-
如果你使用Python,這里推薦一個IDE,WinPython,IDE版本就是Python的版本,自行選擇!
下面給出一個比較圖,具體想要學(xué)什么,還需自己抉擇。
學(xué)習(xí)視頻
由于本人比較崇拜Andrew Ng,所以關(guān)于視頻,首先推薦的便是Andrew Ng的斯坦福大學(xué)的機器學(xué)習(xí)課程。這套視頻在網(wǎng)上有兩個網(wǎng)址,國外和國內(nèi)的都有,全程英語教學(xué),內(nèi)容很好,有時間建議你去聽聽:
-
一個是國外的Coursera公開課,該課程在機器學(xué)習(xí)領(lǐng)域很火,是很多入門學(xué)者的首選。地址:https://www.coursera.org/;講義地址:[Stanford?CS229 course下載講義和筆記](http://cs229.stanford.edu/);
-
一個是國內(nèi)的網(wǎng)易公開課,鏈接地址:http://open.163.com/movie/2008/1/U/O/M6SGF6VB4_M6SGJURUO.html
下面是一個機器學(xué)習(xí)視頻庫,由加州理工學(xué)院(Caltech)出品。
-
機器學(xué)習(xí)視頻庫,地址:http://work.caltech.edu/library/
其它的視頻庫
-
Machine Learning Category on VideoLectures,這個網(wǎng)站的視頻比較多。你可以找出比較感興趣的資源,然后深入學(xué)習(xí)。
機器學(xué)習(xí)最近在國內(nèi)比較火,許多培訓(xùn)機構(gòu)都相應(yīng)的開了該門課程,如果想要聽中文教程的,可以去網(wǎng)上搜索下,這里就不給培訓(xùn)機構(gòu)打廣告了。
博客和文章推薦
大牛們的博客,會讓你感到興奮,讓你覺得你不是一個人在奮斗,讓你時刻記住你的前方已經(jīng)有很多的學(xué)者正在等著你,你要加油。他們的經(jīng)驗會讓我們少走些冤枉路,能讓我們在他們的基礎(chǔ)上進一步理解。下面推薦幾個我所知道的或者說我了解到的幾位牛人博客和幾篇文章:
-
pluskid,真名張弛原,一位技術(shù)大牛,畢業(yè)于浙江大學(xué),后來出國深造。他的博文質(zhì)量非常高,深入淺出,其SVM三層境界的講解讓人茅塞頓開,應(yīng)該給了很多人啟發(fā)吧,很值得學(xué)習(xí)。現(xiàn)在的博客網(wǎng)址:Chiyuan Zhang,原博客網(wǎng)址:Chiyuan Zhang
-
Rachel Zhang,真名張睿卿,很有氣質(zhì)的一位軟妹紙,目前是百度深度學(xué)習(xí)實驗室研發(fā)工程師,在CSDN中的博客人氣絕對屈指可數(shù),算是IT界的一位女中豪杰。博客網(wǎng)址:CSDN博客-Rachel Zhang
-
July,對算法研究獨具一格,目前是七月在線科技創(chuàng)始人兼CEO。博客網(wǎng)址:July
-
Jason,一位國外機器學(xué)習(xí)愛好者,其博客內(nèi)容詳實,多篇文章被國內(nèi)機器學(xué)習(xí)者翻譯。博客網(wǎng)址:http://machinelearningmastery.com/blog/
-
一個國外很好的機器學(xué)習(xí)博客,里面介紹了詳細的算法知識,很全面,從感知機、神經(jīng)網(wǎng)絡(luò)、決策樹、SVM、Adaboost到隨機森林、Deep Learning.網(wǎng)址:A Blog From a Human-engineer-being
-
一篇涵蓋許多機器學(xué)習(xí)資料的文章:機器學(xué)習(xí)(Machine Learning)&深度學(xué)習(xí)(Deep Learning)資料
-
Edwin Chen?,機器學(xué)習(xí)愛好者,博客內(nèi)容涵蓋數(shù)學(xué)、機器學(xué)習(xí)和數(shù)據(jù)科學(xué)。分享其中一篇博文:Choosing a Machine Learning Classifier
-
一篇以前的博文:A List of Data Science and Machine Learning Resources,有時間好好閱讀閱讀,對你絕對有幫助。
-
A Few Useful Things to Know about Machine Learning,一篇很有幫助的機器學(xué)習(xí)文章,里面包括了特征選擇與模型的簡化。
-
The Discipline of Machine Learning機器學(xué)習(xí)規(guī)則。該文章比較老,2006年發(fā)布的,作者是Tom Mitchell,但很有參考價值,其中定義了機器學(xué)習(xí)的規(guī)則。Mitchell在說服CMU總裁為一個百年內(nèi)都存在的問題建立一個獨立的機器學(xué)習(xí)部門時,也用到了這本書中的觀點。希望能對你也有所幫助。
-
分享一個網(wǎng)站:簡書。
國內(nèi)外網(wǎng)站
如果你想搜索比較新穎的機器學(xué)習(xí)資料或是文章,可以到以下網(wǎng)站中搜索,里面不僅包括了機器學(xué)習(xí)的內(nèi)容,還有許多其它相關(guān)領(lǐng)域內(nèi)容,如數(shù)據(jù)科學(xué)和云計算等。
-
InfoWord:http://www.infoworld.com/reviews/
-
Kdnuggets:http://www.kdnuggets.com
-
Datasciencecentral:http://www.datasciencecentral.com/
-
Datascienceplus:http://datascienceplus.com
-
數(shù)據(jù)分析網(wǎng):http://www.afenxi.com/
數(shù)據(jù)科學(xué)競賽
關(guān)于數(shù)據(jù)分析的競賽,國內(nèi)國外都有,下面推薦幾個比較火的競賽網(wǎng)站 :
-
Kaggle比賽,網(wǎng)址:https://www.kaggle.com/
-
DataCastle比賽,網(wǎng)站:http://www.pkbigdata.com/
-
阿里大數(shù)據(jù)競賽,目前沒有消息了,2015年有個【2015天池大數(shù)據(jù)競賽】
ML相關(guān)算法參考
-
決策樹-參考:decision Tree(Python實現(xiàn))
-
SVM支持向量機-參考:pluskid支持向量機三重境界
-
Adaboost-參考:組合算法-Adaboost
-
Random Forest-參考:隨機森林算法
-
樸素貝葉斯算法-參考:Naive Bayes算法實現(xiàn)
-
人工神經(jīng)網(wǎng)絡(luò)-參考:http://www.cnblogs.com/luxiaoxun/archive/2012/12/10/2811309.html
-
Apriori算法-參考地址:Apriori關(guān)聯(lián)分析
-
K最近鄰算法-參考:KNN從原理到實現(xiàn)
-
梯度樹提升GTB算法-參考:Gradient Tree Boosting(或GBRT)
-
K-means聚類-參考:K-means cluster
-
組合算法總結(jié)-參考:Ensemble算法總結(jié)
-
EM期望最大算法-參考:EM算法
-
Logistic回歸-參考:邏輯回歸
-
HMM隱馬爾可夫模型,參考:HMM
-
條件隨機場,參考:CRF
-
隨機森林和GBDT,參考:決策樹模型組合之隨機森林與GBDT
-
特征選擇和特征提取,參考:特征提取與特征選擇
-
梯度下降法,參考:gradient descent
-
牛頓法,參考:牛頓法
-
線性判別分析,參考:線性判別
-
深度學(xué)習(xí)-深度學(xué)習(xí)概述:從感知機到深度網(wǎng)絡(luò)
個人譯文
下面是本人在CSDN云計算欄目發(fā)布的翻譯文章,如有翻譯不準確的地方,還望多多包涵,希望能給大家?guī)睃c幫助,譯文列表如下:
-
2015-09-14?LSTM實現(xiàn)詳解
-
2015-09-10?從零實現(xiàn)來理解機器學(xué)習(xí)算法:書籍推薦及障礙的克服
-
2015-08-31?機器學(xué)習(xí)開發(fā)者的現(xiàn)代化路徑:不需要從統(tǒng)計學(xué)微積分開始
-
2015-08-27?基于Python的卷積神經(jīng)網(wǎng)絡(luò)和特征提取
-
2015-08-20?你應(yīng)該掌握的七種回歸技術(shù)
-
2015-08-11?機器學(xué)習(xí)API Top 10:AT&T Speech、IBM Watson和Google Prediction
-
2015-08-03?從Theano到Lasagne:基于Python的深度學(xué)習(xí)的框架和庫
-
2015-07-15?Airbnb欺詐預(yù)測機器學(xué)習(xí)模型設(shè)計:準確率和召回率的故事
-
2015-07-13?開發(fā)者成功使用機器學(xué)習(xí)的十大訣竅
下面是相關(guān)譯者的譯文,僅供參考:
-
2015-09-16?各種編程語言的深度學(xué)習(xí)庫整理
-
2015-09-11?機器學(xué)習(xí)溫和指南
-
2015-09-10?關(guān)于數(shù)據(jù)科學(xué),書上不曾提及的三點經(jīng)驗
從這些牛人的博客中,你能學(xué)到很多。慢慢地你會體會到,不是你一個人在戰(zhàn)斗,還有很多人,所以你不用害怕孤獨。
作者:劉帝偉(授權(quán)發(fā)布)
來源:http://www.csuldw.com/2015/09/23/2015-09-23%20Machine%20learning%20materials/
溫馨提示:文中有較多鏈接,點擊“閱讀原文”可查看詳細內(nèi)容。
版權(quán)聲明:本公眾號的內(nèi)容部分來自互聯(lián)網(wǎng),轉(zhuǎn)載請注明原文鏈接和作者,如有侵權(quán)或出處有誤請聯(lián)系我們。
官方網(wǎng)站:數(shù)據(jù)分析網(wǎng)(www.afenxi.com)-大數(shù)據(jù)資訊、觀點、技術(shù)研究中心。
官方微信:數(shù)據(jù)分析精選(sjfxjx)
總結(jié)
以上是生活随笔為你收集整理的机器学习资料整理,收藏了不后悔!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不要做一个浮躁的程序员
- 下一篇: 机器学习物语(1):世界观设定