想要入坑机器学习?这是MIT在读博士的AI心得
從科研社區(qū)中汲取營(yíng)養(yǎng)
找論文
AI 領(lǐng)域的論文可以在 arXiv 上找到和發(fā)布?,F(xiàn)在的論文數(shù)量非常令人振奮。社區(qū)中的許多人降低了從噪聲中分辨出信號(hào)的難度。Andrej Karpathy 開發(fā)了 arXiv sanity preserver,幫助分類、搜索和過濾特征。Miles Brundage 每晚都在推特上發(fā)布自己整理的 arXiv 論文列表。很多推特用戶常常分享有趣的參考文章,我推薦大家在推特上關(guān)注自己喜歡的研究者。如果你喜歡用 Reddit,那么 r/MachineLearning(https://www.reddit.com/r/MachineLearning/)非常棒,不過文章更適合機(jī)器學(xué)習(xí)從業(yè)者而不是學(xué)界研究者。Jack Clark 發(fā)布每周社區(qū) newsletter「Import AI (https://jack-clark.net/)」,Denny Britz 發(fā)布「The Wild Week in AI (https://www.getrevue.co/profile/wildml)」。
查看會(huì)議論文集也很值得。三大會(huì)議是 NIPS、ICML、ICLR。其他會(huì)議還包括 AAAI、IJCAI、UAI。每個(gè)分支學(xué)科也有自己的會(huì)議。計(jì)算機(jī)視覺方面有 CVPR、ECCV、ICCV;自然語言方面,有 ACL、EMNLP、NAACL;機(jī)器人方面,有 CoRL(學(xué)習(xí))、ICAPS(規(guī)劃,包括但不限于機(jī)器人)、ICRA、IROS、RSS;對(duì)于更理論性的研究,有 AISTATS、COLT、KDD。會(huì)議是目前論文發(fā)表的主要渠道,但是也有一些期刊。JAIR 和 JMLR 是該領(lǐng)域最厲害的兩種期刊。偶爾一些論文也會(huì)出現(xiàn)在科學(xué)期刊上,如 Nature 和 Science。
尋找舊的論文同樣重要,不過通常更難。那些「經(jīng)典」論文通常出現(xiàn)在參考文獻(xiàn)中,或者研究生課程的閱讀書單。發(fā)現(xiàn)舊論文的另一種方式是從該領(lǐng)域的資深教授開始,尋找他們的早期作品,即他們的研究路徑。同樣也可以向這些教授發(fā)送郵件詢問額外的參考(即使他們太忙沒有回復(fù)也不要介意)。尋找不那么有名或被忽視的舊論文的一種持續(xù)方式是在 Google scholar 中搜索關(guān)鍵詞。
應(yīng)該花費(fèi)多長(zhǎng)時(shí)間閱讀論文?
關(guān)于閱讀論文應(yīng)該用的時(shí)間我聽到過兩種常見建議。一,剛開始的時(shí)候,閱讀所有論文!人們通常說研究生的第一學(xué)期或第一年應(yīng)該只閱讀論文。第二,在最初的上升期之后,不要花費(fèi)太多時(shí)間閱讀論文!原因在于如果研究者不被之前的方法左右,更有可能創(chuàng)造性地提出和解決問題。
我個(gè)人同意第一條建議,不同意第二條。我認(rèn)為一個(gè)人應(yīng)該盡可能多地閱讀論文。「如果我不熟悉別人嘗試過的方法,那我就能更好地想出新穎的更好方法?!埂@種想法似乎不太可能,且傲慢。是的,新視角可能是一把鑰匙,業(yè)余者解決長(zhǎng)期挑戰(zhàn)是因?yàn)樗麄兂龀R?guī)的想法。但是職業(yè)研究者不能完全依賴運(yùn)氣來探索未被考慮過的解決方案。我們的大部分時(shí)間都用來緩慢且有方法地逐步解決問題。閱讀相關(guān)論文是找出我們所處位置和下一步嘗試方向的更高效方式。
關(guān)于盡可能多地閱讀論文,有一個(gè)重要的注意事項(xiàng):消化論文內(nèi)容和閱讀論文一樣重要。用一天時(shí)間學(xué)習(xí)幾篇論文、認(rèn)真做筆記、認(rèn)真思考每一篇的內(nèi)容和思路,比不斷閱讀論文要好一些。盡可能多地閱讀論文。
投資可視化工具和技能
在編寫研究代碼時(shí)我采用的策略是從創(chuàng)建可視化腳本入手。在編寫完其余代碼后,我會(huì)運(yùn)行可視化腳本,以快速驗(yàn)證代碼是否與我的心智模型匹配。更重要的是,良好的可視化經(jīng)常會(huì)使我想法或代碼中的 bug 更加明顯、明了。這里還有一些自我激勵(lì)的話要說:當(dāng)我完成這個(gè)代碼時(shí),我會(huì)做一份漂亮的數(shù)據(jù)或視頻給大家看!
為手頭的問題尋找合適的可視化方法可能非常棘手。如果要迭代優(yōu)化模型(例如深度學(xué)習(xí)),從繪制損失函數(shù)曲線著手會(huì)比較好。此外還有許多用于可視化和解釋神經(jīng)網(wǎng)絡(luò)(特別是卷積神經(jīng)網(wǎng)絡(luò))學(xué)得權(quán)重的技術(shù),例如導(dǎo)向反向傳播。在強(qiáng)化學(xué)習(xí)和規(guī)劃中,智能體在其環(huán)境中的行為是顯而易見的,無論是雅達(dá)利游戲、機(jī)器人任務(wù)還是簡(jiǎn)單的 grid world(如 OpenAI Gym 中的環(huán)境)。根據(jù)設(shè)置,還可以可視化價(jià)值函數(shù)及其在訓(xùn)練過程中的變化(如下所示),或者可視化探索狀態(tài)樹。在處理圖形模型過程中,當(dāng)一維或二維變量在推斷過程中發(fā)生變化時(shí),對(duì)其分布進(jìn)行可視化可以獲得豐富的信息(如下所示)。估計(jì)每次可視化分析時(shí)必須在頭腦中保存的信息量可以幫助檢測(cè)可視化技術(shù)的有效性。如果可視化技術(shù)非常糟糕,你需要詳盡地調(diào)用你編寫的代碼來生成它;反之,一個(gè)良好的可視化技術(shù)可以帶來一個(gè)明顯的結(jié)論。
總結(jié)
以上是生活随笔為你收集整理的想要入坑机器学习?这是MIT在读博士的AI心得的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C#调试WebService
- 下一篇: 电脑手写输入法_百度输入法“手写输入”为