深度学习的四个部分
深度學習領域的學術研究可以包含四部分:優化(Optimization),泛化(Generalization),表達(Representation)以及應(Applications)。除了應用(Applications)之外每個部分又可以分成實踐和理論兩個方面。
優化(Optimization):深度學習的問題最后似乎總能變成優化問題,這個時候數值優化的方法就變得尤其重要。
從實踐方面來說,現在最為推崇的方法依舊是隨機梯度遞減,這樣一個極其簡單的方法以其強悍的穩定性深受廣大研究者的喜愛,而不同的人還會結合動量(momentum)、偽牛頓方法(Pseudo-Newton)以及自動步長等各種技巧。此外,深度學習模型優化過程的并行化也是一個非常熱的點,近年在分布式系統的會議上相關論文也逐漸增多。
在理論方面,目前研究的比較清楚的還是凸優化(Convex Optimization),而對于非凸問題的理論還嚴重空缺,然而深度學習大多數有效的方法都是非凸的。現在有一些對深度學習常用模型及其目標函數的特性研究,期待能夠發現非凸問題中局部最優解的相關規律。
泛化(Generalization):一個模型的泛化能力是指它在訓練數據集上的誤差是否能夠接近所有可能測試數據誤差的均值。泛化誤差大致可以理解成測試數據集誤差和訓練數據集誤差之差。在深度學習領域變流行之前,如何控制泛化誤差一直是機器學習領域的主流問題。
從實踐方面來說,之前許多人擔心的深度神經網絡泛化能力較差的問題,在現實使用中并沒有表現得很明顯。這一方面源于大數據時代樣本巨大的數量,另一方面近年出現了一些新的在實踐上比較有效的控制泛化誤差(Regularization)的方法,比如Dropout和DropConnect,以及非常有效的數據擴增(Data Agumentation)技術。是否還有其它實踐中會比較有效的泛化誤差控制方法一直是研究者們的好奇點,比如是否可以通過博弈法避免過擬合,以及是否可以利用無標記(Unlabeled)樣本來輔助泛化誤差的控制。
從理論方面來說,深度學習的有效性使得PAC學習(Probably Approximately Correct Learning)相關的理論倍受質疑。這些理論無一例外地屬于“上界的上界”的一個證明過程,而其本質無外乎各種集中不等式(Concentration Inequality)和復雜性度量(Complexity Measurement)的變種,因此它對深度學習模型有相當不切實際的估計。這不應該是泛函理論已經較為發達的當下出現的狀況,因此下一步如何能夠從理論上分析深度學習模型的泛化能力也會是一個有趣的問題。而這個研究可能還會牽涉表達(Representation,見下)的一些理論。
表達(Representation):這方面主要指的是深度學習模型和它要解決的問題之間的關系,比如給出一個設計好的深度學習模型,它適合表達什么樣的問題,以及給定一個問題是否存在一個可以進行表達的深度學習模型。
這方面的實踐主要是兩個主流,一方面那些篤信無監督學習(Unsupervised Learning)可行性的研究者們一直在尋找更好的無監督學習目標及其評價方法,以使得機器能夠自主進行表達學習變得可能。這實際上包括了受限波爾茲曼模型(Restricted Boltzmann Machine),稀疏編碼(Sparse Coding)和自編碼器(Auto-encoder)等。另一方面,面對實際問題的科學家們一直在憑借直覺設計深度學習模型的結構來解決這些問題。這方面出現了許多成功的例子,比如用于視覺和語音識別的卷積神經網絡(Convolutional Neural Network),以及能夠進行自我演繹的深度回歸神經網絡(Recurrent Neural Network)和會自主玩游戲的深度強化學習(Reinforcement Learning)模型。絕大多數的深度學習研究者都集中在這方面,而這些也恰恰能夠帶來最大的學術影響力。
然而,有關表達(Representation)的理論,除了從認知心理學和神經科學借用的一些啟發之外,幾乎是空白。這主要是因為是否能夠存在表達的理論實際上依賴于具體的問題,而面對具體問題的時候目前唯一能做的事情就是去類比現實存在的智能體(人類)是如何解決這一問題的,并設計模型來將它歸約為學習算法。我直覺上認為,終極的表達理論就像是拉普拉斯幽靈(Laplace’s Demon)一樣,如果存在它便無所不知,也因此它的存在會產生矛盾,使得這一理論實際上只能無限逼近。
應用(Applications):深度學習的發展伴隨著它對其它領域的革命過程。在過去的數年中,深度學習的應用能力幾乎是一種“敢想就能成”的狀態。這當然得益于現今各行各業豐富的數據集以及計算機計算能力的提升,同時也要歸功于過去近三十年的領域經驗。未來,深度學習將繼續解決各種識別(Recognition)相關的問題,比如視覺(圖像分類、分割,計算攝影學),語音(語音識別),自然語言(文本理解);同時,在能夠演繹(Ability to Act)的方面如圖像文字描述、語音合成、自動翻譯、段落總結等也會逐漸出現突破,更可能協助尋找NP難(NP-Hard)問題在限定輸入集之后的可行算法。所有的這些都可能是非常好的研究點,能夠帶來經濟和學術雙重的利益。
總結
- 上一篇: 深度学习与计算机视觉系列(10)_细说卷
- 下一篇: 深度学习数据集