深度学习,路在何方?
文 | Severus
最近,AI領域的三位圖靈獎獲得者Yoshua Bengio、Yann LeCun和Geoffrey Hinton共同發表了一篇文章,名為Deep Learning for AI,文中討論了深度學習的起源、發展、成就及未來。
文章標題:
Deep Learning for AI
原文鏈接:
https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext
小伙伴們也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0712】 下載論文PDF~
今天我們有什么
得益于越來越便宜的算力,以及越來越海量的數據,加上各種機構做出了越來越簡單易用的深度學習框架,如Theano、Torch、TensorFlow、PyTorch等,它們可以做自動求導,讓訓練深度學習模型變得更加簡單。這一切因素帶動了深度學習的火熱。
深度學習在結構上的成功,則在于它的多層結構,可以進行重組、重構建淺層網絡得到更加抽象的特征,而這些特征,用于最終的任務,如分類任務、生成任務等,就會變得足夠的簡單。但如果想得到合理的抽象特征,自然也就需要海量的數據來支撐。
在有標簽數據充沛的領域,監督學習自然是會達到非常好的效果;在規則足夠簡單,且限制比較強的領域,強化學習也自然會有非常強勢的表現(如下棋、游戲等)。但是現實世界顯然不會是這么理想的,那么,利用遷移學習,將從數據充沛的任務中學習到的知識應用到一些數據不是那么夠的任務中,就成為了下一步解決方案。那么遷移學習中的預訓練任務,要怎么樣去設計,才能得到一種對下游任務足夠友好的通用表示,且數據可以足夠多呢?
各個領域的人,嘗試了各種無監督、自監督的方式,如NLP領域,有完形填空任務,即讓模型填上文本中遮蔽掉的詞,或改正錯誤的詞;CV領域,則使用對比學習來得到更加魯棒的表示(實際上,近年來也有將對比學習策略應用到NLP的工作,當然這些工作最大的問題仍是怎么樣去定義對比學習的正例和負例)。還有一種自監督的學習方法是變分自動編碼器(VAE),簡單來講,就是由編碼器學習圖片的表示,再用解碼器還原這張圖片(用這個表示去生成一張圖片)。
以上是文章中對近期深度學習的工作進展的介紹,寥寥數字,遠不及文章中所提全面,例如soft attention的成功、ReLU成功之謎,本文不再介紹,而比較關鍵的是要談一談深度學習的未來。
未來何去何從
機器學習研究,都會遵從一個強假設,即獨立同分布假設,train集合和test集合需是相互獨立且同分布的。當機器學習系統想要應用于產業中的時候,理想的情況自然也是訓練樣本和真實應用場景是同分布的(工業場景下不一定非得要獨立,甚至,訓練樣本就在使用場景之中,促使一定程度的過擬合,可能才是工業比較希望的)。如果應用場景是足夠窄,且數據足夠多(有監督學習),或規則足夠強(強化學習),這種理想情況是幾乎可以實現的,但現實往往不盡如人意,也就是說,同分布的假設大概率要打破。
這也就導致了很多在實驗任務中打出了不俗分數的模型,到了真實的使用場景中,往往會爆發這樣或那樣的問題,導致它無法應用。哪怕是已經非常神奇的自監督預訓練模型或無監督預訓練模型,在面對超出分布(out-of-distribution)的場景的時候,表現也會掣肘。
與深度學習模型不同,人就有著非常強大的領域遷移能力,且這種能力往往又不需要很多的樣本,甚至僅僅需要一些規則(符號派的規則描述),就可以迅速適應一個新的領域。例如,如果看見一張以前完全沒有見過的風格的照片,人大概也能分辨照片上面有什么,哪怕分辨不了,那他認識了這一張,也會迅速認識很多類似的照片。兩個使用同樣語言,但受到過不太一樣的教育的人,在交流的時候,如果使用的是同一個語言,那么兩個人大概率也能進行交流,只不過涉及到專業的背景時才可能會存在交流上的障礙;一個人在學習一個新的游戲的時候,可能僅僅需要理解規則,加上試玩一兩次,就可以掌握這個游戲的基本玩法,后期對游戲規則的認識,或者學習技巧,也無非是擴充自己對這個游戲的認識。
所以,針對現有的深度學習系統,或許我們應該探索的方向是,怎樣設計出一個能夠很好地面對超出分布的機器學習系統。
關于這一問題,原文中提出了多種改善方向,包括
膠囊網絡所使用的用相鄰的成組神經元去表示實體
適應多種時間尺度的權重設計
高層次的認知。
這里我想要針對高層次的認知這一部分談一下。
從“感知”到“認知”?
文中對高層次的認知的描述,是一種“想象”能力,將現在已經學習的知識或技能重新組合,重構成為新的知識體系,隨之也重新構建出了一個新的假想世界(如在月球上開車),這種能力是人類天生就被賦予了的,在因果論中,被稱作“反事實”能力。也正如Judea Pearl所代表的因果論體系中所提到的因果關系之梯,觀察(感知)、干預、反事實(認知)。
現有的統計學習系統僅僅停留在因果關系之梯的第一層,即觀察,觀察特征與標簽之間的關聯,而無法做到更高層次的事情。
當然現在也有很多人在做相關的研究,例如用反事實的思想去做訓練策略(例如二分類,先假設當前樣本為正例,得到一個表示,再假設當前樣本為負例,又得到一個表示,兩個表示相減,所剩余的東西,作者即認為是真正有用的特征),或者干脆去做對抗訓練(例如文本分類中,替換實體或者遮蔽實體,試圖找到人去判斷這句話為某一類的真正的因素)。這些方法是想要在統計的限制之內試圖去找到真正與答案有“因果”關系的因素,或者更加宏大的是,找到人類關于這個問題的通用知識。實際上當我們在統計模型中,通過去干預數據描述世界的方式,驅使模型真正模仿了人真正的推理過程,那么也就是讓模型學習到了人類關于這個任務的通用知識。個人認為,如果能驅使模型學習到通用知識,其實同分布的假設也就沒有那么容易被打破了。
這其實和2年前Welling教授所提到的愿景是類似的,Welling教授想要賦予模型演繹的能力,而這三位大佬的文章中則想要讓AI系統學習到潛在的因果,能夠從低層次的“感知”到高層次的“認知”。
但實際上,這樣一種系統其實會超出現在所有對神經網絡、深度學習等等的定義,會超出對統計模型的定義。統計模型其本身的原理、結構就限制了其能力,它只能做歸納,卻不能做演繹。那也就是說,如果想賦予深度學習系統認知的能力,則需要徹底改變現有深度學習系統的模式,包括模型的存在形式,模型“學習”的過程,這可能是想要實現更強的人工智能的一種必然,卻又無法想象它會是以一種什么樣的形式存在,我想,大佬們在文章里面沒有講清楚,也可能這片未來本就是迷霧重重的。
實用主義出發的道路
我的口嗨
AI研究一直分為兩個學派,符號學派及統計學派。符號學派從定理證明開始,到專家系統,到知識圖譜,以及曾經非?;鸨奈宕鷻C等,實際上一直在做的事情,就是試圖將我們上文所討論的將人類的認知能力描述出來,賦予給機器的過程。只不過,符號學派需要無數的人去不斷地窮舉、描述真實世界的知識,再編寫成為機器所能接受的形式,還要去考慮計算效率等等的問題,繁瑣,效率很低,面對復雜的真實世界,自然會又種種掣肘,在數據量夠大、算力夠便宜的今天,遠不如統計學派來的優雅。
可是我們又不得不承認,在劃分能力(即定義“否”的能力)上,符號派相比于統計派,就是得天獨厚的。
其實在統計學習已經逐漸觸摸到上限的今天,我們無法設想出新的道路,但我們是否可以走走老路呢?例如,統計學習實際上是去解決人看不過來的東西,將復雜的世界劃分或聚攏成為若干個分組,每一個分組去解決不同的問題,那其實使用統計學習到的特征,成為一種規則觸發,與符號AI結合,去解決更加復雜的問題,看似中庸,但使其作為一個實用者出發的道路,是否可以呢?
實際上,統計學習系統作為一個輔助決策的工具,已經在很多個領域有這種應用了,利用各個條件執行決策的,可能是人,可能是一個簡簡單單的規則引擎,它雖不優雅,但勝在有用。
或許,人工智能的發展,可能就是要統合,就如同玉女劍法和全真劍法一樣,看似互相克制,但其實雙劍合璧,卻是真正的威力。
尋求報道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務合作”
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的深度学习,路在何方?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 真正的高阶特征交叉:xDeepFM与DC
- 下一篇: 关于深度学习,我们4年时间写了一本140