【AI不惑境】数据压榨有多狠,人工智能就有多成功
大家好,今天開始就進入了專欄《AI不惑境》的更新了,這是第一篇文章,講述數(shù)據(jù)如何驅動深度學習。
進入到不惑境界,就是向高手邁進的開始了,在這個境界需要自己獨立思考。如果說學習是一個從模仿,到追隨,到創(chuàng)造的過程,那么到這個階段,應該躍過了模仿和追隨的階段,進入了創(chuàng)造的階段。從這個境界開始,講述的問題可能不再有答案,更多的是激發(fā)大家一起來思考。
作者&編輯 | 全能言有三
深度學習成功源于三駕馬車,模型,數(shù)據(jù)和硬件,這背后最核心的還是數(shù)據(jù),深度學習正是因為學會了從數(shù)據(jù)中抽象知識,才能夠完成各種各樣的任務。
人工智能的發(fā)展,伴隨著對數(shù)據(jù)的使用方法的進化,今天就來聊聊。
?
1 數(shù)據(jù)與學習
我一直對學生說,如果你不能認識到數(shù)據(jù)對一個任務的重要性,不知道什么樣的數(shù)據(jù)能夠完成手中的任務,就不算真正的入門深度學習。
在此之前,你可以去沉迷于各種框架,技巧,項目。
我們回想一下,大部分人的成長是什么樣的過程。
(1) 一個剛剛出生的小孩,對這個世界的一切都表現(xiàn)出了無差別的興趣,接受各種信息就是成長。
(2) 在青少年時期,我們在家長和老師的帶領下,從背課文寫作業(yè)開始學習,大部分錯誤的行為會得到糾錯,正確的行為會得到獎勵。
(3) 隨著成長,有的人在自己工作的領域里熟練玩轉數(shù)據(jù)和模型,充分發(fā)掘和運用已有的知識,另一部分人所做的事情不再有答案,需要自己去探索新的規(guī)律,比如成立自己的公司,創(chuàng)作新的知識。
這幾個階段,背后的核心都是數(shù)據(jù)。
(1) 沒有知識的時候,所有已有的數(shù)據(jù)都是知識。
(2) 學習知識的時候,需要針對自己要學習的領域進行已有數(shù)據(jù)庫的選擇,想學語言就要背單詞庫,學數(shù)學就要做題庫,學音樂就要練樂譜,這時候用已有的數(shù)據(jù)進行學習。
(3) 使用知識的時候,就要調整自己學習到的知識用于新輸入的數(shù)據(jù),在這個過程中,知識也隨之更新。
(4) 創(chuàng)造知識的時候,就要觀察社會和科學規(guī)律,從中進行總結,面對的就是沒有人整理過的數(shù)據(jù)。
可以毫不夸張的說,人一生大部分時間都用著統(tǒng)計學獲取,整理和分析數(shù)據(jù),知識從數(shù)據(jù)中來,就像老子說的“道法自然”。
?
2 從有監(jiān)督特征工程到無監(jiān)督特征學習
說起無監(jiān)督和有監(jiān)督方法,仍然先舉一個依法治國和無為而治的對比。
依法治國核心就在于設定了各種各樣的法令讓大家遵循,而無為而治的核心就是不干預,讓國家在自然規(guī)律下運轉。很明顯后者是更高級的存在,也更難實現(xiàn),不確定性大。
這個例子說的正是有監(jiān)督和無監(jiān)督方法在社會學的代表,從有監(jiān)督到無監(jiān)督是進步的,然后我們再看看智能系統(tǒng)的成長。
(1) 最初級的智能系統(tǒng),其實就是用機器來使用專家的知識,依靠的是專家在某一個領域的大量的經(jīng)驗積累。從20世紀60年代開始到80年代第二次人工智能浪潮,專家系統(tǒng)的研究是非常流行的,大家感興趣可以去了解。
(2) 隨著技術的發(fā)展,研究者發(fā)現(xiàn)專家系統(tǒng)實在是過于簡單和脆弱,于是研究出了一系列的模型,包括人工神經(jīng)網(wǎng)絡/SVM等等。通過專家的經(jīng)驗對數(shù)據(jù)進行預處理,完成知識的初步抽象(提取特征),之后丟給模型進行進一步的學習。與專家系統(tǒng)相比模型的復雜度大大提升,因此也可以開始解決更加復雜的問題,比如人臉的檢測,語音的識別。在20世紀末和21世紀初,有監(jiān)督的機器學習方法得到了非常廣泛的應用和研究。
(3) 隨著大數(shù)據(jù)的爆發(fā)以及科學家的不斷探索,研究人員開始認識到通過專家的經(jīng)驗對數(shù)據(jù)進行預處理是不合適的,數(shù)據(jù)的維度太高,專家不可能知道每一個任務到底需要怎樣的預處理,所以無監(jiān)督特征學習方法誕生。對于一個無監(jiān)督的特征學習系統(tǒng),它的輸入應該盡可能是原始的數(shù)據(jù),最大程度上保證信息的完整。至于學習的規(guī)則,仍然由專家來制定。
于是專家設計出各種各樣的模型架構和優(yōu)化目標來指導系統(tǒng)從數(shù)據(jù)中進行學習,與有監(jiān)督的特征工程的最大區(qū)別在于使用數(shù)據(jù)的方式,這一類方法也被稱為特征學習,于是我們有了傳統(tǒng)的機器學習算法和深度學習算法之分。
(4) 再往后發(fā)展,就需要機器自己創(chuàng)造模型,人類專家在其中所起的作用很小,甚至沒有,這也是人工智能的未來,或許社會發(fā)展到一定的階段,真的會有創(chuàng)造生命的那一天吧。
?
3 深度學習第一階段-學習特征
在深度學習發(fā)展的第一階段中,重點就是專家設計模型和優(yōu)化策略,從數(shù)據(jù)中學習特征表達。
深度學習的成功很大程度上歸功于卷積神經(jīng)網(wǎng)絡CNN模型架構,在圖像,語音等領域都取得了大大突破。CNN是一種無監(jiān)督的特征學習模型,輸入原始數(shù)據(jù),然后完成學習。關于CNN的基礎,大家可以去閱讀公眾號的相關文章。
在這個過程中,模型的架構固然會影響最終的結果,但是更重要的卻是數(shù)據(jù)集,沒有一個好的數(shù)據(jù)集,怎么都不可能訓練出好的模型。關于數(shù)據(jù)集的重要性,可以閱讀往期文章。
【數(shù)據(jù)】深度學習從“數(shù)據(jù)集”開始?
?
4 深度學習第二階段-學習模型
在深度學習發(fā)展的第二階段中,重點就是學習網(wǎng)絡模型本身和各種相關的策略。
在第一階段,典型的工作流程是準備數(shù)據(jù),選擇模型框架,定義各類優(yōu)化參數(shù),然后開始訓練。
模型的架構需要研究人員手動設計,模型的各類訓練參數(shù)包括歸一化方法,初始化方法,激活函數(shù)等等也需要研究人員根據(jù)經(jīng)驗進行調試。數(shù)據(jù)的使用,包括預處理,增強策略也需要研究人員進行嘗試。
但是技術發(fā)展到今天,研究人員開始從數(shù)據(jù)中學習模型本身。
4.1、AutoML自動模型結構設計技術
在深度學習發(fā)展的這些年里,研究人員用盡了各種手段去探索和設計各種各樣的網(wǎng)絡,研究網(wǎng)絡的深度,寬度,卷積的方式,淺層深層的信息流動和融合等,可以參見往期文章。
【完結】總結12大CNN主流模型架構設計思想?
然而到了今天,新的網(wǎng)絡設計方法開始流行,以Google Brain提出的AutoML為代表的技術,讓機器根據(jù)不同的任務(數(shù)據(jù)),自動搜索最佳的模型架構,數(shù)據(jù)驅動了模型的學習。
谷歌AutoML創(chuàng)造者Quoc Le:未來最好的人工智能模型將由機器生成?
4.2、AutoAugment自動數(shù)據(jù)增強策略
曾幾何時,我們采用各種各樣的幾何變換,顏色變換策略來進行數(shù)據(jù)增強。隨機裁剪,顏色擾動,都對提升模型的泛化能力起著至關重要的作用。
而如今,是時候尋找更好的方法了。以Google Brain提出的AutoAugment為代表的方法,使用增強學習對不同的任務學習到了各自最合適的增強方法,可以參考往期文章。
【技術綜述】深度學習中的數(shù)據(jù)增強方法都有哪些??
4.3、自動優(yōu)化參數(shù)選擇
曾幾何時,我們設計,比較,分析sigmoid,tanh,relu等激活函數(shù)對網(wǎng)絡性能的影響。
而Google Brain提出的以Swish為代表的方法,在一系列一元函數(shù)和二元函數(shù)組成的搜索空間中,進行了組合搜索實驗,利用數(shù)據(jù)學習到了比ReLU更好的激活函數(shù),可以參考往期文章。
【AI初識境】激活函數(shù):從人工設計到自動搜索?
曾幾何時,我們還在爭論是最大池化好還是平均池化好,如今基于數(shù)據(jù)的池化策略已經(jīng)被廣泛研究。
曾幾何時,我們還在不知道選擇什么樣的歸一化方法好,如今,基于數(shù)據(jù)的歸一化策略也在被研究。
曾幾何時,我們還在不知道選擇什么樣的優(yōu)化方法好,如今,基于數(shù)據(jù)的優(yōu)化方法也在被研究。
這些內容,可以參考公眾號的《AI初識境》,后面我們也會做更多詳細的解讀。
可以說,從模型的結構設計,模型的優(yōu)化參數(shù)選擇,數(shù)據(jù)的使用策略,深度學習正在全面走向自動化。
很久以前,我們只會使用抽象好的數(shù)據(jù)。后來,我們學會了從數(shù)據(jù)中自己抽象特征。后來,我們發(fā)明了一個系統(tǒng)讓它去抽象特征。再到后來,我們想讓數(shù)據(jù)把系統(tǒng)也學了。
下期預告:模型的深度和寬度對性能的影響。
?
轉載文章請后臺聯(lián)系
侵權必究
比如網(wǎng)絡loss不正常,怎么調都不管用。
比如訓練好好的,測試就是結果不對。
bug天天有,深度學習算法工程師遇到的特別多,如果你想交流更多,就來有三AI知識星球實時提問交流吧,大咖眾多,總有能解決你問題的。
不惑境
AI白身境系列完整閱讀:
第一期:【AI白身境】深度學習從棄用windows開始
第二期:【AI白身境】Linux干活三板斧,shell、vim和git
第三期:【AI白身境】學AI必備的python基礎
第四期:【AI白身境】深度學習必備圖像基礎
第五期:【AI白身境】搞計算機視覺必備的OpenCV入門基礎
第六期:【AI白身境】只會用Python?g++,CMake和Makefile了解一下
第七期:【AI白身境】學深度學習你不得不知的爬蟲基礎
第八期:?【AI白身境】深度學習中的數(shù)據(jù)可視化
第九期:【AI白身境】入行AI需要什么數(shù)學基礎:左手矩陣論,右手微積分
第十期:【AI白身境】一文覽盡計算機視覺研究方向
第十一期:【AI白身境】AI+,都加在哪些應用領域了
第十二期:【AI白身境】究竟誰是paper之王,全球前10的計算機科學家
AI初識境系列完整閱讀
第一期:【AI初識境】從3次人工智能潮起潮落說起
第二期:【AI初識境】從頭理解神經(jīng)網(wǎng)絡-內行與外行的分水嶺
第三期:【AI初識境】近20年深度學習在圖像領域的重要進展節(jié)點
第四期:【AI初識境】激活函數(shù):從人工設計到自動搜索
第五期:【AI初識境】什么是深度學習成功的開始?參數(shù)初始化
第六期:【AI初識境】深度學習模型中的Normalization,你懂了多少?
第七期:【AI初識境】為了圍剿SGD大家這些年想過的那十幾招
第八期:【AI初識境】被Hinton,DeepMind和斯坦福嫌棄的池化,到底是什么?
第九期:【AI初識境】如何增加深度學習模型的泛化能力
第十期:【AI初識境】深度學習模型評估,從圖像分類到生成模型
第十一期:【AI初識境】深度學習中常用的損失函數(shù)有哪些?
第十二期:【AI初識境】給深度學習新手開始項目時的10條建議
AI不惑境系列完整閱讀:
第一期:【AI不惑境】數(shù)據(jù)壓榨有多狠,人工智能就有多成功
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內容將會不定期奉上,歡迎大家關注有三公眾號 有三AI!
總結
以上是生活随笔為你收集整理的【AI不惑境】数据压榨有多狠,人工智能就有多成功的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【AI-1000问】为什么CNN中的卷积
- 下一篇: 【杂谈】AI工业界都有哪些值得参加的比赛