【AI初识境】近20年深度学习在图像领域的重要进展节点
文章首發(fā)于微信公眾號《有三AI》
【AI初識境】近20年深度學(xué)習(xí)在圖像領(lǐng)域的重要進(jìn)展節(jié)點(diǎn)
這是專欄《AI初識境》的第3篇文章。所謂初識,就是對相關(guān)技術(shù)有基本了解,掌握了基本的使用方法。
這是本系列的最后一篇非技術(shù)文章,我們總結(jié)一下深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域的重要?dú)v史性節(jié)點(diǎn),本來打算語音,自然語言處理一起的,文章太長以后再談。
?作者&編輯?|?言有三
?
1?前深度學(xué)習(xí)時(shí)代
從早期的全連接神經(jīng)網(wǎng)絡(luò)到卷積神經(jīng)網(wǎng)絡(luò)CNN,跨度超過半個(gè)世紀(jì),我們在上一期文章中進(jìn)行過回顧,大家感興趣的可以回過頭去看。
【AI初識境】從頭理解神經(jīng)網(wǎng)絡(luò)-內(nèi)行與外行的分水嶺
幾個(gè)重要的節(jié)點(diǎn)是:
1943年:MP模型的提出。
1960~1980年:視覺機(jī)制的發(fā)現(xiàn)。
1979年:Neocognitron的提出,卷積神經(jīng)網(wǎng)絡(luò)的萌芽。
1986年:反向傳播算法被用于神經(jīng)網(wǎng)絡(luò)的優(yōu)化并開始流行,同期動量算法提出被用于加速SGD。
1990年:TDNN模型,卷積神經(jīng)網(wǎng)絡(luò)被用于語音識別。
1992年:Max-pooling被提出,此后成為卷積神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn)組件。
1997年:LSTM被提出,促進(jìn)了語音,自然語言處理等領(lǐng)域等發(fā)展。
1998年:LeNet5和MNIST數(shù)據(jù)集被提出和整理,兩者可以說各自是卷積神經(jīng)網(wǎng)絡(luò)和圖像數(shù)據(jù)集的“HelloWorld”,總會被拿出來說一說。
所謂深度學(xué)習(xí),是以人工神經(jīng)網(wǎng)絡(luò)為基本架構(gòu)的特征學(xué)習(xí)方法,涵蓋監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),增強(qiáng)學(xué)習(xí)等,模型結(jié)構(gòu)以卷積神經(jīng)網(wǎng)絡(luò)為代表,它不僅被用于圖像,也被用于語音,自然語言處理等各種領(lǐng)域。
?
2?深度學(xué)習(xí)時(shí)代
以2006年為分水嶺,下面盡量挑重點(diǎn)的,在學(xué)術(shù)界和工業(yè)界有重大意義,同時(shí)又廣為人知的來說。
2006年Hinton等人在science期刊上發(fā)表了論文“Reducing?the?dimensionality?of?data?with?neuralnetworks”,揭開了新的訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)算法的序幕。利用無監(jiān)督的RBM網(wǎng)絡(luò)來進(jìn)行預(yù)訓(xùn)練,進(jìn)行圖像的降維,取得比PCA更好的結(jié)果,通常這被認(rèn)為是深度學(xué)習(xí)興起的開篇。
2006年,NVIDIA推出CUDA,GPU被用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),是當(dāng)時(shí)的CPU的訓(xùn)練速度的四倍。到現(xiàn)在,GPU是研發(fā)強(qiáng)大算法必備的條件,這也是大公司屢屢取得突破而小公司只能亦步亦趨跟隨的一個(gè)很重要的原因。NVIDIA的GeForce系列,搞深度學(xué)習(xí)的誰還沒有呢?
2006~2009年,在圖像MNIST數(shù)據(jù)集,語音TIMIT數(shù)據(jù)集以及一些垂直領(lǐng)域的小比賽比如TRECVID也取得了不錯(cuò)的進(jìn)展,但是還算不上突破性的,所以也不怎么為人所知。
2009年,CIFAR10和CIFAR100數(shù)據(jù)集被整理。由于MNIST是一個(gè)灰度圖像數(shù)據(jù)集,而大部分現(xiàn)實(shí)的任務(wù)為彩色圖像,所以Alex?Krizhevsky等學(xué)者從TinyImage數(shù)據(jù)集中整理出了CIFAR10和CIFAR100。與MNIST一樣CIFAR10數(shù)據(jù)集也有60000張圖像,不過圖像為彩色。圖像大小是32×32,分為10個(gè)類,每類6000張圖。其中50000張用于訓(xùn)練,另外10000用于測試。CIFAR100則分為100個(gè)類,每一類600張圖像。
這兩個(gè)數(shù)據(jù)集與MNIST一樣,在評測方法時(shí)非常常見。
2009年,ImageNet數(shù)據(jù)集被整理,并于次年開始每年舉辦一次比賽。ImageNet?數(shù)據(jù)集總共有1400多萬幅圖片,涵蓋2萬多個(gè)類別,為計(jì)算機(jī)視覺領(lǐng)域做出了巨大的貢獻(xiàn),至今我們?nèi)匀皇褂弥鳬magenet來評估算法,以及預(yù)訓(xùn)練其他任務(wù)的模型。
2009年前后幾年時(shí)間,屬于融匯貫通各種技術(shù),數(shù)據(jù)和裝備,典型的蓄力階段,輔以小數(shù)據(jù)集和若干比賽的突破。
2011年,CNN以0.56%的錯(cuò)誤率贏得了IJCNN?2011比賽并超過了人眼,這是一場交通標(biāo)志的識別比賽,研究者開始對深度學(xué)習(xí)在自動駕駛中的應(yīng)用前景展現(xiàn)出濃厚的興趣,畢竟在上個(gè)世紀(jì)90年代無人車的研究就已經(jīng)開始了。現(xiàn)在無人車是非常大的一個(gè)應(yīng)用前景。
2011年,Glorot等人提出ReLU激活函數(shù),有效地抑制了深層網(wǎng)絡(luò)的梯度消失問題,現(xiàn)在最好的激活函數(shù)都是來自于ReLU家族,簡單而有效。
2012年,經(jīng)典書籍《大數(shù)據(jù)時(shí)代》出版,作者維克托?邁爾?舍恩伯格在書中指出大數(shù)據(jù)時(shí)代來了,我們應(yīng)該放棄對因果關(guān)系的追求,而關(guān)注相關(guān)關(guān)系,從“為什么”開始轉(zhuǎn)變到“是什么”,這不就是統(tǒng)計(jì)學(xué)習(xí)人工智能學(xué)派的基礎(chǔ)工具深度學(xué)習(xí)最擅長做的嗎。
也就是從那個(gè)時(shí)候開始,人們大喊,大數(shù)據(jù)來了,一時(shí)之間,數(shù)據(jù)科學(xué)家,數(shù)據(jù)挖掘工程師成為熱門。
2012年,Hinton的學(xué)生Alex?Krizhevsky提出AlexNet網(wǎng)絡(luò),以低于第2名10%的錯(cuò)誤率贏得了ImageNet競賽。當(dāng)時(shí)Alex?Krizhevsky使用了兩塊顯卡GTX580,花了6天時(shí)間才訓(xùn)練出AlexNet,我相信如果有更多的資源,AlexNet一定是一個(gè)更好的AlexNet。
2013年Hinton的學(xué)生Zeiler和Fergus在研究中利用反卷積技術(shù)引入了神經(jīng)網(wǎng)絡(luò)的可視化,提出了zfnet,對網(wǎng)絡(luò)的中間特征層進(jìn)行了可視化,為研究人員檢驗(yàn)不同特征激活及其與輸入空間的關(guān)系成為了可能,慢慢地大家也開始都關(guān)注起深度學(xué)習(xí)的作用機(jī)制。
2013年,Ross?Girshick等人提出了目標(biāo)檢測模型RCNN,開創(chuàng)了CNN用于目標(biāo)檢測的基準(zhǔn)之一。隨后研究者針對該系列提出Fast?RCNN,Faster?RCNN等等。
2014年,GoogLeNet和VGGNet分別被提出,獲得ImageNet分類賽的冠亞軍。VGGNet很好的展示了如何在先前網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上通過簡單地增加網(wǎng)絡(luò)層數(shù)和深度就可以提高網(wǎng)絡(luò)的性能,GoogleNet模型架構(gòu)則提出了Inception結(jié)構(gòu),拓寬神經(jīng)的寬度,成為了計(jì)算效率較高的深層模型基準(zhǔn)之一。
2014年,無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)GAN橫空出世,獨(dú)立成了一個(gè)新的研究方向,被LeCun譽(yù)為下一代深度學(xué)習(xí),此后GAN在各大領(lǐng)域,尤其是圖像領(lǐng)域不斷“建功立業(yè)”,并與各類CNN網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了融合。
2015年,ResNet獲得了ImageNet2012分類任務(wù)冠軍,以3.57%的錯(cuò)誤率表現(xiàn)超過了人類的識別水平,并以152層的網(wǎng)絡(luò)架構(gòu)創(chuàng)造了新的模型記錄,自此殘差連接在CNN的設(shè)計(jì)中隨處可見。
2015年,全卷積網(wǎng)絡(luò)Fully?Convolutional?Networks被提出用于圖像分割,自此圖像分割領(lǐng)域也即迎來大爆發(fā)。
2014年,Google啟動AlphaGo的研究,2015年10月AlphaGo擊敗歐洲圍棋冠軍樊麾成為第一個(gè)無需讓子即可擊敗圍棋職業(yè)棋手的計(jì)算機(jī)圍棋程序。2016年3月,AlphaGo在一場世界矚目的比賽中4:1擊敗頂尖職業(yè)棋手李世石,2017年5月23至27日在烏鎮(zhèn)圍棋峰會上,AlphaGo和世界第一棋手柯潔比試全勝。
AlphaGo的成功,對人工智能的普及工作意義非常深遠(yuǎn),讓不僅是從業(yè)者,外行人也開始領(lǐng)略到人工智能的強(qiáng)大,而背后就有卷積神經(jīng)網(wǎng)絡(luò)的功勞。
此后便是卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺各大領(lǐng)域攻城略地,無往而不勝。關(guān)于都有哪些方向,可以參考這個(gè)。
【AI白身境】一文覽盡計(jì)算機(jī)視覺研究方向
而各種各樣的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)被提出,可參見我們之前的一個(gè)總結(jié)。
【完結(jié)】總結(jié)12大CNN主流模型架構(gòu)設(shè)計(jì)思想
從上面的這些歷史可以看出,很多重要的研究其實(shí)都是同一時(shí)期出現(xiàn),而最后為人所知雖然有先后的順序,但是金子遲早會發(fā)光。
這也不僅讓我們要思考,接下來幾年里大放異彩的,是現(xiàn)在哪些剛剛初出茅廬卻還沒有名噪天下的東西呢?
最后發(fā)一個(gè)通知,2019年有三AI培養(yǎng)計(jì)劃已經(jīng)開始,一個(gè)季度一期。
2019年有三AI“春季”劃,給我一個(gè)榮耀,還你一生榮耀
?
總結(jié)
重要的節(jié)點(diǎn)通常都承前啟后,不管是作為談資,還是設(shè)身處地地站在當(dāng)時(shí)的節(jié)點(diǎn)來思考一番,都是受益良多的。
本文是有史以來罕見的短文,一是為了給大家留出更多的思考空間,另一方面也是希望大家認(rèn)真去翻翻我們以前的文章,信息量很大。
下一期預(yù)告:深度學(xué)習(xí)中的激活函數(shù)
?
轉(zhuǎn)載文章請后臺聯(lián)系
侵權(quán)必究
比如網(wǎng)絡(luò)loss不正常,怎么調(diào)都不管用。
比如訓(xùn)練好好的,測試就是結(jié)果不對。
bug天天有,深度學(xué)習(xí)算法工程師遇到的特別多,如果你想交流更多,就來有三AI知識星球?qū)崟r(shí)提問交流吧,大咖眾多,總有能解決你問題的。
初識境界到此基本就結(jié)束了,這一系列是為大家奠定扎實(shí)的深度學(xué)習(xí)基礎(chǔ),希望學(xué)習(xí)完后大家能有收獲。
AI白身境系列完整閱讀:
第一期:【AI白身境】深度學(xué)習(xí)從棄用windows開始
第二期:【AI白身境】Linux干活三板斧,shell、vim和git
第三期:【AI白身境】學(xué)AI必備的python基礎(chǔ)
第四期:【AI白身境】深度學(xué)習(xí)必備圖像基礎(chǔ)
第五期:【AI白身境】搞計(jì)算機(jī)視覺必備的OpenCV入門基礎(chǔ)
第六期:【AI白身境】只會用Python?g++,CMake和Makefile了解一下
第七期:【AI白身境】學(xué)深度學(xué)習(xí)你不得不知的爬蟲基礎(chǔ)
第八期:?【AI白身境】深度學(xué)習(xí)中的數(shù)據(jù)可視化
第九期:【AI白身境】入行AI需要什么數(shù)學(xué)基礎(chǔ):左手矩陣論,右手微積分
第十期:【AI白身境】一文覽盡計(jì)算機(jī)視覺研究方向
第十一期:【AI白身境】AI+,都加在哪些應(yīng)用領(lǐng)域了
第十二期:【AI白身境】究竟誰是paper之王,全球前10的計(jì)算機(jī)科學(xué)家
AI初識境系列完整閱讀
第一期:【AI初識境】從3次人工智能潮起潮落說起
第二期:【AI初識境】從頭理解神經(jīng)網(wǎng)絡(luò)-內(nèi)行與外行的分水嶺
第三期:【AI初識境】近20年深度學(xué)習(xí)在圖像領(lǐng)域的重要進(jìn)展節(jié)點(diǎn)
第四期:【AI初識境】激活函數(shù):從人工設(shè)計(jì)到自動搜索
第五期:【AI初識境】什么是深度學(xué)習(xí)成功的開始?參數(shù)初始化
第六期:【AI初識境】深度學(xué)習(xí)模型中的Normalization,你懂了多少?
第七期:【AI初識境】為了圍剿SGD大家這些年想過的那十幾招
第八期:【AI初識境】被Hinton,DeepMind和斯坦福嫌棄的池化,到底是什么?
第九期:【AI初識境】如何增加深度學(xué)習(xí)模型的泛化能力
第十期:【AI初識境】深度學(xué)習(xí)模型評估,從圖像分類到生成模型
第十一期:【AI初識境】深度學(xué)習(xí)中常用的損失函數(shù)有哪些?
第十二期:【AI初識境】給深度學(xué)習(xí)新手開始項(xiàng)目時(shí)的10條建議
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會不定期奉上,歡迎大家關(guān)注有三公眾號 有三AI!
?
總結(jié)
以上是生活随笔為你收集整理的【AI初识境】近20年深度学习在图像领域的重要进展节点的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【AI-1000问】人脸的4个方向,你还
- 下一篇: 【AI初识境】激活函数:从人工设计到自动