當(dāng)前位置：首頁 >

【AI初识境】近20年深度学习在图像领域的重要进展节点

發(fā)布時間：2025/3/20 42 豆豆

生活随笔收集整理的這篇文章主要介紹了【AI初识境】近20年深度学习在图像领域的重要进展节点小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章首發(fā)于微信公眾號《有三AI》

【AI初識境】近20年深度學(xué)習(xí)在圖像領(lǐng)域的重要進(jìn)展節(jié)點(diǎn)

這是專欄《AI初識境》的第3篇文章。所謂初識，就是對相關(guān)技術(shù)有基本了解，掌握了基本的使用方法。

這是本系列的最后一篇非技術(shù)文章，我們總結(jié)一下深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域的重要?dú)v史性節(jié)點(diǎn)，本來打算語音，自然語言處理一起的，文章太長以后再談。

?作者&編輯?|?言有三

1?前深度學(xué)習(xí)時代

從早期的全連接神經(jīng)網(wǎng)絡(luò)到卷積神經(jīng)網(wǎng)絡(luò)CNN，跨度超過半個世紀(jì)，我們在上一期文章中進(jìn)行過回顧，大家感興趣的可以回過頭去看。

【AI初識境】從頭理解神經(jīng)網(wǎng)絡(luò)-內(nèi)行與外行的分水嶺

幾個重要的節(jié)點(diǎn)是：

1943年：MP模型的提出。

1960～1980年：視覺機(jī)制的發(fā)現(xiàn)。

1979年：Neocognitron的提出，卷積神經(jīng)網(wǎng)絡(luò)的萌芽。

1986年：反向傳播算法被用于神經(jīng)網(wǎng)絡(luò)的優(yōu)化并開始流行，同期動量算法提出被用于加速SGD。

1990年：TDNN模型，卷積神經(jīng)網(wǎng)絡(luò)被用于語音識別。

1992年：Max-pooling被提出，此后成為卷積神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn)組件。

1997年：LSTM被提出，促進(jìn)了語音，自然語言處理等領(lǐng)域等發(fā)展。

1998年：LeNet5和MNIST數(shù)據(jù)集被提出和整理，兩者可以說各自是卷積神經(jīng)網(wǎng)絡(luò)和圖像數(shù)據(jù)集的“HelloWorld”，總會被拿出來說一說。

所謂深度學(xué)習(xí)，是以人工神經(jīng)網(wǎng)絡(luò)為基本架構(gòu)的特征學(xué)習(xí)方法，涵蓋監(jiān)督學(xué)習(xí)，無監(jiān)督學(xué)習(xí)，半監(jiān)督學(xué)習(xí)，增強(qiáng)學(xué)習(xí)等，模型結(jié)構(gòu)以卷積神經(jīng)網(wǎng)絡(luò)為代表，它不僅被用于圖像，也被用于語音，自然語言處理等各種領(lǐng)域。

2?深度學(xué)習(xí)時代

以2006年為分水嶺，下面盡量挑重點(diǎn)的，在學(xué)術(shù)界和工業(yè)界有重大意義，同時又廣為人知的來說。

2006年Hinton等人在science期刊上發(fā)表了論文“Reducing?the?dimensionality?of?data?with?neuralnetworks”，揭開了新的訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)算法的序幕。利用無監(jiān)督的RBM網(wǎng)絡(luò)來進(jìn)行預(yù)訓(xùn)練，進(jìn)行圖像的降維，取得比PCA更好的結(jié)果，通常這被認(rèn)為是深度學(xué)習(xí)興起的開篇。

2006年，NVIDIA推出CUDA，GPU被用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，是當(dāng)時的CPU的訓(xùn)練速度的四倍。到現(xiàn)在，GPU是研發(fā)強(qiáng)大算法必備的條件，這也是大公司屢屢取得突破而小公司只能亦步亦趨跟隨的一個很重要的原因。NVIDIA的GeForce系列，搞深度學(xué)習(xí)的誰還沒有呢？

2006～2009年，在圖像MNIST數(shù)據(jù)集，語音TIMIT數(shù)據(jù)集以及一些垂直領(lǐng)域的小比賽比如TRECVID也取得了不錯的進(jìn)展，但是還算不上突破性的，所以也不怎么為人所知。

2009年，CIFAR10和CIFAR100數(shù)據(jù)集被整理。由于MNIST是一個灰度圖像數(shù)據(jù)集，而大部分現(xiàn)實(shí)的任務(wù)為彩色圖像，所以Alex?Krizhevsky等學(xué)者從TinyImage數(shù)據(jù)集中整理出了CIFAR10和CIFAR100。與MNIST一樣CIFAR10數(shù)據(jù)集也有60000張圖像，不過圖像為彩色。圖像大小是32×32，分為10個類，每類6000張圖。其中50000張用于訓(xùn)練，另外10000用于測試。CIFAR100則分為100個類，每一類600張圖像。

這兩個數(shù)據(jù)集與MNIST一樣，在評測方法時非常常見。

2009年，ImageNet數(shù)據(jù)集被整理，并于次年開始每年舉辦一次比賽。ImageNet?數(shù)據(jù)集總共有1400多萬幅圖片，涵蓋2萬多個類別，為計(jì)算機(jī)視覺領(lǐng)域做出了巨大的貢獻(xiàn)，至今我們?nèi)匀皇褂弥鳬magenet來評估算法，以及預(yù)訓(xùn)練其他任務(wù)的模型。

2009年前后幾年時間，屬于融匯貫通各種技術(shù)，數(shù)據(jù)和裝備，典型的蓄力階段，輔以小數(shù)據(jù)集和若干比賽的突破。

2011年，CNN以0.56%的錯誤率贏得了IJCNN?2011比賽并超過了人眼，這是一場交通標(biāo)志的識別比賽，研究者開始對深度學(xué)習(xí)在自動駕駛中的應(yīng)用前景展現(xiàn)出濃厚的興趣，畢竟在上個世紀(jì)90年代無人車的研究就已經(jīng)開始了。現(xiàn)在無人車是非常大的一個應(yīng)用前景。

2011年，Glorot等人提出ReLU激活函數(shù)，有效地抑制了深層網(wǎng)絡(luò)的梯度消失問題，現(xiàn)在最好的激活函數(shù)都是來自于ReLU家族，簡單而有效。

2012年，經(jīng)典書籍《大數(shù)據(jù)時代》出版，作者維克托?邁爾?舍恩伯格在書中指出大數(shù)據(jù)時代來了，我們應(yīng)該放棄對因果關(guān)系的追求，而關(guān)注相關(guān)關(guān)系，從“為什么”開始轉(zhuǎn)變到“是什么”，這不就是統(tǒng)計(jì)學(xué)習(xí)人工智能學(xué)派的基礎(chǔ)工具深度學(xué)習(xí)最擅長做的嗎。

也就是從那個時候開始，人們大喊，大數(shù)據(jù)來了，一時之間，數(shù)據(jù)科學(xué)家，數(shù)據(jù)挖掘工程師成為熱門。

2012年，Hinton的學(xué)生Alex?Krizhevsky提出AlexNet網(wǎng)絡(luò)，以低于第2名10%的錯誤率贏得了ImageNet競賽。當(dāng)時Alex?Krizhevsky使用了兩塊顯卡GTX580，花了6天時間才訓(xùn)練出AlexNet，我相信如果有更多的資源，AlexNet一定是一個更好的AlexNet。

2013年Hinton的學(xué)生Zeiler和Fergus在研究中利用反卷積技術(shù)引入了神經(jīng)網(wǎng)絡(luò)的可視化，提出了zfnet，對網(wǎng)絡(luò)的中間特征層進(jìn)行了可視化，為研究人員檢驗(yàn)不同特征激活及其與輸入空間的關(guān)系成為了可能，慢慢地大家也開始都關(guān)注起深度學(xué)習(xí)的作用機(jī)制。

2013年，Ross?Girshick等人提出了目標(biāo)檢測模型RCNN，開創(chuàng)了CNN用于目標(biāo)檢測的基準(zhǔn)之一。隨后研究者針對該系列提出Fast?RCNN，Faster?RCNN等等。

2014年，GoogLeNet和VGGNet分別被提出，獲得ImageNet分類賽的冠亞軍。VGGNet很好的展示了如何在先前網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上通過簡單地增加網(wǎng)絡(luò)層數(shù)和深度就可以提高網(wǎng)絡(luò)的性能，GoogleNet模型架構(gòu)則提出了Inception結(jié)構(gòu)，拓寬神經(jīng)的寬度，成為了計(jì)算效率較高的深層模型基準(zhǔn)之一。

2014年，無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)GAN橫空出世，獨(dú)立成了一個新的研究方向，被LeCun譽(yù)為下一代深度學(xué)習(xí)，此后GAN在各大領(lǐng)域，尤其是圖像領(lǐng)域不斷“建功立業(yè)”，并與各類CNN網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了融合。

2015年，ResNet獲得了ImageNet2012分類任務(wù)冠軍，以3.57%的錯誤率表現(xiàn)超過了人類的識別水平，并以152層的網(wǎng)絡(luò)架構(gòu)創(chuàng)造了新的模型記錄，自此殘差連接在CNN的設(shè)計(jì)中隨處可見。

2015年，全卷積網(wǎng)絡(luò)Fully?Convolutional?Networks被提出用于圖像分割，自此圖像分割領(lǐng)域也即迎來大爆發(fā)。

2014年，Google啟動AlphaGo的研究，2015年10月AlphaGo擊敗歐洲圍棋冠軍樊麾成為第一個無需讓子即可擊敗圍棋職業(yè)棋手的計(jì)算機(jī)圍棋程序。2016年3月，AlphaGo在一場世界矚目的比賽中4:1擊敗頂尖職業(yè)棋手李世石，2017年5月23至27日在烏鎮(zhèn)圍棋峰會上，AlphaGo和世界第一棋手柯潔比試全勝。

AlphaGo的成功，對人工智能的普及工作意義非常深遠(yuǎn)，讓不僅是從業(yè)者，外行人也開始領(lǐng)略到人工智能的強(qiáng)大，而背后就有卷積神經(jīng)網(wǎng)絡(luò)的功勞。

此后便是卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺各大領(lǐng)域攻城略地，無往而不勝。關(guān)于都有哪些方向，可以參考這個。

【AI白身境】一文覽盡計(jì)算機(jī)視覺研究方向

而各種各樣的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)被提出，可參見我們之前的一個總結(jié)。

【完結(jié)】總結(jié)12大CNN主流模型架構(gòu)設(shè)計(jì)思想

從上面的這些歷史可以看出，很多重要的研究其實(shí)都是同一時期出現(xiàn)，而最后為人所知雖然有先后的順序，但是金子遲早會發(fā)光。

這也不僅讓我們要思考，接下來幾年里大放異彩的，是現(xiàn)在哪些剛剛初出茅廬卻還沒有名噪天下的東西呢？

最后發(fā)一個通知，2019年有三AI培養(yǎng)計(jì)劃已經(jīng)開始，一個季度一期。

2019年有三AI“春季”劃，給我一個榮耀，還你一生榮耀

總結(jié)

重要的節(jié)點(diǎn)通常都承前啟后，不管是作為談資，還是設(shè)身處地地站在當(dāng)時的節(jié)點(diǎn)來思考一番，都是受益良多的。

本文是有史以來罕見的短文，一是為了給大家留出更多的思考空間，另一方面也是希望大家認(rèn)真去翻翻我們以前的文章，信息量很大。

下一期預(yù)告：深度學(xué)習(xí)中的激活函數(shù)

轉(zhuǎn)載文章請后臺聯(lián)系

侵權(quán)必究

比如網(wǎng)絡(luò)loss不正常，怎么調(diào)都不管用。

比如訓(xùn)練好好的，測試就是結(jié)果不對。

bug天天有，深度學(xué)習(xí)算法工程師遇到的特別多，如果你想交流更多，就來有三AI知識星球?qū)崟r提問交流吧，大咖眾多，總有能解決你問題的。

初識境界到此基本就結(jié)束了，這一系列是為大家奠定扎實(shí)的深度學(xué)習(xí)基礎(chǔ)，希望學(xué)習(xí)完后大家能有收獲。

AI白身境系列完整閱讀：

第一期：【AI白身境】深度學(xué)習(xí)從棄用windows開始

第二期：【AI白身境】Linux干活三板斧，shell、vim和git

第三期：【AI白身境】學(xué)AI必備的python基礎(chǔ)

第四期：【AI白身境】深度學(xué)習(xí)必備圖像基礎(chǔ)

第五期：【AI白身境】搞計(jì)算機(jī)視覺必備的OpenCV入門基礎(chǔ)

第六期：【AI白身境】只會用Python？g++，CMake和Makefile了解一下

第七期：【AI白身境】學(xué)深度學(xué)習(xí)你不得不知的爬蟲基礎(chǔ)

第八期：?【AI白身境】深度學(xué)習(xí)中的數(shù)據(jù)可視化

第九期：【AI白身境】入行AI需要什么數(shù)學(xué)基礎(chǔ)：左手矩陣論，右手微積分

第十期：【AI白身境】一文覽盡計(jì)算機(jī)視覺研究方向

第十一期：【AI白身境】AI+，都加在哪些應(yīng)用領(lǐng)域了

第十二期：【AI白身境】究竟誰是paper之王，全球前10的計(jì)算機(jī)科學(xué)家

AI初識境系列完整閱讀

第一期：【AI初識境】從3次人工智能潮起潮落說起

第二期：【AI初識境】從頭理解神經(jīng)網(wǎng)絡(luò)-內(nèi)行與外行的分水嶺

第三期：【AI初識境】近20年深度學(xué)習(xí)在圖像領(lǐng)域的重要進(jìn)展節(jié)點(diǎn)

第四期：【AI初識境】激活函數(shù)：從人工設(shè)計(jì)到自動搜索

第五期：【AI初識境】什么是深度學(xué)習(xí)成功的開始？參數(shù)初始化

第六期：【AI初識境】深度學(xué)習(xí)模型中的Normalization，你懂了多少？

第七期：【AI初識境】為了圍剿SGD大家這些年想過的那十幾招

第八期：【AI初識境】被Hinton，DeepMind和斯坦福嫌棄的池化，到底是什么？

第九期：【AI初識境】如何增加深度學(xué)習(xí)模型的泛化能力

第十期：【AI初識境】深度學(xué)習(xí)模型評估，從圖像分類到生成模型

第十一期：【AI初識境】深度學(xué)習(xí)中常用的損失函數(shù)有哪些？

第十二期：【AI初識境】給深度學(xué)習(xí)新手開始項(xiàng)目時的10條建議

感謝各位看官的耐心閱讀，不足之處希望多多指教。后續(xù)內(nèi)容將會不定期奉上，歡迎大家關(guān)注有三公眾號 有三AI！

總結(jié)

以上是生活随笔為你收集整理的【AI初识境】近20年深度学习在图像领域的重要进展节点的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【AI-1000问】人脸的4个方向，你还
下一篇：【AI初识境】激活函数：从人工设计到自动

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【AI初识境】近20年深度学习在图像领域的重要进展节点

總結(jié)