當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【杂谈】万字长文回顾深度学习的崛起背景，近10年在各行各业中的典型应用

發(fā)布時間：2023/12/14 pytorch 78 豆豆

生活随笔收集整理的這篇文章主要介紹了【杂谈】万字长文回顾深度学习的崛起背景，近10年在各行各业中的典型应用小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

筆者作為一個從業(yè)5年多的技術(shù)人員，吃到了深度學(xué)習(xí)的早期紅利，這次來聊一聊深度學(xué)習(xí)的崛起背景、當(dāng)下的典型應(yīng)用領(lǐng)域，算作給尚未或者正打算擁抱這門技術(shù)的朋友們一個較為全面的科普。

深度學(xué)習(xí)為什么能夠崛起

一架飛機(jī)要成功在天上飛行，離不開3大要素，優(yōu)良的結(jié)構(gòu)設(shè)計，強(qiáng)勁的發(fā)動機(jī)，足夠的燃料。對于深度學(xué)習(xí)來說，要成功也需要滿足這3個前提條件，即先進(jìn)的算法模型，強(qiáng)勁的計算資源，足夠的學(xué)習(xí)數(shù)據(jù)。

深度學(xué)習(xí)的成功不是一蹴而就，正是這三個條件長時間積累后的集中爆發(fā)，換一種更具體的說法就是大數(shù)據(jù)時代的來臨，GPU的發(fā)展，神經(jīng)網(wǎng)絡(luò)相關(guān)工程理論的改進(jìn)。

大數(shù)據(jù)時代的來臨

人類的文明歷史，經(jīng)過了從結(jié)繩記事，文字記事，到如今的圖片，視頻記事的發(fā)展歷史，正所謂一圖勝千言。

在文字被發(fā)明之前，人類文明其實(shí)沒有多少記錄，比如我們對夏朝及其以前的歷史其實(shí)就不太熟悉。而商朝時古人發(fā)明了甲骨文，于是文明通過文字的形式傳承下來。不過在紙張被發(fā)明之前，記錄下的信息并不多。古人形容一個人有學(xué)識，要用學(xué)富五車來形容，這個五車就是實(shí)實(shí)在在的信息的度量方式，因?yàn)楫?dāng)時的文字存在于竹簡上。后面紙張被發(fā)明，記錄文字的效率才得到提升。

隨著現(xiàn)代文明的中心轉(zhuǎn)移到了西方，1826年前后法國科學(xué)家Joseph Nicéphore Niépce發(fā)明第一張可以永久記錄的模擬照片，美國發(fā)明家愛迪生則在1877年前后發(fā)明了留聲機(jī)。在第一次世界大戰(zhàn)后的兩年，數(shù)字圖像也被發(fā)明了，被用于新聞行業(yè)，從此人類記錄的信息變得更加豐富。

1969年因特網(wǎng)的前身ARPANET被發(fā)明，隨著計算機(jī)技術(shù)的迭代更新，我們開始逐漸進(jìn)入互聯(lián)網(wǎng)信息時代，數(shù)據(jù)的形式開始變得更加高維和復(fù)雜，以網(wǎng)頁為代表的數(shù)據(jù)形式，同時包括了文本、圖像、語音、超鏈接等信息。

根據(jù)2012年的暢銷書《大數(shù)據(jù)時代》的統(tǒng)計結(jié)果：2000年的時候，數(shù)字存儲信息只占全球數(shù)據(jù)量的四分之一；另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類傳統(tǒng)的媒介上，這個時期個人依舊是被動式的接收中心節(jié)點(diǎn)整理好的信息，數(shù)據(jù)量有限，更新頻率低。

但時間到了2007年，所有數(shù)據(jù)中只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數(shù)據(jù)，其余全部是數(shù)字?jǐn)?shù)據(jù)，個人開始主動創(chuàng)造數(shù)據(jù)并傳送到中心節(jié)點(diǎn)，數(shù)據(jù)量龐大，更新頻率高。

我們打開APP，拍照上傳，發(fā)帖評論，瀏覽網(wǎng)頁，播放視頻，點(diǎn)擊廣告，搜索信息，收藏購買，在線支付，即時通信，點(diǎn)贊轉(zhuǎn)發(fā)，心跳血壓，每時每刻都在制造數(shù)據(jù)。

本圖來自清華大學(xué)-大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材

當(dāng)時互聯(lián)網(wǎng)每天產(chǎn)生的全部內(nèi)容可以刻滿6.4億張DVD，全球每秒發(fā)送290萬封電子郵件，一分鐘讀一篇的話，足夠一個人晝夜不停地讀5.5年。

基于此，杰姆·格雷（Jim Gray）提出數(shù)據(jù)領(lǐng)域的“新摩爾定律”，即人類有史以來的數(shù)據(jù)總量，每過18個月就會翻一番。

自此我們進(jìn)入了大數(shù)據(jù)時代，大數(shù)據(jù)時代的特點(diǎn)在于，我們處理問題的思維方式發(fā)生了變化，我們習(xí)慣從數(shù)據(jù)中進(jìn)行統(tǒng)計學(xué)習(xí)，從追求因果關(guān)系到追求相關(guān)關(guān)系。

大數(shù)據(jù)時代對我們生活的改變是深遠(yuǎn)的，譬如在2012年數(shù)以萬計的美國人進(jìn)行模型側(cè)寫，平均憑借一個Facebook用戶的68個“贊”，模型就能夠估計出他們的膚色（準(zhǔn)確率為95%）、性取向（準(zhǔn)確率為88%）和黨派（民主黨或共和黨，準(zhǔn)確率為85%）。基于此，Cambridge Analytica公司使用大數(shù)據(jù)挖掘和心理側(cè)寫(Psychological profiling)等技術(shù)手段，采取不同的傳媒策略(主要是社交媒體上的精準(zhǔn)投放)，在2016年幫助英國脫歐公投陣營贏得脫歐公投、在美國大選中操縱選情幫助特朗普總統(tǒng)贏得大選。

研究人員有了更多的數(shù)據(jù)，就可以開始解決更加復(fù)雜的問題。以計算機(jī)視覺任務(wù)為例，1998年發(fā)布的手寫數(shù)字識別數(shù)據(jù)集MNIST，共60000圖片，10個類別，2009年發(fā)布的ImageNet數(shù)據(jù)集，共1400多萬圖片，2萬多個類別，百萬標(biāo)注框。如果不是大數(shù)據(jù)時代的積累，我們就沒有ImageNet這樣的行業(yè)基準(zhǔn)來推動計算機(jī)視覺領(lǐng)域的快速進(jìn)步。

大數(shù)據(jù)還催生了新的職業(yè)，如數(shù)據(jù)標(biāo)注工程師，誕生了許多相關(guān)的公司、大數(shù)據(jù)社區(qū)。

沒有大數(shù)據(jù)，不可能有足夠的‘養(yǎng)料’喂養(yǎng)出深度學(xué)習(xí)模型，而深度學(xué)習(xí)的崛起，正是從2010年左右，我們進(jìn)入數(shù)據(jù)快速增長的大數(shù)據(jù)時期開始。

GPU的發(fā)展

現(xiàn)在我們都知道做深度學(xué)習(xí)任務(wù)GPU是必不可少的，其結(jié)構(gòu)和CPU相比有很大不同。

CPU（ Central processing unit ）需要很強(qiáng)的通用性來處理各種不同的數(shù)據(jù)類型，同時在大量的邏輯判斷中，包含了大量的分支跳轉(zhuǎn)和中斷處理，使得CPU的內(nèi)部結(jié)構(gòu)異常復(fù)雜，不擅長于快速計算。?

而GPU（Graphic Processing Unit）則專為圖像處理設(shè)計，采用了數(shù)量眾多的計算單元（arithmetic and logic unit）和超長的流水線，但只有非常簡單的控制邏輯并省去了Cache。

這使得GPU擁有高帶寬的獨(dú)立顯存；浮點(diǎn)運(yùn)算性能高；幾何處理能力強(qiáng)；適合處理并行與重復(fù)計算任務(wù)；適合圖像或視頻處理任務(wù)；

CPU的峰值計算能力=CPU頻率×CPU核心數(shù)×浮點(diǎn)運(yùn)算單元數(shù)，如i7-8700K的CPU頻率=3.7GHZ，核數(shù)為6，浮點(diǎn)運(yùn)算單元數(shù)為16，浮點(diǎn)運(yùn)算能力是3.7*16*6<360 Gflops以下。而TITAN V峰值浮點(diǎn)性能為110 TFlops(1T=1024G)，TESLA v100峰值浮點(diǎn)性能為125 TFlops ，因此GPU有超過CPU幾個數(shù)量級的速度優(yōu)勢。

不過GPU也不是一開始就擁有如此強(qiáng)勁的計算能力，簡單來說經(jīng)歷了3個時期。

第1時期是固定架構(gòu)時代（ fixed function architecture，1995-2000年）。1999年，NVIDIA推出第一款GPU Geforce256，擁有完整的頂點(diǎn)變換、光照計算、參數(shù)設(shè)置以及渲染等四種3D計算引擎，每秒處理至少1000萬個多邊形，極大加快了計算機(jī)3D程序運(yùn)行速度。2000年， NVIDIA推出全球首款針對筆記本的GPU——GeForce2 Go。

第2時期是分離渲染架構(gòu)時代（ separated shader architecture，2001-2005年）。1999年到2002年， NVIDIA推出了業(yè)界首款獨(dú)立的可編程GPU Geforce3，ATI（2006年被AMD收購）推出了Radeon8500。這個時期的GPU用可編程的頂點(diǎn)渲染器（Vertex Shader）替換了變換與光照相關(guān)的固定單元，用可編程的像素渲染器（Pixel Shader）替換了紋理采樣與混合相關(guān)的固定單元，這兩部分是實(shí)現(xiàn)圖形特效最密集的部分, 使用渲染器大大加強(qiáng)了圖形處理的靈活性與表現(xiàn)力。兩個渲染器呈現(xiàn)流處理器(stream processor)的特點(diǎn), 不過在物理上是兩部分硬件, 不可相互通用。

第3時期是統(tǒng)一渲染架構(gòu)時代（ unified shader architecture，2006年至今）。2006年NVIDIA與ATI分別推出了CUDA(Computer Unified Device Architecture，統(tǒng)一計算架構(gòu))編程環(huán)境和CTM(Close To the Metal)編程環(huán)境，這使GPU通用計算編程的復(fù)雜性大幅度降低。這個時代的GPU首次提供幾何渲染程序(geometry shader program)功能，并動態(tài)調(diào)度統(tǒng)一的渲染硬件(unified shader)來執(zhí)行頂點(diǎn)、幾何、像素程序，在體系結(jié)構(gòu)上不再是流水線的形式，而呈現(xiàn)并行機(jī)的特征。

2006年，研究人員使用NVIDIA GeForce 7800訓(xùn)練了4層的卷積神經(jīng)網(wǎng)絡(luò)，相比CPU的BLAS優(yōu)化有24%–47%的提升，這也是早期GPU在模型訓(xùn)練中的嘗試。

隨后NVIDIA的GPU產(chǎn)品線迭代速度明顯加快，其設(shè)計架構(gòu)從40nm Fermi、28nm Kepler、28nm Maxwell、16nm Pascal到如今的12nm Volta、Turing，推出了NVIDIA Tesla，GeForce GTX 600，GeForce GTX TITAN， GeForce GTX 980，GeForce GTX 1080，Tegra K1，GeForce GTX TITAN X，Tesla V100，Tesla P100等眾多消費(fèi)者熟知的產(chǎn)品，對于深度學(xué)習(xí)模型的訓(xùn)練產(chǎn)生了深遠(yuǎn)的影響。

2009年，Hinton的團(tuán)隊使用Nvidia GTX 280訓(xùn)練2層的Deep Belief Network (DBN) 。

2012年，同樣是Hinton的團(tuán)隊使用2個NVIDIA GTX580在ImageNet數(shù)據(jù)集上訓(xùn)練8層的AlexNet，訓(xùn)練時間為6天，這成為了深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域中的里程碑事件。

2018年，Facebook團(tuán)隊使用256個NVIDIA Tesla P100在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet50，訓(xùn)練時間1小時。

2018年，騰訊團(tuán)隊使用 2048個NVIDIA Tesla P40在 ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50，訓(xùn)練時間6.6分鐘。?

2018年，日本索尼的神經(jīng)網(wǎng)絡(luò)庫NNL，使用3456個NVIDIA Tesla v100，在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50，將其訓(xùn)練時間縮短到了112秒。

正是第三個時期的GPU架構(gòu)的快速發(fā)展，為深度學(xué)習(xí)模型的訓(xùn)練提供了可能，催生了一代又一代新的更復(fù)雜的模型架構(gòu)的誕生。

神經(jīng)網(wǎng)絡(luò)相關(guān)工程理論的發(fā)展

什么是深度學(xué)習(xí)，它本質(zhì)上是一個復(fù)雜的非線性變換構(gòu)成的抽象算法，對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)（representation learning）。

傳統(tǒng)機(jī)器學(xué)習(xí)算法的研究流程是：手工特征+機(jī)器學(xué)習(xí)模型。而深度學(xué)習(xí)算法的研究流程是：從數(shù)據(jù)中自動學(xué)習(xí)特征，提高機(jī)器學(xué)習(xí)模型的性能，它們的主要區(qū)別在于特征提取這里。

神經(jīng)網(wǎng)絡(luò)由于其結(jié)構(gòu)非常適合于逐層進(jìn)行數(shù)據(jù)的抽象表達(dá)，因此我們平常說深度學(xué)習(xí)，指的就是深度神經(jīng)網(wǎng)絡(luò)，其中“深”表示網(wǎng)絡(luò)層數(shù)深，從傳統(tǒng)的幾層到成百上千層。

深度學(xué)習(xí)并不是全新的概念，神經(jīng)網(wǎng)絡(luò)在上個世紀(jì)中期就已經(jīng)誕生，其核心優(yōu)化理論，反向傳播算法(Back-Propagation, BP算法)由保羅·韋爾博斯(Paul Werbos)在1974年發(fā)明，1986年戴維·魯梅哈特(David Rumelhart)，杰弗里·辛頓(Geoffrey Hinton) 等人將其進(jìn)行推廣完善。

在2006年，Geoffrey ?Hinton團(tuán)隊發(fā)表了兩篇經(jīng)典研究。第一篇是“Learning Multiple Layers of Representation”，提出了不同于以往學(xué)習(xí)一個分類器的目標(biāo)，而是希望學(xué)習(xí)生成模型（generative model）的觀點(diǎn)，以期學(xué)習(xí)到更好的特征表達(dá)，擺脫對大量訓(xùn)練數(shù)據(jù)的依賴，因此早期的深度學(xué)習(xí)也被稱為表示學(xué)習(xí)。另一篇論文“Reducing the dimensionality of data with neural networks”，則提出了逐層無監(jiān)督預(yù)訓(xùn)練玻爾茲曼機(jī)的方式，通過“預(yù)訓(xùn)練+微調(diào)”有效地解決了深層模型難以訓(xùn)練的問題，這具有非常重要的工程意義。

2011年，Glorot等人提出ReLU激活函數(shù)，有效地抑制了深層網(wǎng)絡(luò)的梯度消失問題，簡單而有效。

2012年，Hinton等人提出Dropout技術(shù)，有效地抑制了深層網(wǎng)絡(luò)的過擬合問題。它消除或者減弱了神經(jīng)元節(jié)點(diǎn)間的聯(lián)合，降低了網(wǎng)絡(luò)對單個神經(jīng)元的依賴，從而增強(qiáng)了泛化能力。

緊接著就是2012年Alex Krizhevsky在論文“ImageNet classification with deep convolutional neural networks”中正式提出了AlexNet網(wǎng)絡(luò)，包含8個網(wǎng)絡(luò)層，其中5個卷積層，3個全連接層，以低約10%的錯誤率，大幅度超過競爭對手，意味著深度學(xué)習(xí)的黃金時代真正到來了。

AlexNet模型的成功，就得益于當(dāng)時最大的數(shù)據(jù)集ImageNet提供了足夠的樣本進(jìn)行學(xué)習(xí)、當(dāng)時最大的GPU以訓(xùn)練超過55M的參數(shù)量，以及一系列神經(jīng)網(wǎng)絡(luò)相關(guān)工程技術(shù)的使用，包括ReLU激活函數(shù)，LRN歸一化，Dropout，數(shù)據(jù)增強(qiáng)，這就是深度學(xué)習(xí)發(fā)展需要的三駕馬車。

麻省理工科技評論在2013年評選出十大突破性科學(xué)技術(shù)，深度學(xué)習(xí)位居榜首，隨后產(chǎn)業(yè)界開始重視深度學(xué)習(xí)。

2010年，斯坦福教授吳恩達(dá)（ Andrew Ng）會見了Google當(dāng)時的CEO，決定開發(fā)Google Brain；?

2012年，Google的一個由16000臺電腦集群組成的人工神經(jīng)網(wǎng)絡(luò)通過YouTube上有關(guān)于貓的資料自行訓(xùn)練而能夠識別出“貓”這一概念；

2012年，華為成立諾亞方舟實(shí)驗(yàn)室；

2013年，谷歌聘用了深度學(xué)習(xí)宗師Geoffrey Hinton；

2013年，百度深度學(xué)習(xí)研究院（ Institute of Deep Learning ）建立；?

2013年，FaceBook在紐約成立了FAIR（Facebook AI. Research），聘用了Yann LeCun作為首席科學(xué)家；?

2014年，谷歌以未公布的價格并購了英國DeepMind公司；

由此我們進(jìn)入了長達(dá)將近10年的深度學(xué)習(xí)發(fā)展黃金時期，并且還將繼續(xù)下去。

深度學(xué)習(xí)在產(chǎn)業(yè)界的應(yīng)用

從2012年至今已有將近10年的發(fā)展，深度學(xué)習(xí)在各行各業(yè)中不斷創(chuàng)造商業(yè)價值，這里我們從4個大的研究方向來看，即語音處理，計算機(jī)視覺，自然語言處理，推薦系統(tǒng)。

語音處理

在傳統(tǒng)的研究方法里，語音識別經(jīng)歷了幾次重要的技術(shù)發(fā)展。從20世紀(jì)70年代的隱含馬爾科夫模型聲學(xué)建模，20世紀(jì)80年代的N元組語言模型，20世紀(jì)90年代的隱含馬爾科夫模型狀態(tài)綁定和自適應(yīng)技術(shù)，到21世紀(jì)第一個十年的GMM-HMM模型。盡管這些技術(shù)取得了不錯的進(jìn)步，但是仍然無法讓語音識別達(dá)到可商用的地步，直到深度學(xué)習(xí)的到來，一舉讓語音識別錯誤率相比以往最好的方法還下降了30%以上，突破了語音識別技術(shù)可以商用的臨界點(diǎn)。

在2009年neural information processing systems（NIPS）會議上，鄧力和Geoffrey Hinton聯(lián)合組織了Deep Learning for Speech Recognition and Related Applications workshop。他們首次證明使用新方法訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在大量語音識別基準(zhǔn)上優(yōu)于之前的方法，并聯(lián)合發(fā)表了論文“Deep Neural Networks for Acoustic Modeling in Speech Recognition”。

2012年Abdel-Hamid等人證實(shí)卷積神經(jīng)網(wǎng)絡(luò)可以在頻率坐標(biāo)軸上有效歸一化說話人的差異，并在TIMIT音素識別任務(wù)上講錯誤率從20.7%降低到20%。

之后俞棟，鄧力以及Geoffrey Hinton等人致力于將深度學(xué)習(xí)技術(shù)廣泛引入語音識別中，并撰寫了書籍《Deep learning: methods and applications》。

2016年，微軟率先實(shí)現(xiàn)語音識別系統(tǒng)5.9%的低錯誤率，在Switchboard對話語音識別任務(wù)中已經(jīng)達(dá)到人類對等的水平。

現(xiàn)如今深度學(xué)習(xí)在語音分類、語音質(zhì)量評測、語音增強(qiáng)、音頻指紋識別、語音檢索與喚醒、語音識別、聲紋/說話人識別、語音合成與生成中應(yīng)用非常廣泛。

語音分類和音頻指紋識別的典型應(yīng)用即聽歌識曲，相信許多朋友都使用它識別過歌曲。

語音檢索識別的應(yīng)用自不用說，智能音箱、語音輸入法、同聲傳譯、實(shí)時字幕生成，這些都是非常高頻的應(yīng)用，大大便利了我們的日常生活。

語音合成（Text To Speech）技術(shù)在智能配音、虛擬主播、有聲閱讀、地圖導(dǎo)航、智能客服等領(lǐng)域中也已經(jīng)普及，以下展示的就是幾個AI語音助手一起演唱歌曲的應(yīng)用。

點(diǎn)擊邊框調(diào)出視頻工具條

而最先進(jìn)的語音處理技術(shù)，當(dāng)屬語音生成，可以從頭創(chuàng)作不存在的語音，樂曲，國內(nèi)外都有非常多優(yōu)秀的案例。如平安人工智能研究院創(chuàng)作的交響曲《我和我的祖國》，網(wǎng)易研究院創(chuàng)作的歌曲《醒來》，由AI完成詞、曲、編、唱這個全鏈路的工作，大家不妨來收聽感受一下。

這些應(yīng)用的落地，都得益于深度學(xué)習(xí)技術(shù)的進(jìn)步，使得我們通過語音與世界的交互變得更加便利和智能。

計算機(jī)視覺

由于人類接觸到的70%以上的信息都是視覺信息，因此計算機(jī)視覺是深度學(xué)習(xí)應(yīng)用最廣泛也是最成熟的領(lǐng)域，研究領(lǐng)域本身就覆蓋了圖像分類、目標(biāo)檢測、圖像分割、目標(biāo)識別、目標(biāo)跟蹤、圖像質(zhì)量分析、圖像降噪與修復(fù)、圖像增強(qiáng)、圖像去模糊、圖像超分辨、圖像翻譯與風(fēng)格化、圖像生成、三維重建、圖像編輯等方向……

而應(yīng)用領(lǐng)域則覆蓋了交通行業(yè)，安防行業(yè)，娛樂創(chuàng)作行業(yè)、教育行業(yè)、醫(yī)療行業(yè)、電商零售行業(yè)、制造行業(yè)、養(yǎng)殖行業(yè)等范圍。

自2012年AlexNet圖像分類網(wǎng)絡(luò)取得成功后，一系列新的基準(zhǔn)模型被提出，使得圖像識別領(lǐng)域率先取得商業(yè)大規(guī)模應(yīng)用落地，其中最典型的當(dāng)屬Google圖片、百度識圖等以圖搜圖的圖片檢索引擎，可以應(yīng)用于各類物品檢索。

2015年以后，人臉識別算法取得不斷突破，如今在日常考勤，金融支付中已經(jīng)是標(biāo)準(zhǔn)化技術(shù)，還可以被應(yīng)用于犯罪分子抓捕、走失兒童與老人尋找，社會價值巨大。

隨著目標(biāo)檢測與識別等技術(shù)的成熟，自動駕駛領(lǐng)域中的行人檢測、車輛檢測、交通標(biāo)志檢測等感知能力大大提升，推動了自動駕駛商業(yè)化落地的進(jìn)程。

各類場景中的文字與標(biāo)志識別精度達(dá)到了商業(yè)化落地水平，在諸如文檔識別、身份證識別、車票識別、銀行卡識別、車牌識別、發(fā)票識別、快遞單識別、儀表盤讀數(shù)識別等方向取得了落地，提高了這些任務(wù)的自動化水準(zhǔn)。

目標(biāo)檢測算法使得工業(yè)制造中的缺陷檢測、目標(biāo)計數(shù)也可以變得更加智能，降低人力成本和產(chǎn)品損耗，提高生產(chǎn)效率。

除了識別相關(guān)的任務(wù)，深度學(xué)習(xí)在更底層的圖像處理任務(wù)中也取得了長足的進(jìn)步，典型的應(yīng)用包括圖像的自動裁剪，圖像的自動增強(qiáng)，老照片的修復(fù)，圖像分辨率的提升，圖像的風(fēng)格化等。

說到視覺里最前沿的技術(shù)，當(dāng)屬圖像和視頻的生成，隨著GAN等技術(shù)的發(fā)展，如今已經(jīng)可以生成纖毫畢現(xiàn)的圖片和視頻，達(dá)到真假難辨的水平，比如下圖分別展示了生成的人臉和換臉的結(jié)果。

隨著二維圖片的處理漸趨成熟，三維的圖片處理成為了當(dāng)下的熱門，在表情驅(qū)動、人體驅(qū)動、姿態(tài)編輯、虛擬主播、關(guān)鍵點(diǎn)定位、虛擬試妝中有著廣闊的應(yīng)用場景。

下面視頻中展示的虛擬主播，就應(yīng)用到了三維人臉重建的技術(shù)。

點(diǎn)擊邊框調(diào)出視頻工具條

當(dāng)下我們還處于將圖片處理技術(shù)遷移到視頻中的重要時期，諸如視頻分類、行為分析、視頻生成與預(yù)測、視頻檢索、光流估計、關(guān)鍵幀提取、視頻描述、視頻剪輯等都是熱門技術(shù)，這些都得益于深度學(xué)習(xí)技術(shù)的發(fā)展。

自然語言處理

自然語言處理技術(shù)被譽(yù)為人工智能皇冠上的明珠，自然語言處理的發(fā)展可以追溯到上個世紀(jì)50年代的圖靈測試，經(jīng)歷了從規(guī)則到統(tǒng)計，再到現(xiàn)在的深度學(xué)習(xí)的發(fā)展過程。早期基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的自然語言處理算法一般都基于淺層模型(如SVM和logistic 回歸)，這些模型都在非常高維和稀疏的特征(one-hot encoding)上進(jìn)行訓(xùn)練和學(xué)習(xí)，會面臨著維度爆炸等難以解決的問題。

現(xiàn)如今深度學(xué)習(xí)在自然語言處理領(lǐng)域也發(fā)揮著巨大的價值，典型的研究領(lǐng)域包括文本分類與聚類、文章標(biāo)簽與摘要提取、文本審核與輿情分析、機(jī)器翻譯、閱讀理解、問答系統(tǒng)與聊天機(jī)器人、搜索引擎、知識圖譜、自然語言生成等方向……

在2003年，Bengio等人在論文《A Neural Probabilistic Language Model》中提出了神經(jīng)網(wǎng)絡(luò)語言模型，作為副產(chǎn)品的詞向量，掀開了用稠密的多維向量來編碼詞義的方式。Mikolov等人在2013年做出的研究《Distributed Representations of Words and Phrases and their Compositionality》中真正使得從大規(guī)模語料中獲得詞向量變?yōu)楝F(xiàn)實(shí)。

此后，一些基本的方向包括詞向量化，分詞，詞性標(biāo)注，命名實(shí)體識別，文本結(jié)構(gòu)化等研究逐漸成熟。

它們可以直接被用于一些基礎(chǔ)的文本處理任務(wù)，諸如快遞地址自動識別與填充，文本文件的分類，文章標(biāo)簽與摘要提取，標(biāo)題生成等。

隨著互聯(lián)網(wǎng)文本信息的增加，對文本中夾雜的色情、推廣、辱罵、違禁違法等內(nèi)容的檢測有助于維護(hù)更健康的網(wǎng)絡(luò)環(huán)境，自然語言處理在其中發(fā)揮著重要作用。

同時，對帶有情感色彩的主觀性文本進(jìn)行分析、處理和抽取，也在電影影評分析、商品口碑分析中有著重要作用，有助于提升消費(fèi)者的使用體驗(yàn)。

作為一個非常具有難度而又商業(yè)價值巨大的領(lǐng)域，機(jī)器翻譯一直是自然語言處理的核心問題，隨著深度學(xué)習(xí)模型的發(fā)展，以Google為代表的公司已經(jīng)開發(fā)出了非常強(qiáng)大的機(jī)器翻譯算法，在各類翻譯詞典、翻譯機(jī)、跨語言檢索、語音同傳應(yīng)用中大大便利了人們的日常交流。

我們對于以機(jī)器人為代表的人工智能技術(shù)總是充滿著非常高的期望，當(dāng)下以百度小度為代表的問答機(jī)器人，阿里小蜜為代表的客服機(jī)器人，微軟小冰為代表的聊天機(jī)器人，都已經(jīng)在商業(yè)環(huán)境中正式上崗。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

閱讀理解，一向是復(fù)雜度非常高的人類推理行為，是深度學(xué)習(xí)大大推進(jìn)了當(dāng)下機(jī)器閱讀理解的發(fā)展，利用算法使計算機(jī)理解文章語義并回答相關(guān)問題的技術(shù)，AI在選擇題、問答題、填充題等多項任務(wù)中不斷取得突破，在某一些領(lǐng)域中甚至超過了人類水平。

搜索引擎是當(dāng)下我們獲取信息的主要來源，通過自然語言理解技術(shù)，我們從基于關(guān)鍵字查詢的檢索邁入了面向自然語言理解的檢索，不僅可以檢索匹配關(guān)鍵詞相關(guān)內(nèi)容，還可以理解用戶意圖。當(dāng)你搜索‘唐三的女兒和兒子叫什么’時，直接給出的是答案，而不是一些相關(guān)網(wǎng)頁鏈接。

而知識圖譜的構(gòu)建，則讓信息的展示變得更加條理清晰，這得益于自然語言處理中的多項關(guān)鍵技術(shù)。

當(dāng)下基于深度學(xué)習(xí)的自然語言處理的最時髦的研究，莫過于自然語言生成/文本生成技術(shù)，不管是寫新聞，寫對聯(lián)，還是寫詩，都信手拈來。微軟小冰甚至創(chuàng)作并且出版了人類歷史上第一部100%由人工智能創(chuàng)造的詩集。

“樹影壓在秋天的報紙上\中間隔著一片夢幻的海洋我凝視著一池湖水的天空"，這般優(yōu)美的詩句，都是來自AI的詩意。

在此之前，微軟還讓小冰在天涯、豆瓣、簡書等平臺，用27個筆名發(fā)表自己的詩歌，讀者們還不知道“駱夢”、“風(fēng)的指尖”、“一荷”、“微笑的白”這些筆名背后的詩人，其實(shí)并非人類。

當(dāng)下自然語言處理已經(jīng)能夠完成較為復(fù)雜的任務(wù)，如何處理更多藝術(shù)和情感相關(guān)的任務(wù)，也是研究人員在慢慢解決的問題，人類與AI共存的時代，已然降臨了。

推薦系統(tǒng)

人類從來沒有像今天這樣，被推薦系統(tǒng)如此深刻地支配過，仿佛找到了對抗選擇強(qiáng)迫癥的方法，不再需要自己去思考和搜索，只需要接受系統(tǒng)推薦過來的信息即可。

我們在互聯(lián)網(wǎng)上留下的所有足跡，都被小心地搜集起來，然后被抽象成具體的標(biāo)簽，得到了千人千面的用戶畫像，被服務(wù)商用來推送有針對性的內(nèi)容，所以你會感嘆最懂你的不再是家人或者朋友，而是手機(jī)。

從用戶角度來看，推薦系統(tǒng)可以幫用戶從海量信息中便捷地篩選出感興趣的內(nèi)容，在用戶面對陌生領(lǐng)域時提供參考意見，滿足用戶的好奇心。而從系統(tǒng)角度來看，推薦系統(tǒng)可以幫系統(tǒng)篩選出高質(zhì)量的用戶群，提高留存率，提高廣告的商業(yè)變現(xiàn)率，降低運(yùn)營成本，提高內(nèi)容的時效性、多樣性，解決長尾信息的閱讀問題。

所以你打開頭條看到的是你想讀的新聞，打開淘寶看到的是你可能購買的商品，打開微信刷感興趣的文章和視頻，打開微博關(guān)注喜歡的博主，推送過來的東西精準(zhǔn)又高效，這就是個性化推薦的效果。

當(dāng)你刷完一個視頻，系統(tǒng)一定會給你再推薦類似的讓你欲罷不能的視頻，當(dāng)你買完一件商品，又給你推送想入手的商品，于是真的陷入了‘看了還看’，‘買了又買’的循環(huán)，這就是相關(guān)推薦的效果。

能做到如此高效的推薦系統(tǒng)，背后得益于深度學(xué)習(xí)模型建模復(fù)雜特征，挖掘復(fù)雜關(guān)系的能力。如今商品推薦、新聞推薦、視頻推薦、音樂推薦、美食推薦等已經(jīng)成為了上網(wǎng)的標(biāo)配，徹底改變了我們從互聯(lián)網(wǎng)的信息海洋中獲取自己感興趣信息的方式。

結(jié)語

深度學(xué)習(xí)，并非是近十年誕生的新技術(shù)，而更像是新瓶裝舊酒，在大數(shù)據(jù)的爆發(fā)，硬件計算能力飛速提升的大背景下，一系列新的工程技術(shù)不斷被創(chuàng)新，讓我們進(jìn)入了一個更加智能化的時代，不斷重組人們的生活和工作方式，創(chuàng)造商業(yè)傳奇，這是值得當(dāng)下每一個人關(guān)注的技術(shù)。

為了幫助大家學(xué)習(xí)相關(guān)內(nèi)容，有三AI聯(lián)合阿里云開設(shè)了《深度學(xué)習(xí)》系列課程，本文所介紹的內(nèi)容都在視頻中有更加詳細(xì)的介紹，歡迎大家持續(xù)關(guān)注。

課程的具體地址為https://tianchi.aliyun.com/course/279，掃碼亦可直達(dá)：

沒有阿里云賬號的，可以參考下文進(jìn)行配置：

【阿里云課程】有三AI在阿里云天池開設(shè)深度學(xué)習(xí)課程啦，從人工智能基礎(chǔ)講起，零基礎(chǔ)都可以來學(xué)

【重要】免費(fèi)GPU+數(shù)據(jù)代碼！有三AI聯(lián)合阿里天池推出深度學(xué)習(xí)訓(xùn)練營，任何基礎(chǔ)都可以學(xué)習(xí)

進(jìn)入了智能時代，不懂深度學(xué)習(xí)，可能就真的落伍了。

往期相關(guān)