【杂谈】万字长文回顾深度学习的崛起背景,近10年在各行各业中的典型应用
筆者作為一個從業(yè)5年多的技術(shù)人員,吃到了深度學(xué)習(xí)的早期紅利,這次來聊一聊深度學(xué)習(xí)的崛起背景、當(dāng)下的典型應(yīng)用領(lǐng)域,算作給尚未或者正打算擁抱這門技術(shù)的朋友們一個較為全面的科普。
深度學(xué)習(xí)為什么能夠崛起
一架飛機(jī)要成功在天上飛行,離不開3大要素,優(yōu)良的結(jié)構(gòu)設(shè)計,強(qiáng)勁的發(fā)動機(jī),足夠的燃料。對于深度學(xué)習(xí)來說,要成功也需要滿足這3個前提條件,即先進(jìn)的算法模型,強(qiáng)勁的計算資源,足夠的學(xué)習(xí)數(shù)據(jù)。
深度學(xué)習(xí)的成功不是一蹴而就,正是這三個條件長時間積累后的集中爆發(fā),換一種更具體的說法就是大數(shù)據(jù)時代的來臨,GPU的發(fā)展,神經(jīng)網(wǎng)絡(luò)相關(guān)工程理論的改進(jìn)。
大數(shù)據(jù)時代的來臨
人類的文明歷史,經(jīng)過了從結(jié)繩記事,文字記事,到如今的圖片,視頻記事的發(fā)展歷史,正所謂一圖勝千言。
在文字被發(fā)明之前,人類文明其實(shí)沒有多少記錄,比如我們對夏朝及其以前的歷史其實(shí)就不太熟悉。而商朝時古人發(fā)明了甲骨文,于是文明通過文字的形式傳承下來。不過在紙張被發(fā)明之前,記錄下的信息并不多。古人形容一個人有學(xué)識,要用學(xué)富五車來形容,這個五車就是實(shí)實(shí)在在的信息的度量方式,因?yàn)楫?dāng)時的文字存在于竹簡上。后面紙張被發(fā)明,記錄文字的效率才得到提升。
隨著現(xiàn)代文明的中心轉(zhuǎn)移到了西方,1826年前后法國科學(xué)家Joseph Nicéphore Niépce發(fā)明第一張可以永久記錄的模擬照片,美國發(fā)明家愛迪生則在1877年前后發(fā)明了留聲機(jī)。在第一次世界大戰(zhàn)后的兩年,數(shù)字圖像也被發(fā)明了,被用于新聞行業(yè),從此人類記錄的信息變得更加豐富。
1969年因特網(wǎng)的前身ARPANET被發(fā)明,隨著計算機(jī)技術(shù)的迭代更新,我們開始逐漸進(jìn)入互聯(lián)網(wǎng)信息時代,數(shù)據(jù)的形式開始變得更加高維和復(fù)雜,以網(wǎng)頁為代表的數(shù)據(jù)形式,同時包括了文本、圖像、語音、超鏈接等信息。
根據(jù)2012年的暢銷書《大數(shù)據(jù)時代》的統(tǒng)計結(jié)果:2000年的時候, 數(shù)字存儲信息只占全球數(shù)據(jù)量的四分之一;另外四分之三的信息都存儲在報紙、 膠片、黑膠唱片和盒式磁帶這類傳統(tǒng)的媒介上,這個時期個人依舊是被動式的接收中心節(jié)點(diǎn)整理好的信息,數(shù)據(jù)量有限,更新頻率低。
但時間到了2007年, 所有數(shù)據(jù)中只有7%是存儲在報紙、 書籍、 圖片等媒介上的模擬數(shù)據(jù), 其余全部是數(shù)字?jǐn)?shù)據(jù),個人開始主動創(chuàng)造數(shù)據(jù)并傳送到中心節(jié)點(diǎn),數(shù)據(jù)量龐大,更新頻率高。
我們打開APP,拍照上傳,發(fā)帖評論,瀏覽網(wǎng)頁,播放視頻,點(diǎn)擊廣告,搜索信息,收藏購買,在線支付,即時通信,點(diǎn)贊轉(zhuǎn)發(fā),心跳血壓,每時每刻都在制造數(shù)據(jù)。
本圖來自清華大學(xué)-大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材
當(dāng)時互聯(lián)網(wǎng)每天產(chǎn)生的全部內(nèi)容可以刻滿6.4億張DVD,全球每秒發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不停地讀5.5年。
基于此,杰姆·格雷(Jim Gray)提出數(shù)據(jù)領(lǐng)域的“新摩爾定律”,即人類有史以來的數(shù)據(jù)總量,每過18個月就會翻一番。
自此我們進(jìn)入了大數(shù)據(jù)時代,大數(shù)據(jù)時代的特點(diǎn)在于,我們處理問題的思維方式發(fā)生了變化,我們習(xí)慣從數(shù)據(jù)中進(jìn)行統(tǒng)計學(xué)習(xí),從追求因果關(guān)系到追求相關(guān)關(guān)系。
大數(shù)據(jù)時代對我們生活的改變是深遠(yuǎn)的,譬如在2012年數(shù)以萬計的美國人進(jìn)行模型側(cè)寫, 平均憑借一個Facebook用戶的68個“贊”,模型就能夠估計出他們的膚色(準(zhǔn)確率為95%)、性取向(準(zhǔn)確率為88%)和黨派(民主黨或共和黨,準(zhǔn)確率為85%)。基于此,Cambridge Analytica公司使用大數(shù)據(jù)挖掘和心理側(cè)寫(Psychological profiling)等技術(shù)手段,采取不同的傳媒策略(主要是社交媒體上的精準(zhǔn)投放),在2016年幫助英國脫歐公投陣營贏得脫歐公投、在美國大選中操縱選情幫助特朗普總統(tǒng)贏得大選。
研究人員有了更多的數(shù)據(jù),就可以開始解決更加復(fù)雜的問題。以計算機(jī)視覺任務(wù)為例,1998年發(fā)布的手寫數(shù)字識別數(shù)據(jù)集MNIST,共60000圖片,10個類別,2009年發(fā)布的ImageNet數(shù)據(jù)集,共1400多萬圖片,2萬多個類別,百萬標(biāo)注框。如果不是大數(shù)據(jù)時代的積累,我們就沒有ImageNet這樣的行業(yè)基準(zhǔn)來推動計算機(jī)視覺領(lǐng)域的快速進(jìn)步。
大數(shù)據(jù)還催生了新的職業(yè),如數(shù)據(jù)標(biāo)注工程師,誕生了許多相關(guān)的公司、大數(shù)據(jù)社區(qū)。
沒有大數(shù)據(jù),不可能有足夠的‘養(yǎng)料’喂養(yǎng)出深度學(xué)習(xí)模型,而深度學(xué)習(xí)的崛起,正是從2010年左右,我們進(jìn)入數(shù)據(jù)快速增長的大數(shù)據(jù)時期開始。
GPU的發(fā)展
現(xiàn)在我們都知道做深度學(xué)習(xí)任務(wù)GPU是必不可少的,其結(jié)構(gòu)和CPU相比有很大不同。
CPU( Central processing unit )需要很強(qiáng)的通用性來處理各種不同的數(shù)據(jù)類型,同時在大量的邏輯判斷中,包含了大量的分支跳轉(zhuǎn)和中斷處理,使得CPU的內(nèi)部結(jié)構(gòu)異常復(fù)雜,不擅長于快速計算。?
而GPU(Graphic Processing Unit)則專為圖像處理設(shè)計,采用了數(shù)量眾多的計算單元(arithmetic and logic unit)和超長的流水線,但只有非常簡單的控制邏輯并省去了Cache。
這使得GPU擁有高帶寬的獨(dú)立顯存;浮點(diǎn)運(yùn)算性能高;幾何處理能力強(qiáng);適合處理并行與重復(fù)計算任務(wù);適合圖像或視頻處理任務(wù);
CPU的峰值計算能力=CPU頻率×CPU核心數(shù)×浮點(diǎn)運(yùn)算單元數(shù),如i7-8700K的CPU頻率=3.7GHZ,核數(shù)為6,浮點(diǎn)運(yùn)算單元數(shù)為16,浮點(diǎn)運(yùn)算能力是3.7*16*6<360 Gflops以下。而TITAN V峰值浮點(diǎn)性能為110 TFlops(1T=1024G),TESLA v100峰值浮點(diǎn)性能為125 TFlops ,因此GPU有超過CPU幾個數(shù)量級的速度優(yōu)勢。
不過GPU也不是一開始就擁有如此強(qiáng)勁的計算能力,簡單來說經(jīng)歷了3個時期。
第1時期是固定架構(gòu)時代( fixed function architecture,1995-2000年)。1999年,NVIDIA推出第一款GPU Geforce256,擁有完整的頂點(diǎn)變換、光照計算、參數(shù)設(shè)置以及渲染等四種3D計算引擎,每秒處理至少1000萬個多邊形,極大加快了計算機(jī)3D程序運(yùn)行速度。2000年, NVIDIA推出全球首款針對筆記本的GPU——GeForce2 Go。
第2時期是分離渲染架構(gòu)時代( separated shader architecture,2001-2005年)。1999年到2002年, NVIDIA推出了業(yè)界首款獨(dú)立的可編程GPU Geforce3,ATI(2006年被AMD收購)推出了Radeon8500。這個時期的GPU用可編程的頂點(diǎn)渲染器(Vertex Shader)替換了變換與光照相關(guān)的固定單元,用可編程的像素渲染器(Pixel Shader)替換了紋理采樣與混合相關(guān)的固定單元,這兩部分是實(shí)現(xiàn)圖形特效最密集的部分, 使用渲染器大大加強(qiáng)了圖形處理的靈活性與表現(xiàn)力。兩個渲染器呈現(xiàn)流處理器(stream processor)的特點(diǎn), 不過在物理上是兩部分硬件, 不可相互通用。
第3時期是統(tǒng)一渲染架構(gòu)時代( unified shader architecture,2006年至今)。2006年NVIDIA與ATI分別推出了CUDA(Computer Unified Device Architecture,統(tǒng)一計算架構(gòu))編程環(huán)境和CTM(Close To the Metal)編程環(huán)境,這使GPU通用計算編程的復(fù)雜性大幅度降低。這個時代的GPU首次提供幾何渲染程序(geometry shader program)功能,并動態(tài)調(diào)度統(tǒng)一的渲染硬件(unified shader)來執(zhí)行頂點(diǎn)、幾何、像素程序,在體系結(jié)構(gòu)上不再是流水線的形式,而呈現(xiàn)并行機(jī)的特征。
2006年,研究人員使用NVIDIA GeForce 7800訓(xùn)練了4層的卷積神經(jīng)網(wǎng)絡(luò),相比CPU的BLAS優(yōu)化有24%–47%的提升,這也是早期GPU在模型訓(xùn)練中的嘗試。
隨后NVIDIA的GPU產(chǎn)品線迭代速度明顯加快,其設(shè)計架構(gòu)從40nm Fermi、28nm Kepler、28nm Maxwell、16nm Pascal到如今的12nm Volta、Turing,推出了NVIDIA Tesla,GeForce GTX 600,GeForce GTX TITAN, GeForce GTX 980,GeForce GTX 1080,Tegra K1,GeForce GTX TITAN X,Tesla V100,Tesla P100等眾多消費(fèi)者熟知的產(chǎn)品,對于深度學(xué)習(xí)模型的訓(xùn)練產(chǎn)生了深遠(yuǎn)的影響。
2009年,Hinton的團(tuán)隊使用Nvidia GTX 280訓(xùn)練2層的Deep Belief Network (DBN) 。
2012年,同樣是Hinton的團(tuán)隊使用2個NVIDIA GTX580在ImageNet數(shù)據(jù)集上訓(xùn)練8層的AlexNet,訓(xùn)練時間為6天,這成為了深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域中的里程碑事件。
2018年,Facebook團(tuán)隊使用256個NVIDIA Tesla P100在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet50,訓(xùn)練時間1小時。
2018年,騰訊團(tuán)隊使用 2048個NVIDIA Tesla P40在 ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50,訓(xùn)練時間6.6分鐘。?
2018年,日本索尼的神經(jīng)網(wǎng)絡(luò)庫NNL,使用3456個NVIDIA Tesla v100,在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50,將其訓(xùn)練時間縮短到了112秒。
正是第三個時期的GPU架構(gòu)的快速發(fā)展,為深度學(xué)習(xí)模型的訓(xùn)練提供了可能,催生了一代又一代新的更復(fù)雜的模型架構(gòu)的誕生。
神經(jīng)網(wǎng)絡(luò)相關(guān)工程理論的發(fā)展
什么是深度學(xué)習(xí),它本質(zhì)上是一個復(fù)雜的非線性變換構(gòu)成的抽象算法,對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)(representation learning)。
傳統(tǒng)機(jī)器學(xué)習(xí)算法的研究流程是:手工特征+機(jī)器學(xué)習(xí)模型。而深度學(xué)習(xí)算法的研究流程是:從數(shù)據(jù)中自動學(xué)習(xí)特征,提高機(jī)器學(xué)習(xí)模型的性能,它們的主要區(qū)別在于特征提取這里。
神經(jīng)網(wǎng)絡(luò)由于其結(jié)構(gòu)非常適合于逐層進(jìn)行數(shù)據(jù)的抽象表達(dá),因此我們平常說深度學(xué)習(xí),指的就是深度神經(jīng)網(wǎng)絡(luò),其中“深”表示網(wǎng)絡(luò)層數(shù)深,從傳統(tǒng)的幾層到成百上千層。
深度學(xué)習(xí)并不是全新的概念,神經(jīng)網(wǎng)絡(luò)在上個世紀(jì)中期就已經(jīng)誕生,其核心優(yōu)化理論,反向傳播算法(Back-Propagation, BP算法)由保羅·韋爾博斯(Paul Werbos)在1974年發(fā)明,1986年戴維·魯梅哈特(David Rumelhart),杰弗里·辛頓(Geoffrey Hinton) 等人將其進(jìn)行推廣完善。
在2006年,Geoffrey ?Hinton團(tuán)隊發(fā)表了兩篇經(jīng)典研究。第一篇是“Learning Multiple Layers of Representation”,提出了不同于以往學(xué)習(xí)一個分類器的目標(biāo),而是希望學(xué)習(xí)生成模型(generative model)的觀點(diǎn),以期學(xué)習(xí)到更好的特征表達(dá),擺脫對大量訓(xùn)練數(shù)據(jù)的依賴,因此早期的深度學(xué)習(xí)也被稱為表示學(xué)習(xí)。另一篇論文“Reducing the dimensionality of data with neural networks”,則提出了逐層無監(jiān)督預(yù)訓(xùn)練玻爾茲曼機(jī)的方式,通過“預(yù)訓(xùn)練+微調(diào)”有效地解決了深層模型難以訓(xùn)練的問題,這具有非常重要的工程意義。
2011年,Glorot等人提出ReLU激活函數(shù),有效地抑制了深層網(wǎng)絡(luò)的梯度消失問題,簡單而有效。
2012年,Hinton等人提出Dropout技術(shù),有效地抑制了深層網(wǎng)絡(luò)的過擬合問題。它消除或者減弱了神經(jīng)元節(jié)點(diǎn)間的聯(lián)合,降低了網(wǎng)絡(luò)對單個神經(jīng)元的依賴,從而增強(qiáng)了泛化能力。
緊接著就是2012年Alex Krizhevsky在論文“ImageNet classification with deep convolutional neural networks”中正式提出了AlexNet網(wǎng)絡(luò),包含8個網(wǎng)絡(luò)層,其中5個卷積層,3個全連接層,以低約10%的錯誤率,大幅度超過競爭對手,意味著深度學(xué)習(xí)的黃金時代真正到來了。
AlexNet模型的成功,就得益于當(dāng)時最大的數(shù)據(jù)集ImageNet提供了足夠的樣本進(jìn)行學(xué)習(xí)、當(dāng)時最大的GPU以訓(xùn)練超過55M的參數(shù)量,以及一系列神經(jīng)網(wǎng)絡(luò)相關(guān)工程技術(shù)的使用,包括ReLU激活函數(shù),LRN歸一化,Dropout,數(shù)據(jù)增強(qiáng),這就是深度學(xué)習(xí)發(fā)展需要的三駕馬車。
麻省理工科技評論在2013年評選出十大突破性科學(xué)技術(shù),深度學(xué)習(xí)位居榜首,隨后產(chǎn)業(yè)界開始重視深度學(xué)習(xí)。
2010年,斯坦福教授吳恩達(dá)( Andrew Ng)會見了Google當(dāng)時的CEO, 決定開發(fā)Google Brain;?
2012年,Google的一個由16000臺電腦集群組成的人工神經(jīng)網(wǎng)絡(luò)通過YouTube上有關(guān)于貓的資料自行訓(xùn)練而能夠識別出“貓”這一概念;
2012年,華為成立諾亞方舟實(shí)驗(yàn)室;
2013年,谷歌聘用了深度學(xué)習(xí)宗師Geoffrey Hinton;
2013年,百度深度學(xué)習(xí)研究院( Institute of Deep Learning )建立;?
2013年,FaceBook在紐約成立了FAIR(Facebook AI. Research),聘用了Yann LeCun作為首席科學(xué)家;?
2014年,谷歌以未公布的價格并購了英國DeepMind公司;
由此我們進(jìn)入了長達(dá)將近10年的深度學(xué)習(xí)發(fā)展黃金時期,并且還將繼續(xù)下去。
深度學(xué)習(xí)在產(chǎn)業(yè)界的應(yīng)用
從2012年至今已有將近10年的發(fā)展,深度學(xué)習(xí)在各行各業(yè)中不斷創(chuàng)造商業(yè)價值,這里我們從4個大的研究方向來看,即語音處理,計算機(jī)視覺,自然語言處理,推薦系統(tǒng)。
語音處理
在傳統(tǒng)的研究方法里,語音識別經(jīng)歷了幾次重要的技術(shù)發(fā)展。從20世紀(jì)70年代的隱含馬爾科夫模型聲學(xué)建模,20世紀(jì)80年代的N元組語言模型,20世紀(jì)90年代的隱含馬爾科夫模型狀態(tài)綁定和自適應(yīng)技術(shù),到21世紀(jì)第一個十年的GMM-HMM模型。盡管這些技術(shù)取得了不錯的進(jìn)步,但是仍然無法讓語音識別達(dá)到可商用的地步,直到深度學(xué)習(xí)的到來,一舉讓語音識別錯誤率相比以往最好的方法還下降了30%以上,突破了語音識別技術(shù)可以商用的臨界點(diǎn)。
在2009年neural information processing systems(NIPS)會議上,鄧力和Geoffrey Hinton聯(lián)合組織了Deep Learning for Speech Recognition and Related Applications workshop。他們首次證明使用新方法訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在大量語音識別基準(zhǔn)上優(yōu)于之前的方法,并聯(lián)合發(fā)表了論文“Deep Neural Networks for Acoustic Modeling in Speech Recognition”。
2012年Abdel-Hamid等人證實(shí)卷積神經(jīng)網(wǎng)絡(luò)可以在頻率坐標(biāo)軸上有效歸一化說話人的差異,并在TIMIT音素識別任務(wù)上講錯誤率從20.7%降低到20%。
之后俞棟,鄧力以及Geoffrey Hinton等人致力于將深度學(xué)習(xí)技術(shù)廣泛引入語音識別中,并撰寫了書籍《Deep learning: methods and applications》。
2016年,微軟率先實(shí)現(xiàn)語音識別系統(tǒng)5.9%的低錯誤率,在Switchboard對話語音識別任務(wù)中已經(jīng)達(dá)到人類對等的水平。
現(xiàn)如今深度學(xué)習(xí)在語音分類、語音質(zhì)量評測、語音增強(qiáng)、音頻指紋識別、語音檢索與喚醒、語音識別、聲紋/說話人識別、語音合成與生成中應(yīng)用非常廣泛。
語音分類和音頻指紋識別的典型應(yīng)用即聽歌識曲,相信許多朋友都使用它識別過歌曲。
語音檢索識別的應(yīng)用自不用說,智能音箱、語音輸入法、同聲傳譯、實(shí)時字幕生成,這些都是非常高頻的應(yīng)用,大大便利了我們的日常生活。
語音合成(Text To Speech)技術(shù)在智能配音、虛擬主播、有聲閱讀、地圖導(dǎo)航、智能客服等領(lǐng)域中也已經(jīng)普及,以下展示的就是幾個AI語音助手一起演唱歌曲的應(yīng)用。
點(diǎn)擊邊框調(diào)出視頻工具條
而最先進(jìn)的語音處理技術(shù),當(dāng)屬語音生成,可以從頭創(chuàng)作不存在的語音,樂曲,國內(nèi)外都有非常多優(yōu)秀的案例。如平安人工智能研究院創(chuàng)作的交響曲《我和我的祖國》,網(wǎng)易研究院創(chuàng)作的歌曲《醒來》,由AI完成詞、曲、編、唱這個全鏈路的工作,大家不妨來收聽感受一下。
這些應(yīng)用的落地,都得益于深度學(xué)習(xí)技術(shù)的進(jìn)步,使得我們通過語音與世界的交互變得更加便利和智能。
計算機(jī)視覺
由于人類接觸到的70%以上的信息都是視覺信息,因此計算機(jī)視覺是深度學(xué)習(xí)應(yīng)用最廣泛也是最成熟的領(lǐng)域,研究領(lǐng)域本身就覆蓋了圖像分類、目標(biāo)檢測、圖像分割、目標(biāo)識別、目標(biāo)跟蹤、圖像質(zhì)量分析、圖像降噪與修復(fù)、圖像增強(qiáng)、圖像去模糊、圖像超分辨、圖像翻譯與風(fēng)格化、圖像生成、三維重建、圖像編輯等方向……
而應(yīng)用領(lǐng)域則覆蓋了交通行業(yè),安防行業(yè),娛樂創(chuàng)作行業(yè)、教育行業(yè)、醫(yī)療行業(yè)、電商零售行業(yè)、制造行業(yè)、養(yǎng)殖行業(yè)等范圍。
自2012年AlexNet圖像分類網(wǎng)絡(luò)取得成功后,一系列新的基準(zhǔn)模型被提出,使得圖像識別領(lǐng)域率先取得商業(yè)大規(guī)模應(yīng)用落地,其中最典型的當(dāng)屬Google圖片、百度識圖等以圖搜圖的圖片檢索引擎,可以應(yīng)用于各類物品檢索。
2015年以后,人臉識別算法取得不斷突破,如今在日常考勤,金融支付中已經(jīng)是標(biāo)準(zhǔn)化技術(shù),還可以被應(yīng)用于犯罪分子抓捕、走失兒童與老人尋找,社會價值巨大。
隨著目標(biāo)檢測與識別等技術(shù)的成熟,自動駕駛領(lǐng)域中的行人檢測 、車輛檢測、交通標(biāo)志檢測等感知能力大大提升,推動了自動駕駛商業(yè)化落地的進(jìn)程。
各類場景中的文字與標(biāo)志識別精度達(dá)到了商業(yè)化落地水平,在諸如文檔識別、身份證識別、車票識別、銀行卡識別、車牌識別、發(fā)票識別、快遞單識別、儀表盤讀數(shù)識別等方向取得了落地,提高了這些任務(wù)的自動化水準(zhǔn)。
目標(biāo)檢測算法使得工業(yè)制造中的缺陷檢測、目標(biāo)計數(shù)也可以變得更加智能,降低人力成本和產(chǎn)品損耗,提高生產(chǎn)效率。
除了識別相關(guān)的任務(wù),深度學(xué)習(xí)在更底層的圖像處理任務(wù)中也取得了長足的進(jìn)步,典型的應(yīng)用包括圖像的自動裁剪,圖像的自動增強(qiáng),老照片的修復(fù),圖像分辨率的提升,圖像的風(fēng)格化等。
說到視覺里最前沿的技術(shù),當(dāng)屬圖像和視頻的生成,隨著GAN等技術(shù)的發(fā)展,如今已經(jīng)可以生成纖毫畢現(xiàn)的圖片和視頻,達(dá)到真假難辨的水平,比如下圖分別展示了生成的人臉和換臉的結(jié)果。
隨著二維圖片的處理漸趨成熟,三維的圖片處理成為了當(dāng)下的熱門,在表情驅(qū)動、人體驅(qū)動、姿態(tài)編輯、虛擬主播 、關(guān)鍵點(diǎn)定位、虛擬試妝中有著廣闊的應(yīng)用場景。
下面視頻中展示的虛擬主播,就應(yīng)用到了三維人臉重建的技術(shù)。
點(diǎn)擊邊框調(diào)出視頻工具條
當(dāng)下我們還處于將圖片處理技術(shù)遷移到視頻中的重要時期,諸如視頻分類、行為分析、視頻生成與預(yù)測、視頻檢索、光流估計、關(guān)鍵幀提取、視頻描述、視頻剪輯等都是熱門技術(shù),這些都得益于深度學(xué)習(xí)技術(shù)的發(fā)展。
自然語言處理
自然語言處理技術(shù)被譽(yù)為人工智能皇冠上的明珠,自然語言處理的發(fā)展可以追溯到上個世紀(jì)50年代的圖靈測試,經(jīng)歷了從規(guī)則到統(tǒng)計,再到現(xiàn)在的深度學(xué)習(xí)的發(fā)展過程。早期基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的自然語言處理算法一般都基于淺層模型(如SVM和logistic 回歸),這些模型都在非常高維和稀疏的特征(one-hot encoding)上進(jìn)行訓(xùn)練和學(xué)習(xí),會面臨著維度爆炸等難以解決的問題。
現(xiàn)如今深度學(xué)習(xí)在自然語言處理領(lǐng)域也發(fā)揮著巨大的價值,典型的研究領(lǐng)域包括文本分類與聚類、文章標(biāo)簽與摘要提取、文本審核與輿情分析、機(jī)器翻譯、閱讀理解、問答系統(tǒng)與聊天機(jī)器人、搜索引擎、知識圖譜、自然語言生成等方向……
在2003年,Bengio等人在論文《A Neural Probabilistic Language Model》中提出了神經(jīng)網(wǎng)絡(luò)語言模型,作為副產(chǎn)品的詞向量,掀開了用稠密的多維向量來編碼詞義的方式。Mikolov等人在2013年做出的研究《Distributed Representations of Words and Phrases and their Compositionality》中真正使得從大規(guī)模語料中獲得詞向量變?yōu)楝F(xiàn)實(shí)。
此后,一些基本的方向包括詞向量化,分詞,詞性標(biāo)注,命名實(shí)體識別,文本結(jié)構(gòu)化等研究逐漸成熟。
它們可以直接被用于一些基礎(chǔ)的文本處理任務(wù),諸如快遞地址自動識別與填充,文本文件的分類,文章標(biāo)簽與摘要提取,標(biāo)題生成等。
隨著互聯(lián)網(wǎng)文本信息的增加,對文本中夾雜的色情、推廣、辱罵、違禁違法等內(nèi)容的檢測有助于維護(hù)更健康的網(wǎng)絡(luò)環(huán)境,自然語言處理在其中發(fā)揮著重要作用。
同時,對帶有情感色彩的主觀性文本進(jìn)行分析、處理和抽取,也在電影影評分析、商品口碑分析中有著重要作用,有助于提升消費(fèi)者的使用體驗(yàn)。
作為一個非常具有難度而又商業(yè)價值巨大的領(lǐng)域,機(jī)器翻譯一直是自然語言處理的核心問題,隨著深度學(xué)習(xí)模型的發(fā)展,以Google為代表的公司已經(jīng)開發(fā)出了非常強(qiáng)大的機(jī)器翻譯算法,在各類翻譯詞典、翻譯機(jī)、跨語言檢索、語音同傳應(yīng)用中大大便利了人們的日常交流。
我們對于以機(jī)器人為代表的人工智能技術(shù)總是充滿著非常高的期望,當(dāng)下以百度小度為代表的問答機(jī)器人,阿里小蜜為代表的客服機(jī)器人,微軟小冰為代表的聊天機(jī)器人,都已經(jīng)在商業(yè)環(huán)境中正式上崗。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
閱讀理解,一向是復(fù)雜度非常高的人類推理行為,是深度學(xué)習(xí)大大推進(jìn)了當(dāng)下機(jī)器閱讀理解的發(fā)展,利用算法使計算機(jī)理解文章語義并回答相關(guān)問題的技術(shù),AI在選擇題、問答題、填充題等多項任務(wù)中不斷取得突破,在某一些領(lǐng)域中甚至超過了人類水平。
搜索引擎是當(dāng)下我們獲取信息的主要來源,通過自然語言理解技術(shù),我們從基于關(guān)鍵字查詢的檢索邁入了面向自然語言理解的檢索,不僅可以檢索匹配關(guān)鍵詞相關(guān)內(nèi)容,還可以理解用戶意圖。當(dāng)你搜索‘唐三的女兒和兒子叫什么’時,直接給出的是答案,而不是一些相關(guān)網(wǎng)頁鏈接。
而知識圖譜的構(gòu)建,則讓信息的展示變得更加條理清晰,這得益于自然語言處理中的多項關(guān)鍵技術(shù)。
當(dāng)下基于深度學(xué)習(xí)的自然語言處理的最時髦的研究,莫過于自然語言生成/文本生成技術(shù),不管是寫新聞,寫對聯(lián),還是寫詩,都信手拈來。微軟小冰甚至創(chuàng)作并且出版了人類歷史上第一部100%由人工智能創(chuàng)造的詩集。
“樹影壓在秋天的報紙上\中間隔著一片夢幻的海洋我凝視著一池湖水的天空",這般優(yōu)美的詩句,都是來自AI的詩意。
在此之前,微軟還讓小冰在天涯、豆瓣、簡書等平臺,用27個筆名發(fā)表自己的詩歌,讀者們還不知道“駱夢”、“風(fēng)的指尖”、“一荷”、“微笑的白”這些筆名背后的詩人,其實(shí)并非人類。
當(dāng)下自然語言處理已經(jīng)能夠完成較為復(fù)雜的任務(wù),如何處理更多藝術(shù)和情感相關(guān)的任務(wù),也是研究人員在慢慢解決的問題,人類與AI共存的時代,已然降臨了。
推薦系統(tǒng)
人類從來沒有像今天這樣,被推薦系統(tǒng)如此深刻地支配過,仿佛找到了對抗選擇強(qiáng)迫癥的方法,不再需要自己去思考和搜索,只需要接受系統(tǒng)推薦過來的信息即可。
我們在互聯(lián)網(wǎng)上留下的所有足跡,都被小心地搜集起來,然后被抽象成具體的標(biāo)簽,得到了千人千面的用戶畫像,被服務(wù)商用來推送有針對性的內(nèi)容,所以你會感嘆最懂你的不再是家人或者朋友,而是手機(jī)。
從用戶角度來看,推薦系統(tǒng)可以幫用戶從海量信息中便捷地篩選出感興趣的內(nèi)容,在用戶面對陌生領(lǐng)域時提供參考意見,滿足用戶的好奇心。而從系統(tǒng)角度來看,推薦系統(tǒng)可以幫系統(tǒng)篩選出高質(zhì)量的用戶群,提高留存率,提高廣告的商業(yè)變現(xiàn)率,降低運(yùn)營成本,提高內(nèi)容的時效性、多樣性,解決長尾信息的閱讀問題。
所以你打開頭條看到的是你想讀的新聞, 打開淘寶看到的是你可能購買的商品,打開微信刷感興趣的文章和視頻,打開微博關(guān)注喜歡的博主,推送過來的東西精準(zhǔn)又高效,這就是個性化推薦的效果。
當(dāng)你刷完一個視頻,系統(tǒng)一定會給你再推薦類似的讓你欲罷不能的視頻,當(dāng)你買完一件商品,又給你推送想入手的商品,于是真的陷入了‘看了還看’,‘買了又買’的循環(huán),這就是相關(guān)推薦的效果。
能做到如此高效的推薦系統(tǒng),背后得益于深度學(xué)習(xí)模型建模復(fù)雜特征,挖掘復(fù)雜關(guān)系的能力。如今商品推薦、新聞推薦、視頻推薦、音樂推薦、美食推薦等已經(jīng)成為了上網(wǎng)的標(biāo)配,徹底改變了我們從互聯(lián)網(wǎng)的信息海洋中獲取自己感興趣信息的方式。
結(jié)語
深度學(xué)習(xí),并非是近十年誕生的新技術(shù),而更像是新瓶裝舊酒,在大數(shù)據(jù)的爆發(fā),硬件計算能力飛速提升的大背景下,一系列新的工程技術(shù)不斷被創(chuàng)新,讓我們進(jìn)入了一個更加智能化的時代,不斷重組人們的生活和工作方式,創(chuàng)造商業(yè)傳奇,這是值得當(dāng)下每一個人關(guān)注的技術(shù)。
為了幫助大家學(xué)習(xí)相關(guān)內(nèi)容,有三AI聯(lián)合阿里云開設(shè)了《深度學(xué)習(xí)》系列課程,本文所介紹的內(nèi)容都在視頻中有更加詳細(xì)的介紹,歡迎大家持續(xù)關(guān)注。
課程的具體地址為https://tianchi.aliyun.com/course/279,掃碼亦可直達(dá):
沒有阿里云賬號的,可以參考下文進(jìn)行配置:
【阿里云課程】有三AI在阿里云天池開設(shè)深度學(xué)習(xí)課程啦,從人工智能基礎(chǔ)講起,零基礎(chǔ)都可以來學(xué)
【重要】免費(fèi)GPU+數(shù)據(jù)代碼!有三AI聯(lián)合阿里天池推出深度學(xué)習(xí)訓(xùn)練營,任何基礎(chǔ)都可以學(xué)習(xí)
進(jìn)入了智能時代,不懂深度學(xué)習(xí),可能就真的落伍了。
往期相關(guān)
【阿里云課程】有三AI在阿里云天池開設(shè)深度學(xué)習(xí)課程啦,從人工智能基礎(chǔ)講起,零基礎(chǔ)都可以來學(xué)
【阿里云課程】深度學(xué)習(xí)在語音處理與計算機(jī)視覺中的研究方向與典型應(yīng)用
【阿里云課程】深度學(xué)習(xí)在自然語言處理與推薦系統(tǒng)中的研究方向與典型應(yīng)用
【雜談】2020年如何長期、系統(tǒng),全面地學(xué)習(xí)深度學(xué)習(xí)和計算機(jī)視覺,這是有三AI的完整計劃
總結(jié)
以上是生活随笔為你收集整理的【杂谈】万字长文回顾深度学习的崛起背景,近10年在各行各业中的典型应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 需求分析类文档模板
- 下一篇: 【活体检测】人脸活体检测、红外人脸数据集