深度学习新手入门课
課程介紹
伴隨人工智能時(shí)代的到來(lái),越來(lái)越多的人開始關(guān)注深度學(xué)習(xí),且希望能夠入行深度學(xué)習(xí),其中不乏一些行業(yè)小白、非計(jì)算機(jī)專業(yè)的人士。
本達(dá)人課,共計(jì)11篇文章,涵蓋了入行深度學(xué)習(xí)所涉及到的大多數(shù)疑問,以及行業(yè)介紹、前景展望和實(shí)戰(zhàn) Demo,作者希望通過最樸實(shí)、通俗的語(yǔ)言,從一個(gè)入門者的角度,分享自己曾經(jīng)遇到的那些坑和學(xué)習(xí)經(jīng)驗(yàn),幫助那些希望轉(zhuǎn)行、找不到方向的朋友走進(jìn)深度學(xué)習(xí)的世界。
本課程共包含三大部分:
第一部分(第1篇)帶您初步認(rèn)識(shí)深度學(xué)習(xí),了解行業(yè)背景、優(yōu)勢(shì)、前景以及入行深度學(xué)習(xí)需要的一些準(zhǔn)備工作,為那些準(zhǔn)備入行的人答疑、解惑。
第二部分(第2-7篇)帶您具體了解深度學(xué)習(xí)技術(shù)在不同行業(yè)的應(yīng)用,并分享學(xué)習(xí)深度學(xué)習(xí)的經(jīng)驗(yàn),幫助大家找到研究方向。
第三部分(第8-11篇)熟悉深度學(xué)習(xí)的兩種框架 Caffe 和 TensorFlow,通過簡(jiǎn)單的 Demo 引導(dǎo)大家開始深度學(xué)習(xí)實(shí)戰(zhàn)。
作者介紹
王學(xué)寬,曾就職于海康威視研究院擔(dān)任計(jì)算機(jī)視覺方向算法工程師,發(fā)表多篇學(xué)術(shù)論文、申請(qǐng)多項(xiàng)國(guó)家專利,參與多項(xiàng)圖像、自然語(yǔ)言項(xiàng)目相關(guān)課題研發(fā)工作,在計(jì)算機(jī)視覺領(lǐng)域具有深厚的專業(yè)知識(shí)和工程開發(fā)經(jīng)驗(yàn)。運(yùn)營(yíng)有公眾號(hào):白話機(jī)器學(xué)習(xí)(微信號(hào):simpleml90hou),開設(shè)有知乎專欄:《深度學(xué)習(xí)干貨鋪》。
課程內(nèi)容
第01課:深度學(xué)習(xí)行業(yè)概述
目前,“深度學(xué)習(xí)”這一詞已經(jīng)變得越來(lái)越普及,生活中也是到處都充斥著這一詞匯,同時(shí)也有越來(lái)越多的人開始想要從事這一行的相關(guān)工作,嘗試著接觸、了解這一行業(yè)。
當(dāng)然,關(guān)于這一行業(yè)的相關(guān)介紹很多,也很雜亂,初學(xué)者往往很容易被各種各樣的概念搞得很迷惑,即便是計(jì)算機(jī)從業(yè)者有時(shí)候也分不清很多涉及到深度學(xué)習(xí)的很多問題和概念。
因此,本文希望通過一些通俗的語(yǔ)言來(lái)系統(tǒng)的介紹下關(guān)于深度學(xué)習(xí)行業(yè)的一些相關(guān)知識(shí),引導(dǎo)一些初學(xué)者,建立一個(gè)相對(duì)比較完整的全局觀,明白自己到底在學(xué)什么,以及學(xué)習(xí)這些知識(shí),能夠?qū)ι鐣?huì)的發(fā)展和人們的生活帶來(lái)哪些便利。更實(shí)際一點(diǎn)來(lái)講,對(duì)于一個(gè)深度學(xué)習(xí)算法工程師,在以后就業(yè)會(huì)主要從事哪些工作?
這里我們先了解下深度學(xué)習(xí)的發(fā)展歷程。
對(duì)于深度學(xué)習(xí)的框架,可以最早追溯到1980年福島邦彥提出的新認(rèn)知機(jī),然而,受限于當(dāng)時(shí)的計(jì)算能力,而且缺少有效的訓(xùn)練手段來(lái)解決其中涉及到的梯度消失的問題,因此,這一技術(shù)也就在20世紀(jì)90年代到21世紀(jì)初的時(shí)候遇到了寒冬期。而在此期間,SVM (支持向量機(jī))處于統(tǒng)治地位,此外,還有隨機(jī)森林、稀疏表示、判別分析等方法。
這個(gè)階段的機(jī)器學(xué)習(xí)方法,主要是多種方法的集成,雖然在小規(guī)模樣本上具有較好的性能,但是對(duì)于大規(guī)模樣本卻并沒有表現(xiàn)出太好的優(yōu)勢(shì)。然而,大數(shù)據(jù)時(shí)代的到來(lái),這些傳統(tǒng)的機(jī)器學(xué)習(xí)方法難以滿足數(shù)據(jù)處理、表達(dá)的新時(shí)代需求,不管是工業(yè)屆還是學(xué)術(shù)屆,都需要一種處理大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。
恰恰在這個(gè)時(shí)候,杰弗里·辛頓(Geoffrey Hinton)和魯斯蘭·薩拉赫丁諾夫(Ruslan Salakhutdinov)提出了一種在前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行有效訓(xùn)練的算法,為深度學(xué)習(xí)方法帶來(lái)了新的研究曙光,并在各個(gè)領(lǐng)域得到迅速的發(fā)展,尤其是在自然語(yǔ)言處理、計(jì)算機(jī)視覺和語(yǔ)音識(shí)別中,成為各種領(lǐng)先系統(tǒng)的一部分。
接下來(lái),我們看下深度學(xué)習(xí)發(fā)展中的大事件。
- 2007年,杰弗里·辛頓(Geoffrey Hinton)和魯斯蘭·薩拉赫丁諾夫(Ruslan Salakhutdinov)提出了一種在前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行有效訓(xùn)練的算法;
- 2009年,在 ICDAR 2009舉辦的連筆手寫識(shí)別競(jìng)賽中,在沒有任何先驗(yàn)知識(shí)的情況下,深度多維長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)取得了其中三場(chǎng)比賽的勝利;
- 2010年,在于爾根·施密德胡伯位于瑞士人工智能實(shí)驗(yàn)室 IDSIA 的研究組中,丹·奇雷尚(Dan Ciresan)和他的同事展示了利用 GPU 直接執(zhí)行反向傳播算法而忽視梯度消失問題的存在。這一方法在燕樂存等人給出的手寫識(shí)別 MNIST 數(shù)據(jù)集上戰(zhàn)勝了已有的其他方法;
- 2011年,前饋神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)中最新的方法是交替使用卷積層(Convolutional Layers)和最大值池化層(Max-pooling Layers)并加入單純的分類層作為頂端。訓(xùn)練過程也無(wú)需引入無(wú)監(jiān)督的預(yù)訓(xùn)練。從2011年起,這一方法的 GPU 實(shí)現(xiàn)多次贏得了各類模式識(shí)別競(jìng)賽的勝利,包括 IJCNN 2011交通標(biāo)志識(shí)別競(jìng)賽和其他比賽;
- 2011年,語(yǔ)音識(shí)別領(lǐng)域憑借深度學(xué)習(xí)取得重大突破;
- 2012年,AlexNet,一個(gè)8層的神經(jīng)網(wǎng)絡(luò),以超越第二名10個(gè)百分點(diǎn)的成績(jī)?cè)?ImageNet 競(jìng)賽中奪冠(圖像分類的 Top5 錯(cuò)誤率為16.4%),深度學(xué)習(xí)終迎來(lái)包括學(xué)術(shù)探索與工業(yè)應(yīng)用中的熱潮。不斷提升的層數(shù)逐步提升計(jì)算機(jī)分類視覺的準(zhǔn)確率;
- 2013年,Zfnet,獲得 ILSVRC 冠軍;
- 2014年,VGGNet、GoogleNet、DeepFace、RCNN,在分類、人臉識(shí)別、目標(biāo)檢測(cè)等領(lǐng)域取得優(yōu)異的性能;
- 2015年,奪冠的 ResNet 深達(dá)152層,以3.57%的錯(cuò)誤率超越人類視覺的5.1%;
- 2016年-至今,Fast-Rcnn、Faster-Rcnn、Yolo、SSD 等目標(biāo)檢測(cè)算法突破。
- 2016年,AlphaGo 擊敗人類。
目前,深度學(xué)習(xí)技術(shù)已經(jīng)在圖像、語(yǔ)音、自然語(yǔ)言、推薦算法等這些常見的領(lǐng)域中,得到重大突破,并且已經(jīng)服務(wù)于我們的日常生產(chǎn)、生活中。比如:安防領(lǐng)域的人臉識(shí)別、ADAS 系統(tǒng)中目標(biāo)檢測(cè)與跟蹤、OCR 識(shí)別、語(yǔ)音識(shí)別與合成、文本情感分析、主題挖掘等等。
談了這么多深度學(xué)習(xí)的歷程,那到底什么是深度學(xué)習(xí)呢?其實(shí),關(guān)于深度學(xué)習(xí)的解釋非常多,總結(jié)來(lái)說(shuō),它是一種具有多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)算法,屬于機(jī)器學(xué)習(xí)算法一種,而機(jī)器學(xué)習(xí)則是實(shí)現(xiàn) AI 的一種技術(shù)手段。換言之,深度學(xué)習(xí)對(duì)于人工智能技術(shù)的發(fā)展具有重大意義。我們看一下,如下圖所示的深度學(xué)習(xí)結(jié)構(gòu):
一個(gè)完整的度網(wǎng)絡(luò),主要包括了輸入層、輸出層和中間的隱層,每一層網(wǎng)絡(luò)由一個(gè)個(gè)節(jié)點(diǎn)組成,而不同層之間則通過節(jié)點(diǎn)和節(jié)點(diǎn)之間的線連接起來(lái),而這些點(diǎn)和連接就表達(dá)為線性組合關(guān)系。當(dāng)然,目前深度學(xué)習(xí)網(wǎng)路結(jié)構(gòu)的多樣性,也存在很多類似的非線性組合的網(wǎng)絡(luò)層。深度學(xué)習(xí)就是通過這些節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)系來(lái)表達(dá)客觀世界中的事物、邏輯關(guān)系等等。
關(guān)于深度學(xué)習(xí)的概念,已經(jīng)足夠火熱,當(dāng)然我們?cè)谡J(rèn)識(shí)它的時(shí)候,依然需要保持冷靜的頭腦,必須認(rèn)識(shí)到:
深度學(xué)習(xí)與大數(shù)據(jù)的關(guān)系
“大數(shù)據(jù)”在幾年前剛出現(xiàn)的時(shí)候,也存在各種各樣的文章來(lái)定義大數(shù)據(jù),我也不打算在這個(gè)概念上花太多的精力。簡(jiǎn)單來(lái)講,大數(shù)據(jù)通常被定義為“超出常用軟件工具捕獲,管理和處理能力”的數(shù)據(jù)集。它不是具體的方法,甚至不算具體的研究學(xué)科,而只是對(duì)某一類問題,或需處理的數(shù)據(jù)的描述。
通常,大數(shù)據(jù)的“大”主要體現(xiàn)在 Volume(數(shù)據(jù)量), Velocity(數(shù)據(jù)速度)還有 variety(數(shù)據(jù)類別)。大數(shù)據(jù)問題(Big-data Problem)可以指那種在這三個(gè)“V”上因?yàn)榇蠖鴰?lái)的挑戰(zhàn)。在之前我們也提到了,傳統(tǒng)的機(jī)器學(xué)習(xí)方法的表達(dá)能力有限,在小規(guī)模數(shù)據(jù)上能夠表現(xiàn)較好的性能,但是在大數(shù)據(jù)背景下則顯得很無(wú)力。而深度學(xué)習(xí)則不同,通過增加節(jié)點(diǎn)數(shù)目、網(wǎng)絡(luò)深度等,它能夠表達(dá)更多的數(shù)據(jù),針對(duì)大數(shù)據(jù)的背景,它的數(shù)據(jù)擬合能力遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。從這個(gè)角度上來(lái)看,二者的關(guān)系則是相輔相成的,沒有大數(shù)據(jù)的存在,深度學(xué)習(xí)的方法也很難得到有效的訓(xùn)練和優(yōu)化,而沒有深度學(xué)習(xí)方法,大數(shù)據(jù)本身也就沒有了價(jià)值。
深度學(xué)習(xí)與人工智能的關(guān)系
1956年,在達(dá)特茅斯會(huì)議(Dartmouth Conferences)上,計(jì)算機(jī)科學(xué)家首次提出了“AI”術(shù)語(yǔ),AI 由此誕生,在隨后的日子里,AI 成為實(shí)驗(yàn)室的“幻想對(duì)象”。幾十年過去了,人們對(duì) AI 的看法不斷改變,有時(shí)會(huì)認(rèn)為 AI 是預(yù)兆,是未來(lái)人類文明的關(guān)鍵,有時(shí)認(rèn)為它只是技術(shù)垃圾,只是一個(gè)輕率的概念,野心過大,注定要失敗。直到今天,深度學(xué)習(xí)技術(shù)的發(fā)展,才使得 AI 變得越來(lái)越可能。
其實(shí),對(duì)于大多數(shù)人工智能從業(yè)者而言,很難去對(duì)其進(jìn)行一個(gè)精確的定義。如果非要對(duì)其進(jìn)行定義的話,我覺得這個(gè)概念更加合適“它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能體,它必然會(huì)經(jīng)歷從模仿人類智能到超越人類智能的過程。”而深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)的一種,它屬于實(shí)現(xiàn)人工智能的一種技術(shù)手段。
今天,越來(lái)越多的人經(jīng)常會(huì)提到“我想學(xué)習(xí)人工智能”,其實(shí)這是一個(gè)非常大的概念。從數(shù)據(jù)存在的形態(tài)來(lái)看,主要包括了文本、語(yǔ)音、數(shù)字圖像,而人工智能需要智能體對(duì)這些客觀世界存在信息進(jìn)行理解、表達(dá),并學(xué)會(huì)利用這些信息進(jìn)行決策、分析。這些行為的實(shí)現(xiàn),單純的依靠數(shù)據(jù)是無(wú)法實(shí)現(xiàn)的,需要一個(gè)框架來(lái)完成存儲(chǔ)、表達(dá)、理解、分析、決策的過程,而深度學(xué)習(xí)則是這些任務(wù)實(shí)現(xiàn)的一種關(guān)鍵技術(shù),它能夠有效的完整對(duì)大數(shù)據(jù)的刻畫和理解,特征抽取與表達(dá),對(duì)人工智能的發(fā)展起到了核心關(guān)鍵作用。
深度學(xué)習(xí)行業(yè)現(xiàn)狀
深度學(xué)習(xí)作為一種技術(shù),在行業(yè)中的體現(xiàn),依然要依托于智能化的產(chǎn)品和相應(yīng)的人工智能企業(yè)。根據(jù)2016年烏鎮(zhèn)智庫(kù)推出《全球人工智能發(fā)展報(bào)告產(chǎn)業(yè)篇》,該報(bào)告詳實(shí)的描繪出全球人工智能發(fā)展的最新趨勢(shì),展示出各國(guó)在人工智能領(lǐng)域的競(jìng)爭(zhēng)態(tài)勢(shì)。報(bào)告指出,在2000-2016年,美國(guó)累積新增人工智能企業(yè)3033家,占全球累積總數(shù)的37.41%。中國(guó)在同年段間,人工智能企業(yè)數(shù)累積增長(zhǎng)1477家,占全球人工智能總數(shù)的12.91%。雖然在數(shù)量上不及美國(guó),但三組數(shù)據(jù)值得關(guān)注:
美國(guó)每年新增人工智能企業(yè)數(shù)占當(dāng)年全球新增人工智能企業(yè)總數(shù)的比例一直在下降,2000年時(shí)這一比例為45%,2016年時(shí)下降至26%。而中國(guó)每年新增人工智能企業(yè)數(shù)占全球當(dāng)年新增企業(yè)總數(shù)的比例保持上升趨勢(shì),2015年達(dá)到近17年來(lái)的最高值,超過25%。近五年來(lái)看,美國(guó)新增人工智能企業(yè)數(shù)占全國(guó)人工智能總數(shù)的59.38%,中國(guó)新增人工智能企業(yè)數(shù)占全國(guó)人工智能總數(shù)則為72.71%。在人工智能專利數(shù)上,最近五年,中國(guó)專利數(shù)平均每年增速為43%,美國(guó)增數(shù)為21.7%。透過這三組數(shù)據(jù),可以看到中國(guó)近年來(lái)在人工智能上發(fā)展迅猛。
下圖,給出了2017年,人工智能公司的排名,當(dāng)然,此排名可能存在一些不準(zhǔn)確的情況,僅供參考。
從這些人工智能公司來(lái)看,目前深度學(xué)習(xí)的應(yīng)用領(lǐng)域十分廣泛,涉及到了安防領(lǐng)域、搜索引擎、智能推薦、語(yǔ)音識(shí)別、自然語(yǔ)言處理、人機(jī)交互、智慧醫(yī)療、生物信息識(shí)別、機(jī)器人、3D 視覺、智慧教育、智能圖像理解與分析等等。
另外,從政策的角度來(lái)看,2016年7月,在國(guó)務(wù)院印發(fā)的《“十三五”國(guó)家科技創(chuàng)新規(guī)劃》中,人工智能被作為新一代信息技術(shù)中的一項(xiàng)列入規(guī)劃。2017年3月,“人工智能”首度被列入政府工作報(bào)告。2017年,國(guó)務(wù)院又下發(fā)了《新一代人工智能發(fā)展規(guī)劃的通知》,通知中寫道,“到2020年人工智能總體技術(shù)和應(yīng)用與世界先進(jìn)水平同步,到2025年人工智能基礎(chǔ)理論實(shí)現(xiàn)重大突破,到2030年人工智能理論、技術(shù)與應(yīng)用總體達(dá)到世界領(lǐng)先水平”。可以預(yù)計(jì),中國(guó)的人工智能產(chǎn)業(yè)將迎來(lái)“大躍進(jìn)”的時(shí)代。
綜上,智能社會(huì)的到來(lái),必須依賴于人工智能技術(shù)的發(fā)展,而深度學(xué)習(xí)則是目前能夠?qū)崿F(xiàn)人工智能的最有效的手段之一,甚至在很多領(lǐng)域具備了統(tǒng)治地位。深度學(xué)習(xí)行業(yè)如何?必然大有所為。
參考資料
- 重磅 | 國(guó)務(wù)院印發(fā)新一代人工智能發(fā)展規(guī)劃,到 2030 年達(dá)到世界領(lǐng)先水平
- 2017年人工智能與深度學(xué)習(xí)——年度大事件
- 硅谷最有潛力的人工智能公司有哪些:參考一、參考二
第02課:深度學(xué)習(xí)在計(jì)算機(jī)視覺行業(yè)中的應(yīng)用
伴隨著深度學(xué)習(xí)技術(shù)的發(fā)展和普及,“計(jì)算機(jī)視覺”這一詞匯也受到越來(lái)越多的人關(guān)注。尤其是深度學(xué)習(xí)計(jì)算芯片技術(shù)的發(fā)展,使得圖像信息處理的能力大大加強(qiáng),市場(chǎng)上關(guān)于計(jì)算機(jī)視覺技術(shù)的產(chǎn)品也越來(lái)越多。那到底什么是計(jì)算機(jī)視覺?它和深度學(xué)習(xí)有什么關(guān)系?目前有哪些計(jì)算機(jī)視覺相關(guān)的產(chǎn)品需要用到深度學(xué)習(xí)呢?
首先,我們解釋下什么是計(jì)算機(jī)視覺?
計(jì)算機(jī)視覺是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺功能——對(duì)客觀世界的三維場(chǎng)景的感知、識(shí)別和理解。這里主要有兩類方法:一類是仿生學(xué)的方法,參照人類視覺系統(tǒng)的結(jié)構(gòu)原理,建立相應(yīng)的處理模塊完成類似的功能和工作;另一類是工程的方法,從分析人類視覺過程的功能著手,并不去刻意模擬人類視覺系統(tǒng)內(nèi)部結(jié)構(gòu),而僅考慮系統(tǒng)的輸入和輸出,并采用任何現(xiàn)有的可行的手段實(shí)現(xiàn)系統(tǒng)功能。[摘自《圖像理解與計(jì)算機(jī)視覺》]
舉個(gè)例子,最經(jīng)典也是工業(yè)化水平最高的計(jì)算機(jī)視覺技術(shù)就是人臉識(shí)別技術(shù)。一個(gè)簡(jiǎn)單的人臉識(shí)別系統(tǒng),包括了人臉數(shù)據(jù)庫(kù)和人臉比對(duì)算法,判定兩個(gè)人臉是否是同一個(gè)人臉,最直接的方法就是計(jì)算兩張人臉圖像之間的差異,然而,這樣做往往是很難有效的區(qū)分相同人臉和不同人臉的。而計(jì)算機(jī)視覺技術(shù)的存在,就是通過對(duì)人臉圖像進(jìn)行特征表示,也就是抽取人臉圖像中那些共性和差異性的特征,并用來(lái)對(duì)人臉圖像進(jìn)行重新表示,在結(jié)合度量方法來(lái)進(jìn)行相似性的衡量。其中,表示和度量的過程,我們通常也就是采用機(jī)器學(xué)習(xí)的方法來(lái)完成。因此,機(jī)器學(xué)習(xí)技術(shù)就是解決計(jì)算機(jī)視覺任務(wù)的一種關(guān)鍵性技術(shù)。
那計(jì)算機(jī)視覺和人工智能是什么關(guān)系呢? 它屬于人工智能的一個(gè)子領(lǐng)域,主要關(guān)注于圖像信號(hào)數(shù)據(jù)的處理、理解和分析。因此,我們?cè)谘芯坑?jì)算機(jī)視覺技術(shù)的時(shí)候,會(huì)發(fā)現(xiàn)計(jì)算機(jī)視覺的理念在某些方面其實(shí)與很多概念有部分重疊,包括:人工智能、數(shù)字圖像處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、模式識(shí)別、概率圖模型、科學(xué)計(jì)算以及一系列的數(shù)學(xué)計(jì)算等。
還有一個(gè)概念經(jīng)常會(huì)和計(jì)算機(jī)視覺搞混淆,那就是機(jī)器視覺。 很多人在開始接觸到這兩個(gè)概念的時(shí)候會(huì)簡(jiǎn)單的認(rèn)為計(jì)算機(jī)也屬于機(jī)器的一種,因此,計(jì)算機(jī)視覺就是機(jī)器視覺的一個(gè)方面。當(dāng)然,這樣認(rèn)為也不是完全有錯(cuò)誤,只是會(huì)顯得有些局限。計(jì)算機(jī)視覺研究的是人眼的仿真,而機(jī)器視覺則側(cè)重于為工業(yè)中的制造業(yè)提供更多有利于提高產(chǎn)品質(zhì)量和提高生產(chǎn)效率的支持。我們強(qiáng)調(diào)機(jī)器視覺、計(jì)算機(jī)視覺和圖像處理不是同義的。它們其中之一都不是任何其他兩個(gè)的子集。計(jì)算機(jī)視覺是計(jì)算機(jī)科學(xué)的一個(gè)分支,而機(jī)器視覺是系統(tǒng)工程一個(gè)特殊領(lǐng)域。
深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的一種,對(duì)于大數(shù)據(jù)背景下的計(jì)算機(jī)視覺任務(wù),尤其在檢測(cè)、分類、識(shí)別等任務(wù)上,都表現(xiàn)出難以匹配的優(yōu)勢(shì)。尤其,目前越來(lái)越多的深度學(xué)習(xí)芯片的生產(chǎn)和制造,也確保了深度學(xué)習(xí)技術(shù),在計(jì)算機(jī)視覺任務(wù)中的核心地位。接下來(lái),我們看一下深度學(xué)習(xí)在計(jì)算機(jī)視覺任務(wù)中有哪些重要的應(yīng)用領(lǐng)域。
1.深度學(xué)習(xí)在安防領(lǐng)域的重要應(yīng)用。
利用計(jì)算機(jī)視覺技術(shù)來(lái)完成安防領(lǐng)域的解決方案,這是大多數(shù)視覺公司都會(huì)選擇切入的一個(gè)領(lǐng)域,涉及到的企業(yè)包括海康威視、商湯科技、依圖科技、Face++,甚至互聯(lián)網(wǎng)公司百度、騰訊、阿里巴巴等。其中,一個(gè)重要的應(yīng)用就是人臉識(shí)別技術(shù),自2014年的 DeepFace 開始至今,深度學(xué)習(xí)的方法在該領(lǐng)域幾乎達(dá)到壟斷地位。而人臉識(shí)別技術(shù),在安檢、反恐等安防領(lǐng)域有著重要的意義。當(dāng)然,除去人臉識(shí)別,近幾年也開始研究從行人的角度出發(fā)的 ReID 技術(shù),利用深度學(xué)習(xí)來(lái)進(jìn)行人的檢測(cè)、并刻畫目標(biāo)的特征,為后續(xù)的跟蹤、異常行為分析提供有效的支撐。
2.深度學(xué)習(xí)在無(wú)人駕駛領(lǐng)域的重要應(yīng)用。
在無(wú)人駕駛領(lǐng)域,考慮到激光、雷達(dá)等傳感器價(jià)格昂貴等特點(diǎn),這使得基于計(jì)算機(jī)視覺的解決方案大受追捧。而對(duì)于無(wú)人駕駛的攝像機(jī)采集到的視頻數(shù)據(jù),需要機(jī)器對(duì)其中的內(nèi)容進(jìn)行理解、分析并用于后續(xù)的決策控制,比如:前車碰撞預(yù)警等。因此,需要一系列的計(jì)算視覺算法來(lái)完成其中涉及的任務(wù),具體包括了目標(biāo)檢測(cè)和識(shí)別、多目標(biāo)跟蹤、車道線檢測(cè)分離等。而基于深度學(xué)習(xí)的目標(biāo)檢測(cè)和識(shí)別、基于深度學(xué)習(xí)的目標(biāo)分割等方法,同樣相對(duì)于傳統(tǒng)的方法有著明顯的優(yōu)勢(shì)。并且目前越來(lái)越多的深度學(xué)習(xí)芯片,尤其關(guān)注無(wú)人駕駛領(lǐng)域的問題,對(duì)相關(guān)算法的支持也越來(lái)越好,這也使得深度學(xué)習(xí)技術(shù)對(duì)無(wú)人駕駛技術(shù)的發(fā)展起到了重要的推動(dòng)作用。目前國(guó)內(nèi)對(duì)問題研究的機(jī)構(gòu)同樣非常多,包括了 Google、百度、海康威視、Mobileye 等,可以說(shuō),深度學(xué)習(xí)是無(wú)人駕駛領(lǐng)域的一種重要的基礎(chǔ)算法。
3.深度學(xué)習(xí)在智能家居領(lǐng)域的重要應(yīng)用。
傳統(tǒng)的智能家居產(chǎn)品更多的是采用手機(jī)端結(jié)合藍(lán)牙或者 WiFi 等通信手段來(lái)完成對(duì)家居的控制和使用。雖然此類解決方案能夠?qū)崿F(xiàn)一定程度上的家居智能,但是我們會(huì)依然覺得,智能化的程度依然不夠。而深度學(xué)習(xí)的方法,則對(duì)于智能家居的發(fā)展起到了重要的作用。除了語(yǔ)音識(shí)別、語(yǔ)音合成以外,另一個(gè)重要的點(diǎn)就是利用視覺技術(shù)進(jìn)行人機(jī)交互,比如:手勢(shì)識(shí)別等。
4.深度學(xué)習(xí)在智慧教育領(lǐng)域的應(yīng)用。
在教育領(lǐng)域,目前比較火熱的產(chǎn)品就是拍照試題等 App,通過手機(jī)端輸入一張圖片后,App 利用智能算法,來(lái)對(duì)獲取到的區(qū)域的內(nèi)容進(jìn)行理解和分析,同樣涉及到了深度學(xué)習(xí)的方法,比如:題目的檢測(cè)、目標(biāo)區(qū)域文字檢測(cè)與識(shí)別等等。同樣,深度學(xué)習(xí)的方法對(duì)于類問題的解決,依然有著重大的性能優(yōu)勢(shì)。
5.深度學(xué)習(xí)在 OCR 領(lǐng)域的重要應(yīng)用。
除了教育會(huì)涉及到文字檢測(cè)與識(shí)別,在一些諸如:簡(jiǎn)歷的識(shí)別、文檔的識(shí)別、身份證識(shí)別等等領(lǐng)域,同樣會(huì)存在一些關(guān)于圖片中文字的內(nèi)容理解和分析的部分,而對(duì)于這也任務(wù)而言,同樣深度學(xué)習(xí)是一種更優(yōu)的選擇。此類問題,其實(shí)可以直接概括為自然場(chǎng)景下的文本檢測(cè)和識(shí)別任務(wù)。
6.深度學(xué)習(xí)在圖片檢索領(lǐng)域的重要應(yīng)用。
以圖搜索圖的目的是為了找到和原圖相似的圖片,它不僅會(huì)涉及到圖像檢索引擎的建立,同樣也依賴于一個(gè)較好的圖像特征抽取的方法。而深度學(xué)習(xí)依然成為了一種較為有效的技術(shù)手段和方法,并在眾多的圖像檢測(cè)問題中,起到了重要的作用。
7.深度學(xué)習(xí)在醫(yī)療影像數(shù)據(jù)中的應(yīng)用。
深度學(xué)習(xí)在醫(yī)療健康領(lǐng)域的機(jī)遇主要有七大方向:一是提供臨床診斷輔助系統(tǒng)等醫(yī)療服務(wù),應(yīng)用于早期篩查、診斷、康復(fù)、手術(shù)風(fēng)險(xiǎn)評(píng)估場(chǎng)景;二是醫(yī)療機(jī)構(gòu)的信息化,通過數(shù)據(jù)分析,幫助醫(yī)療機(jī)構(gòu)提升運(yùn)營(yíng)效率;三是進(jìn)行醫(yī)學(xué)影像識(shí)別,幫助醫(yī)生更快更準(zhǔn)地讀取病人的影像所見;四是利用醫(yī)療大數(shù)據(jù),助力醫(yī)療機(jī)構(gòu)大數(shù)據(jù)可視化及數(shù)據(jù)價(jià)值提升;五是在藥企研發(fā)領(lǐng)域,解決藥品研發(fā)周期長(zhǎng)、成本高的問題;六是健康管理服務(wù),通過包括可穿戴設(shè)備在內(nèi)的手段,監(jiān)測(cè)用戶個(gè)人健康數(shù)據(jù),預(yù)測(cè)和管控疾病風(fēng)險(xiǎn);七是在基因測(cè)序領(lǐng)域,將深度學(xué)習(xí)用于分析基因數(shù)據(jù),推進(jìn)精準(zhǔn)醫(yī)療。而醫(yī)學(xué)影像是醫(yī)生判斷疾病的一個(gè)重要手段,放射科、病理科等擅長(zhǎng)讀圖的醫(yī)生增長(zhǎng)率和診斷效率急需提升,成為很多醫(yī)療機(jī)構(gòu)的心病。目前,在人類醫(yī)學(xué)專家的幫助下,國(guó)內(nèi)外研究團(tuán)隊(duì)已經(jīng)在心血管、腫瘤、神內(nèi)、五官等領(lǐng)域建立了多個(gè)精準(zhǔn)深度學(xué)習(xí)醫(yī)學(xué)輔助診斷模型,取得了良好的進(jìn)展。其中,依圖科技則在深度學(xué)習(xí)醫(yī)療領(lǐng)域取得了不錯(cuò)的成績(jī)。
8.深度學(xué)習(xí)與美顏相機(jī)。
對(duì)于美顏相機(jī),大家一定都不陌生。在美顏相機(jī)中會(huì)有哪些地方涉及到深度學(xué)習(xí)的算法呢?其中最重要的就是人臉的關(guān)鍵點(diǎn)定位。只有找到關(guān)鍵點(diǎn),才能有效的進(jìn)行一些眼睛的修飾等操作,同樣,相比于其他方法,基于深度學(xué)習(xí)的方法能夠?qū)崿F(xiàn)更優(yōu)的性能。
9.深度學(xué)習(xí)在 Fashion 領(lǐng)域的探索。
目前,阿里巴巴攜手香港理工舉辦了 FashionAI 的比賽,旨在探索如果通過機(jī)器學(xué)習(xí)的方法來(lái)完成關(guān)于流行趨勢(shì)的分析和預(yù)測(cè)。而深度學(xué)習(xí)無(wú)疑會(huì)成為眾多方法中的寵兒。其中涉及到了服裝關(guān)鍵點(diǎn)檢測(cè)和定位,服裝分類等等問題。
10.深度學(xué)習(xí)芯片。
對(duì)于大多是計(jì)算機(jī)視覺從業(yè)者而言,往往會(huì)更多的側(cè)重于深度學(xué)習(xí)算法而忽略了深度學(xué)習(xí)芯片。大家也都知道,深度學(xué)習(xí)算法的火爆,必然依托于深度學(xué)習(xí)芯片的發(fā)展。尤其最近的中興事件暴露出的國(guó)產(chǎn)芯片的一系列問題,也使得越來(lái)越多的人開始關(guān)注芯片行業(yè)。而一項(xiàng)深度學(xué)習(xí)工程,其實(shí)可以分為訓(xùn)練和推斷兩個(gè)環(huán)節(jié),對(duì)于訓(xùn)練環(huán)節(jié)大多采用 GPU 來(lái)完成,而實(shí)際在使用的時(shí)候,考慮到功耗等問題,推斷芯片的研發(fā)也變得尤為重要,除了 CPU 和 GPU 以外,FPGA、ASIC 等同樣發(fā)揮著重要的作用。對(duì)于智能社會(huì)而言,深度學(xué)習(xí)芯片將會(huì)起到重要的基石作用。
當(dāng)然,除上述領(lǐng)域外,深度學(xué)習(xí)在其他的很多領(lǐng)域都有著重要的應(yīng)用,比如:車牌識(shí)別、圖像質(zhì)量恢復(fù)、自動(dòng)圖像描述等等。總之,深度學(xué)習(xí)技術(shù)對(duì)于眾多的計(jì)算機(jī)視覺任務(wù)而言,已經(jīng)逐步占據(jù)了統(tǒng)治地位,作為一個(gè)計(jì)算機(jī)視覺從業(yè)者,它也成為了大家的基本技能。至于原因,大家可以看一下《為什么深度學(xué)習(xí)幾乎成了計(jì)算機(jī)視覺研究的標(biāo)配?》這篇文章,這里不再贅述。
第03課:深度學(xué)習(xí)在語(yǔ)音技術(shù)領(lǐng)域的應(yīng)用
第04課:深度學(xué)習(xí)在自然語(yǔ)言處理行業(yè)中的應(yīng)用
第05課:如何入行深度學(xué)習(xí)
第06課:怎樣選擇一個(gè)合適自己的深度學(xué)習(xí)研究方向?
第07課:針對(duì)自己的研究方向,如何展開調(diào)研、學(xué)習(xí)和實(shí)驗(yàn)?
第08課:動(dòng)手實(shí)戰(zhàn)之基于 Caffe 的深度學(xué)習(xí)環(huán)境了解和搭建
第09課:動(dòng)手實(shí)戰(zhàn)之基于 Caffe 的分類識(shí)別任務(wù)
第10課:動(dòng)手實(shí)戰(zhàn)之基于 TensorFlow 的深度學(xué)習(xí)環(huán)境了解和搭建
第11課:動(dòng)手實(shí)戰(zhàn)之基于 TensorFlow 的分類識(shí)別任務(wù)
閱讀全文: http://gitbook.cn/gitchat/column/5afb8f050fe11d2f8ffc79a8
總結(jié)
- 上一篇: 集成 Jira 与钉钉和企业微信通知
- 下一篇: GTX960M搭建《深度学习图像识别技术