创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)
技術(shù)與技法日進(jìn)千里,快速迭代過(guò)程中,真正能夠留下的是應(yīng)用場(chǎng)景的重構(gòu)與對(duì)新商業(yè)范式的思考。
CVaaS 計(jì)算機(jī)視覺(jué)即服務(wù)的理念介紹
觀點(diǎn)來(lái)源于:極視角科技聯(lián)合創(chuàng)始人 羅韻
CVaaS 就是 Computer Vision as a Service, 我們把 CV 的部分標(biāo)準(zhǔn)化成為了一種服務(wù),而每一個(gè)行業(yè)可以在這里找到自己行業(yè)需要的和圖像處理、視頻處理、計(jì)算機(jī)視覺(jué)相關(guān)的算法服務(wù),然后他們可以整合這些算法服務(wù)成為他們需要的應(yīng)用。
而 CV 算法更接近于一種平臺(tái)運(yùn)行的服務(wù),提供運(yùn)算性能的橫向拓展,提供運(yùn)算的底層開(kāi)發(fā)環(huán)境,甚至乎直接提供可開(kāi)發(fā)測(cè)試的 sandbox, 所以,CVaaS 也是 PaaS 的一種。
CVaaS 的目的,就是讓各行各業(yè)可以以最快的形式和方式完成這要的一些工作的轉(zhuǎn)變。
例如,在零售行業(yè),我們選擇可以選擇人臉識(shí)別做 VIP 識(shí)別,選擇行人識(shí)別做客流統(tǒng)計(jì),選擇性別、年齡識(shí)別做顧客分類(lèi)或者顧客肖像。
在安防行業(yè),我們選擇動(dòng)作 (打架) 識(shí)別、行人跟蹤、姿態(tài)識(shí)別等做安全的防范和預(yù)警。
再例如,在房地產(chǎn)領(lǐng)域做場(chǎng)景圖片的分類(lèi) (例如哪些圖片是臥室,客廳,廚房),優(yōu)質(zhì) (封面) 圖片的挑選;印刷行業(yè)根據(jù)圖片的內(nèi)容做自動(dòng)裁剪;等等。
.
一、深度學(xué)習(xí)在汽車(chē)行業(yè)的應(yīng)用
——如何提高分類(lèi)的精確度或者準(zhǔn)確率
作者:山同氣,來(lái)源:知乎
深度學(xué)習(xí)遵從大數(shù)定律,數(shù)據(jù)越多,規(guī)律性越能掌控。
1、Fine-Grained Classification細(xì)粒度分類(lèi)
比如我去框定,汽車(chē)的車(chē)燈,汽車(chē)的前臉,汽車(chē)輪轂等,然后用 cnn或 deep cnn 或what ever其他的分類(lèi)器做這些的分類(lèi),對(duì)于分類(lèi)器來(lái)說(shuō)輸入是汽車(chē)的車(chē)燈+汽車(chē)的前臉+汽車(chē)輪轂,而不是整張圖片。分類(lèi)器再?gòu)能?chē)燈前臉等提取高級(jí)特征,從而得到一個(gè)分類(lèi)模型。
在fine-tuning過(guò)程會(huì)遇到一個(gè)問(wèn)題,拿來(lái)對(duì)未知信息圖片進(jìn)行判別,最好是框定過(guò)之后的。
對(duì)于局部圖片,我們是這樣提取的:
2、級(jí)聯(lián)式做法
1、粗粒度——圖像清洗。整體識(shí)別0/1,是否汽車(chē),數(shù)據(jù)篩選,清洗垃圾圖層,力求98%以上精度,甚至更高,每個(gè)分類(lèi)拿2w張左右;
2、中粒度——品牌分類(lèi)器。不細(xì)分到品牌下面的子品牌,譬如康師傅牛肉面,不細(xì)分到康師傅辣味、咸味等等諸多口味,太細(xì)了你的數(shù)據(jù)量不夠。你即使花了很長(zhǎng)時(shí)間標(biāo)注很仔細(xì),但是得不償失。
3、細(xì)粒度——車(chē)型分類(lèi)器。每個(gè)品牌的不同車(chē)型分類(lèi)器進(jìn)行區(qū)別,這樣就簡(jiǎn)單、精度高很多。也可以訓(xùn)練更精細(xì)的,內(nèi)飾、做工、配色等。
這樣你會(huì)得到一個(gè)0.98*0.96*0.94~0.88的識(shí)別率,但是這樣精確度會(huì)變成可調(diào)節(jié)式,粗粒度時(shí)候認(rèn)定哪些要否定,提高概率的標(biāo)準(zhǔn),是可以提高整體識(shí)別率。
3、數(shù)據(jù)增強(qiáng)
opencv先做一些圖片的變換,比如對(duì)光線的處理,去噪等等,這樣會(huì)提高復(fù)雜環(huán)境的圖片的識(shí)別精度。
而且,可以改變光線強(qiáng)弱來(lái)進(jìn)行訓(xùn)練
.
二、深度學(xué)習(xí)在美團(tuán)點(diǎn)評(píng)的應(yīng)用
1、圖像質(zhì)量評(píng)估
在美團(tuán)點(diǎn)評(píng),商家的首圖是由商家或運(yùn)營(yíng)人工指定的,如何選擇首圖才能更好地吸引用戶(hù)呢?圖像質(zhì)量排序算法目標(biāo)就是做到自動(dòng)選擇更優(yōu)質(zhì)的首圖,以吸引用戶(hù)點(diǎn)擊。
傳統(tǒng)的圖像質(zhì)量排序方法主要從美學(xué)角度進(jìn)行質(zhì)量評(píng)價(jià),通過(guò)顏色統(tǒng)計(jì)、主體分布、構(gòu)圖等來(lái)分析圖片的美感。但在實(shí)際業(yè)務(wù)場(chǎng)景中,用戶(hù)對(duì)圖片質(zhì)量?jī)?yōu)劣的判斷主觀性很強(qiáng),難以形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)。比如:
- 1.有的用戶(hù)對(duì)清晰度或分辨率更敏感;
- 2.有的用戶(hù)對(duì)色彩或構(gòu)圖更敏感;
- 3.有的用戶(hù)偏愛(ài)有視覺(jué)沖擊力的內(nèi)容而非平淡無(wú)奇的環(huán)境圖。
因此我們使用深度學(xué)習(xí)方法,去挖掘圖片的哪些屬性會(huì)影響用戶(hù)的判斷,以及如何有效融合這些屬性對(duì)圖片進(jìn)行評(píng)價(jià)。
我們使用AlexNet去提取圖片的高層語(yǔ)義描述,學(xué)習(xí)美感、可記憶度、吸引度、品類(lèi)等High Level特征,并補(bǔ)充人工設(shè)計(jì)的Low Level特征(比如色彩、銳度、對(duì)比度、角點(diǎn))。在獲得這些特征后,訓(xùn)練一個(gè)淺層神經(jīng)網(wǎng)絡(luò)對(duì)圖像整體打分。該框架(如圖2所示)的一個(gè)特點(diǎn)是聯(lián)合了深度學(xué)習(xí)特征與傳統(tǒng)特征,既引入高層語(yǔ)義又保留了低層通用描述,既包括全局特征又有局部特征。
對(duì)于每個(gè)維度圖片屬性的學(xué)習(xí),都需要大量的標(biāo)簽數(shù)據(jù)來(lái)支撐,但完全通過(guò)人工標(biāo)記代價(jià)極大,因此我們借鑒了美團(tuán)點(diǎn)評(píng)的圖片來(lái)源和POI標(biāo)簽體系。關(guān)于吸引度屬性的學(xué)習(xí),我們選取了美團(tuán)Deal相冊(cè)中點(diǎn)擊率高的圖片(多數(shù)是攝影師通過(guò)單反相機(jī)拍攝)作為正例,而選取UGC相冊(cè)中點(diǎn)擊率低的圖片(多數(shù)是低端手機(jī)拍攝)作為負(fù)例。關(guān)于品類(lèi)屬性的學(xué)習(xí),我們將美團(tuán)一級(jí)品類(lèi)和常見(jiàn)二級(jí)品類(lèi)作為圖片標(biāo)簽。基于上述質(zhì)量排序模型,我們?yōu)閺V告POI挑選最合適的優(yōu)質(zhì)首圖進(jìn)行展示,起到吸引用戶(hù)點(diǎn)擊,提高業(yè)務(wù)指標(biāo)的目的。圖3給出了基于質(zhì)量排序的首圖優(yōu)選結(jié)果。
2、OCR技術(shù)
OCR在美團(tuán)點(diǎn)評(píng)業(yè)務(wù)中主要起著兩方面作用。一方面是輔助錄入,比如在移動(dòng)支付環(huán)節(jié)通過(guò)對(duì)銀行卡卡號(hào)的拍照識(shí)別,以實(shí)現(xiàn)自動(dòng)綁卡,又如輔助BD錄入菜單中菜品信息。另一方面是審核校驗(yàn),比如在商家資質(zhì)審核環(huán)節(jié)對(duì)商家上傳的身份證、營(yíng)業(yè)執(zhí)照和餐飲許可證等證件照片進(jìn)行信息提取和核驗(yàn)以確保該商家的合法性,比如機(jī)器過(guò)濾商家上單和用戶(hù)評(píng)價(jià)環(huán)節(jié)產(chǎn)生的包含違禁詞的圖片。相比于傳統(tǒng)OCR場(chǎng)景(印刷體、掃描文檔),美團(tuán)的OCR場(chǎng)景主要是針對(duì)手機(jī)拍攝的照片進(jìn)行文字信息提取和識(shí)別,考慮到線下用戶(hù)的多樣性,因此主要面臨以下挑戰(zhàn):
- ?成像復(fù)雜:噪聲、模糊、光線變化、形變;
- ?文字復(fù)雜:字體、字號(hào)、色彩、磨損、筆畫(huà)寬度不固定、方向任意;
- ?背景復(fù)雜:版面缺失,背景干擾。
對(duì)于上述挑戰(zhàn),傳統(tǒng)的OCR解決方案存在著以下不足:
- 1.通過(guò)版面分析(二值化,連通域分析)來(lái)生成文本行,要求版面結(jié)構(gòu)有較強(qiáng)的規(guī)則性且前背景可分性強(qiáng)(例如文檔圖像、車(chē)牌),無(wú)法處理前背景復(fù)雜的隨意文字(例如場(chǎng)景文字、菜單、廣告文字等)。
- 2.通過(guò)人工設(shè)計(jì)邊緣方向特征(例如HOG)來(lái)訓(xùn)練字符識(shí)別模型,此類(lèi)單一的特征在字體變化,模糊或背景干擾時(shí)泛化能力迅速下降。
- 3.過(guò)度依賴(lài)字符切分的結(jié)果,在字符扭曲、粘連、噪聲干擾的情況下,切分的錯(cuò)誤傳播尤其突出。
針對(duì)傳統(tǒng)OCR解決方案的不足,我們嘗試基于深度學(xué)習(xí)的OCR。
首先,我們根據(jù)是否有先驗(yàn)信息將版面劃分為受控場(chǎng)景(例如身份證、營(yíng)業(yè)執(zhí)照、銀行卡)和非受控場(chǎng)景(例如菜單、門(mén)頭圖)。
對(duì)于受控場(chǎng)景,我們將文字定位轉(zhuǎn)換為對(duì)特定關(guān)鍵字目標(biāo)的檢測(cè)問(wèn)題。主要利用Faster R-CNN進(jìn)行檢測(cè),如下圖所示。為了保證回歸框的定位精度同時(shí)提升運(yùn)算速度,我們對(duì)原有框架和訓(xùn)練方式進(jìn)行了微調(diào):
?考慮到關(guān)鍵字目標(biāo)的類(lèi)內(nèi)變化有限,我們裁剪了ZF模型的網(wǎng)絡(luò)結(jié)構(gòu),將5層卷積減少到3層。
?訓(xùn)練過(guò)程中提高正樣本的重疊率閾值,并根據(jù)業(yè)務(wù)需求來(lái)適配RPN層Anchor的寬高比。
對(duì)于非受控場(chǎng)景,由于文字方向和筆畫(huà)寬度任意變化,目標(biāo)檢測(cè)中回歸框的定位粒度不夠,我們利用語(yǔ)義分割中常用的全卷積網(wǎng)絡(luò)(FCN)來(lái)進(jìn)行像素級(jí)別的文字/背景標(biāo)注,如下圖所示。為了同時(shí)保證定位的精度和語(yǔ)義的清晰,我們不僅在最后一層進(jìn)行反卷積,而且融合了深層Layer和淺層Layer的反卷積結(jié)果
為了有效控制字符切分和識(shí)別后處理的錯(cuò)誤傳播效應(yīng),實(shí)現(xiàn)端到端文字識(shí)別的可訓(xùn)練性,我們采用如下圖所示的序列學(xué)習(xí)框架。框架整體分為三層:卷積層,遞歸層和翻譯層。其中卷積層提特征,遞歸層既學(xué)習(xí)特征序列中字符特征的先后關(guān)系,又學(xué)習(xí)字符的先后關(guān)系,翻譯層實(shí)現(xiàn)對(duì)時(shí)間序列分類(lèi)結(jié)果的解碼。
由于序列學(xué)習(xí)框架對(duì)訓(xùn)練樣本的數(shù)量和分布要求較高,我們采用了真實(shí)樣本+合成樣本的方式。真實(shí)樣本以美團(tuán)點(diǎn)評(píng)業(yè)務(wù)來(lái)源(例如菜單、身份證、營(yíng)業(yè)執(zhí)照)為主,合成樣本則考慮了字體、形變、模糊、噪聲、背景等因素。基于上述序列學(xué)習(xí)框架和訓(xùn)練數(shù)據(jù),在多種場(chǎng)景的文字識(shí)別上都有較大幅度的性能提升,如下圖所示。
.
三、機(jī)器學(xué)習(xí)在攜程酒店圖像數(shù)據(jù)中的應(yīng)用
1、圖像快速去重
攜程酒店圖像數(shù)據(jù)的來(lái)源眾多,從而導(dǎo)致同一家酒店出現(xiàn)相同/相似圖像的幾率往往較大。圖像重復(fù)展示會(huì)影響用戶(hù)的體驗(yàn),不利于用戶(hù)獲取酒店的完整信息。酒店圖像之間的相同/相似主要表現(xiàn)為1)尺寸形變;2)裁剪殘缺;3)色彩變化;4)旋轉(zhuǎn)變化;5)拍攝視角移動(dòng)等多種情況,如下圖所示。
為了解決酒店圖像之間相同/相似的問(wèn)題,需要對(duì)酒店的圖像數(shù)據(jù)進(jìn)行去重。然而,由于圖像數(shù)量巨大,人工去重耗時(shí)耗力。因此,通過(guò)圖像去重技術(shù)自動(dòng)對(duì)相同/相似的圖像進(jìn)行判定和去除勢(shì)在必行。
圖像去重一般分為
1)圖像特征表達(dá)的提取和2)圖像之間相似度計(jì)算兩個(gè)主要步驟。
對(duì)于圖像特征表達(dá)的提取,常見(jiàn)的手工設(shè)計(jì)特征有顏色、紋理、HOG、SIFT和SURF等;此外基于深度學(xué)習(xí)的深層特征表達(dá)也經(jīng)常被使用。對(duì)于圖像之間相似度計(jì)算,常見(jiàn)的無(wú)監(jiān)督距離度量方法有歐式距離、曼哈頓距離和余弦距離等;常見(jiàn)的有監(jiān)督距離度量方法有LMNN、KISSME、LFDA和MFA等。然而這些方法基于浮點(diǎn)特征計(jì)算相似度,計(jì)算速度普遍較慢,因此通過(guò)哈希學(xué)習(xí)方法將圖像特征轉(zhuǎn)換為二元編碼,再利用漢明距離進(jìn)行相似度的快速計(jì)算更加符合工業(yè)界對(duì)圖像數(shù)據(jù)處理速度的要求。
對(duì)于酒店中的相同/相似圖像,大部分全局特征(比如顏色、紋理和HOG)不能很好地解決圖像裁剪殘缺和旋轉(zhuǎn)變化等問(wèn)題;一些局部特征(比如SIFT和SURF)與基于深度學(xué)習(xí)的特征雖然表達(dá)效果較好,但是由于特征提取復(fù)雜,計(jì)算速度過(guò)于緩慢。
針對(duì)以上特征提取方法存在的缺陷,我們最終采用ORB特征作為圖像的特征表達(dá),并使用漢明距離進(jìn)行相似度的計(jì)算。
ORB特征具有以下優(yōu)點(diǎn):
1)特征提取速度快;
2)在大多數(shù)情況下,去重效果能夠與SIFT/SURF持平;
3)提取的特征直接是二元編碼形式,無(wú)需使用哈希學(xué)習(xí)方法就可以直接利用漢明距離快速計(jì)算相似度。
ORB特征在實(shí)際的圖像去重過(guò)程中仍然存在一些不足,比如在處理圖像尺寸差異過(guò)大、形變和模糊等問(wèn)題時(shí),去重效果一般。
為此我們?cè)谔崛RB特征前,首先將圖像按照初始的寬高比例統(tǒng)一縮放到一個(gè)固定的標(biāo)準(zhǔn)尺寸之內(nèi),避免了圖像之間的尺寸差異,較好地彌補(bǔ)了ORB特征不具有尺度不變性的缺陷。
同時(shí),我們?cè)诿鎸?duì)圖像形變和模糊問(wèn)題時(shí),在ORB特征的基礎(chǔ)上,進(jìn)一步融合了顏色直方圖和LBP特征等全局特征來(lái)進(jìn)行重復(fù)圖像判定,令局部和全局的圖像信息之間優(yōu)勢(shì)互補(bǔ),降低了形變和模糊等因素對(duì)ORB特征的影響,保證了圖像去重的準(zhǔn)確率。
.
2、水印圖像檢測(cè)
攜程酒店圖像數(shù)據(jù)的來(lái)源眾多,同時(shí)也導(dǎo)致出現(xiàn)了另一個(gè)嚴(yán)峻的問(wèn)題:帶有其他公司水印信息的圖像數(shù)量增多。人工進(jìn)行水印圖像的檢測(cè)會(huì)花費(fèi)大量的人力成本,所以我們希望能夠利用計(jì)算機(jī)自動(dòng)檢測(cè)出圖像中是否含有水印信息,從而避免出現(xiàn)誤用和侵權(quán)的行為。
水印信息在圖像中的視覺(jué)顯著性很低,具有面積小,顏色淺,透明度高等特點(diǎn),帶水印圖像與未帶水印圖像之間的差異往往很小,區(qū)分度較低。一些帶水印的酒店圖像示例如下圖所示。
一般的目標(biāo)檢測(cè)問(wèn)題可以看作是一個(gè)圖像部分區(qū)域的分類(lèi)問(wèn)題,在深度學(xué)習(xí)興起前,可變形部件模型(DPM)一直是流行的目標(biāo)檢測(cè)方法,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以R-CNN、Fast R-CNN、Faster R-CNN和YOLO等為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法成為了主流。然而水印檢測(cè)和一般的目標(biāo)檢測(cè)的區(qū)別在于,水印在一幅圖像中的位置基本是固定的,因此水印檢測(cè)可以看作是一個(gè)簡(jiǎn)化的目標(biāo)檢測(cè)問(wèn)題,而其中的關(guān)鍵就是訓(xùn)練水印分類(lèi)器。
在訓(xùn)練水印分類(lèi)器的過(guò)程中,我們遇到的最大問(wèn)題是沒(méi)有足夠的標(biāo)注了水印類(lèi)別的圖像數(shù)據(jù)用于訓(xùn)練。為了解決這個(gè)問(wèn)題,我們選擇自主地去生成訓(xùn)練數(shù)據(jù)。具體地,我們?cè)诖罅繜o(wú)水印圖像中隨機(jī)截取若干個(gè)矩形區(qū)域圖像,以這些矩形區(qū)域圖像作為無(wú)水印的訓(xùn)練圖像數(shù)據(jù);同時(shí),我們將要檢測(cè)的水印信息圖形隨機(jī)縮放后嵌入這些不包含水印信息的矩形圖像內(nèi),從而形成帶水印的訓(xùn)練圖像數(shù)據(jù)。通過(guò)這種方式,我們方便快捷地獲取了大量的圖像訓(xùn)練數(shù)據(jù)。
我們?cè)谧灾魃纱罅坑?xùn)練數(shù)據(jù)后,訓(xùn)練了一個(gè)專(zhuān)門(mén)針對(duì)水印分類(lèi)任務(wù)的AlexNet。對(duì)于一張待檢測(cè)圖像,我們以一個(gè)可變框隨機(jī)在水印常見(jiàn)的位置(圖像的左右下角和中間位置)截取一系列矩形區(qū)域圖像,然后依次輸入分類(lèi)網(wǎng)絡(luò)中進(jìn)行分類(lèi),最后融合所有矩形區(qū)域圖像的分類(lèi)結(jié)果即可獲取水印圖像的檢測(cè)結(jié)果。完整的水印圖像檢測(cè)流程如上圖所示。
我們使用計(jì)算機(jī)自動(dòng)進(jìn)行圖像快速去重和水印圖像檢測(cè),兩者都達(dá)到了99%+的準(zhǔn)確率,在實(shí)際圖像處理中有效地減少了大量人力成本的投入。
3、房型圖像分類(lèi)
酒店圖像根據(jù)內(nèi)容可以分為很多類(lèi)別,比如外觀、內(nèi)景和房型等。其中,房型圖像可以直觀地展示出房型的信息,對(duì)于用戶(hù)選擇入住房型尤為關(guān)鍵。我們希望優(yōu)先展示吸引用戶(hù)的房型內(nèi)容,以提升用戶(hù)的體驗(yàn)和下單率。然而在實(shí)際中,房型圖片往往包含很多內(nèi)容,人工并沒(méi)有一張張的進(jìn)行甄別,所以導(dǎo)致房型首圖不合適的情況經(jīng)常出現(xiàn)。解決房型首圖不合適問(wèn)題的關(guān)鍵是需要將房型圖像進(jìn)行分類(lèi),從而能夠優(yōu)先展示吸引用戶(hù)的內(nèi)容。具體地,我們把房型圖像按照優(yōu)先級(jí)高低分為包含床的圖像、不包含床的圖像和衛(wèi)生間的圖像三類(lèi)。
隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),尤其是卷積神經(jīng)網(wǎng)絡(luò)的興起,一個(gè)理想的房型圖像分類(lèi)方法一般分為兩步:1)利用大量已經(jīng)標(biāo)注類(lèi)別的房型圖像數(shù)據(jù)直接訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),比如AlexNet、VGGNet、ResNet或者基于Inception的一系列網(wǎng)絡(luò)等;2)對(duì)于一張類(lèi)別未知的房型圖像,將其輸入深度卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)最后一層直接輸出其屬于每個(gè)類(lèi)別的概率。
和水印圖像檢測(cè)一樣,在真正實(shí)踐的過(guò)程中,我們遇到的最大問(wèn)題依然是缺少標(biāo)注了類(lèi)別的房型圖像數(shù)據(jù)用于訓(xùn)練。大量的訓(xùn)練圖像如果通過(guò)人工標(biāo)注代價(jià)極大,這顯然是不現(xiàn)實(shí)的。而沒(méi)有訓(xùn)練圖像,卻要得到一個(gè)分類(lèi)模型則是更加不現(xiàn)實(shí)的。所以我們還是花了一些時(shí)間對(duì)少量房型圖像的類(lèi)別進(jìn)行了標(biāo)注。在這個(gè)很小規(guī)模的房型圖像數(shù)據(jù)集的基礎(chǔ)上,一般有兩種分類(lèi)思路:1)因?yàn)榉啃蛨D像屬于場(chǎng)景圖像,所以可以提取房型圖像的HOG、SIFT和GIST特征,這些手工設(shè)計(jì)的特征已經(jīng)被證明在場(chǎng)景分類(lèi)中比較有效,然后再訓(xùn)練傳統(tǒng)分類(lèi)器實(shí)現(xiàn)分類(lèi);2)利用深度卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征遷移學(xué)習(xí)能力,先使用海量圖像數(shù)據(jù)訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),然后將該網(wǎng)絡(luò)作為一個(gè)特征提取模型并結(jié)合傳統(tǒng)分類(lèi)器實(shí)現(xiàn)分類(lèi)。當(dāng)然,如果有更多的人力和時(shí)間,在標(biāo)注的房型圖像數(shù)據(jù)較多的情況下,直接對(duì)該網(wǎng)絡(luò)進(jìn)行微調(diào)則是更佳的選擇。
在實(shí)際應(yīng)用中,我們選擇了第二種思路。我們沒(méi)有借助應(yīng)用最為廣泛的ImageNet數(shù)據(jù)集,因?yàn)樵摂?shù)據(jù)集圖像的內(nèi)容和房型圖像差異過(guò)大,特征遷移達(dá)不到最優(yōu)的效果。為了盡可能的提升網(wǎng)絡(luò)的特征遷移能力,我們借助了與房型圖像最為接近的場(chǎng)景圖像數(shù)據(jù)集,訓(xùn)練VGGNet作為房型圖像特征提取器。最后,我們利用自己標(biāo)注的小規(guī)模房型圖像數(shù)據(jù)集,訓(xùn)練支持向量機(jī)模型來(lái)實(shí)現(xiàn)分類(lèi)。具體的分類(lèi)流程如下圖所示。
我們的房型圖像分類(lèi)上線后,達(dá)到了98%的準(zhǔn)確率。下圖展示了在房型圖像分類(lèi)上線前后,一家酒店中多個(gè)房型的首圖變化的例子(紅色框?yàn)樯暇€前,綠色框?yàn)樯暇€后)。
4、圖像質(zhì)量評(píng)價(jià)
在上一節(jié)中,我們介紹了通過(guò)房型圖像分類(lèi)使含床的房型圖像得以?xún)?yōu)先展示。但是如果一個(gè)房型有多張含床的圖像,該選哪一張圖像作為該房型的首圖呢?所以我們希望能夠?qū)Ψ啃蛨D像的質(zhì)量進(jìn)行評(píng)價(jià),這樣在圖像的類(lèi)別相同時(shí),能夠按照質(zhì)量高低進(jìn)行排序。更廣泛地,我們還希望能對(duì)所有的酒店圖像都進(jìn)行質(zhì)量評(píng)價(jià),這樣酒店首圖的選擇、酒店圖像的優(yōu)選展示等都能夠以圖像的質(zhì)量分?jǐn)?shù)作為依據(jù)。
起初我們選擇清晰度這一客觀指標(biāo)作為圖像質(zhì)量評(píng)價(jià)的標(biāo)準(zhǔn),我們認(rèn)為清晰圖像變模糊丟失的信息要多于模糊圖像變模糊丟失的信息。根據(jù)這一思想,對(duì)于一張圖像,我們先將其灰度化,然后獲取對(duì)應(yīng)的模糊圖像。接下來(lái),我們分別對(duì)原圖像和對(duì)應(yīng)的模糊圖像提取圖像邊緣信息,具體我們采用拉普拉斯卷積模板進(jìn)行濾波。最后我們通過(guò)比較濾波后的兩張圖像的方差變化率即可對(duì)圖像進(jìn)行清晰度的量化。
完整的計(jì)算流程如下圖所示。圖像的清晰度分?jǐn)?shù)的區(qū)間在[0,1]之間,如果分?jǐn)?shù)越大則表示圖像越清晰。我們對(duì)圖像的清晰度分?jǐn)?shù)進(jìn)行分段校驗(yàn),圖像清晰度的評(píng)價(jià)精度達(dá)到了91%。
然而在實(shí)際應(yīng)用中,我們發(fā)現(xiàn)僅以清晰度作為圖像質(zhì)量評(píng)價(jià)的標(biāo)準(zhǔn)還是存在一些不足,因?yàn)榍逦雀叩珒?nèi)容不好看的圖像為數(shù)不少。這些圖像因?yàn)榍逦雀叨粌?yōu)先展示,但其不好看的內(nèi)容卻影響了用戶(hù)的感受,所以我們希望能夠進(jìn)一步從美學(xué)角度來(lái)對(duì)圖像質(zhì)量進(jìn)行評(píng)價(jià)。
圖像的美感度是一個(gè)非常主觀的概念,很難有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)去量化,為了能夠盡可能準(zhǔn)確地計(jì)算圖像的美感度,我們選擇深度卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)美感度評(píng)價(jià)。在實(shí)際應(yīng)用中,我們又再次遇到了同樣的問(wèn)題:缺少大量標(biāo)注了好看/不好看標(biāo)簽的訓(xùn)練圖像。由于在房型圖像分類(lèi)中,我們利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的遷移學(xué)習(xí)能力進(jìn)行特征遷移取得了成功,所以我們決定繼續(xù)沿用這種方法。
因?yàn)榫频陥D像的美感度受到內(nèi)容、色彩和構(gòu)圖等多方面的影響,所以我們不再像在房型圖像分類(lèi)中那樣只使用內(nèi)容單一的場(chǎng)景圖像數(shù)據(jù)集,而是將包羅萬(wàn)象的ImageNet數(shù)據(jù)集和場(chǎng)景圖像數(shù)據(jù)集混合進(jìn)行訓(xùn)練,力求讓盡可能多的圖像參與深度卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),令網(wǎng)絡(luò)能夠記住更多圖像的內(nèi)容,從而進(jìn)一步提高網(wǎng)絡(luò)的特征遷移能力。同時(shí),為了保證深度卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力,我們采用比AlexNet和VGGNet的層數(shù)更深的ResNet作為特征提取器。最后我們?yōu)樯倭繄D像標(biāo)注好看/不好看的標(biāo)簽,并訓(xùn)練隨機(jī)森林實(shí)現(xiàn)了圖像好看/不好看的二分類(lèi)模型。
我們將圖像被模型判為好看的概率作為圖像的美感度分?jǐn)?shù),美感度分?jǐn)?shù)的區(qū)間在[0,1]之間,如果分?jǐn)?shù)越大則表示圖像越好看。由于美感度評(píng)價(jià)模型并沒(méi)有考慮清晰度因素,所以最終我們?nèi)诤蠄D像的清晰度和美感度來(lái)計(jì)算圖像質(zhì)量分?jǐn)?shù)。完整的圖像質(zhì)量評(píng)價(jià)流程如下圖所示。通過(guò)圖像質(zhì)量評(píng)價(jià),我們使得清晰而又好看的圖像能夠被優(yōu)先展示,此舉對(duì)酒店/房型首圖的選擇、酒店圖片的排序等方面都有較好的指導(dǎo)意義。
寫(xiě)在最后
以上我們介紹了攜程四個(gè)真實(shí)的圖像數(shù)據(jù)處理需求,但機(jī)器學(xué)習(xí)對(duì)于攜程酒店圖像數(shù)據(jù)處理的價(jià)值遠(yuǎn)遠(yuǎn)不限于此。接下來(lái)我們將繼續(xù)在多個(gè)圖像應(yīng)用場(chǎng)景進(jìn)行深入挖掘,比如圖像的個(gè)性化展示、利用超分辨和解模糊技術(shù)提升圖像質(zhì)量等,力求為攜程酒店圖像數(shù)據(jù)的智能化貢獻(xiàn)一份力量。
.
四、深瞐科技如何以“車(chē)臉識(shí)別”布局AI+安防
陳瑞軍告訴雷鋒網(wǎng):
最開(kāi)始考慮的是做人臉識(shí)別,但發(fā)現(xiàn)動(dòng)態(tài)人臉識(shí)別的精準(zhǔn)度還不夠,直到現(xiàn)在也是個(gè)需要解決的問(wèn)題。對(duì)于深瞐來(lái)講,作為一個(gè)初創(chuàng)的新公司,這個(gè)方向可能暫時(shí)沒(méi)辦法落地,所以就想做一些別人沒(méi)做過(guò)的,結(jié)合用戶(hù)的需求,所以就定了“車(chē)臉識(shí)別”這個(gè)方向。
此后,從最基礎(chǔ)的圖片識(shí)別開(kāi)始,繼而到視頻識(shí)別,再聚焦到視頻中的車(chē)輛分析,直到今天形成了以“車(chē)輛識(shí)別”為核心的軟硬件產(chǎn)品布局。總體來(lái)看,深瞐科技的產(chǎn)品體系主要包括以下幾個(gè)方面:
視頻基因譜引擎
視頻基因譜引擎是深瞐的核心產(chǎn)品,更通俗的名字叫做“視頻結(jié)構(gòu)化”。據(jù)深瞐介紹,“視頻結(jié)構(gòu)化”這一概念該由公安部第三研究所胡所長(zhǎng)提出,指的是把視頻數(shù)據(jù)中的非結(jié)構(gòu)信息轉(zhuǎn)化為結(jié)構(gòu)信息。深瞐的視頻結(jié)構(gòu)化產(chǎn)品可以高精度地自動(dòng)識(shí)別不同視角、不同光照條件、不同監(jiān)控場(chǎng)景、不同天氣狀況中的人物特征和車(chē)輛特征,便于公安機(jī)關(guān)達(dá)到后期快速檢索和布控的目的。
圖像處理引擎
深瞐科技的圖像處理引擎,主要應(yīng)用于將復(fù)雜情況下的模糊車(chē)輛、車(chē)牌圖片進(jìn)行清晰化處理,能夠做到的有去除噪點(diǎn)、去除重影模糊、圖像光照增強(qiáng)、去除雨天模糊、去除鏡面反光等。
人臉識(shí)別引擎
基于深瞐在深度學(xué)習(xí)和模式識(shí)別的研究和應(yīng)用成果,采用人臉檢測(cè)、跟蹤和結(jié)構(gòu)化對(duì)比算法模型,被應(yīng)用于公安機(jī)關(guān)的人臉比對(duì)、檢索、身份識(shí)別、商業(yè)人流大數(shù)據(jù)等方面。
.
五、圖普科技從 “鑒黃” 到視頻&直播個(gè)性化推薦
來(lái)源于雷鋒網(wǎng)
1、幫企業(yè)省更多的錢(qián):從 “鑒黃” 到內(nèi)容審核
企業(yè)對(duì)圖普科技的認(rèn)知更多的也是 “鑒黃”,映客、美拍、小米直播、迅雷、酷狗、唱吧等視頻和直播的頭部平臺(tái),都是圖普的 “鑒黃服務(wù)” 的客戶(hù)。
圖普科技 CEO 李明強(qiáng)告訴雷鋒網(wǎng)新智造,其實(shí)從一開(kāi)始,圖普提供的就不只是鑒黃,政治敏感信息、暴力恐怖信息和廣告的審核都是圖普的業(yè)務(wù),這些統(tǒng)稱(chēng)內(nèi)容審核。
從去年開(kāi)始,原來(lái)接入了鑒黃服務(wù)的客戶(hù),開(kāi)始接受圖普的其他內(nèi)容審核服務(wù)。例如,知名的原創(chuàng)糗事笑話 UGC 內(nèi)容社區(qū)糗事百科,就面臨著流量巨大,違規(guī)廣告的人工審核成本極高的問(wèn)題。
和鑒黃的過(guò)程類(lèi)似,清除違規(guī)小廣告同樣基于大量圖片進(jìn)行學(xué)習(xí)訓(xùn)練。基于糗百的違規(guī)圖片集中為帶有違規(guī)文字的圖片以及含有推廣二維碼的小廣告圖片,圖普基于圖像識(shí)別技術(shù)及糗百的廣告圖片的特征,批量制作具有針對(duì)性的廣告圖進(jìn)行優(yōu)化訓(xùn)練,極大的提高了廣告圖片識(shí)別的精確度和準(zhǔn)確率,降低了模型迭代的周期。
糗百接入圖普定制化的廣告識(shí)別模型后,機(jī)器自動(dòng)識(shí)別糗百社區(qū)的圖片,將圖片識(shí)別判斷為正常、二維碼還是帶文字圖片,再利用 OCR 技術(shù),檢測(cè)出帶文字圖片中的文字位置并識(shí)別,將識(shí)別出來(lái)的含有敏感、違規(guī)文字的圖片自動(dòng)過(guò)濾。大大降低了內(nèi)容審核成本。
現(xiàn)在,已經(jīng)有越來(lái)越多的企業(yè)全面接入圖普的內(nèi)容審核平臺(tái)。最近,圖普還與阿里云達(dá)成了合作,在阿里云上發(fā)布色情圖片和暴恐圖片識(shí)別服務(wù),阿里云的客戶(hù)可以直接調(diào)用。
此前,圖普曾透露其日處理圖片數(shù)量已經(jīng)上漲到 9 億張左右,其中每萬(wàn)張圖片的處理費(fèi)用為 25 元。李明強(qiáng)告訴雷鋒網(wǎng)新智造,去年,圖普的營(yíng)收實(shí)現(xiàn)了十倍的增長(zhǎng)。
.
2、幫人賺錢(qián):視頻大數(shù)據(jù)標(biāo)簽和個(gè)性化推薦
從一開(kāi)始,圖普就沒(méi)有將自己局限在 “鑒黃” 或內(nèi)容審核內(nèi),去年接受雷鋒網(wǎng)采訪時(shí),李明強(qiáng)給圖普的定位是給視頻時(shí)代建立連接。文字時(shí)代,有了計(jì)算機(jī)對(duì)文字的理解就有了內(nèi)容間的連接,同樣,圖像和視頻被計(jì)算機(jī)理解后,也能形成內(nèi)容間的連接。
圖普已經(jīng)開(kāi)始著手這方面的工作。在內(nèi)容審核之外,圖普開(kāi)始發(fā)力視頻和直播的大數(shù)據(jù)標(biāo)簽和個(gè)性化推薦服務(wù)。
大數(shù)據(jù)標(biāo)簽主要用于短視頻和直播平臺(tái),系統(tǒng)會(huì)通過(guò)對(duì)海量的標(biāo)注過(guò)的數(shù)據(jù)的學(xué)習(xí),根據(jù)主播的行為、場(chǎng)景、人物風(fēng)格、年齡、性別等,自動(dòng)為當(dāng)前直播建立標(biāo)簽。例如,一個(gè)喜歡做嘟嘴表情的年輕女孩,會(huì)有很大可能被打上 “萌妹子” 的標(biāo)簽。而通過(guò)對(duì)人工標(biāo)注的系統(tǒng)的學(xué)習(xí),圖普甚至可以判斷主播的顏值。當(dāng)然,李明強(qiáng)也解釋,和有硬性指標(biāo)的鑒黃不同,“萌妹子”、“顏值” 這些標(biāo)簽很多時(shí)候帶有很大的主觀因素。
但是,對(duì)于做視頻推薦來(lái)說(shuō),這些基本符合主流審美標(biāo)準(zhǔn)的標(biāo)簽已經(jīng)足夠了:新用戶(hù)注冊(cè)后,直播平臺(tái)可以根據(jù)該用戶(hù)選擇關(guān)注的標(biāo)簽,在他的首頁(yè)呈現(xiàn)相應(yīng)的直播;直播平臺(tái)還可以根據(jù)顏值和熱門(mén)等綜合因素,在首頁(yè)推薦直播內(nèi)容;另外,當(dāng)用戶(hù)關(guān)注的主播不在線時(shí),系統(tǒng)還可以推薦一些和他關(guān)注的直播類(lèi)型相似的主播。
李明強(qiáng)還告訴雷鋒網(wǎng)新智造,目前還有一個(gè)產(chǎn)品在研發(fā)中,即在搜索的標(biāo)簽欄,用戶(hù)可以直接根據(jù)標(biāo)簽去搜索。例如用戶(hù)喜歡跳舞的、場(chǎng)景在 KTV 里的直播,都可以根據(jù)相應(yīng)標(biāo)簽搜索。
圖普表示,僅這個(gè)推薦功能,應(yīng)用表較好的平臺(tái),可以使新用戶(hù)的留存增加一倍以上;對(duì)老用戶(hù),也能使其停留時(shí)長(zhǎng)至少增加 30%-40%。對(duì)短視頻和直播平臺(tái)來(lái)說(shuō),留存增加意味著用戶(hù)體驗(yàn)的提升,更重要的是,廣告、打賞等收入會(huì)得到顯著提升。
如果說(shuō)之前的內(nèi)容審核是節(jié)約人力成本,為企業(yè)省錢(qián)的話,視頻推薦則是在實(shí)打?qū)嵉貛推髽I(yè)賺錢(qián)。
.
六、利用目標(biāo)檢測(cè)制作-電子相冊(cè)
——印刷快照行業(yè)的改革
來(lái)源文章:CVaaS計(jì)算機(jī)視覺(jué)即服務(wù) ——從算法,應(yīng)用到服務(wù)的技術(shù)演變
在印刷行業(yè)或者快照行業(yè),會(huì)陸續(xù)推出一項(xiàng)產(chǎn)品——電子相冊(cè)。
而電子相冊(cè)從技術(shù)層面主要是要解決兩個(gè)問(wèn)題,1. 照片裁剪,2. 相框的匹配。
而當(dāng)前,這些工作都是人工去完成,隨著日益增長(zhǎng)的電子圖片的需求量,制作電子相冊(cè)的人力成本越來(lái)越大,而這個(gè)時(shí)候,利用之前所述的內(nèi)容識(shí)別算法,我們可以幫助電腦自動(dòng)實(shí)現(xiàn)圖片的裁剪,因?yàn)樽詣?dòng)裁剪最大的擔(dān)憂可能是擔(dān)心把照片內(nèi)的人裁剪掉了。
另一方面,我們進(jìn)而可以結(jié)合圖片場(chǎng)景分類(lèi)和人臉識(shí)別等算法技術(shù),使用標(biāo)簽匹配方法去自動(dòng)匹配與照片本身更搭配的相框。
算法本身我們可以做出很多技術(shù),例如使用物體檢測(cè)我們可以實(shí)現(xiàn)內(nèi)容識(shí)別、除此之外我們還實(shí)現(xiàn)場(chǎng)景分類(lèi)、人臉的識(shí)別、顏色的分類(lèi)、人物表情等等。
而技術(shù)項(xiàng)目的組合,可以幫助我們是去實(shí)現(xiàn)更多行業(yè)內(nèi)的目前人工完成的工作,例如實(shí)現(xiàn)自動(dòng)裁剪、通過(guò)根據(jù)圖片的內(nèi)容、場(chǎng)景的分類(lèi)、人臉信息等,匹配出合適的相框作為推薦,根據(jù)不同顏色的印刷材料做不同的印刷批次排序等等。
于是,一個(gè)簡(jiǎn)單的印刷快照行業(yè)的升級(jí),我們可以歸納為如圖:
而由圖中,我們可以看到,技術(shù)和應(yīng)用本質(zhì)上是完全可以分開(kāi)做橫向拓展的,于是我們可以看到同樣的技術(shù)可以用在不同的行業(yè),也可以有很多不同行業(yè)特定的算法技術(shù),如圖:
.
七、“搜你所想”之用戶(hù)搜索意圖識(shí)別——NLP
.
1、用戶(hù)搜索意圖的理解及其難點(diǎn)解析
分析一下理解用戶(hù)搜索詞背后的真實(shí)意圖識(shí)別存在哪些難點(diǎn):
- 用戶(hù)輸入不規(guī)范,輸入方式多樣化,使用自然語(yǔ)言查詢(xún),甚至非標(biāo)準(zhǔn)的自然語(yǔ)言。比如上面提到的“附近的特價(jià)酒店”
、“上海到揚(yáng)州高速怎么走”都是自然語(yǔ)言查詢(xún)的例子,又如 “披星 ( ) 月”、“吾嘗終日而思矣, 下面“ - 用戶(hù)的查詢(xún)?cè)~表現(xiàn)出多意圖,比如用戶(hù)搜索“變形金剛”,是指變形金剛的電影還是游戲? 搜索“仙劍奇?zhèn)b傳”是指游戲還是游戲軟件? 電影? 小說(shuō)?
電商網(wǎng)站搜索“水”是指礦泉水?還是女生用的護(hù)膚水? - 意圖強(qiáng)度,表現(xiàn)為不同用戶(hù)對(duì)相同的查詢(xún)有不同的需求強(qiáng)度。比如:宮保雞丁。宮保雞丁菜,菜譜需求占 90%。宮保雞丁歌曲,歌曲下載需求占
10%。又比如:荷塘月色。荷塘月色歌曲,歌曲下載需求占 70%。荷塘月色小區(qū),房產(chǎn)需求占 20%。荷塘月色菜,菜譜需求占 10%。 - 意圖存在時(shí)效性變化,就是隨著時(shí)間的推移一些查詢(xún)?cè)~的意圖會(huì)發(fā)生變化。比如:華為 P10 國(guó)行版 3 月 24 日上市。3 月 21
日的查詢(xún)意圖:新聞 90%,百科 10%3 月 24 日的查詢(xún)意圖:新聞 70%,購(gòu)買(mǎi) 25%,百科 5%5 月 1 日的查詢(xún)意圖:購(gòu)買(mǎi)
50%,資訊 40%,其他 10%5 年以后的查詢(xún)意圖:百科 100% 數(shù)據(jù)冷啟動(dòng)的問(wèn)題,用戶(hù)行為數(shù)據(jù)較少時(shí),很難準(zhǔn)確獲取用戶(hù)的搜索意圖。 - 沒(méi)有固定的評(píng)估的標(biāo)準(zhǔn),CTR、MAP、MRR、nDCG
這些可以量化的指標(biāo)主要是針對(duì)搜索引擎的整體效果的,具體到用戶(hù)意圖的預(yù)測(cè)上并沒(méi)有標(biāo)準(zhǔn)的指標(biāo)。
.
2、如何識(shí)別用戶(hù)搜索意圖
一般把搜索意圖歸類(lèi)為 3 種類(lèi)型:導(dǎo)航類(lèi)、信息類(lèi)和事務(wù)類(lèi)雅虎的研究人員在此基礎(chǔ)上做了細(xì)化,將用戶(hù)搜索意圖劃分如下類(lèi)別:
- 導(dǎo)航類(lèi):用戶(hù)明確的要去某個(gè)站點(diǎn),但又不想自己輸入 URL,比如用戶(hù)搜索“新浪網(wǎng)“
- 信息類(lèi):又可以細(xì)分為如下幾種子類(lèi)型,
直接型:用戶(hù)想知道關(guān)于一個(gè)話題某個(gè)方面明確的信息,比如“地球?yàn)槭裁词菆A的”、“哪些水果維生素含量高”。間接型:用戶(hù)想了解關(guān)于某個(gè)話題的任意方面的信息,比如粉絲搜索“黃曉明”。建議型:用戶(hù)希望能夠搜索到一些建議、意見(jiàn)或者某方面的指導(dǎo),比如“如何選股票”。定位型:用戶(hù)希望了解在現(xiàn)實(shí)生活中哪里可以找到某些產(chǎn)品或服務(wù),比如“汽車(chē)維修”。列表型:用戶(hù)希望找到一批能夠滿足需求的信息,比如“陸家嘴附近的酒店”。 - 資源類(lèi):這種類(lèi)型的搜索目的是希望能夠從網(wǎng)上獲取某種資源,又可以細(xì)分為以下幾種子類(lèi)型,
下載型:希望從網(wǎng)絡(luò)某個(gè)地方下載想要的產(chǎn)品或者服務(wù),比如“USB
驅(qū)動(dòng)下載”。娛樂(lè)型:用戶(hù)出于消遣的目的希望獲得一些有關(guān)信息,比如“益智小游戲”。交互型:用戶(hù)希望使用某個(gè)軟件或服務(wù)提供的結(jié)果,用戶(hù)希望找到一個(gè)網(wǎng)站,這個(gè)網(wǎng)站上可以直接計(jì)算房貸利息。獲取型:用戶(hù)希望獲取一種資源,這種資源的使用場(chǎng)合不限于電腦,比如“麥當(dāng)勞優(yōu)惠券”,用戶(hù)希望搜到某個(gè)產(chǎn)品的折扣券,打印后在現(xiàn)實(shí)生活中使用。
.
3、達(dá)觀搜索意圖識(shí)別引擎
達(dá)觀通過(guò) RESTAPI 接口的方式向客戶(hù)提供基于公有云和私有云的搜索服務(wù)。其中語(yǔ)義分析模塊包含了對(duì)用戶(hù) query 意圖的離線挖掘和在線預(yù)測(cè)。
達(dá)觀文本語(yǔ)義挖掘算法平臺(tái)是一個(gè)融合了多種算法的集成學(xué)習(xí)平臺(tái),既包括經(jīng)典的 SVM、LR、RF、LDA 等算法,也包括 CNN、RNN、LSTM、BILSTM 等深度學(xué)習(xí)算法。比如在實(shí)踐中,我們嘗試將線性統(tǒng)計(jì)模型 CRF 和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) LSTM 相融合的方法,在 LSTM 的輸出端將 softmax 與 CRF 結(jié)合起來(lái),使用 LSTM 解決提取序列的特征問(wèn)題,使用 CRF 有效利用了句子級(jí)別的標(biāo)記信息,取得了不錯(cuò)的效果。
八、算法專(zhuān)題|紡織業(yè)智能升級(jí) 高精度圖像檢索—服裝檢索算法
文章來(lái)源于極市平臺(tái)
高精度檢索算法也已經(jīng)完成了搜衣和搜布兩個(gè)產(chǎn)業(yè)級(jí)應(yīng)用,后續(xù)會(huì)擴(kuò)展更多的實(shí)際應(yīng)用,促進(jìn)紡織業(yè)和服裝業(yè)更好得智能升級(jí)。
高精度檢索算法實(shí)現(xiàn)了業(yè)界領(lǐng)先的圖像檢索系統(tǒng),融合了清晰度,尺度,角度,遮擋,光照等多種因素,利用此系統(tǒng)上傳服裝圖片可搜到同款和相似度很高的服裝或者布料。
1、算法應(yīng)用——時(shí)尚搭配推薦
根據(jù)上傳的圖片智能推薦相關(guān)的時(shí)尚搭配。
2、紡織行業(yè)的搜衣和搜布
根據(jù)上傳的圖片檢索出同款和在顏色,款式等相似度非常高的服裝或者布料,已經(jīng)應(yīng)用于產(chǎn)業(yè)。
.
九、人工智能 LOGO 設(shè)計(jì)
來(lái)源于文章:真 · 人工智能 LOGO 設(shè)計(jì),這次設(shè)計(jì)師危險(xiǎn)了…
.
十、美工終結(jié)者「魯班智能設(shè)計(jì)平臺(tái)」是如何工作的?
來(lái)源文章《UCAN2017回顧!美工終結(jié)者「魯班智能設(shè)計(jì)平臺(tái)」是如何工作的?》
我們要讓機(jī)器學(xué)習(xí)設(shè)計(jì),首先必須要讓機(jī)器理解感知設(shè)計(jì)是什么。以這樣一張非常常見(jiàn)的廣告為例,在機(jī)器的眼里是有一堆像素點(diǎn)組成的。如果今天以像素為單位讓機(jī)器去理解設(shè)計(jì),對(duì)設(shè)計(jì)的可控性非常弱,所以在前期技術(shù)方案選擇中沒(méi)有走像素級(jí)生產(chǎn),而是走向了元素級(jí)生產(chǎn)。
1、設(shè)計(jì)框架組成
四個(gè)組成部分:設(shè)計(jì)框架、元素中心、行動(dòng)器、評(píng)估網(wǎng)絡(luò)
組成一,設(shè)計(jì)框架。還是以這個(gè)廣告為例,首先通過(guò)人工標(biāo)注的方式,讓機(jī)器理解這張?jiān)O(shè)計(jì)有哪些元素組成,比如它的商品主體,花的背景,蒙版。往上一層,我們通過(guò)設(shè)計(jì)的經(jīng)驗(yàn)知識(shí),定義一些設(shè)計(jì)的手法和風(fēng)格。手法指的是這些元素為什么可以這么構(gòu)成,這個(gè)知識(shí)在設(shè)計(jì)腦子里機(jī)器是不知道的,所以會(huì)有手法這一層做輸入。最上面這一層是風(fēng)格,當(dāng)這些元素構(gòu)成之后,它從美學(xué)或者視覺(jué)角度看是一個(gè)什么感受。讓機(jī)器知道它是用什么組成的,為什么可以這么組成,以及它組成后的效果。這個(gè)過(guò)程將一個(gè)設(shè)計(jì)問(wèn)題轉(zhuǎn)化成數(shù)據(jù)問(wèn)題,這就是設(shè)計(jì)數(shù)據(jù)化。
下一步是準(zhǔn)備設(shè)計(jì)的原始文件,比如一系列花朵和設(shè)計(jì)方法,輸入到深度學(xué)習(xí)系列網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)有一個(gè)很大特點(diǎn):具備一定記憶功能。因?yàn)樵O(shè)計(jì)是個(gè)步驟很復(fù)雜的過(guò)程,經(jīng)常有好幾十步才能完成一個(gè)設(shè)計(jì)。
經(jīng)過(guò)這層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)之后,我們會(huì)得到一個(gè)設(shè)計(jì)框架。從技術(shù)上理解,它是一堆空間特征和視覺(jué)特征構(gòu)成的模型。設(shè)計(jì)師的視角來(lái)理解的話,它相當(dāng)于設(shè)計(jì)師腦子里面在做一組設(shè)計(jì)之前大概的框架印象,比如今天你接到一個(gè)任務(wù)要做一個(gè)花朵風(fēng)格,思考這個(gè)設(shè)計(jì)大概會(huì)怎么做,然后從一堆文件里提取出了特征模型出來(lái)。
組成二,元素中心。因?yàn)槲覀冏龅氖窃丶?jí)生成,所以必須準(zhǔn)備一個(gè)元素的庫(kù)。我們會(huì)通過(guò)收集一些版權(quán)圖庫(kù),以及自己造設(shè)計(jì)元素的方式,輸入到一個(gè)元素的分類(lèi)器。這個(gè)分類(lèi)器會(huì)把這些元素分布到各個(gè)類(lèi)型里,比如背景、主體、修飾,也會(huì)完成圖片庫(kù)的提取。
組成三,行動(dòng)器。接下來(lái),就是設(shè)計(jì)的具體過(guò)程。比如今天我們接到一個(gè)設(shè)計(jì)任務(wù),要為這樣一件衣服設(shè)計(jì)一個(gè)花朵風(fēng)格的廣告。這時(shí)候會(huì)有一個(gè)行動(dòng)器,負(fù)責(zé)把前面準(zhǔn)備好的底料放到設(shè)計(jì)框架里。這個(gè)過(guò)程和下圍棋很像,左邊是棋盤(pán),右邊是下圍棋的棋子。行動(dòng)器就是把元素放到棋盤(pán)里,這是整個(gè)行動(dòng)器的生成原理。
它很像設(shè)計(jì)師實(shí)際在做設(shè)計(jì)的過(guò)程,如設(shè)計(jì)師要做一個(gè)花朵的時(shí)候,也在軟件里面會(huì)不斷去調(diào)每個(gè)位置、每個(gè)像素、每個(gè)角度。同時(shí),整個(gè)過(guò)程也是一個(gè)強(qiáng)化學(xué)習(xí)的過(guò)程,行動(dòng)器會(huì)在不斷試錯(cuò)中更智能。
組成四,評(píng)估網(wǎng)絡(luò)。設(shè)計(jì)成品出來(lái)之后,我們要告訴機(jī)器人,從設(shè)計(jì)的角度是好還是不好。我們有一個(gè)設(shè)計(jì)評(píng)估網(wǎng)絡(luò),最終實(shí)現(xiàn)的效果就是給它輸入任何一個(gè)設(shè)計(jì)成品,它能打個(gè)分。技術(shù)原理是,我們通過(guò)人工輸入大量歷史上投放過(guò)的一些設(shè)計(jì)圖評(píng)分,它從這里訓(xùn)練出一個(gè)打分的模型出來(lái)。同時(shí),專(zhuān)家也會(huì)人工干預(yù)打分,完成雙向反饋。
.
2、視覺(jué)設(shè)計(jì)的四個(gè)層次
第二層,場(chǎng)景表達(dá)。今天你給它一個(gè)東西,它能理解,能表達(dá)對(duì)。比如今天你根據(jù)情人節(jié),這些品牌能夠找到一種合適的設(shè)計(jì)手段,去表達(dá)出情人節(jié)的溫馨,這種手繪的方式會(huì)稍微難一點(diǎn),也就是我們前面講到的語(yǔ)義這一層。
第三層,創(chuàng)意洞見(jiàn)。它能夠有一些啟發(fā)性的東西出來(lái)。天貓品牌里面經(jīng)常有把貓頭和品牌創(chuàng)意做聯(lián)合的事情,這是機(jī)器不可能做到的事情,或者在我有生之年沒(méi)有指望它能做到的。
最后一層,創(chuàng)造趨勢(shì)。這一般是設(shè)計(jì)大師做的事情。它能定義明年、未來(lái)幾年的設(shè)計(jì)趨勢(shì)走向,這是更高的設(shè)計(jì)能力。比如今年“三八”女王節(jié),天貓用了一種全新的設(shè)計(jì)手段,用這種很輕的質(zhì)感、很細(xì)膩的方式來(lái)表達(dá)商品。它能夠代表一個(gè)新的趨勢(shì)和未來(lái),代表一個(gè)新的手段,這件事情一定是人來(lái)做的。
.
十一、修正老電影或電視劇的畫(huà)面
來(lái)源AI100文章《他在Google Brain實(shí)習(xí)了一年,總結(jié)出這么些心得》
1、超分辨率的像素遞歸
放大照片圖像時(shí)把相關(guān)像素所構(gòu)成的合理圖形呈現(xiàn)出來(lái),這還是有可能做到的。
PixelCNN,它也比較有戲。(等我們啟動(dòng)之后,用GAN解決來(lái)超分辨率問(wèn)題的SRGAN就發(fā)布了,它生成的結(jié)果非常好。)
PixelCNN是一種奇怪的反直覺(jué)模型。它將圖像生成問(wèn)題重寫(xiě)成每次選擇一個(gè)像素序列。像LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))這樣的門(mén)控制遞歸網(wǎng)絡(luò)在序列生成方面是非常成功的,它通常會(huì)用在單詞或字符上。PixelCNN巧妙地構(gòu)建出一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN),它能基于先前的像素的概率分布來(lái)精確生成像素。這是RNN和CNN的混合功能。
意外的是,PixelCNN所生成的圖像看起來(lái)非常自然。不像艱難平衡兩種目標(biāo)的對(duì)抗網(wǎng)絡(luò),該模型的目標(biāo)只有一個(gè),因而面對(duì)超參數(shù)的變化,它有更好的穩(wěn)健性。也就是說(shuō),它更易于優(yōu)化。
如何定量評(píng)估結(jié)果,則是另外一個(gè)難題。如何才能證明我們的圖像比基準(zhǔn)模型好?衡量超分辨率質(zhì)量的典型方法,是對(duì)比強(qiáng)化圖像與原始圖像的對(duì)應(yīng)像素點(diǎn)之間的距離(峰值信噪比,PSNR)。雖說(shuō)本模型輸出的臉部圖像在質(zhì)量上明顯更好,但在像素對(duì)比上,平均看來(lái)它們還不如基準(zhǔn)模型所輸出的模糊圖像。我們嘗試用PixelCNN本身的相似度測(cè)量來(lái)證明我們的樣本比基準(zhǔn)版本有著更高的概率值,但同樣失敗了。最后,我們把這項(xiàng)任務(wù)眾包給人類(lèi)評(píng)估員——詢(xún)問(wèn)他們哪些圖像看上去更真實(shí)。這倒奏效了。
.
2、PixColor: 關(guān)于著色的嘗試
Slim的創(chuàng)造者Sergio Guadarrama一直在嘗試給圖像著色。他跟我說(shuō)過(guò)一個(gè)試驗(yàn):用分量接口(該接口中圖像的灰度、顏色相互分離)獲取一張224×224×3的圖像,將其顏色通道降至28×28×2的超低分辨率,然后用雙線性插值法再把顏色通道放大,所得圖像與顏色分辨率很高的原始圖像相比幾乎沒(méi)有差別。
把問(wèn)題變成僅預(yù)測(cè)低分辨率顏色,我們就可以簡(jiǎn)化著色問(wèn)題。我原本已準(zhǔn)備好徹底放棄PixelCNN了,因?yàn)樗@然無(wú)法放大小圖像,但用來(lái)生成28×28×2的圖像還是很可行的。通過(guò)將顏色數(shù)值簡(jiǎn)化為32個(gè)數(shù)字而非256,我們進(jìn)一步簡(jiǎn)化了著色問(wèn)題。
十二:微博:TensorFlow在微博的大規(guī)模應(yīng)用與實(shí)踐
來(lái)源:機(jī)器學(xué)習(xí)與微博:TensorFlow在微博的大規(guī)模應(yīng)用與實(shí)踐
圖像質(zhì)量也是用戶(hù)體驗(yàn)的基本要求。
用戶(hù)可以容忍不感興趣的圖片,但很難容雜亂的圖像。
例如左邊的美女圖,看起來(lái)賞心悅目,手機(jī)上刷過(guò),即使不停下細(xì)看,也不會(huì)反感。
右邊的圖片,里面也是美女,但加上文字之后,立刻變得雜亂,版式與酒店里的小卡片相仿。很可能被認(rèn)定為騙子。
明星臉識(shí)別是微博的特色,有海量的明星圖片,也有巨大的識(shí)別需求。
明星臉識(shí)別有特別的困難:常用人臉識(shí)別研究所用的照片表情、造型較少,不同人之間的差別較大。而明星表情豐富,造型多變,無(wú)論男女都化妝!不少人妝容近似,有些整容臉連人腦都傻傻分不清,計(jì)算機(jī)就更難分清了。
其他NLP相關(guān)的文章:
1、阿里自然語(yǔ)言處理部總監(jiān)分享:NLP技術(shù)的應(yīng)用及思考
2、電商客服自動(dòng)問(wèn)答系統(tǒng)的商品意圖識(shí)別
3、專(zhuān)訪玻森數(shù)據(jù):這款基于NLP技術(shù)的企業(yè)情報(bào)系統(tǒng),商業(yè)化現(xiàn)狀是這樣的
總結(jié)
以上是生活随笔為你收集整理的创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 软件测试基础学习笔记
- 下一篇: 深度学习第一次课-数学