當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例（Computer Vision as a Service）

發(fā)布時(shí)間：2023/12/10 pytorch 36 豆豆

生活随笔收集整理的這篇文章主要介紹了创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例（Computer Vision as a Service）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

技術(shù)與技法日進(jìn)千里，快速迭代過(guò)程中，真正能夠留下的是應(yīng)用場(chǎng)景的重構(gòu)與對(duì)新商業(yè)范式的思考。

CVaaS 計(jì)算機(jī)視覺(jué)即服務(wù)的理念介紹

觀點(diǎn)來(lái)源于：極視角科技聯(lián)合創(chuàng)始人羅韻

CVaaS 就是 Computer Vision as a Service, 我們把 CV 的部分標(biāo)準(zhǔn)化成為了一種服務(wù)，而每一個(gè)行業(yè)可以在這里找到自己行業(yè)需要的和圖像處理、視頻處理、計(jì)算機(jī)視覺(jué)相關(guān)的算法服務(wù)，然后他們可以整合這些算法服務(wù)成為他們需要的應(yīng)用。

而 CV 算法更接近于一種平臺(tái)運(yùn)行的服務(wù)，提供運(yùn)算性能的橫向拓展，提供運(yùn)算的底層開(kāi)發(fā)環(huán)境，甚至乎直接提供可開(kāi)發(fā)測(cè)試的 sandbox, 所以，CVaaS 也是 PaaS 的一種。
CVaaS 的目的，就是讓各行各業(yè)可以以最快的形式和方式完成這要的一些工作的轉(zhuǎn)變。
例如，在零售行業(yè)，我們選擇可以選擇人臉識(shí)別做 VIP 識(shí)別，選擇行人識(shí)別做客流統(tǒng)計(jì)，選擇性別、年齡識(shí)別做顧客分類(lèi)或者顧客肖像。

在安防行業(yè)，我們選擇動(dòng)作 (打架) 識(shí)別、行人跟蹤、姿態(tài)識(shí)別等做安全的防范和預(yù)警。
再例如，在房地產(chǎn)領(lǐng)域做場(chǎng)景圖片的分類(lèi) (例如哪些圖片是臥室，客廳，廚房)，優(yōu)質(zhì) (封面) 圖片的挑選；印刷行業(yè)根據(jù)圖片的內(nèi)容做自動(dòng)裁剪；等等。

一、深度學(xué)習(xí)在汽車(chē)行業(yè)的應(yīng)用

——如何提高分類(lèi)的精確度或者準(zhǔn)確率

作者：山同氣,來(lái)源：知乎
深度學(xué)習(xí)遵從大數(shù)定律，數(shù)據(jù)越多，規(guī)律性越能掌控。

1、Fine-Grained Classification細(xì)粒度分類(lèi)

比如我去框定，汽車(chē)的車(chē)燈，汽車(chē)的前臉，汽車(chē)輪轂等，然后用 cnn或 deep cnn 或what ever其他的分類(lèi)器做這些的分類(lèi)，對(duì)于分類(lèi)器來(lái)說(shuō)輸入是汽車(chē)的車(chē)燈+汽車(chē)的前臉+汽車(chē)輪轂，而不是整張圖片。分類(lèi)器再?gòu)能?chē)燈前臉等提取高級(jí)特征，從而得到一個(gè)分類(lèi)模型。

在fine-tuning過(guò)程會(huì)遇到一個(gè)問(wèn)題，拿來(lái)對(duì)未知信息圖片進(jìn)行判別，最好是框定過(guò)之后的。

對(duì)于局部圖片，我們是這樣提取的：

2、級(jí)聯(lián)式做法

1、粗粒度——圖像清洗。整體識(shí)別0/1，是否汽車(chē)，數(shù)據(jù)篩選，清洗垃圾圖層，力求98%以上精度，甚至更高，每個(gè)分類(lèi)拿2w張左右；
2、中粒度——品牌分類(lèi)器。不細(xì)分到品牌下面的子品牌，譬如康師傅牛肉面，不細(xì)分到康師傅辣味、咸味等等諸多口味，太細(xì)了你的數(shù)據(jù)量不夠。你即使花了很長(zhǎng)時(shí)間標(biāo)注很仔細(xì)，但是得不償失。
3、細(xì)粒度——車(chē)型分類(lèi)器。每個(gè)品牌的不同車(chē)型分類(lèi)器進(jìn)行區(qū)別，這樣就簡(jiǎn)單、精度高很多。也可以訓(xùn)練更精細(xì)的，內(nèi)飾、做工、配色等。
這樣你會(huì)得到一個(gè)0.98*0.96*0.94~0.88的識(shí)別率，但是這樣精確度會(huì)變成可調(diào)節(jié)式，粗粒度時(shí)候認(rèn)定哪些要否定，提高概率的標(biāo)準(zhǔn)，是可以提高整體識(shí)別率。

3、數(shù)據(jù)增強(qiáng)

opencv先做一些圖片的變換，比如對(duì)光線的處理，去噪等等，這樣會(huì)提高復(fù)雜環(huán)境的圖片的識(shí)別精度。
而且，可以改變光線強(qiáng)弱來(lái)進(jìn)行訓(xùn)練

二、深度學(xué)習(xí)在美團(tuán)點(diǎn)評(píng)的應(yīng)用

1、圖像質(zhì)量評(píng)估

在美團(tuán)點(diǎn)評(píng)，商家的首圖是由商家或運(yùn)營(yíng)人工指定的，如何選擇首圖才能更好地吸引用戶(hù)呢？圖像質(zhì)量排序算法目標(biāo)就是做到自動(dòng)選擇更優(yōu)質(zhì)的首圖，以吸引用戶(hù)點(diǎn)擊。
傳統(tǒng)的圖像質(zhì)量排序方法主要從美學(xué)角度進(jìn)行質(zhì)量評(píng)價(jià)，通過(guò)顏色統(tǒng)計(jì)、主體分布、構(gòu)圖等來(lái)分析圖片的美感。但在實(shí)際業(yè)務(wù)場(chǎng)景中，用戶(hù)對(duì)圖片質(zhì)量?jī)?yōu)劣的判斷主觀性很強(qiáng)，難以形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)。比如:

1.有的用戶(hù)對(duì)清晰度或分辨率更敏感；
2.有的用戶(hù)對(duì)色彩或構(gòu)圖更敏感；
3.有的用戶(hù)偏愛(ài)有視覺(jué)沖擊力的內(nèi)容而非平淡無(wú)奇的環(huán)境圖。

因此我們使用深度學(xué)習(xí)方法，去挖掘圖片的哪些屬性會(huì)影響用戶(hù)的判斷，以及如何有效融合這些屬性對(duì)圖片進(jìn)行評(píng)價(jià)。
我們使用AlexNet去提取圖片的高層語(yǔ)義描述，學(xué)習(xí)美感、可記憶度、吸引度、品類(lèi)等High Level特征，并補(bǔ)充人工設(shè)計(jì)的Low Level特征（比如色彩、銳度、對(duì)比度、角點(diǎn)）。在獲得這些特征后，訓(xùn)練一個(gè)淺層神經(jīng)網(wǎng)絡(luò)對(duì)圖像整體打分。該框架（如圖2所示）的一個(gè)特點(diǎn)是聯(lián)合了深度學(xué)習(xí)特征與傳統(tǒng)特征，既引入高層語(yǔ)義又保留了低層通用描述，既包括全局特征又有局部特征。

對(duì)于每個(gè)維度圖片屬性的學(xué)習(xí)，都需要大量的標(biāo)簽數(shù)據(jù)來(lái)支撐，但完全通過(guò)人工標(biāo)記代價(jià)極大，因此我們借鑒了美團(tuán)點(diǎn)評(píng)的圖片來(lái)源和POI標(biāo)簽體系。關(guān)于吸引度屬性的學(xué)習(xí)，我們選取了美團(tuán)Deal相冊(cè)中點(diǎn)擊率高的圖片（多數(shù)是攝影師通過(guò)單反相機(jī)拍攝）作為正例，而選取UGC相冊(cè)中點(diǎn)擊率低的圖片（多數(shù)是低端手機(jī)拍攝）作為負(fù)例。關(guān)于品類(lèi)屬性的學(xué)習(xí)，我們將美團(tuán)一級(jí)品類(lèi)和常見(jiàn)二級(jí)品類(lèi)作為圖片標(biāo)簽。基于上述質(zhì)量排序模型，我們?yōu)閺V告POI挑選最合適的優(yōu)質(zhì)首圖進(jìn)行展示，起到吸引用戶(hù)點(diǎn)擊，提高業(yè)務(wù)指標(biāo)的目的。圖3給出了基于質(zhì)量排序的首圖優(yōu)選結(jié)果。

2、OCR技術(shù)

OCR在美團(tuán)點(diǎn)評(píng)業(yè)務(wù)中主要起著兩方面作用。一方面是輔助錄入，比如在移動(dòng)支付環(huán)節(jié)通過(guò)對(duì)銀行卡卡號(hào)的拍照識(shí)別，以實(shí)現(xiàn)自動(dòng)綁卡，又如輔助BD錄入菜單中菜品信息。另一方面是審核校驗(yàn)，比如在商家資質(zhì)審核環(huán)節(jié)對(duì)商家上傳的身份證、營(yíng)業(yè)執(zhí)照和餐飲許可證等證件照片進(jìn)行信息提取和核驗(yàn)以確保該商家的合法性，比如機(jī)器過(guò)濾商家上單和用戶(hù)評(píng)價(jià)環(huán)節(jié)產(chǎn)生的包含違禁詞的圖片。相比于傳統(tǒng)OCR場(chǎng)景（印刷體、掃描文檔），美團(tuán)的OCR場(chǎng)景主要是針對(duì)手機(jī)拍攝的照片進(jìn)行文字信息提取和識(shí)別，考慮到線下用戶(hù)的多樣性，因此主要面臨以下挑戰(zhàn)：

?成像復(fù)雜：噪聲、模糊、光線變化、形變；
?文字復(fù)雜：字體、字號(hào)、色彩、磨損、筆畫(huà)寬度不固定、方向任意；
?背景復(fù)雜：版面缺失，背景干擾。

對(duì)于上述挑戰(zhàn)，傳統(tǒng)的OCR解決方案存在著以下不足：

1.通過(guò)版面分析（二值化，連通域分析）來(lái)生成文本行，要求版面結(jié)構(gòu)有較強(qiáng)的規(guī)則性且前背景可分性強(qiáng)（例如文檔圖像、車(chē)牌），無(wú)法處理前背景復(fù)雜的隨意文字（例如場(chǎng)景文字、菜單、廣告文字等）。
2.通過(guò)人工設(shè)計(jì)邊緣方向特征（例如HOG）來(lái)訓(xùn)練字符識(shí)別模型，此類(lèi)單一的特征在字體變化，模糊或背景干擾時(shí)泛化能力迅速下降。
3.過(guò)度依賴(lài)字符切分的結(jié)果，在字符扭曲、粘連、噪聲干擾的情況下，切分的錯(cuò)誤傳播尤其突出。

針對(duì)傳統(tǒng)OCR解決方案的不足，我們嘗試基于深度學(xué)習(xí)的OCR。
首先，我們根據(jù)是否有先驗(yàn)信息將版面劃分為受控場(chǎng)景（例如身份證、營(yíng)業(yè)執(zhí)照、銀行卡）和非受控場(chǎng)景（例如菜單、門(mén)頭圖）。
對(duì)于受控場(chǎng)景，我們將文字定位轉(zhuǎn)換為對(duì)特定關(guān)鍵字目標(biāo)的檢測(cè)問(wèn)題。主要利用Faster R-CNN進(jìn)行檢測(cè)，如下圖所示。為了保證回歸框的定位精度同時(shí)提升運(yùn)算速度，我們對(duì)原有框架和訓(xùn)練方式進(jìn)行了微調(diào):
?考慮到關(guān)鍵字目標(biāo)的類(lèi)內(nèi)變化有限，我們裁剪了ZF模型的網(wǎng)絡(luò)結(jié)構(gòu)，將5層卷積減少到3層。
?訓(xùn)練過(guò)程中提高正樣本的重疊率閾值，并根據(jù)業(yè)務(wù)需求來(lái)適配RPN層Anchor的寬高比。

對(duì)于非受控場(chǎng)景，由于文字方向和筆畫(huà)寬度任意變化，目標(biāo)檢測(cè)中回歸框的定位粒度不夠，我們利用語(yǔ)義分割中常用的全卷積網(wǎng)絡(luò)（FCN）來(lái)進(jìn)行像素級(jí)別的文字/背景標(biāo)注，如下圖所示。為了同時(shí)保證定位的精度和語(yǔ)義的清晰，我們不僅在最后一層進(jìn)行反卷積，而且融合了深層Layer和淺層Layer的反卷積結(jié)果

為了有效控制字符切分和識(shí)別后處理的錯(cuò)誤傳播效應(yīng)，實(shí)現(xiàn)端到端文字識(shí)別的可訓(xùn)練性，我們采用如下圖所示的序列學(xué)習(xí)框架。框架整體分為三層：卷積層，遞歸層和翻譯層。其中卷積層提特征，遞歸層既學(xué)習(xí)特征序列中字符特征的先后關(guān)系，又學(xué)習(xí)字符的先后關(guān)系，翻譯層實(shí)現(xiàn)對(duì)時(shí)間序列分類(lèi)結(jié)果的解碼。

由于序列學(xué)習(xí)框架對(duì)訓(xùn)練樣本的數(shù)量和分布要求較高，我們采用了真實(shí)樣本+合成樣本的方式。真實(shí)樣本以美團(tuán)點(diǎn)評(píng)業(yè)務(wù)來(lái)源（例如菜單、身份證、營(yíng)業(yè)執(zhí)照）為主，合成樣本則考慮了字體、形變、模糊、噪聲、背景等因素。基于上述序列學(xué)習(xí)框架和訓(xùn)練數(shù)據(jù)，在多種場(chǎng)景的文字識(shí)別上都有較大幅度的性能提升，如下圖所示。
.

三、機(jī)器學(xué)習(xí)在攜程酒店圖像數(shù)據(jù)中的應(yīng)用

1、圖像快速去重

攜程酒店圖像數(shù)據(jù)的來(lái)源眾多，從而導(dǎo)致同一家酒店出現(xiàn)相同/相似圖像的幾率往往較大。圖像重復(fù)展示會(huì)影響用戶(hù)的體驗(yàn)，不利于用戶(hù)獲取酒店的完整信息。酒店圖像之間的相同/相似主要表現(xiàn)為1）尺寸形變；2）裁剪殘缺；3）色彩變化；4）旋轉(zhuǎn)變化；5）拍攝視角移動(dòng)等多種情況，如下圖所示。

為了解決酒店圖像之間相同/相似的問(wèn)題，需要對(duì)酒店的圖像數(shù)據(jù)進(jìn)行去重。然而，由于圖像數(shù)量巨大，人工去重耗時(shí)耗力。因此，通過(guò)圖像去重技術(shù)自動(dòng)對(duì)相同/相似的圖像進(jìn)行判定和去除勢(shì)在必行。

圖像去重一般分為
1）圖像特征表達(dá)的提取和2）圖像之間相似度計(jì)算兩個(gè)主要步驟。
對(duì)于圖像特征表達(dá)的提取，常見(jiàn)的手工設(shè)計(jì)特征有顏色、紋理、HOG、SIFT和SURF等；此外基于深度學(xué)習(xí)的深層特征表達(dá)也經(jīng)常被使用。對(duì)于圖像之間相似度計(jì)算，常見(jiàn)的無(wú)監(jiān)督距離度量方法有歐式距離、曼哈頓距離和余弦距離等；常見(jiàn)的有監(jiān)督距離度量方法有LMNN、KISSME、LFDA和MFA等。然而這些方法基于浮點(diǎn)特征計(jì)算相似度，計(jì)算速度普遍較慢，因此通過(guò)哈希學(xué)習(xí)方法將圖像特征轉(zhuǎn)換為二元編碼，再利用漢明距離進(jìn)行相似度的快速計(jì)算更加符合工業(yè)界對(duì)圖像數(shù)據(jù)處理速度的要求。

對(duì)于酒店中的相同/相似圖像，大部分全局特征（比如顏色、紋理和HOG）不能很好地解決圖像裁剪殘缺和旋轉(zhuǎn)變化等問(wèn)題；一些局部特征（比如SIFT和SURF）與基于深度學(xué)習(xí)的特征雖然表達(dá)效果較好，但是由于特征提取復(fù)雜，計(jì)算速度過(guò)于緩慢。

針對(duì)以上特征提取方法存在的缺陷，我們最終采用ORB特征作為圖像的特征表達(dá)，并使用漢明距離進(jìn)行相似度的計(jì)算。
ORB特征具有以下優(yōu)點(diǎn)：
1）特征提取速度快；
2）在大多數(shù)情況下，去重效果能夠與SIFT/SURF持平；
3）提取的特征直接是二元編碼形式，無(wú)需使用哈希學(xué)習(xí)方法就可以直接利用漢明距離快速計(jì)算相似度。

ORB特征在實(shí)際的圖像去重過(guò)程中仍然存在一些不足，比如在處理圖像尺寸差異過(guò)大、形變和模糊等問(wèn)題時(shí)，去重效果一般。
為此我們?cè)谔崛RB特征前，首先將圖像按照初始的寬高比例統(tǒng)一縮放到一個(gè)固定的標(biāo)準(zhǔn)尺寸之內(nèi)，避免了圖像之間的尺寸差異，較好地彌補(bǔ)了ORB特征不具有尺度不變性的缺陷。
同時(shí)，我們?cè)诿鎸?duì)圖像形變和模糊問(wèn)題時(shí)，在ORB特征的基礎(chǔ)上，進(jìn)一步融合了顏色直方圖和LBP特征等全局特征來(lái)進(jìn)行重復(fù)圖像判定，令局部和全局的圖像信息之間優(yōu)勢(shì)互補(bǔ)，降低了形變和模糊等因素對(duì)ORB特征的影響，保證了圖像去重的準(zhǔn)確率。
.

2、水印圖像檢測(cè)

攜程酒店圖像數(shù)據(jù)的來(lái)源眾多，同時(shí)也導(dǎo)致出現(xiàn)了另一個(gè)嚴(yán)峻的問(wèn)題：帶有其他公司水印信息的圖像數(shù)量增多。人工進(jìn)行水印圖像的檢測(cè)會(huì)花費(fèi)大量的人力成本，所以我們希望能夠利用計(jì)算機(jī)自動(dòng)檢測(cè)出圖像中是否含有水印信息，從而避免出現(xiàn)誤用和侵權(quán)的行為。

水印信息在圖像中的視覺(jué)顯著性很低，具有面積小，顏色淺，透明度高等特點(diǎn)，帶水印圖像與未帶水印圖像之間的差異往往很小，區(qū)分度較低。一些帶水印的酒店圖像示例如下圖所示。

一般的目標(biāo)檢測(cè)問(wèn)題可以看作是一個(gè)圖像部分區(qū)域的分類(lèi)問(wèn)題，在深度學(xué)習(xí)興起前，可變形部件模型（DPM）一直是流行的目標(biāo)檢測(cè)方法，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，以R-CNN、Fast R-CNN、Faster R-CNN和YOLO等為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法成為了主流。然而水印檢測(cè)和一般的目標(biāo)檢測(cè)的區(qū)別在于，水印在一幅圖像中的位置基本是固定的，因此水印檢測(cè)可以看作是一個(gè)簡(jiǎn)化的目標(biāo)檢測(cè)問(wèn)題，而其中的關(guān)鍵就是訓(xùn)練水印分類(lèi)器。

在訓(xùn)練水印分類(lèi)器的過(guò)程中，我們遇到的最大問(wèn)題是沒(méi)有足夠的標(biāo)注了水印類(lèi)別的圖像數(shù)據(jù)用于訓(xùn)練。為了解決這個(gè)問(wèn)題，我們選擇自主地去生成訓(xùn)練數(shù)據(jù)。具體地，我們?cè)诖罅繜o(wú)水印圖像中隨機(jī)截取若干個(gè)矩形區(qū)域圖像，以這些矩形區(qū)域圖像作為無(wú)水印的訓(xùn)練圖像數(shù)據(jù)；同時(shí)，我們將要檢測(cè)的水印信息圖形隨機(jī)縮放后嵌入這些不包含水印信息的矩形圖像內(nèi)，從而形成帶水印的訓(xùn)練圖像數(shù)據(jù)。通過(guò)這種方式，我們方便快捷地獲取了大量的圖像訓(xùn)練數(shù)據(jù)。

我們?cè)谧灾魃纱罅坑?xùn)練數(shù)據(jù)后，訓(xùn)練了一個(gè)專(zhuān)門(mén)針對(duì)水印分類(lèi)任務(wù)的AlexNet。對(duì)于一張待檢測(cè)圖像，我們以一個(gè)可變框隨機(jī)在水印常見(jiàn)的位置（圖像的左右下角和中間位置）截取一系列矩形區(qū)域圖像，然后依次輸入分類(lèi)網(wǎng)絡(luò)中進(jìn)行分類(lèi)，最后融合所有矩形區(qū)域圖像的分類(lèi)結(jié)果即可獲取水印圖像的檢測(cè)結(jié)果。完整的水印圖像檢測(cè)流程如上圖所示。

我們使用計(jì)算機(jī)自動(dòng)進(jìn)行圖像快速去重和水印圖像檢測(cè)，兩者都達(dá)到了99%+的準(zhǔn)確率，在實(shí)際圖像處理中有效地減少了大量人力成本的投入。

3、房型圖像分類(lèi)

酒店圖像根據(jù)內(nèi)容可以分為很多類(lèi)別，比如外觀、內(nèi)景和房型等。其中，房型圖像可以直觀地展示出房型的信息，對(duì)于用戶(hù)選擇入住房型尤為關(guān)鍵。我們希望優(yōu)先展示吸引用戶(hù)的房型內(nèi)容，以提升用戶(hù)的體驗(yàn)和下單率。然而在實(shí)際中，房型圖片往往包含很多內(nèi)容，人工并沒(méi)有一張張的進(jìn)行甄別，所以導(dǎo)致房型首圖不合適的情況經(jīng)常出現(xiàn)。解決房型首圖不合適問(wèn)題的關(guān)鍵是需要將房型圖像進(jìn)行分類(lèi)，從而能夠優(yōu)先展示吸引用戶(hù)的內(nèi)容。具體地，我們把房型圖像按照優(yōu)先級(jí)高低分為包含床的圖像、不包含床的圖像和衛(wèi)生間的圖像三類(lèi)。

隨著深度學(xué)習(xí)技術(shù)的出現(xiàn)，尤其是卷積神經(jīng)網(wǎng)絡(luò)的興起，一個(gè)理想的房型圖像分類(lèi)方法一般分為兩步：1）利用大量已經(jīng)標(biāo)注類(lèi)別的房型圖像數(shù)據(jù)直接訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)，比如AlexNet、VGGNet、ResNet或者基于Inception的一系列網(wǎng)絡(luò)等；2）對(duì)于一張類(lèi)別未知的房型圖像，將其輸入深度卷積神經(jīng)網(wǎng)絡(luò)中，網(wǎng)絡(luò)最后一層直接輸出其屬于每個(gè)類(lèi)別的概率。

和水印圖像檢測(cè)一樣，在真正實(shí)踐的過(guò)程中，我們遇到的最大問(wèn)題依然是缺少標(biāo)注了類(lèi)別的房型圖像數(shù)據(jù)用于訓(xùn)練。大量的訓(xùn)練圖像如果通過(guò)人工標(biāo)注代價(jià)極大，這顯然是不現(xiàn)實(shí)的。而沒(méi)有訓(xùn)練圖像，卻要得到一個(gè)分類(lèi)模型則是更加不現(xiàn)實(shí)的。所以我們還是花了一些時(shí)間對(duì)少量房型圖像的類(lèi)別進(jìn)行了標(biāo)注。在這個(gè)很小規(guī)模的房型圖像數(shù)據(jù)集的基礎(chǔ)上，一般有兩種分類(lèi)思路：1）因?yàn)榉啃蛨D像屬于場(chǎng)景圖像，所以可以提取房型圖像的HOG、SIFT和GIST特征，這些手工設(shè)計(jì)的特征已經(jīng)被證明在場(chǎng)景分類(lèi)中比較有效，然后再訓(xùn)練傳統(tǒng)分類(lèi)器實(shí)現(xiàn)分類(lèi)；2）利用深度卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征遷移學(xué)習(xí)能力，先使用海量圖像數(shù)據(jù)訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)，然后將該網(wǎng)絡(luò)作為一個(gè)特征提取模型并結(jié)合傳統(tǒng)分類(lèi)器實(shí)現(xiàn)分類(lèi)。當(dāng)然，如果有更多的人力和時(shí)間，在標(biāo)注的房型圖像數(shù)據(jù)較多的情況下，直接對(duì)該網(wǎng)絡(luò)進(jìn)行微調(diào)則是更佳的選擇。

在實(shí)際應(yīng)用中，我們選擇了第二種思路。我們沒(méi)有借助應(yīng)用最為廣泛的ImageNet數(shù)據(jù)集，因?yàn)樵摂?shù)據(jù)集圖像的內(nèi)容和房型圖像差異過(guò)大，特征遷移達(dá)不到最優(yōu)的效果。為了盡可能的提升網(wǎng)絡(luò)的特征遷移能力，我們借助了與房型圖像最為接近的場(chǎng)景圖像數(shù)據(jù)集，訓(xùn)練VGGNet作為房型圖像特征提取器。最后，我們利用自己標(biāo)注的小規(guī)模房型圖像數(shù)據(jù)集，訓(xùn)練支持向量機(jī)模型來(lái)實(shí)現(xiàn)分類(lèi)。具體的分類(lèi)流程如下圖所示。

我們的房型圖像分類(lèi)上線后，達(dá)到了98%的準(zhǔn)確率。下圖展示了在房型圖像分類(lèi)上線前后，一家酒店中多個(gè)房型的首圖變化的例子（紅色框?yàn)樯暇€前，綠色框?yàn)樯暇€后）。

4、圖像質(zhì)量評(píng)價(jià)

在上一節(jié)中，我們介紹了通過(guò)房型圖像分類(lèi)使含床的房型圖像得以?xún)?yōu)先展示。但是如果一個(gè)房型有多張含床的圖像，該選哪一張圖像作為該房型的首圖呢？所以我們希望能夠?qū)Ψ啃蛨D像的質(zhì)量進(jìn)行評(píng)價(jià)，這樣在圖像的類(lèi)別相同時(shí)，能夠按照質(zhì)量高低進(jìn)行排序。更廣泛地，我們還希望能對(duì)所有的酒店圖像都進(jìn)行質(zhì)量評(píng)價(jià)，這樣酒店首圖的選擇、酒店圖像的優(yōu)選展示等都能夠以圖像的質(zhì)量分?jǐn)?shù)作為依據(jù)。

起初我們選擇清晰度這一客觀指標(biāo)作為圖像質(zhì)量評(píng)價(jià)的標(biāo)準(zhǔn)，我們認(rèn)為清晰圖像變模糊丟失的信息要多于模糊圖像變模糊丟失的信息。根據(jù)這一思想，對(duì)于一張圖像，我們先將其灰度化，然后獲取對(duì)應(yīng)的模糊圖像。接下來(lái)，我們分別對(duì)原圖像和對(duì)應(yīng)的模糊圖像提取圖像邊緣信息，具體我們采用拉普拉斯卷積模板進(jìn)行濾波。最后我們通過(guò)比較濾波后的兩張圖像的方差變化率即可對(duì)圖像進(jìn)行清晰度的量化。

完整的計(jì)算流程如下圖所示。圖像的清晰度分?jǐn)?shù)的區(qū)間在[0,1]之間，如果分?jǐn)?shù)越大則表示圖像越清晰。我們對(duì)圖像的清晰度分?jǐn)?shù)進(jìn)行分段校驗(yàn)，圖像清晰度的評(píng)價(jià)精度達(dá)到了91%。

然而在實(shí)際應(yīng)用中，我們發(fā)現(xiàn)僅以清晰度作為圖像質(zhì)量評(píng)價(jià)的標(biāo)準(zhǔn)還是存在一些不足，因?yàn)榍逦雀叩珒?nèi)容不好看的圖像為數(shù)不少。這些圖像因?yàn)榍逦雀叨粌?yōu)先展示，但其不好看的內(nèi)容卻影響了用戶(hù)的感受，所以我們希望能夠進(jìn)一步從美學(xué)角度來(lái)對(duì)圖像質(zhì)量進(jìn)行評(píng)價(jià)。

圖像的美感度是一個(gè)非常主觀的概念，很難有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)去量化，為了能夠盡可能準(zhǔn)確地計(jì)算圖像的美感度，我們選擇深度卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)美感度評(píng)價(jià)。在實(shí)際應(yīng)用中，我們又再次遇到了同樣的問(wèn)題：缺少大量標(biāo)注了好看/不好看標(biāo)簽的訓(xùn)練圖像。由于在房型圖像分類(lèi)中，我們利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的遷移學(xué)習(xí)能力進(jìn)行特征遷移取得了成功，所以我們決定繼續(xù)沿用這種方法。

因?yàn)榫频陥D像的美感度受到內(nèi)容、色彩和構(gòu)圖等多方面的影響，所以我們不再像在房型圖像分類(lèi)中那樣只使用內(nèi)容單一的場(chǎng)景圖像數(shù)據(jù)集，而是將包羅萬(wàn)象的ImageNet數(shù)據(jù)集和場(chǎng)景圖像數(shù)據(jù)集混合進(jìn)行訓(xùn)練，力求讓盡可能多的圖像參與深度卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)，令網(wǎng)絡(luò)能夠記住更多圖像的內(nèi)容，從而進(jìn)一步提高網(wǎng)絡(luò)的特征遷移能力。同時(shí)，為了保證深度卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力，我們采用比AlexNet和VGGNet的層數(shù)更深的ResNet作為特征提取器。最后我們?yōu)樯倭繄D像標(biāo)注好看/不好看的標(biāo)簽，并訓(xùn)練隨機(jī)森林實(shí)現(xiàn)了圖像好看/不好看的二分類(lèi)模型。

我們將圖像被模型判為好看的概率作為圖像的美感度分?jǐn)?shù)，美感度分?jǐn)?shù)的區(qū)間在[0,1]之間，如果分?jǐn)?shù)越大則表示圖像越好看。由于美感度評(píng)價(jià)模型并沒(méi)有考慮清晰度因素，所以最終我們?nèi)诤蠄D像的清晰度和美感度來(lái)計(jì)算圖像質(zhì)量分?jǐn)?shù)。完整的圖像質(zhì)量評(píng)價(jià)流程如下圖所示。通過(guò)圖像質(zhì)量評(píng)價(jià)，我們使得清晰而又好看的圖像能夠被優(yōu)先展示，此舉對(duì)酒店/房型首圖的選擇、酒店圖片的排序等方面都有較好的指導(dǎo)意義。

寫(xiě)在最后

以上我們介紹了攜程四個(gè)真實(shí)的圖像數(shù)據(jù)處理需求，但機(jī)器學(xué)習(xí)對(duì)于攜程酒店圖像數(shù)據(jù)處理的價(jià)值遠(yuǎn)遠(yuǎn)不限于此。接下來(lái)我們將繼續(xù)在多個(gè)圖像應(yīng)用場(chǎng)景進(jìn)行深入挖掘，比如圖像的個(gè)性化展示、利用超分辨和解模糊技術(shù)提升圖像質(zhì)量等，力求為攜程酒店圖像數(shù)據(jù)的智能化貢獻(xiàn)一份力量。
.

四、深瞐科技如何以“車(chē)臉識(shí)別”布局AI+安防

陳瑞軍告訴雷鋒網(wǎng)：

最開(kāi)始考慮的是做人臉識(shí)別，但發(fā)現(xiàn)動(dòng)態(tài)人臉識(shí)別的精準(zhǔn)度還不夠，直到現(xiàn)在也是個(gè)需要解決的問(wèn)題。對(duì)于深瞐來(lái)講，作為一個(gè)初創(chuàng)的新公司，這個(gè)方向可能暫時(shí)沒(méi)辦法落地，所以就想做一些別人沒(méi)做過(guò)的，結(jié)合用戶(hù)的需求，所以就定了“車(chē)臉識(shí)別”這個(gè)方向。

此后，從最基礎(chǔ)的圖片識(shí)別開(kāi)始，繼而到視頻識(shí)別，再聚焦到視頻中的車(chē)輛分析，直到今天形成了以“車(chē)輛識(shí)別”為核心的軟硬件產(chǎn)品布局。總體來(lái)看，深瞐科技的產(chǎn)品體系主要包括以下幾個(gè)方面：
視頻基因譜引擎

視頻基因譜引擎是深瞐的核心產(chǎn)品，更通俗的名字叫做“視頻結(jié)構(gòu)化”。據(jù)深瞐介紹，“視頻結(jié)構(gòu)化”這一概念該由公安部第三研究所胡所長(zhǎng)提出，指的是把視頻數(shù)據(jù)中的非結(jié)構(gòu)信息轉(zhuǎn)化為結(jié)構(gòu)信息。深瞐的視頻結(jié)構(gòu)化產(chǎn)品可以高精度地自動(dòng)識(shí)別不同視角、不同光照條件、不同監(jiān)控場(chǎng)景、不同天氣狀況中的人物特征和車(chē)輛特征，便于公安機(jī)關(guān)達(dá)到后期快速檢索和布控的目的。

圖像處理引擎

深瞐科技的圖像處理引擎，主要應(yīng)用于將復(fù)雜情況下的模糊車(chē)輛、車(chē)牌圖片進(jìn)行清晰化處理，能夠做到的有去除噪點(diǎn)、去除重影模糊、圖像光照增強(qiáng)、去除雨天模糊、去除鏡面反光等。

人臉識(shí)別引擎

基于深瞐在深度學(xué)習(xí)和模式識(shí)別的研究和應(yīng)用成果，采用人臉檢測(cè)、跟蹤和結(jié)構(gòu)化對(duì)比算法模型，被應(yīng)用于公安機(jī)關(guān)的人臉比對(duì)、檢索、身份識(shí)別、商業(yè)人流大數(shù)據(jù)等方面。
.

五、圖普科技從 “鑒黃” 到視頻＆直播個(gè)性化推薦

來(lái)源于雷鋒網(wǎng)

1、幫企業(yè)省更多的錢(qián)：從 “鑒黃” 到內(nèi)容審核

企業(yè)對(duì)圖普科技的認(rèn)知更多的也是 “鑒黃”，映客、美拍、小米直播、迅雷、酷狗、唱吧等視頻和直播的頭部平臺(tái)，都是圖普的 “鑒黃服務(wù)” 的客戶(hù)。

圖普科技 CEO 李明強(qiáng)告訴雷鋒網(wǎng)新智造，其實(shí)從一開(kāi)始，圖普提供的就不只是鑒黃，政治敏感信息、暴力恐怖信息和廣告的審核都是圖普的業(yè)務(wù)，這些統(tǒng)稱(chēng)內(nèi)容審核。

從去年開(kāi)始，原來(lái)接入了鑒黃服務(wù)的客戶(hù)，開(kāi)始接受圖普的其他內(nèi)容審核服務(wù)。例如，知名的原創(chuàng)糗事笑話 UGC 內(nèi)容社區(qū)糗事百科，就面臨著流量巨大，違規(guī)廣告的人工審核成本極高的問(wèn)題。

和鑒黃的過(guò)程類(lèi)似，清除違規(guī)小廣告同樣基于大量圖片進(jìn)行學(xué)習(xí)訓(xùn)練。基于糗百的違規(guī)圖片集中為帶有違規(guī)文字的圖片以及含有推廣二維碼的小廣告圖片，圖普基于圖像識(shí)別技術(shù)及糗百的廣告圖片的特征，批量制作具有針對(duì)性的廣告圖進(jìn)行優(yōu)化訓(xùn)練，極大的提高了廣告圖片識(shí)別的精確度和準(zhǔn)確率，降低了模型迭代的周期。

糗百接入圖普定制化的廣告識(shí)別模型后，機(jī)器自動(dòng)識(shí)別糗百社區(qū)的圖片，將圖片識(shí)別判斷為正常、二維碼還是帶文字圖片，再利用 OCR 技術(shù)，檢測(cè)出帶文字圖片中的文字位置并識(shí)別，將識(shí)別出來(lái)的含有敏感、違規(guī)文字的圖片自動(dòng)過(guò)濾。大大降低了內(nèi)容審核成本。

現(xiàn)在，已經(jīng)有越來(lái)越多的企業(yè)全面接入圖普的內(nèi)容審核平臺(tái)。最近，圖普還與阿里云達(dá)成了合作，在阿里云上發(fā)布色情圖片和暴恐圖片識(shí)別服務(wù)，阿里云的客戶(hù)可以直接調(diào)用。

此前，圖普曾透露其日處理圖片數(shù)量已經(jīng)上漲到 9 億張左右，其中每萬(wàn)張圖片的處理費(fèi)用為 25 元。李明強(qiáng)告訴雷鋒網(wǎng)新智造，去年，圖普的營(yíng)收實(shí)現(xiàn)了十倍的增長(zhǎng)。
.

2、幫人賺錢(qián)：視頻大數(shù)據(jù)標(biāo)簽和個(gè)性化推薦

從一開(kāi)始，圖普就沒(méi)有將自己局限在 “鑒黃” 或內(nèi)容審核內(nèi)，去年接受雷鋒網(wǎng)采訪時(shí)，李明強(qiáng)給圖普的定位是給視頻時(shí)代建立連接。文字時(shí)代，有了計(jì)算機(jī)對(duì)文字的理解就有了內(nèi)容間的連接，同樣，圖像和視頻被計(jì)算機(jī)理解后，也能形成內(nèi)容間的連接。

圖普已經(jīng)開(kāi)始著手這方面的工作。在內(nèi)容審核之外，圖普開(kāi)始發(fā)力視頻和直播的大數(shù)據(jù)標(biāo)簽和個(gè)性化推薦服務(wù)。

大數(shù)據(jù)標(biāo)簽主要用于短視頻和直播平臺(tái)，系統(tǒng)會(huì)通過(guò)對(duì)海量的標(biāo)注過(guò)的數(shù)據(jù)的學(xué)習(xí)，根據(jù)主播的行為、場(chǎng)景、人物風(fēng)格、年齡、性別等，自動(dòng)為當(dāng)前直播建立標(biāo)簽。例如，一個(gè)喜歡做嘟嘴表情的年輕女孩，會(huì)有很大可能被打上 “萌妹子” 的標(biāo)簽。而通過(guò)對(duì)人工標(biāo)注的系統(tǒng)的學(xué)習(xí)，圖普甚至可以判斷主播的顏值。當(dāng)然，李明強(qiáng)也解釋，和有硬性指標(biāo)的鑒黃不同，“萌妹子”、“顏值” 這些標(biāo)簽很多時(shí)候帶有很大的主觀因素。

但是，對(duì)于做視頻推薦來(lái)說(shuō)，這些基本符合主流審美標(biāo)準(zhǔn)的標(biāo)簽已經(jīng)足夠了：新用戶(hù)注冊(cè)后，直播平臺(tái)可以根據(jù)該用戶(hù)選擇關(guān)注的標(biāo)簽，在他的首頁(yè)呈現(xiàn)相應(yīng)的直播；直播平臺(tái)還可以根據(jù)顏值和熱門(mén)等綜合因素，在首頁(yè)推薦直播內(nèi)容；另外，當(dāng)用戶(hù)關(guān)注的主播不在線時(shí)，系統(tǒng)還可以推薦一些和他關(guān)注的直播類(lèi)型相似的主播。

李明強(qiáng)還告訴雷鋒網(wǎng)新智造，目前還有一個(gè)產(chǎn)品在研發(fā)中，即在搜索的標(biāo)簽欄，用戶(hù)可以直接根據(jù)標(biāo)簽去搜索。例如用戶(hù)喜歡跳舞的、場(chǎng)景在 KTV 里的直播，都可以根據(jù)相應(yīng)標(biāo)簽搜索。

圖普表示，僅這個(gè)推薦功能，應(yīng)用表較好的平臺(tái)，可以使新用戶(hù)的留存增加一倍以上；對(duì)老用戶(hù)，也能使其停留時(shí)長(zhǎng)至少增加 30%-40%。對(duì)短視頻和直播平臺(tái)來(lái)說(shuō)，留存增加意味著用戶(hù)體驗(yàn)的提升，更重要的是，廣告、打賞等收入會(huì)得到顯著提升。

如果說(shuō)之前的內(nèi)容審核是節(jié)約人力成本，為企業(yè)省錢(qián)的話，視頻推薦則是在實(shí)打?qū)嵉貛推髽I(yè)賺錢(qián)。

六、利用目標(biāo)檢測(cè)制作-電子相冊(cè)

——印刷快照行業(yè)的改革

來(lái)源文章：CVaaS計(jì)算機(jī)視覺(jué)即服務(wù) ——從算法,應(yīng)用到服務(wù)的技術(shù)演變

在印刷行業(yè)或者快照行業(yè)，會(huì)陸續(xù)推出一項(xiàng)產(chǎn)品——電子相冊(cè)。

而電子相冊(cè)從技術(shù)層面主要是要解決兩個(gè)問(wèn)題，1. 照片裁剪，2. 相框的匹配。

而當(dāng)前，這些工作都是人工去完成，隨著日益增長(zhǎng)的電子圖片的需求量，制作電子相冊(cè)的人力成本越來(lái)越大，而這個(gè)時(shí)候，利用之前所述的內(nèi)容識(shí)別算法，我們可以幫助電腦自動(dòng)實(shí)現(xiàn)圖片的裁剪，因?yàn)樽詣?dòng)裁剪最大的擔(dān)憂可能是擔(dān)心把照片內(nèi)的人裁剪掉了。

另一方面，我們進(jìn)而可以結(jié)合圖片場(chǎng)景分類(lèi)和人臉識(shí)別等算法技術(shù)，使用標(biāo)簽匹配方法去自動(dòng)匹配與照片本身更搭配的相框。
算法本身我們可以做出很多技術(shù)，例如使用物體檢測(cè)我們可以實(shí)現(xiàn)內(nèi)容識(shí)別、除此之外我們還實(shí)現(xiàn)場(chǎng)景分類(lèi)、人臉的識(shí)別、顏色的分類(lèi)、人物表情等等。

而技術(shù)項(xiàng)目的組合，可以幫助我們是去實(shí)現(xiàn)更多行業(yè)內(nèi)的目前人工完成的工作，例如實(shí)現(xiàn)自動(dòng)裁剪、通過(guò)根據(jù)圖片的內(nèi)容、場(chǎng)景的分類(lèi)、人臉信息等，匹配出合適的相框作為推薦，根據(jù)不同顏色的印刷材料做不同的印刷批次排序等等。

于是，一個(gè)簡(jiǎn)單的印刷快照行業(yè)的升級(jí)，我們可以歸納為如圖：

而由圖中，我們可以看到，技術(shù)和應(yīng)用本質(zhì)上是完全可以分開(kāi)做橫向拓展的，于是我們可以看到同樣的技術(shù)可以用在不同的行業(yè)，也可以有很多不同行業(yè)特定的算法技術(shù)，如圖：

.

七、“搜你所想”之用戶(hù)搜索意圖識(shí)別——NLP

1、用戶(hù)搜索意圖的理解及其難點(diǎn)解析

分析一下理解用戶(hù)搜索詞背后的真實(shí)意圖識(shí)別存在哪些難點(diǎn)：

用戶(hù)輸入不規(guī)范，輸入方式多樣化，使用自然語(yǔ)言查詢(xún)，甚至非標(biāo)準(zhǔn)的自然語(yǔ)言。比如上面提到的“附近的特價(jià)酒店”
、“上海到揚(yáng)州高速怎么走”都是自然語(yǔ)言查詢(xún)的例子，又如 “披星 ( ) 月”、“吾嘗終日而思矣, 下面“
用戶(hù)的查詢(xún)?cè)~表現(xiàn)出多意圖，比如用戶(hù)搜索“變形金剛”，是指變形金剛的電影還是游戲？搜索“仙劍奇?zhèn)b傳”是指游戲還是游戲軟件？電影？小說(shuō)？
電商網(wǎng)站搜索“水”是指礦泉水？還是女生用的護(hù)膚水？
意圖強(qiáng)度，表現(xiàn)為不同用戶(hù)對(duì)相同的查詢(xún)有不同的需求強(qiáng)度。比如：宮保雞丁。宮保雞丁菜，菜譜需求占 90%。宮保雞丁歌曲，歌曲下載需求占
10%。又比如：荷塘月色。荷塘月色歌曲，歌曲下載需求占 70%。荷塘月色小區(qū)，房產(chǎn)需求占 20%。荷塘月色菜，菜譜需求占 10%。
意圖存在時(shí)效性變化，就是隨著時(shí)間的推移一些查詢(xún)?cè)~的意圖會(huì)發(fā)生變化。比如：華為 P10 國(guó)行版 3 月 24 日上市。3 月 21
日的查詢(xún)意圖：新聞 90%，百科 10%3 月 24 日的查詢(xún)意圖：新聞 70%，購(gòu)買(mǎi) 25%，百科 5%5 月 1 日的查詢(xún)意圖：購(gòu)買(mǎi)
50%，資訊 40%，其他 10%5 年以后的查詢(xún)意圖：百科 100% 數(shù)據(jù)冷啟動(dòng)的問(wèn)題，用戶(hù)行為數(shù)據(jù)較少時(shí)，很難準(zhǔn)確獲取用戶(hù)的搜索意圖。
沒(méi)有固定的評(píng)估的標(biāo)準(zhǔn)，CTR、MAP、MRR、nDCG
這些可以量化的指標(biāo)主要是針對(duì)搜索引擎的整體效果的，具體到用戶(hù)意圖的預(yù)測(cè)上并沒(méi)有標(biāo)準(zhǔn)的指標(biāo)。
.

2、如何識(shí)別用戶(hù)搜索意圖

一般把搜索意圖歸類(lèi)為 3 種類(lèi)型：導(dǎo)航類(lèi)、信息類(lèi)和事務(wù)類(lèi)雅虎的研究人員在此基礎(chǔ)上做了細(xì)化，將用戶(hù)搜索意圖劃分如下類(lèi)別：

導(dǎo)航類(lèi)：用戶(hù)明確的要去某個(gè)站點(diǎn)，但又不想自己輸入 URL，比如用戶(hù)搜索“新浪網(wǎng)“
信息類(lèi)：又可以細(xì)分為如下幾種子類(lèi)型,
直接型：用戶(hù)想知道關(guān)于一個(gè)話題某個(gè)方面明確的信息，比如“地球?yàn)槭裁词菆A的”、“哪些水果維生素含量高”。間接型：用戶(hù)想了解關(guān)于某個(gè)話題的任意方面的信息，比如粉絲搜索“黃曉明”。建議型：用戶(hù)希望能夠搜索到一些建議、意見(jiàn)或者某方面的指導(dǎo)，比如“如何選股票”。定位型：用戶(hù)希望了解在現(xiàn)實(shí)生活中哪里可以找到某些產(chǎn)品或服務(wù)，比如“汽車(chē)維修”。列表型：用戶(hù)希望找到一批能夠滿足需求的信息，比如“陸家嘴附近的酒店”。
資源類(lèi)：這種類(lèi)型的搜索目的是希望能夠從網(wǎng)上獲取某種資源，又可以細(xì)分為以下幾種子類(lèi)型,
下載型：希望從網(wǎng)絡(luò)某個(gè)地方下載想要的產(chǎn)品或者服務(wù)，比如“USB
驅(qū)動(dòng)下載”。娛樂(lè)型：用戶(hù)出于消遣的目的希望獲得一些有關(guān)信息，比如“益智小游戲”。交互型：用戶(hù)希望使用某個(gè)軟件或服務(wù)提供的結(jié)果，用戶(hù)希望找到一個(gè)網(wǎng)站，這個(gè)網(wǎng)站上可以直接計(jì)算房貸利息。獲取型：用戶(hù)希望獲取一種資源，這種資源的使用場(chǎng)合不限于電腦，比如“麥當(dāng)勞優(yōu)惠券”，用戶(hù)希望搜到某個(gè)產(chǎn)品的折扣券，打印后在現(xiàn)實(shí)生活中使用。
.

3、達(dá)觀搜索意圖識(shí)別引擎

達(dá)觀通過(guò) RESTAPI 接口的方式向客戶(hù)提供基于公有云和私有云的搜索服務(wù)。其中語(yǔ)義分析模塊包含了對(duì)用戶(hù) query 意圖的離線挖掘和在線預(yù)測(cè)。

達(dá)觀文本語(yǔ)義挖掘算法平臺(tái)是一個(gè)融合了多種算法的集成學(xué)習(xí)平臺(tái)，既包括經(jīng)典的 SVM、LR、RF、LDA 等算法，也包括 CNN、RNN、LSTM、BILSTM 等深度學(xué)習(xí)算法。比如在實(shí)踐中，我們嘗試將線性統(tǒng)計(jì)模型 CRF 和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) LSTM 相融合的方法，在 LSTM 的輸出端將 softmax 與 CRF 結(jié)合起來(lái)，使用 LSTM 解決提取序列的特征問(wèn)題，使用 CRF 有效利用了句子級(jí)別的標(biāo)記信息，取得了不錯(cuò)的效果。

八、算法專(zhuān)題|紡織業(yè)智能升級(jí) 高精度圖像檢索—服裝檢索算法

文章來(lái)源于極市平臺(tái)
高精度檢索算法也已經(jīng)完成了搜衣和搜布兩個(gè)產(chǎn)業(yè)級(jí)應(yīng)用，后續(xù)會(huì)擴(kuò)展更多的實(shí)際應(yīng)用，促進(jìn)紡織業(yè)和服裝業(yè)更好得智能升級(jí)。

高精度檢索算法實(shí)現(xiàn)了業(yè)界領(lǐng)先的圖像檢索系統(tǒng)，融合了清晰度，尺度，角度，遮擋，光照等多種因素，利用此系統(tǒng)上傳服裝圖片可搜到同款和相似度很高的服裝或者布料。

1、算法應(yīng)用——時(shí)尚搭配推薦

根據(jù)上傳的圖片智能推薦相關(guān)的時(shí)尚搭配。

2、紡織行業(yè)的搜衣和搜布

根據(jù)上傳的圖片檢索出同款和在顏色，款式等相似度非常高的服裝或者布料，已經(jīng)應(yīng)用于產(chǎn)業(yè)。

九、人工智能 LOGO 設(shè)計(jì)

來(lái)源于文章：真 · 人工智能 LOGO 設(shè)計(jì)，這次設(shè)計(jì)師危險(xiǎn)了…

首先輸入你想要制作 logo 的字母

選擇你覺(jué)得不錯(cuò)的 5 個(gè)圖形

選擇你喜歡的色系

寫(xiě)一句 Slogan，介紹一下你自己

選擇你喜歡的 ICON

logo 就這么生成了！

十、美工終結(jié)者「魯班智能設(shè)計(jì)平臺(tái)」是如何工作的？

來(lái)源文章《UCAN2017回顧!美工終結(jié)者「魯班智能設(shè)計(jì)平臺(tái)」是如何工作的？》

我們要讓機(jī)器學(xué)習(xí)設(shè)計(jì)，首先必須要讓機(jī)器理解感知設(shè)計(jì)是什么。以這樣一張非常常見(jiàn)的廣告為例，在機(jī)器的眼里是有一堆像素點(diǎn)組成的。如果今天以像素為單位讓機(jī)器去理解設(shè)計(jì)，對(duì)設(shè)計(jì)的可控性非常弱，所以在前期技術(shù)方案選擇中沒(méi)有走像素級(jí)生產(chǎn)，而是走向了元素級(jí)生產(chǎn)。

1、設(shè)計(jì)框架組成

四個(gè)組成部分：設(shè)計(jì)框架、元素中心、行動(dòng)器、評(píng)估網(wǎng)絡(luò)

組成一，設(shè)計(jì)框架。還是以這個(gè)廣告為例，首先通過(guò)人工標(biāo)注的方式，讓機(jī)器理解這張?jiān)O(shè)計(jì)有哪些元素組成，比如它的商品主體，花的背景，蒙版。往上一層，我們通過(guò)設(shè)計(jì)的經(jīng)驗(yàn)知識(shí)，定義一些設(shè)計(jì)的手法和風(fēng)格。手法指的是這些元素為什么可以這么構(gòu)成，這個(gè)知識(shí)在設(shè)計(jì)腦子里機(jī)器是不知道的，所以會(huì)有手法這一層做輸入。最上面這一層是風(fēng)格，當(dāng)這些元素構(gòu)成之后，它從美學(xué)或者視覺(jué)角度看是一個(gè)什么感受。讓機(jī)器知道它是用什么組成的，為什么可以這么組成，以及它組成后的效果。這個(gè)過(guò)程將一個(gè)設(shè)計(jì)問(wèn)題轉(zhuǎn)化成數(shù)據(jù)問(wèn)題，這就是設(shè)計(jì)數(shù)據(jù)化。

下一步是準(zhǔn)備設(shè)計(jì)的原始文件，比如一系列花朵和設(shè)計(jì)方法，輸入到深度學(xué)習(xí)系列網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)有一個(gè)很大特點(diǎn)：具備一定記憶功能。因?yàn)樵O(shè)計(jì)是個(gè)步驟很復(fù)雜的過(guò)程，經(jīng)常有好幾十步才能完成一個(gè)設(shè)計(jì)。

經(jīng)過(guò)這層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)之后，我們會(huì)得到一個(gè)設(shè)計(jì)框架。從技術(shù)上理解，它是一堆空間特征和視覺(jué)特征構(gòu)成的模型。設(shè)計(jì)師的視角來(lái)理解的話，它相當(dāng)于設(shè)計(jì)師腦子里面在做一組設(shè)計(jì)之前大概的框架印象，比如今天你接到一個(gè)任務(wù)要做一個(gè)花朵風(fēng)格，思考這個(gè)設(shè)計(jì)大概會(huì)怎么做，然后從一堆文件里提取出了特征模型出來(lái)。

組成二，元素中心。因?yàn)槲覀冏龅氖窃丶?jí)生成，所以必須準(zhǔn)備一個(gè)元素的庫(kù)。我們會(huì)通過(guò)收集一些版權(quán)圖庫(kù)，以及自己造設(shè)計(jì)元素的方式，輸入到一個(gè)元素的分類(lèi)器。這個(gè)分類(lèi)器會(huì)把這些元素分布到各個(gè)類(lèi)型里，比如背景、主體、修飾，也會(huì)完成圖片庫(kù)的提取。

組成三，行動(dòng)器。接下來(lái)，就是設(shè)計(jì)的具體過(guò)程。比如今天我們接到一個(gè)設(shè)計(jì)任務(wù)，要為這樣一件衣服設(shè)計(jì)一個(gè)花朵風(fēng)格的廣告。這時(shí)候會(huì)有一個(gè)行動(dòng)器，負(fù)責(zé)把前面準(zhǔn)備好的底料放到設(shè)計(jì)框架里。這個(gè)過(guò)程和下圍棋很像，左邊是棋盤(pán)，右邊是下圍棋的棋子。行動(dòng)器就是把元素放到棋盤(pán)里，這是整個(gè)行動(dòng)器的生成原理。

它很像設(shè)計(jì)師實(shí)際在做設(shè)計(jì)的過(guò)程，如設(shè)計(jì)師要做一個(gè)花朵的時(shí)候，也在軟件里面會(huì)不斷去調(diào)每個(gè)位置、每個(gè)像素、每個(gè)角度。同時(shí)，整個(gè)過(guò)程也是一個(gè)強(qiáng)化學(xué)習(xí)的過(guò)程，行動(dòng)器會(huì)在不斷試錯(cuò)中更智能。

組成四，評(píng)估網(wǎng)絡(luò)。設(shè)計(jì)成品出來(lái)之后，我們要告訴機(jī)器人，從設(shè)計(jì)的角度是好還是不好。我們有一個(gè)設(shè)計(jì)評(píng)估網(wǎng)絡(luò)，最終實(shí)現(xiàn)的效果就是給它輸入任何一個(gè)設(shè)計(jì)成品，它能打個(gè)分。技術(shù)原理是，我們通過(guò)人工輸入大量歷史上投放過(guò)的一些設(shè)計(jì)圖評(píng)分，它從這里訓(xùn)練出一個(gè)打分的模型出來(lái)。同時(shí)，專(zhuān)家也會(huì)人工干預(yù)打分，完成雙向反饋。

.

2、視覺(jué)設(shè)計(jì)的四個(gè)層次

第二層，場(chǎng)景表達(dá)。今天你給它一個(gè)東西，它能理解，能表達(dá)對(duì)。比如今天你根據(jù)情人節(jié)，這些品牌能夠找到一種合適的設(shè)計(jì)手段，去表達(dá)出情人節(jié)的溫馨，這種手繪的方式會(huì)稍微難一點(diǎn)，也就是我們前面講到的語(yǔ)義這一層。

第三層，創(chuàng)意洞見(jiàn)。它能夠有一些啟發(fā)性的東西出來(lái)。天貓品牌里面經(jīng)常有把貓頭和品牌創(chuàng)意做聯(lián)合的事情，這是機(jī)器不可能做到的事情，或者在我有生之年沒(méi)有指望它能做到的。

最后一層，創(chuàng)造趨勢(shì)。這一般是設(shè)計(jì)大師做的事情。它能定義明年、未來(lái)幾年的設(shè)計(jì)趨勢(shì)走向，這是更高的設(shè)計(jì)能力。比如今年“三八”女王節(jié)，天貓用了一種全新的設(shè)計(jì)手段，用這種很輕的質(zhì)感、很細(xì)膩的方式來(lái)表達(dá)商品。它能夠代表一個(gè)新的趨勢(shì)和未來(lái)，代表一個(gè)新的手段，這件事情一定是人來(lái)做的。

十一、修正老電影或電視劇的畫(huà)面

來(lái)源AI100文章《他在Google Brain實(shí)習(xí)了一年，總結(jié)出這么些心得》

1、超分辨率的像素遞歸

放大照片圖像時(shí)把相關(guān)像素所構(gòu)成的合理圖形呈現(xiàn)出來(lái)，這還是有可能做到的。
PixelCNN，它也比較有戲。（等我們啟動(dòng)之后，用GAN解決來(lái)超分辨率問(wèn)題的SRGAN就發(fā)布了，它生成的結(jié)果非常好。）
PixelCNN是一種奇怪的反直覺(jué)模型。它將圖像生成問(wèn)題重寫(xiě)成每次選擇一個(gè)像素序列。像LSTM（長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)）這樣的門(mén)控制遞歸網(wǎng)絡(luò)在序列生成方面是非常成功的，它通常會(huì)用在單詞或字符上。PixelCNN巧妙地構(gòu)建出一個(gè)卷積神經(jīng)網(wǎng)絡(luò)（CNN），它能基于先前的像素的概率分布來(lái)精確生成像素。這是RNN和CNN的混合功能。

意外的是，PixelCNN所生成的圖像看起來(lái)非常自然。不像艱難平衡兩種目標(biāo)的對(duì)抗網(wǎng)絡(luò)，該模型的目標(biāo)只有一個(gè)，因而面對(duì)超參數(shù)的變化，它有更好的穩(wěn)健性。也就是說(shuō)，它更易于優(yōu)化。
如何定量評(píng)估結(jié)果，則是另外一個(gè)難題。如何才能證明我們的圖像比基準(zhǔn)模型好？衡量超分辨率質(zhì)量的典型方法，是對(duì)比強(qiáng)化圖像與原始圖像的對(duì)應(yīng)像素點(diǎn)之間的距離（峰值信噪比，PSNR）。雖說(shuō)本模型輸出的臉部圖像在質(zhì)量上明顯更好，但在像素對(duì)比上，平均看來(lái)它們還不如基準(zhǔn)模型所輸出的模糊圖像。我們嘗試用PixelCNN本身的相似度測(cè)量來(lái)證明我們的樣本比基準(zhǔn)版本有著更高的概率值，但同樣失敗了。最后，我們把這項(xiàng)任務(wù)眾包給人類(lèi)評(píng)估員——詢(xún)問(wèn)他們哪些圖像看上去更真實(shí)。這倒奏效了。
.

2、PixColor: 關(guān)于著色的嘗試

Slim的創(chuàng)造者Sergio Guadarrama一直在嘗試給圖像著色。他跟我說(shuō)過(guò)一個(gè)試驗(yàn)：用分量接口（該接口中圖像的灰度、顏色相互分離）獲取一張224×224×3的圖像，將其顏色通道降至28×28×2的超低分辨率，然后用雙線性插值法再把顏色通道放大，所得圖像與顏色分辨率很高的原始圖像相比幾乎沒(méi)有差別。

把問(wèn)題變成僅預(yù)測(cè)低分辨率顏色，我們就可以簡(jiǎn)化著色問(wèn)題。我原本已準(zhǔn)備好徹底放棄PixelCNN了，因?yàn)樗@然無(wú)法放大小圖像，但用來(lái)生成28×28×2的圖像還是很可行的。通過(guò)將顏色數(shù)值簡(jiǎn)化為32個(gè)數(shù)字而非256，我們進(jìn)一步簡(jiǎn)化了著色問(wèn)題。

十二：微博：TensorFlow在微博的大規(guī)模應(yīng)用與實(shí)踐

來(lái)源：機(jī)器學(xué)習(xí)與微博：TensorFlow在微博的大規(guī)模應(yīng)用與實(shí)踐
圖像質(zhì)量也是用戶(hù)體驗(yàn)的基本要求。
用戶(hù)可以容忍不感興趣的圖片，但很難容雜亂的圖像。
例如左邊的美女圖，看起來(lái)賞心悅目，手機(jī)上刷過(guò)，即使不停下細(xì)看，也不會(huì)反感。
右邊的圖片，里面也是美女，但加上文字之后，立刻變得雜亂，版式與酒店里的小卡片相仿。很可能被認(rèn)定為騙子。
明星臉識(shí)別是微博的特色，有海量的明星圖片，也有巨大的識(shí)別需求。
明星臉識(shí)別有特別的困難：常用人臉識(shí)別研究所用的照片表情、造型較少，不同人之間的差別較大。而明星表情豐富，造型多變，無(wú)論男女都化妝！不少人妝容近似，有些整容臉連人腦都傻傻分不清，計(jì)算機(jī)就更難分清了。

其他NLP相關(guān)的文章：

1、阿里自然語(yǔ)言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考
2、電商客服自動(dòng)問(wèn)答系統(tǒng)的商品意圖識(shí)別
3、專(zhuān)訪玻森數(shù)據(jù)：這款基于NLP技術(shù)的企業(yè)情報(bào)系統(tǒng)，商業(yè)化現(xiàn)狀是這樣的

總結(jié)

以上是生活随笔為你收集整理的创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例（Computer Vision as a Service）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。