机器学习和图像识别是怎样彻底改变搜索的?
機(jī)器學(xué)習(xí)和圖像識(shí)別是怎樣徹底改變搜索的?
簡(jiǎn)介
文本內(nèi)容一般很好搜索,但有很多信息是以其他形式存在的。語(yǔ)音識(shí)別將音頻-以及視頻配樂(lè)-轉(zhuǎn)換成可以索引和搜索的文本。但如果是視頻本身,或其它的圖片內(nèi)容呢?
如果不僅僅是在頁(yè)面上尋找指出圖片相關(guān)性的文字或是說(shuō)明,那么在網(wǎng)絡(luò)上搜索圖片將準(zhǔn)確很多。幸好有使用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的機(jī)器學(xué)習(xí)技術(shù),使得這個(gè)設(shè)想成為可能。
標(biāo)題之爭(zhēng)
微軟和Facebook的研究人員創(chuàng)建了一個(gè)含有人工標(biāo)記250萬(wàn)個(gè)物品、超過(guò)300,000張圖片的大規(guī)模數(shù)據(jù)庫(kù)(被稱(chēng)為Common Objects in Context),他們聲稱(chēng)四歲孩子都可以識(shí)別出這些對(duì)象。所以微軟的一批機(jī)器學(xué)習(xí)方面的研究人員決心看看他們的系統(tǒng)對(duì)同樣的圖片能處理到何種程度——不僅僅是識(shí)別它們,還要把它們分離為不同的對(duì)象,為每個(gè)對(duì)象命名并寫(xiě)下能描述整張圖片的標(biāo)題。
為了評(píng)測(cè)結(jié)果,他們請(qǐng)一部分人寫(xiě)下個(gè)人認(rèn)為的圖片標(biāo)題,再請(qǐng)另外一部分人比較圖片的兩個(gè)標(biāo)題并選出他們認(rèn)為比較適合的標(biāo)題。
“這是真正能檢測(cè)質(zhì)量的辦法,”微軟研究院的著名科學(xué)家約翰·普萊特(John Platt)說(shuō)道,“到底人們對(duì)這些標(biāo)題是什么看法呢?23%的標(biāo)題被認(rèn)為和人總結(jié)寫(xiě)下的標(biāo)題水平相當(dāng)。也就是說(shuō)大概有四分之一的時(shí)候這臺(tái)機(jī)器能夠達(dá)到人的水平。”
部分問(wèn)題是視覺(jué)識(shí)別器。有時(shí)它可能會(huì)把貓識(shí)別成狗,或是認(rèn)為長(zhǎng)毛的都是貓,又或是把人指著雕塑的圖片識(shí)別為包含足球。這是一個(gè)小團(tuán)隊(duì)歷經(jīng)夏天的四個(gè)月就能達(dá)到的水平,而且這是他們第一次標(biāo)記這么大規(guī)模的數(shù)據(jù)集來(lái)訓(xùn)練和測(cè)試。
“我們可以做得更好,”普萊特自信地說(shuō)道。
機(jī)器優(yōu)勢(shì)
機(jī)器學(xué)習(xí)在辨別只包含一種事物的簡(jiǎn)單圖片上已經(jīng)做的相當(dāng)不錯(cuò)了。“這個(gè)系統(tǒng)已經(jīng)被賦予一個(gè)未經(jīng)訓(xùn)練的人的水平了,”普萊特解釋道。這是針對(duì)一個(gè)稱(chēng)作ImageNet的圖片集的測(cè)試,圖片集中的圖片被標(biāo)記為2200個(gè)不同分類(lèi)。
“那包含了一些未經(jīng)訓(xùn)練的人不知道的細(xì)微區(qū)別,”他宣稱(chēng)。“像彭布魯克威爾士柯基犬和卡迪根威爾士柯基犬一樣——其中一個(gè)的尾巴稍長(zhǎng)。人可以研究很多小狗的特征然后學(xué)會(huì)了解之前并不知道的一些不同之處。如果是你非常熟悉的物體,識(shí)別它們會(huì)很簡(jiǎn)單,但當(dāng)2200個(gè)陌生物體放在你面前時(shí),你可能會(huì)完全混淆。”人在ImageNet測(cè)試中會(huì)有5%的錯(cuò)誤率,而機(jī)器學(xué)習(xí)系統(tǒng)則會(huì)降至6%。
這意味機(jī)器學(xué)習(xí)系統(tǒng)在識(shí)別事物如狗的種類(lèi)或是有毒植物方面可能比普通人的能力更好。另外一個(gè)叫作Project Adam的識(shí)別系統(tǒng)也正嘗試在手機(jī)端做到這些,就是MSR的負(fù)責(zé)人Peter Lee今年早些時(shí)候炫耀的那個(gè)。
Adam項(xiàng)目
Project Adam專(zhuān)注于研究是否能夠使用分布式系統(tǒng)而不是配置較高的單機(jī)來(lái)提高圖片識(shí)別的速度(所以它就可以運(yùn)行在云端然后在你的手機(jī)端工作)。然而,它的訓(xùn)練集合中只有僅包含一種物品的圖片。
“他們會(huì)問(wèn)‘圖片里的是什么東西?’”普萊特解釋道,“我們將圖片分解為小方格然后去估測(cè)這個(gè)圖片的碎片,檢測(cè)其共同內(nèi)容。圖片中物體是什么?這些都是名詞。他們?cè)诟墒裁?#xff1f;這些都是如飛行和看之類(lèi)的動(dòng)詞。”
“然后還有一些鄰接和上下關(guān)系,以及物品的屬性,一些形容詞如紅的,紫的,漂亮的。識(shí)別完整張圖片后自然就是將一張圖片中的多個(gè)物品放在一起然后提出一個(gè)具體的描述。你可以看著圖片能檢測(cè)出一些動(dòng)詞和形容詞,這是非常有趣的一件事。”
強(qiáng)大的搜索
讓圖片更加有用
很多自動(dòng)給圖片寫(xiě)標(biāo)題做標(biāo)記的方法將會(huì)派上用場(chǎng),特別在當(dāng)你是一個(gè)主動(dòng)去圖片庫(kù)或新聞網(wǎng)站尋找正確圖片的敏銳攝影師的時(shí)候。
“想到整理圖片很自然就想到了用圖片中的人物索引該圖片,”普萊特指出。有了更強(qiáng)大的標(biāo)簽技術(shù),就能夠搜索圖片中的對(duì)象(比如貓的圖片)或是動(dòng)作(貓?jiān)诤人膱D片)又或是圖片中不同對(duì)象之間的關(guān)系。“如果我只記得我有一張圖片,其中有一個(gè)男孩和一匹馬,我希望能為它建立索引——既有男孩和馬,又要有他們的關(guān)系——然后將他們放到一個(gè)索引中以便我以后能搜索到他們。”
如果你正在匯總一個(gè)產(chǎn)品目錄,有一個(gè)能自動(dòng)產(chǎn)生的標(biāo)題將是非常有用的,但普萊特沒(méi)有發(fā)現(xiàn)太多這種特定需求。在微軟,不同的產(chǎn)品團(tuán)隊(duì)對(duì)此都很有興趣,他說(shuō),但不是創(chuàng)建標(biāo)題,他希望的是“這些板塊能被不同產(chǎn)品復(fù)用;在不同的場(chǎng)景下,這些代碼都能運(yùn)行。”
檢索相關(guān)
處理視頻意味著需要加速識(shí)別過(guò)程,并研究出如何發(fā)現(xiàn)感興趣的地方(因?yàn)椴⒉皇敲恳粠加杏?#xff09;。但這里重要的不僅僅是速度,還有那些潛存于復(fù)雜圖片自動(dòng)標(biāo)題技術(shù)之下的理解方式,它將改變搜索。
這里圖片識(shí)別使用的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)系統(tǒng)是相同的技術(shù),都徹底變革了近幾年的語(yǔ)音識(shí)別和翻譯技術(shù)(促使微軟推出Skype翻譯)。“每次你對(duì)著手機(jī)上的必應(yīng)搜索引擎說(shuō)話就是在和一個(gè)深度網(wǎng)絡(luò)說(shuō)話,”普萊特表示。微軟的視頻搜索系統(tǒng),MAVIS,使用的就是深度網(wǎng)絡(luò)。
下一步就是要做到不只能識(shí)別,還能理解事物實(shí)際代表的意義。
他還表示,他們的目標(biāo)是“真正理解對(duì)象的語(yǔ)義,這里的對(duì)象包括視頻、語(yǔ)音、圖片、文本。而不是停留在語(yǔ)言或顏色的表面形式上。”
總結(jié)
以上是生活随笔為你收集整理的机器学习和图像识别是怎样彻底改变搜索的?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如何把握创业时机:当前的痛点也许是巨大的
- 下一篇: 快的打车联合创始人兼技术副总裁闻诚:CT