AI_图像标注:图像标注简介
一. Image Caption任務(wù)簡(jiǎn)介
1.傳統(tǒng)的計(jì)算機(jī)視覺(jué)任務(wù)
深度學(xué)習(xí)在圖像領(lǐng)域取得了爆炸式的發(fā)展,這些任務(wù)的正確率直逼人類(lèi)水平,可是:
2.計(jì)算機(jī)已經(jīng)理解圖像了嗎?
?
這是faster-rcnn的一個(gè)目標(biāo)檢測(cè)結(jié)果,看似結(jié)果非常好,可是當(dāng)我們把這張照片輸入到一個(gè)計(jì)算機(jī)里時(shí),它能告訴我們的只是:“這是馬,這是人,這是狗”,這遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到計(jì)算機(jī)已經(jīng)理解圖像這一個(gè)判斷。我們希望的是,當(dāng)輸入這一張照片時(shí),計(jì)算機(jī)能夠告訴我們:“一個(gè)人騎在一匹馬上,他的狗坐在馬前面”。我們甚至希望計(jì)算機(jī)在看到這幅圖片后能夠說(shuō)出下面這段話:“在一個(gè)陽(yáng)光明媚的下午,一個(gè)穿著藍(lán)色衣服的年輕小伙坐在一匹健壯的馬上,他的愛(ài)犬坐在馬的前面,他們相互對(duì)望著,看起來(lái)非常開(kāi)心”。這樣才能勉強(qiáng)說(shuō)計(jì)算機(jī)已經(jīng)理解了圖像。
3.Image Caption涵義
(圖像標(biāo)注 圖像字幕 看圖說(shuō)話 圖像理解)
本質(zhì)是視覺(jué)到語(yǔ)言(Visual-to-Language,即V2L)的問(wèn)題
這張照片是一年級(jí)看圖說(shuō)話的作業(yè),上面的描述:”圖上是什么時(shí)候?都有誰(shuí)?在哪里?在干什么?在說(shuō)什么?“ 正好對(duì)應(yīng)了image caption任務(wù)的要求:根據(jù)圖像給出能夠描述圖像內(nèi)容的自然語(yǔ)言語(yǔ)句。這對(duì)人類(lèi)來(lái)說(shuō)實(shí)在是一個(gè)小兒科的任務(wù),但是在計(jì)算機(jī)視覺(jué)領(lǐng)域卻不能不說(shuō)是一個(gè)挑戰(zhàn)。因?yàn)檫@需要在兩種不同形式的信息(圖像信息到文本信息)之間進(jìn)行“翻譯”。
4.Image Caption 當(dāng)前水平
和人類(lèi)水平描述差距仍然明顯!
關(guān)于image caption這個(gè)topic階段性文章
?Explain Images with Multi modal Recurrent?Neural Networks, Mao et al.
?Deep?Visual-Semantic Alignments for Generating Image Descriptions,Karpathy?and?Fei-Fei
?Show?and Tell: A Neural Image Caption Generator,Vinyalset al.
?Long-term?Recurrent Convolutional Networks for Visual Recognition and Description,Donahue et al.
?Learning a Recurrent Visual?Representation for Image Caption Generation, Chen and?Zitnick
5.Image Caption 實(shí)際應(yīng)用
圖像標(biāo)注問(wèn)題如果能夠得到很好的解決,那么價(jià)值是顯而易見(jiàn)的
圖像檢索(更細(xì)粒度的搜索)
視力受損人士的生活輔助(計(jì)算機(jī)成為另一雙眼睛)
6.Image Caption數(shù)據(jù)集
1. Microsoft COCO Caption數(shù)據(jù)集
? 原COCO數(shù)據(jù)集中約330,000張圖像,人工地為每張圖像都生成了至少5句標(biāo)注,標(biāo)注語(yǔ)句總共超過(guò)了約150萬(wàn)句?
? MS COCO C5/C40
2. Flickr8K和30K
? 圖像數(shù)據(jù)來(lái)源是雅虎的相冊(cè)網(wǎng)站Flickr?
? 數(shù)據(jù)集中圖像的數(shù)量分別是8,000張和30,000張
3. PASCAL 1K
? 大名鼎鼎的PASCAL VOC challenge圖像數(shù)據(jù)集的一個(gè)子集
? 20個(gè)分類(lèi),隨機(jī)選出了50張圖像,共1,000張圖像?
7.Image Caption評(píng)價(jià)標(biāo)準(zhǔn)
BLEU
? 圖像標(biāo)注結(jié)果評(píng)價(jià)中使用最廣泛,設(shè)計(jì)初衷并不是針對(duì)圖像標(biāo)注問(wèn)題,而是針對(duì)機(jī)器翻譯問(wèn)題?
? 分析待評(píng)價(jià)的翻譯語(yǔ)句和參考翻譯語(yǔ)句之間n元組的相關(guān)性
?
?
總結(jié)
以上是生活随笔為你收集整理的AI_图像标注:图像标注简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 谷歌浏览器不能使用opener属性的问题
- 下一篇: oracle utl file putf