日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

让机器学会看图说话:Image Caption任务最新综述

發(fā)布時間:2024/10/8 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 让机器学会看图说话:Image Caption任务最新综述 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者?|?張一帆

學(xué)校?|?華南理工大學(xué)本科生

研究方向?|?CV,Causality

Abstract

聯(lián)系視覺和語言在通用人工智能中起著至關(guān)重要的作用。因此近幾年來大量的工作致力于圖像字幕(image captioning),這項任務(wù)簡而言之就是“使用語法和語義正確的語言描述圖像”。

從 2015 年開始這項任務(wù)的 pipeline 就被分為了兩部分,第一階段即對圖像特征進(jìn)行編碼,第二階段生成語句。這兩年來,隨著對物體對象區(qū)域,屬性,以及物體之間的關(guān)系的開發(fā),和對多模態(tài)連接,全注意力方法以及像 BERT 一樣的早期融合方法的引入,這兩個階段都得到了極大的發(fā)展。雖然性能是提升了,但是圖像字幕依然沒有得到一個“最終答案”。

這篇工作旨在提供一個綜合性的概述以及對現(xiàn)有方法的分門別類,它的分類方式大概是根據(jù)如下方面的不同:1. 視覺編碼;2. 文本生成;3. 訓(xùn)練策略;4. 數(shù)據(jù)集;5. 評測指標(biāo)。

文中定量地比較了圖像字幕很多模型,以此來找出最有影響力的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略方面的技術(shù)革新。除此之外,文中還討論了大量的變體方法和他們面臨的挑戰(zhàn)。這項工作的最終目標(biāo)是作為一個工具來理解現(xiàn)有的最先進(jìn)的技術(shù),并強(qiáng)調(diào)計算機(jī)視覺和自然語言處理可以找到最佳協(xié)同的未來研究方向。

論文標(biāo)題:

From Show to Tell: A Survey on Image Captioning

論文鏈接:

https://arxiv.org/abs/2107.06912

Introduction

圖像字幕即使用自然語言描述圖像,使用一個圖像理解模塊和一個自然語言生成模塊。神經(jīng)科學(xué)在近幾年里闡述了人類語言和視覺之間的聯(lián)系。同樣的,在 AI 領(lǐng)域能夠處理圖像和生成語言的架構(gòu)的設(shè)計是一個非常新的問題。這些研究工作的目標(biāo)是找到最有效的 pipeline 來處理輸入圖像,表示其內(nèi)容,并在保持語言流暢性的同時產(chǎn)生視覺元素和文本元素之間的聯(lián)系,將其轉(zhuǎn)換為單詞序列。

在其標(biāo)準(zhǔn)配置中,圖像字幕是一個圖像到序列的問題,其輸入是像素。在視覺編碼步驟中,這些特征被編碼為一個或多個特征向量,為第二個生成步驟(稱為語言模型)準(zhǔn)備輸入。這就產(chǎn)生了一個根據(jù)給定詞匯解碼的單詞或子單詞序列。

在這幾年里,研究團(tuán)體對模型進(jìn)行了很大的改進(jìn):從第一個基于深度學(xué)習(xí)的建議,采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs),通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取全局圖像描述,之后還引進(jìn)了注意力和強(qiáng)化學(xué)習(xí)等方法。直到最近 transformer 和注意力機(jī)制取得了巨大突破,類似于 BERT 這種 single-stream 的方法開始興起。

與此同時,計算機(jī)視覺和自然語言處理(NLP)社區(qū)已經(jīng)解決了建立適當(dāng)?shù)脑u估協(xié)議和評估指標(biāo)的挑戰(zhàn),以將結(jié)果與人工生成的 ground truth 進(jìn)行比較。除此之外,研究人員還研究了幾個領(lǐng)域特定的場景和任務(wù)的變體。然而,已經(jīng)取得的成果還遠(yuǎn)未確定一個最優(yōu)的解決方案。

根據(jù)字幕模型固有的兩階段性質(zhì),本文開發(fā)了視覺編碼和語言建模方法的分類,重點關(guān)注它們的關(guān)鍵突破和局限性。本文還關(guān)注了過去幾年文獻(xiàn)中遵循的訓(xùn)練策略,從交叉熵?fù)p失到強(qiáng)化學(xué)習(xí),以及預(yù)訓(xùn)練范式獲得的最新進(jìn)展。此外,本文回顧了用于研究圖像字幕的主要數(shù)據(jù)集,從領(lǐng)域通用的基準(zhǔn)測試到收集的領(lǐng)域特定的數(shù)據(jù)集,以調(diào)查問題的某些特殊方面,并分析用于性能評估的標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)指標(biāo),這些指標(biāo)捕獲了產(chǎn)生的標(biāo)題質(zhì)量的不同方面。

這項工作的另一個貢獻(xiàn)是對主要圖像字幕方法的定量比較,其中考慮了標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)指標(biāo),并討論了它們之間的關(guān)系,揭示了最重要的模型的性能、差異和特征。最后,本文概述了該問題的許多變體,并討論了一些開放的挑戰(zhàn)和未來的方向。

Conclusion and Future Direction

圖像字幕是機(jī)器智能面臨的一個復(fù)雜挑戰(zhàn),因為它包含了了計算機(jī)視覺和自然語言生成兩方面的困難。雖然大多數(shù)方法保持了圖像編碼和語言建模步驟的分離,但類似 BERT 架構(gòu)的 single-stream 趨勢需要對可視化數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行早期融合。這種策略可以讓你取得出色的表現(xiàn),但通常與大規(guī)模的預(yù)訓(xùn)練相結(jié)合。因此,添加了預(yù)處理的標(biāo)準(zhǔn) img2seq 方法能否達(dá)到類似的效果是值得研究的。盡管如此,基于經(jīng)典兩階段范式的方法更易于解釋,無論是對模型設(shè)計者還是最終用戶。

文獻(xiàn)綜述和實驗比較表明,在過去的幾年中圖像字幕的性能有所改善。然而,由于準(zhǔn)確性、穩(wěn)健性和泛化結(jié)果遠(yuǎn)不能令人滿意,許多開放的挑戰(zhàn)仍然存在。同樣,忠誠、自然和多樣性的要求也沒有得到滿足。在這方面,由于圖像字幕的構(gòu)思是為了改善人機(jī)交互,將用戶納入循環(huán)這種思路是有希望的。基于以上分析,我們可以追蹤到圖像字幕領(lǐng)域的三個主要發(fā)展方向,下面將進(jìn)行討論。

3.1 Procedural and architectural changes

訓(xùn)練方式和模型架構(gòu)的轉(zhuǎn)換是提升性能的關(guān)鍵:

  • Large-scale vision-and-language pre-training: 由于圖像字幕模型對數(shù)據(jù)的需求很大,在標(biāo)準(zhǔn)數(shù)據(jù)集的訓(xùn)練可能提升有限。因此,在大范圍的視覺和語言數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,雖然現(xiàn)在沒有得到很好的管理,但它也是提高字幕能力的可靠策略。此外,可以設(shè)計新的預(yù)訓(xùn)練策略,以自監(jiān)督的方式利用現(xiàn)有的數(shù)據(jù)。通過重建輸入預(yù)測相關(guān)性,最終提高下游任務(wù)比如圖像字幕的性能。

  • Novel ?architectures ?and ?training ?strategies:目前,圖像字幕的最佳執(zhí)行范式是自底向上范式,它利用對象檢測器進(jìn)行圖像區(qū)域編碼。盡管如此,研究工作探索了一種完全基于 transformer 的范例,其中圖像 patch 直接應(yīng)用于變 transformer 編碼器,如最近流行的 ViT:Vision Transformer。雖然這第一次嘗試的性能低于大多數(shù)以前的工作,但它表明這可能是一個有價值的未來方向。其他有前途的方向包括探索 Neural Architecture Search,以及將蒸餾機(jī)制應(yīng)用于自回歸模型。最后,一個有希望的探索方向是培訓(xùn)新目標(biāo)函數(shù)的設(shè)計。特別是當(dāng)強(qiáng)化學(xué)習(xí)進(jìn)行時,可以考慮基于人類反饋或互動的獎勵。

  • 3.2 Focus on the open challenges

    對不同領(lǐng)域的泛化和生成字幕的多樣性和自然性的增加是圖像字幕的主要挑戰(zhàn)之一。

  • Generalizing to different domains:圖像字幕模型通常是在數(shù)據(jù)集上訓(xùn)練的,這些數(shù)據(jù)集不能覆蓋所有可能的現(xiàn)實場景,因此不能很好地概括到不同的上下文。例如上圖中,有一些定性的結(jié)果存在明顯的錯誤,這表明在處理罕見的視覺概念時存在困難。在這個方面仍需要進(jìn)一步的研究努力,構(gòu)建一個一個強(qiáng)大的視覺概念表示。此外,圖像字幕變體的發(fā)展,如新奇物體字幕或可控制字幕可以幫助解決這個懸而未決的問題。這將是在特定應(yīng)用中采用圖像說明的戰(zhàn)略,如醫(yī)藥、工業(yè)產(chǎn)品描述或文化遺產(chǎn)。

  • Diversity and natural generation:圖像字幕模型應(yīng)該產(chǎn)生具有三個屬性的描述:語義忠實度,即反映實際的視覺內(nèi)容;自然,即讀起來就像是一個人寫的一樣;多樣性,表達(dá)不同人會描述的明顯不同的概念。然而,大多數(shù)現(xiàn)有的方法只強(qiáng)調(diào)語義忠實度。雖然本文討論了一些工作嘗試使用對比學(xué)習(xí)、變分自動編碼器、詞性標(biāo)注來促進(jìn)自然和多樣性,但還需要進(jìn)一步研究來設(shè)計適合現(xiàn)實應(yīng)用的模型。

  • 3.3 Design of trustworthy AI solutions

    由于其在人機(jī)交互中的潛力,圖像字幕需要的解決方案是透明的和最終用戶可接受的,需要的框架可以產(chǎn)生可解釋的結(jié)果,克服偏見,能夠得到充分的評估。

  • The ?need ?for ?interpretability:人們可以自然地給出解釋,強(qiáng)調(diào)證據(jù),對他們的預(yù)測表達(dá)信心,也認(rèn)識到在得出結(jié)論之前需要更多的信息。相反,現(xiàn)有的圖像字幕算法缺乏可靠和可解釋的方法來找到產(chǎn)生特定輸出的原因。在這方面,一種可能的策略可以基于注意力的可視化,它松散地耦合單詞預(yù)測和圖像區(qū)域,表明相關(guān)性。然而,目前還需要進(jìn)一步的研究來闡明模型的可解釋性,重點是這些模型如何處理來自不同模態(tài)或新概念的數(shù)據(jù)。

  • Tackling ? datasets ? bias:由于大多數(shù)視覺和語言數(shù)據(jù)集共享共同的模式和規(guī)律,記錄這些模式為算法提供了一條利用虛假相關(guān)性的捷徑。因此,數(shù)據(jù)集因為人類文本注釋或過度表示的視覺概念而產(chǎn)生的有偏差(bias)是任何視覺和語言任務(wù)的主要問題。這一主題已經(jīng)在語言生成的背景下進(jìn)行了研究,但在圖像字幕中更具有挑戰(zhàn)性,在圖像字幕中必須考慮視覺和文本數(shù)據(jù)的聯(lián)合歧義。從這個意義上說,應(yīng)該對圖像-描述對的公平性和有偏性進(jìn)行研究。在這方面,兩個可能的方向需要設(shè)計特定的評估指標(biāo)和關(guān)注對虛假相關(guān)性的魯棒性。

  • The role of evaluation:盡管在基準(zhǔn)數(shù)據(jù)集上具有良好的性能,但在自然場景下(數(shù)據(jù)集更自然更復(fù)雜),最先進(jìn)的方法還不令人滿意。一個可能的原因是所使用的評價程序及其對目前采用的訓(xùn)練方法的影響。圖像字幕算法被訓(xùn)練成模仿真實句子,這與理解視覺內(nèi)容并將其表達(dá)為文本是不同的任務(wù)。因此,設(shè)計合適的、可重復(fù)的評估方案和有洞察力的指標(biāo)在圖像字幕中仍然是一個公開的挑戰(zhàn)。此外,由于該任務(wù)目前被定義為有監(jiān)督的任務(wù),因此受到訓(xùn)練數(shù)據(jù)的強(qiáng)烈影響,開發(fā)不需要參考字幕來評估表現(xiàn)的分?jǐn)?shù)將是轉(zhuǎn)向無監(jiān)督圖像字幕的關(guān)鍵。

  • 特別鳴謝

    感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

    更多閱讀

    #投 稿?通 道#

    ?讓你的文字被更多人看到?

    如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

    總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

    PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析科研心得競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。

    ?????稿件基本要求:

    ? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

    ? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

    ? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

    ?????投稿通道:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

    ? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

    △長按添加PaperWeekly小編

    ????

    現(xiàn)在,在「知乎」也能找到我們了

    進(jìn)入知乎首頁搜索「PaperWeekly」

    點擊「關(guān)注」訂閱我們的專欄吧

    ·

    總結(jié)

    以上是生活随笔為你收集整理的让机器学会看图说话:Image Caption任务最新综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。