论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型
筆記整理: 譚亦鳴,東南大學博士生
來源:NAACL’21
鏈接:https://aclanthology.org/2021.naacl-main.153.pdf
論文提出了一種新的知識圖譜問答數(shù)據(jù)集命名為FVSQA,這是一種語音視覺知識問答類型的任務,即問題形式為音頻,問題基于一個圖片提出,答案是來自知識圖譜的事實。FVSQA包含三個子任務:
1.基于語音轉文本的問答;2.(不轉文本情況下的)端到端模型;3.跨語言任務,即問題的音頻語言與知識圖譜語言不同情況下的問答。
背景與動機
基于事實的視覺問答(FVQA)要求問答系統(tǒng)依據(jù)針對圖像提出的問題,從給定的知識圖譜中找到對應的事實答案。該任務旨在使模型模仿人類回答視覺問題時如何利用背景知識。但是作者認為現(xiàn)有的問答任務未考慮到(多語言)音頻接口的情況,考慮到目前逐漸成熟的語音識別系統(tǒng),直接使用語音提問,構建一個直接使用語音信號的端到端問答模型是指的考慮的研究方向。
貢獻
作者總結論文的主要貢獻如下:
1.論文提出了一個新的基于事實的視覺音頻問答任務,并建立了一個數(shù)據(jù)集FVSQA包含5小時長度的語音數(shù)據(jù),覆蓋英語,印地語以及土耳其語。2.作者訓練了一個直接使用語音信號的端到端問答模型WoW,這是第一個不需要語音識別解析模塊的語音知識圖譜問答模型
方法
論文的方法的整體過程如圖所示,首先問題和場景檢測器是被圖像中的實體構成,然后圖像被表示為檢測到的實體的KG embedding特征集合,語音問題的MFCC特征由LSTM編碼并傳遞到co-attention層,與圖像編碼進行融合,經(jīng)過一個全連接層后,到達查詢層,最后與查詢最接近的實體被獲取作為問題的答案
co-attention層的結構如下圖:
這個部分的目的是融合語音問題表示以及圖像表示,首先由自注意力提供一個單獨的語音信號的問題embedding,然后問題embedding引導視覺attention的權重(就像文本embedding做的那樣)。
FVSQA數(shù)據(jù)集的統(tǒng)計信息如下表
多語言數(shù)據(jù)借助了亞馬遜翻譯API完成,然后由人工校驗,以確保問題的正確性。
實驗
WoW模型的參數(shù)數(shù)量如表2所示 最終的實驗結果如下表:
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網(wǎng)站。
總結
以上是生活随笔為你收集整理的论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 采用多层注意力机制的事件检
- 下一篇: 综述 | 事件抽取及推理 (上)