最新综述:从多个角度介绍多模态对话信息搜索(MMCIS)任务
?PaperWeekly 原創 ·?作者?|?金金
單位?|?阿里巴巴研究實習生
研究方向?|?推薦系統
簡介
交互性是信息搜索任務的核心,人類對話是最自然的交流工具。幾十年來,這一直激勵研究人員和從業者想象與信息搜索系統的對話交互。自動語音識別(ASR)和用于語言理解和生成的深度學習模型的最新進展,包括智能手機等設備的普及,引起了人們對對話式信息檢索(CIS)領域的日益濃厚的興趣。
盡管以前的工作主要關注對話環境中的單模態交互和信息搜索,但眾所周知,人類對話是多模態的。我們不僅通過語言交流,而且還使用多種方式進行交流。盡管如此,信息搜索仍然主要通過視覺渠道(即鍵入的查詢和搜索結果列表)進行。這些特性要求開發 CIS 系統,提供多模式項目并通過多種模式的渠道與用戶交互。
本文從多個角度介紹多模態對話信息搜索(MMCIS)任務。首先給出了 MMCIS 的模態類型和定義,并介紹了 MMCIS 的優點以及支持的場景,最后提到了存在的研究挑戰以及現有平臺。
論文標題:
Towards Multi-Modal Conversational Information Seeking
論文鏈接:
https://www.johannetrippas.com/papers/deldjoo2021towards.pdf
多模態系統中的模態類型
我們首先從用戶和系統結合的視角給出多模態對話式信息檢索的流程,該過程顯示所涉及的不同組件/功能:
用戶通過激活肌肉(例如聲帶、手)來輸入人類動作,對應于幾種人類生物/感官模式。
用戶使用多個物理輸入設備(鍵盤、鼠標)或更高級的設備(例如運動或眼睛注視跟蹤傳感器)與計算機進行通信。這些輸入設備對應不同的交互通道。
機器輸入設備感測到的信息以音頻、文本、圖像、視頻或演示媒體的形式產生不同的數據表示。這些數據在不同的語義級別(即低級別、語義)上提供了對用戶意圖的不同理解級別。音頻、圖像和文本對應不同的處理方式。
計算機通過應用各種計算機視覺、NLP、音頻分析和數據融合來處理來自構成模態的信息,再次對應于處理模態。
計算機通過適當的設備(例如,屏幕、揚聲器)輸出消息。計算機可以發送統計原始數據(例如,靜態圖像、音頻文件或視頻剪輯)或從抽象表示動態生成的數據(例如文本、圖形或語音合成的生成)。
最終,系統輸出會刺激多種用戶感官(例如,視覺、聽覺)。
下表提供了不同交互渠道的示例列表,涉及處理和演示模式的模態。
MMCIS定義
上一部分介紹了多模態系統中的模態類型。然而,當涉及到 MMCIS 系統時,多模態變得更加復雜,這主要是由于 MMCIS 系統的多輪和信息訪問性質。因此,鑒于前面介紹的多模態基礎,將 MMCIS 三個維度定義如下:
對話處理方式(C)
用戶系統交互中的多模態(I)
處理和訪問信息項的多模態 (D)
因此,每個 MMCIS 系統中的多模態可以正式表示為:
維度一:對話中的處理方式(C)
我們用 表示用戶和系統之間的對話與對話交互,其中 包含有關第 交互的所有信息,包括參與者(用戶或系統), 內容和上下文(例如,時間、位置或設備)。我們基于處理模態交替和組合的兩個概念來定義多模態處理會話 ????,如下所示:
會話中的處理模態交替:如果每個會話交互使用單一的處理模態,但相鄰兩個交互之間的處理模態發生變化,那么通過處理模態交替,會話是多模態的。形式上,如果滿足以下兩個條件,則對話 ???? 是多模態交替的:
會話中的處理模態組合:如果會話中的一個會話交互由多個處理模態組成,則該會話是多模態組合的。形式上,對話 ???? 是多模態的組合,如果:
維度二:用戶系統交互中的多模態(I)
獨立于 ???? 中對話交互的處理模態,如果交互通道或結果呈現模式涉及多種交互模態,那么對話信息訪問系統在維度 II 或用戶方面是多模態的。系統交互。示例:用戶使用語音界面和/或可視屏幕與系統交互。
維度三:處理和訪問信息項的多模態 (D)
如果信息訪問系統中使用的信息項(例如,檢索或推薦的文檔)需要不同的處理模態或信息項的模態和 ???? 中的對話交互不同 ,則系統在維度 III 方面是多模態的。示例:系統在多輪對話中響應用戶的關鍵字搜索查詢檢索音樂。
總之,C 表示系統在對話期間從用戶那里接收到的信息。因此,C 側重于交互的系統端,其中多模態是指處理模態。我代表用戶與系統交互以及系統與用戶交互的所有交互渠道。D 側重于信息項和處理數據。因此,D 具有面向系統的數據收集視圖,并以處理方式為中心。
MMCIS的優點及適用場景
我們強調了在多模態通道上進行搜索、結合上下文、高準確性、學習能力和增強可訪問性的一些優勢。
結合上下文:研究者們已經做了很多工作來將上下文納入搜索;然而,先進的多模態交互和數據應該越來越多地包含在未來的模型中。此外,有意結合上下文特征可以實現從順序(單模態)到并行設計(多模態)的轉變。
高準確性:多模態系統可以幫助克服錯誤并提高系統輸入和輸出的準確性。對于輸入信號,多模態輸入可以幫助克服錯誤(即,多模態可以通過結合語音識別和唇讀來更好地處理語音不流暢)。對于輸出,語音和字幕的組合可以克服在嘈雜環境中呈現結果的問題。
學習能力:由于人類學習是一項復雜的多維活動,因此通過多模式交互來消費信息是有意義的。這種新穎的交互模式可以增強用戶的不同思維和推理能力,適應信息尋求者的需求。
可訪問性:人們的能力、需求或偏好各不相同。盡管可以使用特定模式完成特定任務,但為用戶提供多種模式和在模式之間切換的機會可以增強平等的信息訪問。例如,一個有閱讀障礙的人可能非常擅長輸入關鍵詞;然而,能夠將其傳達給系統可能會克服拼寫困難。不同的模式有不同的好處,指向一個對象而不是描述它通常更容易。最后,多模式輸出可以適應信息量最大的媒體,克服單媒體輸出的局限性,從而使其與 MMCIS 系統交互更加“自然”。
自然語言語句或簡短查詢并不總是適合搜索。因此,MMCIS 適用于以下條件:
正在搜索的人擁有允許一種以上交互模式(多設備和多模式)的可用設備;
當任務的上下文很重要并且可以用設備以合適的方式捕獲以增強個性化時;
當設備交互模式可以支持任務復雜性時;
在給定設備、上下文和復雜性的情況下,何時可以以適當的輸出方式返回結果。
研究挑戰
該部分討論了設計和構建 MMCIS 系統的挑戰。這些挑戰分為五類。
5.1 多模式對話交互
多模態對話輸入交互導致了一些研究挑戰,這些挑戰在接下來要解決的單模態對話系統中不存在或被忽視。
設計支持不同交互渠道的設備。每個交互通道都需要獨特的傳感器、處理單元和用戶界面。其中一些在現有設備中很常見,例如智能手機和純語音智能助手。但是,存在幾種當前設備不支持的多模式交互。
識別交互。MMCIS 系統應該識別多模式交互。例如,對于語音交互,通常很難以語音信號的形式找到用戶請求的答案,這就是為什么使用 ASR 來轉錄語音交互。不同的交互模式需要獨特的模型來識別交互,開發這些模型對于推進 MMCIS 研究是必要的。
更正已識別的交互和錯誤緩解。多模態交互的自動識別并非沒有錯誤。糾正這些錯誤需要不同的技術,例如語言建模或計算觀察每個識別交互的概率。
交互渠道的可發現性。與大多數新技術一樣,可以教育用戶如何以及何時在對話中使用不同的交互渠道。這可以簡單地忽略,希望用戶自己發現系統的功能。然而,可以開發不同的模型來使這個過程更有效,從而解決探索和指令之間的緊張關系。
5.2 多模態對話理解
信息搜索對話中的對話理解是指在多輪用戶-系統對話中準確表達用戶信息需求的過程。話題跟蹤、共指和省略號解析是對話理解的主要挑戰。
多模態查詢重寫。在現有對話的上下文中重寫最后一個用戶請求以生成與歷史無關的請求(查詢)是對話理解中的常見任務之一。多模態查詢重寫模型應該能夠在對話中出現的模態之間建立聯系。
學習會話表示跨模態。對話理解模型主要基于用戶-系統交互進行訓練。從不同的對話中學習,每種都采用不同的方式,是一項具有挑戰性的任務。一個簡單的解決方案是為每種模態訓練不同的模型。然而,這不是最佳解決方案。跨模式傳輸知識是 MMCIS 系統中必不可少的挑戰。
冷啟動模式的對話理解。技術的進步導致了新傳感器、設備和界面的發展,從而導致了新的交互方式。在現有的 MMCIS 系統中添加新的模態是對話理解的另一個挑戰。我們稱這個問題為研究冷啟動模式,這可能是跨模式轉移知識的另一個案例。
5.3 多模式對話排名和生成
多模態進一步導致對話結果排名和生成方面的各種研究挑戰。它們包括計算對話表示和檢索到的項目之間的相似性。如果集合中項目的模式與對話模式不同,MMCIS 系統應該通過學習共享表示或將一種模式轉換為另一種模式來彌合這一差距。由于檢索任務的性質,這些解決方案應該是高效和可擴展的。此外,生成多模態結果需要開發新的生成模型以保持一代中不同模態之間的聯系。
5.4 多模態回復表示
對話系統會產生與結果呈現相關的具有挑戰性的研究問題。
選擇輸出方式。在多個輸出模態的情況下,決定使用哪種模態來呈現結果很重要。輸出模式的選擇取決于請求和響應的類型、用戶偏好、系統屬性和情境上下文。
更改檢索或生成的回復模式。如果選定的輸出模態與檢索或生成的響應不同,則應使用模型將其模態轉換為選定的模態。一些示例包括自動語音生成(將文本轉換為語音)、從圖像和圖表生成文本,反之亦然。
以多種方式呈現回復。響應可以以多種不同的方式呈現。例如,除了該圖像(或圖表)的文本或語音描述之外,對用戶請求的響應可以是圖像(或圖表)。使用多種方式呈現結果可能需要在用戶界面和響應排名和生成方面進行進一步研究。
5.5 評估挑戰
評估 IIR 模型具有挑戰性。CIS 任務的可重用測試集合是基于有關系統能力和用戶行為的幾個簡化假設而構建的。例如,TREC Conversational Assistance Track 假設用戶總是在每個會話中詢問相關的自然語言問題,并且系統只能檢索幾個段落。
作為另一個例子,Qulac 數據集考慮澄清問題以響應搜索查詢,假設用戶總是在每個會話中提交單個關鍵字查詢。這種假設在現實生活中通常不成立。這就是為什么對 CIS 系統進行在線評估至關重要的原因。
然而,大規模的在線評估既昂貴又耗時,并且只有一小部分研究人員可以使用。因此,構建可重用的測試集仍然是 CIS 研究中最重要的部分之一。所有提到的事實都與所有類型的 CIS 系統相關,包括 MMCIS。
目前,已有開源的多模態對話式信息檢索平臺 Macaw-MMCIS,供研究者們使用。
總結
本文從多個角度介紹多模態對話信息搜索(MMCIS)任務。首先給出了 MMCIS 的模態類型和定義,并介紹了 MMCIS 的優點以及支持的場景,最后提到了存在的研究挑戰以及現有平臺。該方向目前還沒有得到較多的探索,期待更多相關的工作涌現。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的最新综述:从多个角度介绍多模态对话信息搜索(MMCIS)任务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 沃尔沃中央后视镜开关在哪里怎么调?
- 下一篇: 今日arXiv精选 | 18篇近期值得关