當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

最新综述：从多个角度介绍多模态对话信息搜索（MMCIS）任务

發(fā)布時(shí)間：2024/10/8 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了最新综述：从多个角度介绍多模态对话信息搜索（MMCIS）任务小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者?|?金金

單位?|?阿里巴巴研究實(shí)習(xí)生

研究方向?|?推薦系統(tǒng)

簡(jiǎn)介

交互性是信息搜索任務(wù)的核心，人類(lèi)對(duì)話(huà)是最自然的交流工具。幾十年來(lái)，這一直激勵(lì)研究人員和從業(yè)者想象與信息搜索系統(tǒng)的對(duì)話(huà)交互。自動(dòng)語(yǔ)音識(shí)別（ASR）和用于語(yǔ)言理解和生成的深度學(xué)習(xí)模型的最新進(jìn)展，包括智能手機(jī)等設(shè)備的普及，引起了人們對(duì)對(duì)話(huà)式信息檢索（CIS）領(lǐng)域的日益濃厚的興趣。

盡管以前的工作主要關(guān)注對(duì)話(huà)環(huán)境中的單模態(tài)交互和信息搜索，但眾所周知，人類(lèi)對(duì)話(huà)是多模態(tài)的。我們不僅通過(guò)語(yǔ)言交流，而且還使用多種方式進(jìn)行交流。盡管如此，信息搜索仍然主要通過(guò)視覺(jué)渠道（即鍵入的查詢(xún)和搜索結(jié)果列表）進(jìn)行。這些特性要求開(kāi)發(fā) CIS 系統(tǒng)，提供多模式項(xiàng)目并通過(guò)多種模式的渠道與用戶(hù)交互。

本文從多個(gè)角度介紹多模態(tài)對(duì)話(huà)信息搜索（MMCIS）任務(wù)。首先給出了 MMCIS 的模態(tài)類(lèi)型和定義，并介紹了 MMCIS 的優(yōu)點(diǎn)以及支持的場(chǎng)景，最后提到了存在的研究挑戰(zhàn)以及現(xiàn)有平臺(tái)。

論文標(biāo)題：

Towards Multi-Modal Conversational Information Seeking

論文鏈接：

https://www.johannetrippas.com/papers/deldjoo2021towards.pdf

多模態(tài)系統(tǒng)中的模態(tài)類(lèi)型

我們首先從用戶(hù)和系統(tǒng)結(jié)合的視角給出多模態(tài)對(duì)話(huà)式信息檢索的流程，該過(guò)程顯示所涉及的不同組件/功能：

用戶(hù)通過(guò)激活肌肉（例如聲帶、手）來(lái)輸入人類(lèi)動(dòng)作，對(duì)應(yīng)于幾種人類(lèi)生物/感官模式。
用戶(hù)使用多個(gè)物理輸入設(shè)備（鍵盤(pán)、鼠標(biāo)）或更高級(jí)的設(shè)備（例如運(yùn)動(dòng)或眼睛注視跟蹤傳感器）與計(jì)算機(jī)進(jìn)行通信。這些輸入設(shè)備對(duì)應(yīng)不同的交互通道。
機(jī)器輸入設(shè)備感測(cè)到的信息以音頻、文本、圖像、視頻或演示媒體的形式產(chǎn)生不同的數(shù)據(jù)表示。這些數(shù)據(jù)在不同的語(yǔ)義級(jí)別（即低級(jí)別、語(yǔ)義）上提供了對(duì)用戶(hù)意圖的不同理解級(jí)別。音頻、圖像和文本對(duì)應(yīng)不同的處理方式。
計(jì)算機(jī)通過(guò)應(yīng)用各種計(jì)算機(jī)視覺(jué)、NLP、音頻分析和數(shù)據(jù)融合來(lái)處理來(lái)自構(gòu)成模態(tài)的信息，再次對(duì)應(yīng)于處理模態(tài)。
計(jì)算機(jī)通過(guò)適當(dāng)?shù)脑O(shè)備（例如，屏幕、揚(yáng)聲器）輸出消息。計(jì)算機(jī)可以發(fā)送統(tǒng)計(jì)原始數(shù)據(jù)（例如，靜態(tài)圖像、音頻文件或視頻剪輯）或從抽象表示動(dòng)態(tài)生成的數(shù)據(jù)（例如文本、圖形或語(yǔ)音合成的生成）。
最終，系統(tǒng)輸出會(huì)刺激多種用戶(hù)感官（例如，視覺(jué)、聽(tīng)覺(jué)）。

下表提供了不同交互渠道的示例列表，涉及處理和演示模式的模態(tài)。

MMCIS定義

上一部分介紹了多模態(tài)系統(tǒng)中的模態(tài)類(lèi)型。然而，當(dāng)涉及到 MMCIS 系統(tǒng)時(shí)，多模態(tài)變得更加復(fù)雜，這主要是由于 MMCIS 系統(tǒng)的多輪和信息訪問(wèn)性質(zhì)。因此，鑒于前面介紹的多模態(tài)基礎(chǔ)，將 MMCIS 三個(gè)維度定義如下：

對(duì)話(huà)處理方式（C）
用戶(hù)系統(tǒng)交互中的多模態(tài)（I）
處理和訪問(wèn)信息項(xiàng)的多模態(tài) (D)

因此，每個(gè) MMCIS 系統(tǒng)中的多模態(tài)可以正式表示為：

維度一：對(duì)話(huà)中的處理方式（C）

我們用表示用戶(hù)和系統(tǒng)之間的對(duì)話(huà)與對(duì)話(huà)交互，其中包含有關(guān)第交互的所有信息，包括參與者（用戶(hù)或系統(tǒng)），內(nèi)容和上下文（例如，時(shí)間、位置或設(shè)備）。我們基于處理模態(tài)交替和組合的兩個(gè)概念來(lái)定義多模態(tài)處理會(huì)話(huà) ????，如下所示：

會(huì)話(huà)中的處理模態(tài)交替：如果每個(gè)會(huì)話(huà)交互使用單一的處理模態(tài)，但相鄰兩個(gè)交互之間的處理模態(tài)發(fā)生變化，那么通過(guò)處理模態(tài)交替，會(huì)話(huà)是多模態(tài)的。形式上，如果滿(mǎn)足以下兩個(gè)條件，則對(duì)話(huà) ???? 是多模態(tài)交替的：

會(huì)話(huà)中的處理模態(tài)組合：如果會(huì)話(huà)中的一個(gè)會(huì)話(huà)交互由多個(gè)處理模態(tài)組成，則該會(huì)話(huà)是多模態(tài)組合的。形式上，對(duì)話(huà) ???? 是多模態(tài)的組合，如果：

維度二：用戶(hù)系統(tǒng)交互中的多模態(tài)（I）

獨(dú)立于 ???? 中對(duì)話(huà)交互的處理模態(tài)，如果交互通道或結(jié)果呈現(xiàn)模式涉及多種交互模態(tài)，那么對(duì)話(huà)信息訪問(wèn)系統(tǒng)在維度 II 或用戶(hù)方面是多模態(tài)的。系統(tǒng)交互。示例：用戶(hù)使用語(yǔ)音界面和/或可視屏幕與系統(tǒng)交互。

維度三：處理和訪問(wèn)信息項(xiàng)的多模態(tài) (D)

如果信息訪問(wèn)系統(tǒng)中使用的信息項(xiàng)（例如，檢索或推薦的文檔）需要不同的處理模態(tài)或信息項(xiàng)的模態(tài)和 ???? 中的對(duì)話(huà)交互不同，則系統(tǒng)在維度 III 方面是多模態(tài)的。示例：系統(tǒng)在多輪對(duì)話(huà)中響應(yīng)用戶(hù)的關(guān)鍵字搜索查詢(xún)檢索音樂(lè)。

總之，C 表示系統(tǒng)在對(duì)話(huà)期間從用戶(hù)那里接收到的信息。因此，C 側(cè)重于交互的系統(tǒng)端，其中多模態(tài)是指處理模態(tài)。我代表用戶(hù)與系統(tǒng)交互以及系統(tǒng)與用戶(hù)交互的所有交互渠道。D 側(cè)重于信息項(xiàng)和處理數(shù)據(jù)。因此，D 具有面向系統(tǒng)的數(shù)據(jù)收集視圖，并以處理方式為中心。

MMCIS的優(yōu)點(diǎn)及適用場(chǎng)景

我們強(qiáng)調(diào)了在多模態(tài)通道上進(jìn)行搜索、結(jié)合上下文、高準(zhǔn)確性、學(xué)習(xí)能力和增強(qiáng)可訪問(wèn)性的一些優(yōu)勢(shì)。

結(jié)合上下文：研究者們已經(jīng)做了很多工作來(lái)將上下文納入搜索；然而，先進(jìn)的多模態(tài)交互和數(shù)據(jù)應(yīng)該越來(lái)越多地包含在未來(lái)的模型中。此外，有意結(jié)合上下文特征可以實(shí)現(xiàn)從順序（單模態(tài)）到并行設(shè)計(jì)（多模態(tài)）的轉(zhuǎn)變。
高準(zhǔn)確性：多模態(tài)系統(tǒng)可以幫助克服錯(cuò)誤并提高系統(tǒng)輸入和輸出的準(zhǔn)確性。對(duì)于輸入信號(hào)，多模態(tài)輸入可以幫助克服錯(cuò)誤（即，多模態(tài)可以通過(guò)結(jié)合語(yǔ)音識(shí)別和唇讀來(lái)更好地處理語(yǔ)音不流暢）。對(duì)于輸出，語(yǔ)音和字幕的組合可以克服在嘈雜環(huán)境中呈現(xiàn)結(jié)果的問(wèn)題。
學(xué)習(xí)能力：由于人類(lèi)學(xué)習(xí)是一項(xiàng)復(fù)雜的多維活動(dòng)，因此通過(guò)多模式交互來(lái)消費(fèi)信息是有意義的。這種新穎的交互模式可以增強(qiáng)用戶(hù)的不同思維和推理能力，適應(yīng)信息尋求者的需求。
可訪問(wèn)性：人們的能力、需求或偏好各不相同。盡管可以使用特定模式完成特定任務(wù)，但為用戶(hù)提供多種模式和在模式之間切換的機(jī)會(huì)可以增強(qiáng)平等的信息訪問(wèn)。例如，一個(gè)有閱讀障礙的人可能非常擅長(zhǎng)輸入關(guān)鍵詞；然而，能夠?qū)⑵鋫鬟_(dá)給系統(tǒng)可能會(huì)克服拼寫(xiě)困難。不同的模式有不同的好處，指向一個(gè)對(duì)象而不是描述它通常更容易。最后，多模式輸出可以適應(yīng)信息量最大的媒體，克服單媒體輸出的局限性，從而使其與 MMCIS 系統(tǒng)交互更加“自然”。

自然語(yǔ)言語(yǔ)句或簡(jiǎn)短查詢(xún)并不總是適合搜索。因此，MMCIS 適用于以下條件：

正在搜索的人擁有允許一種以上交互模式（多設(shè)備和多模式）的可用設(shè)備；
當(dāng)任務(wù)的上下文很重要并且可以用設(shè)備以合適的方式捕獲以增強(qiáng)個(gè)性化時(shí)；
當(dāng)設(shè)備交互模式可以支持任務(wù)復(fù)雜性時(shí)；
在給定設(shè)備、上下文和復(fù)雜性的情況下，何時(shí)可以以適當(dāng)?shù)妮敵龇绞椒祷亟Y(jié)果。

研究挑戰(zhàn)

該部分討論了設(shè)計(jì)和構(gòu)建 MMCIS 系統(tǒng)的挑戰(zhàn)。這些挑戰(zhàn)分為五類(lèi)。

5.1 多模式對(duì)話(huà)交互

多模態(tài)對(duì)話(huà)輸入交互導(dǎo)致了一些研究挑戰(zhàn)，這些挑戰(zhàn)在接下來(lái)要解決的單模態(tài)對(duì)話(huà)系統(tǒng)中不存在或被忽視。

設(shè)計(jì)支持不同交互渠道的設(shè)備。每個(gè)交互通道都需要獨(dú)特的傳感器、處理單元和用戶(hù)界面。其中一些在現(xiàn)有設(shè)備中很常見(jiàn)，例如智能手機(jī)和純語(yǔ)音智能助手。但是，存在幾種當(dāng)前設(shè)備不支持的多模式交互。
識(shí)別交互。MMCIS 系統(tǒng)應(yīng)該識(shí)別多模式交互。例如，對(duì)于語(yǔ)音交互，通常很難以語(yǔ)音信號(hào)的形式找到用戶(hù)請(qǐng)求的答案，這就是為什么使用 ASR 來(lái)轉(zhuǎn)錄語(yǔ)音交互。不同的交互模式需要獨(dú)特的模型來(lái)識(shí)別交互，開(kāi)發(fā)這些模型對(duì)于推進(jìn) MMCIS 研究是必要的。
更正已識(shí)別的交互和錯(cuò)誤緩解。多模態(tài)交互的自動(dòng)識(shí)別并非沒(méi)有錯(cuò)誤。糾正這些錯(cuò)誤需要不同的技術(shù)，例如語(yǔ)言建模或計(jì)算觀察每個(gè)識(shí)別交互的概率。
交互渠道的可發(fā)現(xiàn)性。與大多數(shù)新技術(shù)一樣，可以教育用戶(hù)如何以及何時(shí)在對(duì)話(huà)中使用不同的交互渠道。這可以簡(jiǎn)單地忽略，希望用戶(hù)自己發(fā)現(xiàn)系統(tǒng)的功能。然而，可以開(kāi)發(fā)不同的模型來(lái)使這個(gè)過(guò)程更有效，從而解決探索和指令之間的緊張關(guān)系。

5.2 多模態(tài)對(duì)話(huà)理解

信息搜索對(duì)話(huà)中的對(duì)話(huà)理解是指在多輪用戶(hù)-系統(tǒng)對(duì)話(huà)中準(zhǔn)確表達(dá)用戶(hù)信息需求的過(guò)程。話(huà)題跟蹤、共指和省略號(hào)解析是對(duì)話(huà)理解的主要挑戰(zhàn)。

多模態(tài)查詢(xún)重寫(xiě)。在現(xiàn)有對(duì)話(huà)的上下文中重寫(xiě)最后一個(gè)用戶(hù)請(qǐng)求以生成與歷史無(wú)關(guān)的請(qǐng)求（查詢(xún)）是對(duì)話(huà)理解中的常見(jiàn)任務(wù)之一。多模態(tài)查詢(xún)重寫(xiě)模型應(yīng)該能夠在對(duì)話(huà)中出現(xiàn)的模態(tài)之間建立聯(lián)系。
學(xué)習(xí)會(huì)話(huà)表示跨模態(tài)。對(duì)話(huà)理解模型主要基于用戶(hù)-系統(tǒng)交互進(jìn)行訓(xùn)練。從不同的對(duì)話(huà)中學(xué)習(xí)，每種都采用不同的方式，是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。一個(gè)簡(jiǎn)單的解決方案是為每種模態(tài)訓(xùn)練不同的模型。然而，這不是最佳解決方案。跨模式傳輸知識(shí)是 MMCIS 系統(tǒng)中必不可少的挑戰(zhàn)。
冷啟動(dòng)模式的對(duì)話(huà)理解。技術(shù)的進(jìn)步導(dǎo)致了新傳感器、設(shè)備和界面的發(fā)展，從而導(dǎo)致了新的交互方式。在現(xiàn)有的 MMCIS 系統(tǒng)中添加新的模態(tài)是對(duì)話(huà)理解的另一個(gè)挑戰(zhàn)。我們稱(chēng)這個(gè)問(wèn)題為研究冷啟動(dòng)模式，這可能是跨模式轉(zhuǎn)移知識(shí)的另一個(gè)案例。

5.3 多模式對(duì)話(huà)排名和生成

多模態(tài)進(jìn)一步導(dǎo)致對(duì)話(huà)結(jié)果排名和生成方面的各種研究挑戰(zhàn)。它們包括計(jì)算對(duì)話(huà)表示和檢索到的項(xiàng)目之間的相似性。如果集合中項(xiàng)目的模式與對(duì)話(huà)模式不同，MMCIS 系統(tǒng)應(yīng)該通過(guò)學(xué)習(xí)共享表示或?qū)⒁环N模式轉(zhuǎn)換為另一種模式來(lái)彌合這一差距。由于檢索任務(wù)的性質(zhì)，這些解決方案應(yīng)該是高效和可擴(kuò)展的。此外，生成多模態(tài)結(jié)果需要開(kāi)發(fā)新的生成模型以保持一代中不同模態(tài)之間的聯(lián)系。

5.4 多模態(tài)回復(fù)表示

對(duì)話(huà)系統(tǒng)會(huì)產(chǎn)生與結(jié)果呈現(xiàn)相關(guān)的具有挑戰(zhàn)性的研究問(wèn)題。

選擇輸出方式。在多個(gè)輸出模態(tài)的情況下，決定使用哪種模態(tài)來(lái)呈現(xiàn)結(jié)果很重要。輸出模式的選擇取決于請(qǐng)求和響應(yīng)的類(lèi)型、用戶(hù)偏好、系統(tǒng)屬性和情境上下文。
更改檢索或生成的回復(fù)模式。如果選定的輸出模態(tài)與檢索或生成的響應(yīng)不同，則應(yīng)使用模型將其模態(tài)轉(zhuǎn)換為選定的模態(tài)。一些示例包括自動(dòng)語(yǔ)音生成（將文本轉(zhuǎn)換為語(yǔ)音）、從圖像和圖表生成文本，反之亦然。
以多種方式呈現(xiàn)回復(fù)。響應(yīng)可以以多種不同的方式呈現(xiàn)。例如，除了該圖像（或圖表）的文本或語(yǔ)音描述之外，對(duì)用戶(hù)請(qǐng)求的響應(yīng)可以是圖像（或圖表）。使用多種方式呈現(xiàn)結(jié)果可能需要在用戶(hù)界面和響應(yīng)排名和生成方面進(jìn)行進(jìn)一步研究。

5.5 評(píng)估挑戰(zhàn)

評(píng)估 IIR 模型具有挑戰(zhàn)性。CIS 任務(wù)的可重用測(cè)試集合是基于有關(guān)系統(tǒng)能力和用戶(hù)行為的幾個(gè)簡(jiǎn)化假設(shè)而構(gòu)建的。例如，TREC Conversational Assistance Track 假設(shè)用戶(hù)總是在每個(gè)會(huì)話(huà)中詢(xún)問(wèn)相關(guān)的自然語(yǔ)言問(wèn)題，并且系統(tǒng)只能檢索幾個(gè)段落。

作為另一個(gè)例子，Qulac 數(shù)據(jù)集考慮澄清問(wèn)題以響應(yīng)搜索查詢(xún)，假設(shè)用戶(hù)總是在每個(gè)會(huì)話(huà)中提交單個(gè)關(guān)鍵字查詢(xún)。這種假設(shè)在現(xiàn)實(shí)生活中通常不成立。這就是為什么對(duì) CIS 系統(tǒng)進(jìn)行在線(xiàn)評(píng)估至關(guān)重要的原因。

然而，大規(guī)模的在線(xiàn)評(píng)估既昂貴又耗時(shí)，并且只有一小部分研究人員可以使用。因此，構(gòu)建可重用的測(cè)試集仍然是 CIS 研究中最重要的部分之一。所有提到的事實(shí)都與所有類(lèi)型的 CIS 系統(tǒng)相關(guān)，包括 MMCIS。

目前，已有開(kāi)源的多模態(tài)對(duì)話(huà)式信息檢索平臺(tái) Macaw-MMCIS，供研究者們使用。

總結(jié)

本文從多個(gè)角度介紹多模態(tài)對(duì)話(huà)信息搜索（MMCIS）任務(wù)。首先給出了 MMCIS 的模態(tài)類(lèi)型和定義，并介紹了 MMCIS 的優(yōu)點(diǎn)以及支持的場(chǎng)景，最后提到了存在的研究挑戰(zhàn)以及現(xiàn)有平臺(tái)。該方向目前還沒(méi)有得到較多的探索，期待更多相關(guān)的工作涌現(xiàn)。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

?????稿件基本要求：

? 文章確系個(gè)人原創(chuàng)作品，未曾在公開(kāi)渠道發(fā)表，如為其他平臺(tái)已發(fā)表或待發(fā)表的文章，請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫(xiě)，文中配圖以附件形式發(fā)送，要求圖片清晰，無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

?????投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式（微信），以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

總結(jié)

以上是生活随笔為你收集整理的最新综述：从多个角度介绍多模态对话信息搜索（MMCIS）任务的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：沃尔沃中央后视镜开关在哪里怎么调？
下一篇：今日arXiv精选 | 18篇近期值得关