日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

最新综述:从多个角度介绍多模态对话信息搜索(MMCIS)任务

發(fā)布時(shí)間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 最新综述:从多个角度介绍多模态对话信息搜索(MMCIS)任务 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者?|?金金

單位?|?阿里巴巴研究實(shí)習(xí)生

研究方向?|?推薦系統(tǒng)

簡(jiǎn)介

交互性是信息搜索任務(wù)的核心,人類(lèi)對(duì)話(huà)是最自然的交流工具。幾十年來(lái),這一直激勵(lì)研究人員和從業(yè)者想象與信息搜索系統(tǒng)的對(duì)話(huà)交互。自動(dòng)語(yǔ)音識(shí)別(ASR)和用于語(yǔ)言理解和生成的深度學(xué)習(xí)模型的最新進(jìn)展,包括智能手機(jī)等設(shè)備的普及,引起了人們對(duì)對(duì)話(huà)式信息檢索(CIS)領(lǐng)域的日益濃厚的興趣。

盡管以前的工作主要關(guān)注對(duì)話(huà)環(huán)境中的單模態(tài)交互和信息搜索,但眾所周知,人類(lèi)對(duì)話(huà)是多模態(tài)的。我們不僅通過(guò)語(yǔ)言交流,而且還使用多種方式進(jìn)行交流。盡管如此,信息搜索仍然主要通過(guò)視覺(jué)渠道(即鍵入的查詢(xún)和搜索結(jié)果列表)進(jìn)行。這些特性要求開(kāi)發(fā) CIS 系統(tǒng),提供多模式項(xiàng)目并通過(guò)多種模式的渠道與用戶(hù)交互。

本文從多個(gè)角度介紹多模態(tài)對(duì)話(huà)信息搜索(MMCIS)任務(wù)。首先給出了 MMCIS 的模態(tài)類(lèi)型和定義,并介紹了 MMCIS 的優(yōu)點(diǎn)以及支持的場(chǎng)景,最后提到了存在的研究挑戰(zhàn)以及現(xiàn)有平臺(tái)。

論文標(biāo)題:

Towards Multi-Modal Conversational Information Seeking

論文鏈接:

https://www.johannetrippas.com/papers/deldjoo2021towards.pdf

多模態(tài)系統(tǒng)中的模態(tài)類(lèi)型

我們首先從用戶(hù)和系統(tǒng)結(jié)合的視角給出多模態(tài)對(duì)話(huà)式信息檢索的流程,該過(guò)程顯示所涉及的不同組件/功能:

  • 用戶(hù)通過(guò)激活肌肉(例如聲帶、手)來(lái)輸入人類(lèi)動(dòng)作,對(duì)應(yīng)于幾種人類(lèi)生物/感官模式。

  • 用戶(hù)使用多個(gè)物理輸入設(shè)備(鍵盤(pán)、鼠標(biāo))或更高級(jí)的設(shè)備(例如運(yùn)動(dòng)或眼睛注視跟蹤傳感器)與計(jì)算機(jī)進(jìn)行通信。這些輸入設(shè)備對(duì)應(yīng)不同的交互通道。

  • 機(jī)器輸入設(shè)備感測(cè)到的信息以音頻、文本、圖像、視頻或演示媒體的形式產(chǎn)生不同的數(shù)據(jù)表示。這些數(shù)據(jù)在不同的語(yǔ)義級(jí)別(即低級(jí)別、語(yǔ)義)上提供了對(duì)用戶(hù)意圖的不同理解級(jí)別。音頻、圖像和文本對(duì)應(yīng)不同的處理方式。

  • 計(jì)算機(jī)通過(guò)應(yīng)用各種計(jì)算機(jī)視覺(jué)、NLP、音頻分析和數(shù)據(jù)融合來(lái)處理來(lái)自構(gòu)成模態(tài)的信息,再次對(duì)應(yīng)于處理模態(tài)。

  • 計(jì)算機(jī)通過(guò)適當(dāng)?shù)脑O(shè)備(例如,屏幕、揚(yáng)聲器)輸出消息。計(jì)算機(jī)可以發(fā)送統(tǒng)計(jì)原始數(shù)據(jù)(例如,靜態(tài)圖像、音頻文件或視頻剪輯)或從抽象表示動(dòng)態(tài)生成的數(shù)據(jù)(例如文本、圖形或語(yǔ)音合成的生成)。

  • 最終,系統(tǒng)輸出會(huì)刺激多種用戶(hù)感官(例如,視覺(jué)、聽(tīng)覺(jué))。

下表提供了不同交互渠道的示例列表,涉及處理和演示模式的模態(tài)。

MMCIS定義

上一部分介紹了多模態(tài)系統(tǒng)中的模態(tài)類(lèi)型。然而,當(dāng)涉及到 MMCIS 系統(tǒng)時(shí),多模態(tài)變得更加復(fù)雜,這主要是由于 MMCIS 系統(tǒng)的多輪和信息訪問(wèn)性質(zhì)。因此,鑒于前面介紹的多模態(tài)基礎(chǔ),將 MMCIS 三個(gè)維度定義如下:

  • 對(duì)話(huà)處理方式(C)

  • 用戶(hù)系統(tǒng)交互中的多模態(tài)(I)

  • 處理和訪問(wèn)信息項(xiàng)的多模態(tài) (D)

因此,每個(gè) MMCIS 系統(tǒng)中的多模態(tài)可以正式表示為:

維度一:對(duì)話(huà)中的處理方式(C)

我們用 表示用戶(hù)和系統(tǒng)之間的對(duì)話(huà)與對(duì)話(huà)交互,其中 包含有關(guān)第 交互的所有信息,包括參與者(用戶(hù)或系統(tǒng)), 內(nèi)容和上下文(例如,時(shí)間、位置或設(shè)備)。我們基于處理模態(tài)交替和組合的兩個(gè)概念來(lái)定義多模態(tài)處理會(huì)話(huà) ????,如下所示:

  • 會(huì)話(huà)中的處理模態(tài)交替:如果每個(gè)會(huì)話(huà)交互使用單一的處理模態(tài),但相鄰兩個(gè)交互之間的處理模態(tài)發(fā)生變化,那么通過(guò)處理模態(tài)交替,會(huì)話(huà)是多模態(tài)的。形式上,如果滿(mǎn)足以下兩個(gè)條件,則對(duì)話(huà) ???? 是多模態(tài)交替的:

  • 會(huì)話(huà)中的處理模態(tài)組合:如果會(huì)話(huà)中的一個(gè)會(huì)話(huà)交互由多個(gè)處理模態(tài)組成,則該會(huì)話(huà)是多模態(tài)組合的。形式上,對(duì)話(huà) ???? 是多模態(tài)的組合,如果:

維度二:用戶(hù)系統(tǒng)交互中的多模態(tài)(I)

獨(dú)立于 ???? 中對(duì)話(huà)交互的處理模態(tài),如果交互通道或結(jié)果呈現(xiàn)模式涉及多種交互模態(tài),那么對(duì)話(huà)信息訪問(wèn)系統(tǒng)在維度 II 或用戶(hù)方面是多模態(tài)的。系統(tǒng)交互。示例:用戶(hù)使用語(yǔ)音界面和/或可視屏幕與系統(tǒng)交互。

維度三:處理和訪問(wèn)信息項(xiàng)的多模態(tài) (D)

如果信息訪問(wèn)系統(tǒng)中使用的信息項(xiàng)(例如,檢索或推薦的文檔)需要不同的處理模態(tài)或信息項(xiàng)的模態(tài)和 ???? 中的對(duì)話(huà)交互不同 ,則系統(tǒng)在維度 III 方面是多模態(tài)的。示例:系統(tǒng)在多輪對(duì)話(huà)中響應(yīng)用戶(hù)的關(guān)鍵字搜索查詢(xún)檢索音樂(lè)。

總之,C 表示系統(tǒng)在對(duì)話(huà)期間從用戶(hù)那里接收到的信息。因此,C 側(cè)重于交互的系統(tǒng)端,其中多模態(tài)是指處理模態(tài)。我代表用戶(hù)與系統(tǒng)交互以及系統(tǒng)與用戶(hù)交互的所有交互渠道。D 側(cè)重于信息項(xiàng)和處理數(shù)據(jù)。因此,D 具有面向系統(tǒng)的數(shù)據(jù)收集視圖,并以處理方式為中心。

MMCIS的優(yōu)點(diǎn)及適用場(chǎng)景

我們強(qiáng)調(diào)了在多模態(tài)通道上進(jìn)行搜索、結(jié)合上下文、高準(zhǔn)確性、學(xué)習(xí)能力和增強(qiáng)可訪問(wèn)性的一些優(yōu)勢(shì)。

  • 結(jié)合上下文:研究者們已經(jīng)做了很多工作來(lái)將上下文納入搜索;然而,先進(jìn)的多模態(tài)交互和數(shù)據(jù)應(yīng)該越來(lái)越多地包含在未來(lái)的模型中。此外,有意結(jié)合上下文特征可以實(shí)現(xiàn)從順序(單模態(tài))到并行設(shè)計(jì)(多模態(tài))的轉(zhuǎn)變。

  • 高準(zhǔn)確性:多模態(tài)系統(tǒng)可以幫助克服錯(cuò)誤并提高系統(tǒng)輸入和輸出的準(zhǔn)確性。對(duì)于輸入信號(hào),多模態(tài)輸入可以幫助克服錯(cuò)誤(即,多模態(tài)可以通過(guò)結(jié)合語(yǔ)音識(shí)別和唇讀來(lái)更好地處理語(yǔ)音不流暢)。對(duì)于輸出,語(yǔ)音和字幕的組合可以克服在嘈雜環(huán)境中呈現(xiàn)結(jié)果的問(wèn)題。

  • 學(xué)習(xí)能力:由于人類(lèi)學(xué)習(xí)是一項(xiàng)復(fù)雜的多維活動(dòng),因此通過(guò)多模式交互來(lái)消費(fèi)信息是有意義的。這種新穎的交互模式可以增強(qiáng)用戶(hù)的不同思維和推理能力,適應(yīng)信息尋求者的需求。

  • 可訪問(wèn)性:人們的能力、需求或偏好各不相同。盡管可以使用特定模式完成特定任務(wù),但為用戶(hù)提供多種模式和在模式之間切換的機(jī)會(huì)可以增強(qiáng)平等的信息訪問(wèn)。例如,一個(gè)有閱讀障礙的人可能非常擅長(zhǎng)輸入關(guān)鍵詞;然而,能夠?qū)⑵鋫鬟_(dá)給系統(tǒng)可能會(huì)克服拼寫(xiě)困難。不同的模式有不同的好處,指向一個(gè)對(duì)象而不是描述它通常更容易。最后,多模式輸出可以適應(yīng)信息量最大的媒體,克服單媒體輸出的局限性,從而使其與 MMCIS 系統(tǒng)交互更加“自然”。

自然語(yǔ)言語(yǔ)句或簡(jiǎn)短查詢(xún)并不總是適合搜索。因此,MMCIS 適用于以下條件:

  • 正在搜索的人擁有允許一種以上交互模式(多設(shè)備和多模式)的可用設(shè)備;

  • 當(dāng)任務(wù)的上下文很重要并且可以用設(shè)備以合適的方式捕獲以增強(qiáng)個(gè)性化時(shí);

  • 當(dāng)設(shè)備交互模式可以支持任務(wù)復(fù)雜性時(shí);

  • 在給定設(shè)備、上下文和復(fù)雜性的情況下,何時(shí)可以以適當(dāng)?shù)妮敵龇绞椒祷亟Y(jié)果。

研究挑戰(zhàn)

該部分討論了設(shè)計(jì)和構(gòu)建 MMCIS 系統(tǒng)的挑戰(zhàn)。這些挑戰(zhàn)分為五類(lèi)。

5.1 多模式對(duì)話(huà)交互

多模態(tài)對(duì)話(huà)輸入交互導(dǎo)致了一些研究挑戰(zhàn),這些挑戰(zhàn)在接下來(lái)要解決的單模態(tài)對(duì)話(huà)系統(tǒng)中不存在或被忽視。

  • 設(shè)計(jì)支持不同交互渠道的設(shè)備。每個(gè)交互通道都需要獨(dú)特的傳感器、處理單元和用戶(hù)界面。其中一些在現(xiàn)有設(shè)備中很常見(jiàn),例如智能手機(jī)和純語(yǔ)音智能助手。但是,存在幾種當(dāng)前設(shè)備不支持的多模式交互。

  • 識(shí)別交互。MMCIS 系統(tǒng)應(yīng)該識(shí)別多模式交互。例如,對(duì)于語(yǔ)音交互,通常很難以語(yǔ)音信號(hào)的形式找到用戶(hù)請(qǐng)求的答案,這就是為什么使用 ASR 來(lái)轉(zhuǎn)錄語(yǔ)音交互。不同的交互模式需要獨(dú)特的模型來(lái)識(shí)別交互,開(kāi)發(fā)這些模型對(duì)于推進(jìn) MMCIS 研究是必要的。

  • 更正已識(shí)別的交互和錯(cuò)誤緩解多模態(tài)交互的自動(dòng)識(shí)別并非沒(méi)有錯(cuò)誤。糾正這些錯(cuò)誤需要不同的技術(shù),例如語(yǔ)言建模或計(jì)算觀察每個(gè)識(shí)別交互的概率。

  • 交互渠道的可發(fā)現(xiàn)性。與大多數(shù)新技術(shù)一樣,可以教育用戶(hù)如何以及何時(shí)在對(duì)話(huà)中使用不同的交互渠道。這可以簡(jiǎn)單地忽略,希望用戶(hù)自己發(fā)現(xiàn)系統(tǒng)的功能。然而,可以開(kāi)發(fā)不同的模型來(lái)使這個(gè)過(guò)程更有效,從而解決探索和指令之間的緊張關(guān)系。

5.2 多模態(tài)對(duì)話(huà)理解

信息搜索對(duì)話(huà)中的對(duì)話(huà)理解是指在多輪用戶(hù)-系統(tǒng)對(duì)話(huà)中準(zhǔn)確表達(dá)用戶(hù)信息需求的過(guò)程。話(huà)題跟蹤、共指和省略號(hào)解析是對(duì)話(huà)理解的主要挑戰(zhàn)。

  • 多模態(tài)查詢(xún)重寫(xiě)。在現(xiàn)有對(duì)話(huà)的上下文中重寫(xiě)最后一個(gè)用戶(hù)請(qǐng)求以生成與歷史無(wú)關(guān)的請(qǐng)求(查詢(xún))是對(duì)話(huà)理解中的常見(jiàn)任務(wù)之一。多模態(tài)查詢(xún)重寫(xiě)模型應(yīng)該能夠在對(duì)話(huà)中出現(xiàn)的模態(tài)之間建立聯(lián)系。

  • 學(xué)習(xí)會(huì)話(huà)表示跨模態(tài)。對(duì)話(huà)理解模型主要基于用戶(hù)-系統(tǒng)交互進(jìn)行訓(xùn)練。從不同的對(duì)話(huà)中學(xué)習(xí),每種都采用不同的方式,是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。一個(gè)簡(jiǎn)單的解決方案是為每種模態(tài)訓(xùn)練不同的模型。然而,這不是最佳解決方案。跨模式傳輸知識(shí)是 MMCIS 系統(tǒng)中必不可少的挑戰(zhàn)。

  • 冷啟動(dòng)模式的對(duì)話(huà)理解。技術(shù)的進(jìn)步導(dǎo)致了新傳感器、設(shè)備和界面的發(fā)展,從而導(dǎo)致了新的交互方式。在現(xiàn)有的 MMCIS 系統(tǒng)中添加新的模態(tài)是對(duì)話(huà)理解的另一個(gè)挑戰(zhàn)。我們稱(chēng)這個(gè)問(wèn)題為研究冷啟動(dòng)模式,這可能是跨模式轉(zhuǎn)移知識(shí)的另一個(gè)案例。

5.3 多模式對(duì)話(huà)排名和生成

多模態(tài)進(jìn)一步導(dǎo)致對(duì)話(huà)結(jié)果排名和生成方面的各種研究挑戰(zhàn)。它們包括計(jì)算對(duì)話(huà)表示和檢索到的項(xiàng)目之間的相似性。如果集合中項(xiàng)目的模式與對(duì)話(huà)模式不同,MMCIS 系統(tǒng)應(yīng)該通過(guò)學(xué)習(xí)共享表示或?qū)⒁环N模式轉(zhuǎn)換為另一種模式來(lái)彌合這一差距。由于檢索任務(wù)的性質(zhì),這些解決方案應(yīng)該是高效和可擴(kuò)展的。此外,生成多模態(tài)結(jié)果需要開(kāi)發(fā)新的生成模型以保持一代中不同模態(tài)之間的聯(lián)系。

5.4 多模態(tài)回復(fù)表示

對(duì)話(huà)系統(tǒng)會(huì)產(chǎn)生與結(jié)果呈現(xiàn)相關(guān)的具有挑戰(zhàn)性的研究問(wèn)題。

  • 選擇輸出方式。在多個(gè)輸出模態(tài)的情況下,決定使用哪種模態(tài)來(lái)呈現(xiàn)結(jié)果很重要。輸出模式的選擇取決于請(qǐng)求和響應(yīng)的類(lèi)型、用戶(hù)偏好、系統(tǒng)屬性和情境上下文。

  • 更改檢索或生成的回復(fù)模式。如果選定的輸出模態(tài)與檢索或生成的響應(yīng)不同,則應(yīng)使用模型將其模態(tài)轉(zhuǎn)換為選定的模態(tài)。一些示例包括自動(dòng)語(yǔ)音生成(將文本轉(zhuǎn)換為語(yǔ)音)、從圖像和圖表生成文本,反之亦然。

  • 以多種方式呈現(xiàn)回復(fù)。響應(yīng)可以以多種不同的方式呈現(xiàn)。例如,除了該圖像(或圖表)的文本或語(yǔ)音描述之外,對(duì)用戶(hù)請(qǐng)求的響應(yīng)可以是圖像(或圖表)。使用多種方式呈現(xiàn)結(jié)果可能需要在用戶(hù)界面和響應(yīng)排名和生成方面進(jìn)行進(jìn)一步研究。

5.5 評(píng)估挑戰(zhàn)

評(píng)估 IIR 模型具有挑戰(zhàn)性。CIS 任務(wù)的可重用測(cè)試集合是基于有關(guān)系統(tǒng)能力和用戶(hù)行為的幾個(gè)簡(jiǎn)化假設(shè)而構(gòu)建的。例如,TREC Conversational Assistance Track 假設(shè)用戶(hù)總是在每個(gè)會(huì)話(huà)中詢(xún)問(wèn)相關(guān)的自然語(yǔ)言問(wèn)題,并且系統(tǒng)只能檢索幾個(gè)段落。

作為另一個(gè)例子,Qulac 數(shù)據(jù)集考慮澄清問(wèn)題以響應(yīng)搜索查詢(xún),假設(shè)用戶(hù)總是在每個(gè)會(huì)話(huà)中提交單個(gè)關(guān)鍵字查詢(xún)。這種假設(shè)在現(xiàn)實(shí)生活中通常不成立。這就是為什么對(duì) CIS 系統(tǒng)進(jìn)行在線(xiàn)評(píng)估至關(guān)重要的原因。

然而,大規(guī)模的在線(xiàn)評(píng)估既昂貴又耗時(shí),并且只有一小部分研究人員可以使用。因此,構(gòu)建可重用的測(cè)試集仍然是 CIS 研究中最重要的部分之一。所有提到的事實(shí)都與所有類(lèi)型的 CIS 系統(tǒng)相關(guān),包括 MMCIS。

目前,已有開(kāi)源的多模態(tài)對(duì)話(huà)式信息檢索平臺(tái) Macaw-MMCIS,供研究者們使用。

總結(jié)

本文從多個(gè)角度介紹多模態(tài)對(duì)話(huà)信息搜索(MMCIS)任務(wù)。首先給出了 MMCIS 的模態(tài)類(lèi)型和定義,并介紹了 MMCIS 的優(yōu)點(diǎn)以及支持的場(chǎng)景,最后提到了存在的研究挑戰(zhàn)以及現(xiàn)有平臺(tái)。該方向目前還沒(méi)有得到較多的探索,期待更多相關(guān)的工作涌現(xiàn)。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?????稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

?????投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

·

總結(jié)

以上是生活随笔為你收集整理的最新综述:从多个角度介绍多模态对话信息搜索(MMCIS)任务的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。