论文阅读:Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering
論文閱讀:Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering
來源:ACL 2021
下載地址:https://arxiv.org/pdf/2108.02866.pdf
本文主要貢獻(xiàn):
- 我們提出了一個(gè)多模式框架,該框架將混合知識源與用于 ODQA 任務(wù)的 Text2SQL 能力相結(jié)合。 這是在 ODQA 設(shè)置中研究 Text2SQL 的第一項(xiàng)工作。
- 我們提出了一種生成方法,該方法同時(shí)采用文本和表格證據(jù)并生成直接答案或 SQL 查詢,由上下文自動確定。
- 實(shí)驗(yàn)表明,可解釋的 SQL 生成可以有效地回答需要在 ODQA 設(shè)置中進(jìn)行復(fù)雜推理的問題。
Abstract
1、以前研究存在問題:當(dāng)前最先進(jìn)的開放域問答(ODQA)生成模型專注于從非結(jié)構(gòu)化文本信息中生成直接答案。 然而,大量世界知識存儲在結(jié)構(gòu)化數(shù)據(jù)庫中,需要使用 SQL 等查詢語言進(jìn)行訪問。查詢語言可以回答需要復(fù)雜推理的問題,并提供完整的可解釋性。
2、本文主要工作:在本文中,我們提出了一個(gè)混合框架,該框架將文本和表格證據(jù)作為輸入,并根據(jù)哪種形式可以更好地回答問題來生成直接答案或 SQL 查詢。 然后可以在關(guān)聯(lián)的數(shù)據(jù)庫上執(zhí)行生成的 SQL 查詢以獲得最終答案。這是第一篇將 Text2SQL 應(yīng)用于 ODQA 任務(wù)的論文。 根據(jù)經(jīng)驗(yàn),我們證明了在幾個(gè) ODQA 數(shù)據(jù)集上,混合方法始終優(yōu)于只采用同質(zhì)輸入的baseline模型。在詳細(xì)的分析中,證明了能夠生成結(jié)構(gòu)化 SQL 查詢總能帶來收益,尤其是對于那些需要復(fù)雜推理的問題。
Introduction
定義:開放域問答 (ODQA) 是一項(xiàng)在沒有預(yù)先指定域的情況下回答事實(shí)性問題的任務(wù)。
以前的模型:生成模型取得了先進(jìn)的性能,但是這些方法都有一個(gè)共同的途徑,首先從維基百科的自由格式文本中檢索證據(jù)。
問題:然而,大量的世界知識不是以純文本形式存儲,而是存儲在結(jié)構(gòu)化數(shù)據(jù)庫中,需要使用 SQL 等查詢語言進(jìn)行訪問。
理想的 ODQA 模型應(yīng)該能夠從非結(jié)構(gòu)化文本和結(jié)構(gòu)化表格信息源中檢索證據(jù),因?yàn)閿?shù)據(jù)庫中的表格證據(jù)可以更好地回答某些問題。
本文工作:在本文中,我們提出了一個(gè)雙閱讀器解析器 (DUREPA) 框架,該框架可以將文本和表格數(shù)據(jù)作為輸入,并根據(jù)上下文生成直接答案或 SQL 查詢。總體而言,我們的框架由三個(gè)階段組成:檢索、聯(lián)合排序和雙重閱讀解析。
具體流程:首先,我們檢索文本和表格類型的支持候選,然后是一個(gè)聯(lián)合重新排序器,預(yù)測每個(gè)支持候選與問題的相關(guān)性,最后我們?yōu)槲覀兊?reader-parser 使用解碼器融合模型(Izacard And Grave,2020),除了問題之外,它還需要所有重新排序的候選人來生成直接答案或 SQL 查詢。
Method
混合開放域問答方法主要由三個(gè)部分組成:(1)檢索系統(tǒng); (2) 聯(lián)合重排序器和 (3) 雙 Seq2Seq 模型,該模型使用 fusion-in-decoder (Izacard and Grave, 2020) 生成直接答案或 SQL 查詢。
Retrieval
對于混合開放域設(shè)置,我們構(gòu)建了兩個(gè)獨(dú)立的搜索索引——一個(gè)用于文本輸入,另一個(gè)用于表格輸入。 對于段落,我們將它們分成最多 100 個(gè)單詞的段落。 對于表格,我們通過連接每行的單元格值將每個(gè)表格展平為段落。 如果扁平表超過 100 個(gè)單詞,我們將其拆分為單獨(dú)的段落,尊重行邊界。 列標(biāo)題連接到每個(gè)表格段落。
給定一個(gè)自然語言問題,檢索系統(tǒng)使用 BM25 (Robertson et al., 1995) 排序函數(shù)分別從文本和表格索引中檢索 100 個(gè)文本和 100 個(gè)表格段落作為支持候選。
圖 1:混合模型的流程。 候選者是從知識源中檢索出來的,例如維基百科,包括段落和表格。 然后生成的 Seq2Seq 模型讀取問題和所有候選者,并使用波束搜索生成 k 個(gè)輸出。 每個(gè)輸出可以是最終答案或中間 SQL 查詢。 輸出的類型和順序由模型本身自動確定。
Joint Reranking
重新排序模型的目的是產(chǎn)生一個(gè)分?jǐn)?shù) si 來衡量候選人(非結(jié)構(gòu)化段落或表格)與問題的相關(guān)程度。具體來說,reranker 輸入是問題、檢索到的候選內(nèi)容及其對應(yīng)的標(biāo)題的串聯(lián),由圖 1 中所示的特殊標(biāo)記分隔。候選內(nèi)容可以是非結(jié)構(gòu)化文本或扁平表格。 我們在本文中使用 BERTbase 模型。我們使用以下?lián)p失微調(diào) BERT模型:
Ipos 是從所有相關(guān)的 BM25 候選中采樣的,而 Ineg 集合是從所有非相關(guān)的 BM25 候選中采樣的。在訓(xùn)練過程中,對于每個(gè)問題,我們對 64 個(gè)候選者進(jìn)行抽樣,其中包括 1 個(gè)正候選和 63 個(gè)負(fù)候選,即 |Ipos| = 1 和 |Ineg| = 63。如果 200 個(gè)候選人都不相關(guān),我們跳過這個(gè)問題。在推理過程中,我們使用混合重排序器為 200 個(gè)候選者中的每一個(gè)分配一個(gè)分?jǐn)?shù),并選擇前 50 個(gè)候選者作為下一個(gè)模塊的輸入——閱讀器-解析器模型。對于前 50 名候選人,我們根據(jù) reranker 分配的分?jǐn)?shù)從所有候選人的聯(lián)合池中選擇他們。
Dual Reading-Parsing
初始化:雙讀取器-解析器模型基于 Izacard 和 Grave (2020) 中提出的融合解碼器 (FID),并使用預(yù)訓(xùn)練的 T5 (Raffel et al., 2020) 模型進(jìn)行初始化。
閱讀器-解析器的整體流程如圖 1 所示。每個(gè)檢索到的候選都由其標(biāo)題和內(nèi)容表示,格式如下:
Textual Candidate
我們將每個(gè)文本候選表示為段落標(biāo)題和內(nèi)容的連接,分別附加特殊標(biāo)記 [text title] 和 [text content]。
Tabular Candidate
為了將結(jié)構(gòu)化表格表示為段落,我們首先將每個(gè)表格展平為以下格式:每個(gè)展平表格以完整的標(biāo)題名稱開頭,然后是行。最后,表格候選是表標(biāo)題和內(nèi)容的連接,被扁平化為一個(gè)段落,分別附加特殊標(biāo)記 [table title] 和 [table content]。 我們使用表 ID 作為標(biāo)題,以便模型可以將其復(fù)制到生成的 SQL 查詢中。
Prefix of the Target
在訓(xùn)練期間,我們還根據(jù)它是純文本還是 SQL 查詢,將特殊標(biāo)記 answer: 或 sql: 添加到目標(biāo)句子中。 對于同時(shí)具有文本答案和 SQL 查詢注釋的問題,我們?yōu)槊總€(gè)問題創(chuàng)建兩個(gè)訓(xùn)練示例。 在推理過程中,生成的輸出也會包含這兩個(gè)特殊的前綴,表示模型生成了哪種輸出類型。
Dual Reader-Parser
我們的生成 Seq2Seq 模型具有讀取器-解析器對偶性。 在推理過程中,模型讀取問題和所有候選,并使用波束搜索產(chǎn)生 k 個(gè)輸出。 每個(gè)輸出可以是最終答案或中間 SQL 查詢。 根據(jù)上下文,輸出的類型和順序由模型本身自動確定。 然后將執(zhí)行所有生成的 SQL 查詢以生成最終答案。 在本文中,我們固定 k = 3,并且總是為每個(gè)問題生成三個(gè)輸出。
Experiments
Datasets
略
Implementation Details
Retriever and Reranker
我們使用默認(rèn)設(shè)置的 Elasticsearch 7.7 進(jìn)行 BM25 檢索。 使用了一個(gè)用預(yù)訓(xùn)練的 BERT-base-uncased 模型初始化的 BERT reranker。
Dual Reader and Parser with fusion-in-decoder
我們使用預(yù)訓(xùn)練的 T5 模型 (Raffel et al., 2020) 初始化融合解碼器。 我們在本文中只探索 T5-base 模型,它有 220M 的參數(shù)。
對于 reranker 和 FiD 模型,我們使用 Adam 優(yōu)化器 (Kingma and Ba, 2014),最大學(xué)習(xí)率為 10^-4,dropout 率為 10%。學(xué)習(xí)率線性升溫到 10^-4,然后線性退火到零。
我們?yōu)?10k 梯度步長訓(xùn)練模型,批量大小為 32,并每 1k 步保存一個(gè)檢查點(diǎn)。 對于 FiD 模型,當(dāng)一個(gè)問題有多個(gè)答案時(shí),我們從列表中隨機(jī)抽取一個(gè)答案。 對于 FiD 模型,在推理過程中,我們使用光束大小為 3 的光束搜索為每個(gè)問題生成 3 個(gè)答案。
Main Results
我們將開放域 QA 任務(wù)的端到端結(jié)果與基線方法進(jìn)行比較,如表 2 所示。
我們根據(jù)源證據(jù)模態(tài)以及模型預(yù)測的格式構(gòu)建具有 5 種不同設(shè)置的模型。 具體來說,我們考慮僅具有文本證據(jù)或表格證據(jù)的單一模態(tài)設(shè)置以及具有文本和表格證據(jù)的混合設(shè)置。 對于表格證據(jù),模型要么預(yù)測直接答案文本,要么生成結(jié)構(gòu)化 SQL 查詢。 請注意,我們還考慮了一個(gè)基線模型 FID+,這是一個(gè)僅生成直接答案文本但可以同時(shí)使用文本和表格證據(jù)的 FiD 模型。
表 2:與最先進(jìn)的開放域 QA 數(shù)據(jù)集的比較。FiD(T5-base & T5-large) 來自 (Izacard and Grave, 2020),IR+CR (Iterative Retrieval+Cross-block Reader) 和 FR+CR (Fusion Retrieval+Cross-block Reader) 來自 (Chen 等人,2020a),統(tǒng)一模型來自(Oguz 等人,2020)。 將 DUREPA 與 FID+ 進(jìn)行比較,我們觀察到,即使對于像 SQuAD 和 NQ 這樣具有大部分提取性答案的問題,能夠生成結(jié)構(gòu)查詢也總是有益的。
Analysis
Retrieveal and Reeanking Performance
我們使用 top-k 召回作為我們的評估指標(biāo)來研究 BM25 檢索器和 BERT reranker 的性能。
在訓(xùn)練和推理過程中,對于每個(gè)問題,文本和表格段落都使用單個(gè)重新排序器聯(lián)合重新排序。 在 Mix-SQuWiki 數(shù)據(jù)集上,我們在表 3 中報(bào)告了 SQuAD 問題的重新排序結(jié)果。為了更好地了解 reranker 的性能,我們分別展示了文本、表格和混合證據(jù)的 top-k 召回。
表 3:召回 SQuAD 問題的前 k 個(gè)文本、表格或混合候選。 混合輸入的召回率幾乎與單個(gè)文本或表格輸入的最佳召回率相同甚至更好,這意味著重新排序器能夠?qū)煞N類型的候選者進(jìn)行聯(lián)合排名,并為下一個(gè)組件——閱讀器-解析器提供更好的證據(jù)。
Performance of the Reader-Parser
討論雙閱讀器-解析器在不同類型問題上的性能。
SQL prediction helps with complex reasoning
在表 4 中,我們比較了 DUREPA 和 FID+ 在 OpenWikiSQL 上的 top-1 EM 執(zhí)行精度。 如果 DUREPA 生成了一條 SQL,我們執(zhí)行該 SQL 以獲得它的答案預(yù)測。 如果真實(shí)答案是一個(gè)列表(例如,2008 年播出的辛普森一家劇集的名稱是什么?),我們使用集合等價(jià)來評估準(zhǔn)確性。
在大多數(shù)設(shè)置中,DUREPA 在測試集上的表現(xiàn)都優(yōu)于 FID+。 我們還根據(jù)真實(shí) SQL 查詢在不同類別的細(xì)分下比較它們的性能。
表 4:DUREPA 和 FID+ 在 OpenWikiSQL 數(shù)據(jù)集上的比較。 我們根據(jù)真實(shí) SQL 查詢在不同類別的細(xì)分下比較它們的準(zhǔn)確性。 “Direct answers”代表 DUREPA 預(yù)測直接答案的問題。DUREPA 在需要復(fù)雜推理(例如最高級和計(jì)算)的問題上表現(xiàn)出色。
Using hybrid evidence types leads to better performance
表 5 中顯示了模型在 Mix-SQuWiki 問題上的表現(xiàn)。
表 5:各種設(shè)置下 Mix-SQuWiki 數(shù)據(jù)集的詳細(xì)結(jié)果。
What if the questions can be answered by both textual and tabular evidences?
表 6 顯示了模型在 WikiSQL-both 數(shù)據(jù)集上的性能。回想一下,數(shù)據(jù)集中的所有這些問題都可以通過兩種類型的證據(jù)來回答。 首先,使用表格證據(jù)的 DUREPA 模型比使用文本證據(jù)的 FID+ 模型表現(xiàn)得更好。這意味著在 WikiSQL 問題上,使用表格信息可以獲得更好的答案。 接下來,當(dāng)僅使用一種類型的證據(jù)時(shí),DUREPA 和 FID+ 模型的表現(xiàn)都比它們的混合模型差得多。 這表明混合模型可以再次確定應(yīng)該使用哪種證據(jù)類型來提供正確的最終答案。
表 6:WikiSQL 數(shù)據(jù)集上的模型性能。 這些模型是在 Mix-SQuWiki 訓(xùn)練數(shù)據(jù)上訓(xùn)練的。
表 7:模型 DUREPA 正確回答但模型 FID+ 錯(cuò)誤回答的 SQuWiki 和 OpenWikiSQL 問題示例。
Discussion and Future Work
我們的實(shí)驗(yàn)一致表明,提出的框架 DUREPA 在使用混合類型的證據(jù)回答問題方面帶來了顯著改進(jìn)。 特別是在兩種支持證據(jù)類型都可以回答的問題上,我們的多模態(tài)方法仍然比使用單一類型知識的模型顯示出明顯的優(yōu)勢,這意味著我們的方法可以找出最相關(guān)的證據(jù)來回答問題。 我們還證明了雙重reader-parser對于 DUREPA 的良好性能至關(guān)重要; 生成直接答案和結(jié)構(gòu)化 SQL 查詢的能力幫助 DUREPA 在需要復(fù)雜推理(如計(jì)數(shù)或平均)的問題上表現(xiàn)得比 FID+ 和其他基線要好得多。
我們相信我們的方法可以在兩個(gè)方面進(jìn)行改進(jìn)。 首先,我們的總體框架圖 1 可以通過更好的檢索系統(tǒng)來改進(jìn)。在混合證據(jù)上,還可以使用實(shí)體鏈接模塊來鏈接表格和段落之間的實(shí)體(Chen et al., 2020a),并利用結(jié)構(gòu)信息進(jìn)行更好的多跳推理。其次,正如我們已經(jīng)證明的那樣,具有生成結(jié)構(gòu)化 SQL 查詢的能力對于回答需要復(fù)雜推理的問題是一個(gè)非常強(qiáng)大且必要的功能。鑒于 Text2SQL 數(shù)據(jù)有限且難以獲得此類 SQL 監(jiān)督,未來兩項(xiàng)有趣的工作包括(1)更有效地獲取 SQL 注釋和(2)采用離散 EM(Min 等人,2019)等弱監(jiān)督方法進(jìn)行模型訓(xùn)練。
總結(jié)
以上是生活随笔為你收集整理的论文阅读:Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Python机器学习】决策树ID3算法
- 下一篇: 【Halcon】Halcon与OpenC