长篇问答任务(LFQA)的发展面临哪些阻碍?
?PaperWeekly 原創 ·?作者|蔡杰
學校|北京大學碩士生
研究方向|QA
論文標題:
Hurdles to Progress in Long-form Question Answering
論文鏈接:
https://arxiv.org/pdf/2103.06332.pdf
論文來源:
NAACL 2021
Long-form question answering
長文本問答(LFQA)的任務包括檢索與給定問題相關的文檔,并使用它們生成一個段落長度的答案。
Problem 1:
作者做了一個有趣的實驗:將 retriver 檢索到的文檔在 inference 階段替換為隨機采樣的文檔。人工 A/B 測試和 ROUGE-L 等自動指標的結果表明,對替換為隨機文檔的操作對生成的答案質量幾乎沒有影響。
原因是 train-set 和 validation-set 中存在大量相似問題集合,validation-set 中至少有 81% 的問題被改寫后在 train-set 中出現,幾乎所有的驗證問題都與訓練集問題在主題上相似。一個使用 random retriver 的系統在 ELI5 上表現更好。因此這是目前長文本問答存在的一個隱患問題。
Problem 2:
ROUGE-L 評測指標的問題。簡單的 baseline,只需要重復 copy 問題,或隨機選擇一個 train-set 鐘的答案,就可以優于普通的 LFQA 系統,如 RAG(Lewis et al., 2020c)。
更不正常的是,作者提出的系統給出的答案甚至能夠達到比人類書寫的答案更高的 ROUGE-L。因此作者認為 ROUGE-L 不是一個可靠的評估 LFQA 的方法,因為它的輸出空間大且相對不受限制(例如,與翻譯或總結相比)。
Model
2.1 Retriever
REALM 是一個使用了 Retrieval-Augmented 的預訓練模型,它將一個帶有 [MASK] 符號的句子作為 question,從語料中抽取出相關的文檔,然后將句子和相關的文檔拼接成問答的輸入格式,預測 [MASK] 位置的詞。
作者在本文中將“C-REALM”作為 retriver,返回與輸入問題相關的文檔。“C-REALM”是一個編碼器,在訓練的時候使用了對比學習的思想,編碼器將問題和文檔分別編碼,然后學習目標是將問題的向量盡量和相關的文檔向量接近,使問題的向量和不相關的文檔向量盡量遠離,以達到篩選相關文檔的目的。
2.2 Generator
基于“C-REALM”召回的文檔,作者使用了“Routing Transformer”(RT,目前長文本語言模型 SOTA)),RT 是一種稀疏注意力模型,利用局部注意和在 mini-batch 中使用 k-means 聚類來更好地建模長期依賴關系。
2.3 Main Experiments
作者目前在 ELI5 數據集的榜單上達到了 SOTA。
Analysis
3.1 Are generations grounded in retrieval?
雖然本文的 retrieval-augmented 系統實現了 SOTA,但作者發現該系統幾乎沒有使用檢索到的文檔。為了測量這一點,作者進行了消融實驗,在 inference 時,用維基百科上隨機取樣的段落替換檢索到的段落。之后將這個隨機 baseline 與原始系統進行比較,包括生成質量以及生成與檢索段落之間的 n-gram 重疊。
結果表明隨機 baseline 與原始系統的 ROUGE-L 評分相當,而且 n-gram 的重疊數量也相當。
在 human eval 中,兩個系統的差別也不超過 7%。所以作者認為應該在以后的 LFQA 指標中加入一項與 random 召回結果的對比,真正說明系統的有效性。
3.2 ROUGE-L Bounds on ELI5 Performance
作者發現只需要從 trainset 中復制一個相關問題的答案就可以獲得 28.5 ROUGE-L,但這個數字到底有多“好”?ELI5 上的 ROUGE-L 分數的的上界和下界分別應該是多少?ROUGE-L 對于 LFQA 來說真的是一個有用的度量標準嗎?
論文中作者設置對 ELI5 數據集的 ELI5 分數設置了兩個下界:1)將問題復制 5 次并 concat,因為長度較長,會加大 ROUGE-L 的分數;2)在訓練集中隨機檢索一個答案。上界則是標準答案:平均來說,每個問題有 12 個標準答案,作者衡量的是最長的標準答案,因為最長的標準答案具有最高的 ROUGE-L 分數。
設置上下界之后,作者發現下界超過了之前的工作,上界的 ROUGE-L 并不高。所以 ROUGE-L 對于 LFQA 來說可能不是一個合適的評價指標。
對此作者提出了幾種可能的解決辦法:1)一個可能的解決辦法是進行句子級別的評估,然后在生成的句子中匯總得分,但對于缺乏多樣性和長度短的問題需要進行適當的懲罰;2)包括學習特定任務的度量來測量語義重疊或檢查事實正確性和輸入的正確性。
但是所有的自動度量都有存在各自的局限性,因此常常使用人工評測來測量生成答案的質量。
3.3 Difficulty of Human Evaluation
但是人工評測也會存在一些問題:
不熟悉問題主題。標注人員通常不熟悉一些問題中討論的技術主題,這使得很難評估答案的正確性。
答案長度。答案長度增加的同時也增加了標注人員對答案理解的難度,答案的正確性也會降低。
因此,有必要設計更簡單的計算方法。有部分研究人員在這方面做出了嘗試,他們每次只顯示一個生成的句子,并根據愚弄人類的句子數量來評估系統質量。
3.4 Conclusion
本文提出了一個“retrieval augmented”的應用于問答領域的答案生成系統,該系統在 ELI5-LFQA 數據集上實現了 SOTA。然而,作者通過深入的分析揭示了目前 LFQA 普遍存在的幾個問題,包括模型,評估指標和數據集本身等等。作者希望通過本文號召社會各界共同努力,解決這些問題,使研究取得真正有意義的進展。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的长篇问答任务(LFQA)的发展面临哪些阻碍?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 落实责任
- 下一篇: 消费级GPU、速度提升3000倍,微软F