當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - TACL2020 | TYDI QA：Google 发表一个多语言的问答语料库

發布時間：2024/7/5 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - TACL2020 | TYDI QA：Google 发表一个多语言的问答语料库小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：吳林娟，天津大學碩士。

鏈接：

https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf

動機

具有挑戰性、值得信賴的評估數據可以促進多語言模型的發展，為了鼓勵對多語言問答技術的研究，作者提出了數據集TyDi QA，這是一個涵蓋了 11 種不同類型語言和204K個問答對的問答語料庫。其中的11種語言在類型上是多種多樣的，作者期望在這個數據集上表現良好的模型，能推廣運用到世界上的眾多其他語言。

簡介

問答系統給人們獲取信息帶來了極大的方便，現有的先進的問答系統主要都是通過了英文的數據集測試，但是很多能從問答系統中受益的人并不會英語。世界上的語言展現出驚人的語言現象，用以表達意義。《世界語言結構圖集》按照192種類型特征對2600種語言進行了分類，其中包括詞序(word order)、重疊(reduplication)、按照句法編碼的語法含義、格標記(case marking)、復數系統、問題標記、相對化(relativization)等現象。如果想要構建能夠準確地表示所有人類語言的模型，那么必須根據能夠證明這種多樣性的數據來評估這些模型。

本文數據構建的目標：

1.使研究工作朝著建立大約世界前100種語言的高質量問答系統的方向發展；

2.鼓勵研究能夠很好地跨越世界語言的語言現象和數據場景的模型。

作者描述了TYDI-QA語言的類型特征，并提供了從數據中提取的一些相關現象的隱藏示例，以使研究人員了解非英語文本中存在的挑戰，然后在模型中去處理這些挑戰。作者也提供了一個開源的基線模型和帶有隱藏測試集的公共排行榜(https://ai.google.com/research/tydiqa)，用于跟蹤社區的進展。

任務要求

TYDI QA提出了一個模型，其中包含一個問題以及一篇維基百科文章的內容，并要求它做出兩個預測：

段落選擇任務：給定文章中段落的列表，如果存在答案則返回的包含答案的段落索引，如果不存在此類段落，則返回空。
最小答案跨度任務：給定一篇文章的全文，返回答案的最小跨度的開始和結束字節索引；如果問題需要的答案是“是/否”，并且可以從文章中得出結論，則返回“是”或“否”；如果無法生成最小答案，則返回空。

數據集問答對的實例如下圖：

數據收集程序

問題引出：只給人類標注員Wikipedia內容的一小部分去提出自己真正感興趣問題，以及無法從文本中得到答案提示的問題。例如當人類標注員看到文本中寫道“蘋果是一種水果...”，可能會寫下“史蒂夫·喬布斯死于什么疾病？”這樣由好奇心激發出的問題。這使得標注員可以更自由地詢問他們真正感興趣的主題，包括提示文章中沒有涉及的主題。
文章檢索：通過對問題文本執行Google搜索，將Wikipedia文章與每個問題配對，僅限于每種語言的Wikipedia域，并選擇排名最高的結果。為了啟用將來的用例，文章文本是從每種語言的原子Wikipedia快照中提取的。
答案標注：最后，給注釋者提供問題/文章對，并首先要求他們選擇最佳段落答案（文章中包含答案的段落），否則表明不可能回答（或沒有滿足答案的單獨的段落）。如果找到這樣的段落，則注釋者將被要求選擇一個最小的答案：盡可能短的字符跨度，同時能形成令人滿意的答案；理想情況下，這些詞的長度為1-3個字，但在某些情況下可以覆蓋句子的大部分內容（例如，對于“什么是原子？”這樣的定義）。如果問題要求布爾回答，則注釋者選擇是或否。如果沒有這樣的最小答案，則注釋者也指出這一點。

數據集沒有使用翻譯的方法，將其從英語擴充到其他的語言，一個是避免翻譯帶來的錯誤，還有就是防止通過翻譯后每一個問題都有英語的影子，這可能會使遷移學習的方法收益增加。

數據描述

數據類型多樣性

作者選擇數據集中語言的主要標準是類型多樣性-即它們使用不同的語言手段表達含義的程度，換句話說，作者希望選定的語言不僅數量多，還能代表許多語言家族。此外，作者選擇了具有與建模相關的多種數據特征的語言。例如，某些語言可能只有很少的單語數據。有許多語言的并行翻譯數據很少，并且幾乎沒有經濟動機在不久的將來產生大量昂貴的并行數據。因為過于依賴高質量機器翻譯的方法將無法在世界各地的語言中推廣。因此，我們選擇一些具有并行訓練數據的語言（例如日語，阿拉伯語）和一些具有很少并行訓練數據的語言（例如孟加拉語，斯瓦希里語）。盡管以這些語言收集數據涉及更大的困難，但作者希望它們的多樣性將使研究人員能夠更可靠地得出有關其模型在各種語言中的泛化程度的可靠結論。

數據統計

問答系統評估

系統評估方法

TYDI-QA任務的主要評估指標是F1，它是精確性和召回率的調和平均值，每一項都是通過語言中的示例計算出來的。然而，任務之間確實存在某些細微差別，其中主要時針對空處理的評估。首先，每個例子的分數在一種語言中計算平均值；然后對所有非英語語言進行平均，得到最終的F1分數。對英語的測量被視為調試的有用手段，而不是TYDI QA任務的目標，因為在現有的數據集中已經有大量的英語評估覆蓋。

人類表現的評估

作為一個思維實驗，考慮將評價框架定為“正確答案被接受為正確答案的可能性有多大？”

作者提出了一個有首選答案的游戲：目標是為用戶提供他們喜歡的答案。如果注釋者正確選擇了這些首選答案，作者則希望多路注釋數據包含圍繞這些首選答案的峰值分布。然后，玩家的最佳策略是預測那些答案，這些答案既是用戶首選的，就更可能出現在評估數據集中。作者希望有大量的人工注釋者或經過良好優化的機器學習系統來學習這種分布，這將有助于人類表現評估的提升。

主要任務：與基準模型的結果比較

提供了使用最新發布的多語言BERT（mBERT）的基線的結果。與Alberti等設置類似，其中所有語言都在一個模型中共同訓練（表5）。此外，由于基線還沒有經過訓練，作者包含了始終預測第一段通過的系統的結果，因為Wikipedia文章的第一段經常總結其最重要的事實。在所有語言中，我們都看到mBERT與較大的人類績效估計之間存在較大差距。

我們可以比較各種語言的分數嗎？抱歉不行。每種語言都有自己獨特的問題集，維基百科內容的質量和數量各不相同，注釋者的質量也不同，以及還存在其他變量。

黃金段落：一個簡化版的任務

在這個任務中，只提供了標準答案所在的段落而不是整個維基百科文章，并且社區了不可回答的問題，類似于MLQA和XQuAD，評估也參考類似XQuAD中的。臺語和日語被刪除了，因為語言中沒有空格可能不利于一些現有的工具使用。

基于簡化版任務的基線結果如表7。

總結及展望

作者預見了幾個研究方向，這些數據將使研究者能夠推動新的邊界，包括：

研究形態學和問答匹配之間的相互作用；
評估遷移學習的有效性，無論是對于有或沒有并行數據的語言；
考慮到不同的數據場景和語言挑戰，機器翻譯在數據擴充和作為運行時組件的問答中的有用性；
通過顯式地不在所提供的語言的子集上進行訓練來研究零資源QA。

最后作者寫到，回答問題所需的內容常常沒有用更多的其他語言寫下來。對于這些語言，我們矛盾地面臨著需要跨語言答案檢索和翻譯的前景，同時資源貧乏的語言也缺少了可信賴的翻譯系統所需的并行數據。期待著研究界找到更多方法來提高多語言模型的質量。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - TACL2020 | TYDI QA：Google 发表一个多语言的问答语料库的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：技术动态 | 去中心化知识图谱协作平台建
下一篇：论文浅尝 | 基于异质图交互模型进行篇章