日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库

發(fā)布時間:2024/7/5 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記整理:吳林娟,天津大學碩士。


鏈接:

https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf

動機

具有挑戰(zhàn)性、值得信賴的評估數(shù)據(jù)可以促進多語言模型的發(fā)展,為了鼓勵對多語言問答技術的研究,作者提出了數(shù)據(jù)集TyDi QA,這是一個涵蓋了 11 種不同類型語言和204K個問答對的問答語料庫。其中的11種語言在類型上是多種多樣的,作者期望在這個數(shù)據(jù)集上表現(xiàn)良好的模型,能推廣運用到世界上的眾多其他語言。

簡介

問答系統(tǒng)給人們獲取信息帶來了極大的方便,現(xiàn)有的先進的問答系統(tǒng)主要都是通過了英文的數(shù)據(jù)集測試,但是很多能從問答系統(tǒng)中受益的人并不會英語。世界上的語言展現(xiàn)出驚人的語言現(xiàn)象,用以表達意義?!妒澜缯Z言結構圖集》按照192種類型特征對2600種語言進行了分類,其中包括詞序(word order)、重疊(reduplication)、按照句法編碼的語法含義、格標記(case marking)、復數(shù)系統(tǒng)、問題標記、相對化(relativization)等現(xiàn)象。如果想要構建能夠準確地表示所有人類語言的模型,那么必須根據(jù)能夠證明這種多樣性的數(shù)據(jù)來評估這些模型。

本文數(shù)據(jù)構建的目標:

1.使研究工作朝著建立大約世界前100種語言的高質量問答系統(tǒng)的方向發(fā)展;

2.鼓勵研究能夠很好地跨越世界語言的語言現(xiàn)象和數(shù)據(jù)場景的模型。

作者描述了TYDI-QA語言的類型特征,并提供了從數(shù)據(jù)中提取的一些相關現(xiàn)象的隱藏示例,以使研究人員了解非英語文本中存在的挑戰(zhàn),然后在模型中去處理這些挑戰(zhàn)。作者也提供了一個開源的基線模型和帶有隱藏測試集的公共排行榜(https://ai.google.com/research/tydiqa),用于跟蹤社區(qū)的進展。

任務要求

TYDI QA提出了一個模型,其中包含一個問題以及一篇維基百科文章的內容,并要求它做出兩個預測:

  • 段落選擇任務:給定文章中段落的列表,如果存在答案則返回的包含答案的段落索引,如果不存在此類段落,則返回空。

  • 最小答案跨度任務:給定一篇文章的全文,返回答案的最小跨度的開始和結束字節(jié)索引;如果問題需要的答案是“是/否”,并且可以從文章中得出結論,則返回“是”或“否”;如果無法生成最小答案,則返回空。

數(shù)據(jù)集問答對的實例如下圖:

數(shù)據(jù)收集程序

  • 問題引出:只給人類標注員Wikipedia內容的一小部分去提出自己真正感興趣問題,以及無法從文本中得到答案提示的問題。例如當人類標注員看到文本中寫道“蘋果是一種水果...”,可能會寫下“史蒂夫·喬布斯死于什么疾病?”這樣由好奇心激發(fā)出的問題。這使得標注員可以更自由地詢問他們真正感興趣的主題,包括提示文章中沒有涉及的主題。

  • 文章檢索:通過對問題文本執(zhí)行Google搜索,將Wikipedia文章與每個問題配對,僅限于每種語言的Wikipedia域,并選擇排名最高的結果。為了啟用將來的用例,文章文本是從每種語言的原子Wikipedia快照中提取的。

  • 答案標注:最后,給注釋者提供問題/文章對,并首先要求他們選擇最佳段落答案(文章中包含答案的段落),否則表明不可能回答(或沒有滿足答案的單獨的段落)。如果找到這樣的段落,則注釋者將被要求選擇一個最小的答案:盡可能短的字符跨度,同時能形成令人滿意的答案;理想情況下,這些詞的長度為1-3個字,但在某些情況下可以覆蓋句子的大部分內容(例如,對于“什么是原子?”這樣的定義)。如果問題要求布爾回答,則注釋者選擇是或否。如果沒有這樣的最小答案,則注釋者也指出這一點。

數(shù)據(jù)集沒有使用翻譯的方法,將其從英語擴充到其他的語言,一個是避免翻譯帶來的錯誤,還有就是防止通過翻譯后每一個問題都有英語的影子,這可能會使遷移學習的方法收益增加。

數(shù)據(jù)描述

數(shù)據(jù)類型多樣性

作者選擇數(shù)據(jù)集中語言的主要標準是類型多樣性-即它們使用不同的語言手段表達含義的程度,換句話說,作者希望選定的語言不僅數(shù)量多,還能代表許多語言家族。此外,作者選擇了具有與建模相關的多種數(shù)據(jù)特征的語言。例如,某些語言可能只有很少的單語數(shù)據(jù)。有許多語言的并行翻譯數(shù)據(jù)很少,并且?guī)缀鯖]有經濟動機在不久的將來產生大量昂貴的并行數(shù)據(jù)。因為過于依賴高質量機器翻譯的方法將無法在世界各地的語言中推廣。因此,我們選擇一些具有并行訓練數(shù)據(jù)的語言(例如日語,阿拉伯語)和一些具有很少并行訓練數(shù)據(jù)的語言(例如孟加拉語,斯瓦希里語)。盡管以這些語言收集數(shù)據(jù)涉及更大的困難,但作者希望它們的多樣性將使研究人員能夠更可靠地得出有關其模型在各種語言中的泛化程度的可靠結論。

數(shù)據(jù)統(tǒng)計

問答系統(tǒng)評估

系統(tǒng)評估方法

TYDI-QA任務的主要評估指標是F1,它是精確性和召回率的調和平均值,每一項都是通過語言中的示例計算出來的。然而,任務之間確實存在某些細微差別,其中主要時針對空處理的評估。首先,每個例子的分數(shù)在一種語言中計算平均值;然后對所有非英語語言進行平均,得到最終的F1分數(shù)。對英語的測量被視為調試的有用手段,而不是TYDI QA任務的目標,因為在現(xiàn)有的數(shù)據(jù)集中已經有大量的英語評估覆蓋。

人類表現(xiàn)的評估

作為一個思維實驗,考慮將評價框架定為“正確答案被接受為正確答案的可能性有多大?”

作者提出了一個有首選答案的游戲:目標是為用戶提供他們喜歡的答案。如果注釋者正確選擇了這些首選答案,作者則希望多路注釋數(shù)據(jù)包含圍繞這些首選答案的峰值分布。然后,玩家的最佳策略是預測那些答案,這些答案既是用戶首選的,就更可能出現(xiàn)在評估數(shù)據(jù)集中。作者希望有大量的人工注釋者或經過良好優(yōu)化的機器學習系統(tǒng)來學習這種分布,這將有助于人類表現(xiàn)評估的提升。

主要任務:與基準模型的結果比較

提供了使用最新發(fā)布的多語言BERT(mBERT)的基線的結果。與Alberti等設置類似,其中所有語言都在一個模型中共同訓練(表5)。此外,由于基線還沒有經過訓練,作者包含了始終預測第一段通過的系統(tǒng)的結果,因為Wikipedia文章的第一段經??偨Y其最重要的事實。在所有語言中,我們都看到mBERT與較大的人類績效估計之間存在較大差距。

我們可以比較各種語言的分數(shù)嗎?抱歉不行。每種語言都有自己獨特的問題集,維基百科內容的質量和數(shù)量各不相同,注釋者的質量也不同,以及還存在其他變量。

黃金段落:一個簡化版的任務

在這個任務中,只提供了標準答案所在的段落而不是整個維基百科文章,并且社區(qū)了不可回答的問題,類似于MLQA和XQuAD,評估也參考類似XQuAD中的。臺語和日語被刪除了,因為語言中沒有空格可能不利于一些現(xiàn)有的工具使用。

基于簡化版任務的基線結果如表7。

總結及展望

作者預見了幾個研究方向,這些數(shù)據(jù)將使研究者能夠推動新的邊界,包括:

  • 研究形態(tài)學和問答匹配之間的相互作用;

  • 評估遷移學習的有效性,無論是對于有或沒有并行數(shù)據(jù)的語言;

  • 考慮到不同的數(shù)據(jù)場景和語言挑戰(zhàn),機器翻譯在數(shù)據(jù)擴充和作為運行時組件的問答中的有用性;

  • 通過顯式地不在所提供的語言的子集上進行訓練來研究零資源QA。

最后作者寫到,回答問題所需的內容常常沒有用更多的其他語言寫下來。對于這些語言,我們矛盾地面臨著需要跨語言答案檢索和翻譯的前景,同時資源貧乏的語言也缺少了可信賴的翻譯系統(tǒng)所需的并行數(shù)據(jù)。期待著研究界找到更多方法來提高多語言模型的質量。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。