论文浅尝 | HEAD-QA: 一个面向复杂推理的医疗保健数据集
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識庫問答。
來源:ACL2019
???????????
???? 本文構建了一個面向復雜推理任務的多選問答數據集 HEAD-QA,該數據集中的問題來自一個西班牙的醫療保健專業測試,對于具備該方向專業知識的人也具有一定的挑戰性。在原始數據的基礎上,作者還考慮了“單語-即西班牙語”,“跨語言-西班牙語到英語”兩種問答場景,分別使用信息檢索和神經網絡技術進行實驗對比,并得到結論:1.HEAD-QA數據集對于當前的方法來說是具有相當難度的問答數據集;2.該數據集上的實驗結果還遠遠低于人類回答者的水平,這表明其能夠作為未來工作的benchmark。
表1是該數據集的一個示例:
動機
????? 作者發現,對于現有的問答數據集如:bAbI,SQuAD 等,如今的問答系統已經能夠取得接近于人類級別的答題性能,且這些問題往往都能夠被“Surface-Level”的知識直接解答。因此,多選和推理類型的問題被提出用于自動問答的研究,早期問題集一般來自于學校,如小學的自然科學等學科,以及后來的中學或高中知識。但是這些數據集并沒有涉足例如醫藥等復雜領域,因此,作者考慮構建這樣一個數據集用于問答領域的研究工作。
?
貢獻???
作者認為本文的貢獻如下:
構建了HEAD-QA,一個涵蓋醫療保健多個子領域知識的高難度多選問答數據集,且包含西班牙語和英語兩種版本;
在上述數據集的基礎上,測試了當前面向開放域和多選的問答模型,體現出該數據集的復雜性以及其對于QA研究的實用性。
開源數據和模型鏈接:http://aghie.github.io/head-qa/
?
方法
數據集構建
Ministerio de Sanidad, Consumo y Bienestar Social(西班牙政府機構)每年舉行的一個面向公眾醫療保健領域的考試,作者收集了自2013年起至今的所有試題作為HEAD-QA的原始數據源,其中包含了以下子領域:醫學,藥理,心理學,護理,生物學和化學。其中2013-14年的多選題包含五個選項,其他年份均為四個選項,其問題內容主要面向技術,同時也包含一定的社會問題,其中約14%的問題含有圖片作為問題的附加信息,由以下形式呈現:
?????? 作者將數據整理為JSON結構并添加說明于文章的附錄A中,每個問題的構成包含以下幾點:
問題的ID和內容
問題對應的圖片路徑(如果有)
候選答案列表(包含答案序號和答案文本)
問題對應的正確答案ID
作者指出,雖然本文測試使用的模型均采用無監督或遠程監督,但他們依然提供了訓練集驗證集和測試集供其他相關方法的研究使用。對于有監督方法,將2013-14數據作為訓練集,2015作為驗證集,其他年份數據作為測試集。相關統計信息如表2和表3所示:
作者表示,之所以沒有使用隨機抽取等常規構建訓練集的方法有兩個原因:
每年的問答數據均由專家人工構建,且主觀上已經避免了考試內容可能存在的明顯偏向性;
?隨機抽取可能破壞這種人工獲得的優質問題分布
?
關于英文版本:雖然上述數據集僅有西班牙語官方版本,但作者使用Google翻譯API將其譯制為英文版本,從而用于跨語言問答實驗。論文隨機抽取了60個翻譯樣本(問答對)進行評估,發現翻譯保留了原始問題絕大部分的題意。
?
測試方法
??? 本文的測試基于信息檢索(IR)模型,主要參照 Chen 等人(2017),作者以Wikipedia作為信息數據源,用于所有baseline中。輸入問題僅為原始問題文本(移除了相關的ID,JSON結構信息)
?
西班牙語IR(單語問答)
IR方法上,沿用 DrQA’s Document Retriver(Chen et al., 2017),該方法能夠對query和文本向量之間的關系進行打分。
?
跨語言方法
a)? Multi-choice DrQA:
DrQA對于輸入的問題,首先返回五個最相關的文本,接下來的任務是從中找出包含正確答案的文本范圍(exact span),這一步利用一個神經網絡模型(Attentive Reader,Hermann et al., 2015)來實現,該模型由SQuAD數據集訓練得到。
b)?????Multi-choice BiDAF:
該方法與上述DrQA類似,但是用BiDAF方法作為文本閱讀器,只是它的訓練方式有所不同,除了使用SQuAD訓練外,之后再利用science question進行繼續訓練,該方法可能選擇到不止一個的正確答案,當出現這種情況時,作者會選擇文本長度最長的那個作為最終選項。
c)?????Multi-choiceDGEM and Decompatt(Clark et al., 2018):
該方法采用DGEM和Decompatt用于IR,主要考慮將hypthesis hik=qi+aik,每個hi用作query從而檢索到相關的文本句子,接著entailment分數用于衡量每個h與句子之間的相關性。
實驗
?????? 論文采用準確度作為問答的評價指標,同時構建一種得分累計機制參與系統性能評價:即,答對加3分,答錯扣1分。
??????? 以下是實驗結果:
1.????非監督設定下的實驗結果
2.????監督設定下的實驗結果
對比人工回答的實驗結果如下:
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | HEAD-QA: 一个面向复杂推理的医疗保健数据集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | Multilingual
- 下一篇: 论文浅尝 | 使用孪生BERT网络生成句