论文浅尝 | HEAD-QA: 一个面向复杂推理的医疗保健数据集
論文筆記整理:譚亦鳴,東南大學(xué)博士生,研究方向?yàn)橹R(shí)庫(kù)問(wèn)答。
來(lái)源:ACL2019
???????????
???? 本文構(gòu)建了一個(gè)面向復(fù)雜推理任務(wù)的多選問(wèn)答數(shù)據(jù)集 HEAD-QA,該數(shù)據(jù)集中的問(wèn)題來(lái)自一個(gè)西班牙的醫(yī)療保健專業(yè)測(cè)試,對(duì)于具備該方向?qū)I(yè)知識(shí)的人也具有一定的挑戰(zhàn)性。在原始數(shù)據(jù)的基礎(chǔ)上,作者還考慮了“單語(yǔ)-即西班牙語(yǔ)”,“跨語(yǔ)言-西班牙語(yǔ)到英語(yǔ)”兩種問(wèn)答場(chǎng)景,分別使用信息檢索和神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行實(shí)驗(yàn)對(duì)比,并得到結(jié)論:1.HEAD-QA數(shù)據(jù)集對(duì)于當(dāng)前的方法來(lái)說(shuō)是具有相當(dāng)難度的問(wèn)答數(shù)據(jù)集;2.該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果還遠(yuǎn)遠(yuǎn)低于人類回答者的水平,這表明其能夠作為未來(lái)工作的benchmark。
表1是該數(shù)據(jù)集的一個(gè)示例:
動(dòng)機(jī)
????? 作者發(fā)現(xiàn),對(duì)于現(xiàn)有的問(wèn)答數(shù)據(jù)集如:bAbI,SQuAD 等,如今的問(wèn)答系統(tǒng)已經(jīng)能夠取得接近于人類級(jí)別的答題性能,且這些問(wèn)題往往都能夠被“Surface-Level”的知識(shí)直接解答。因此,多選和推理類型的問(wèn)題被提出用于自動(dòng)問(wèn)答的研究,早期問(wèn)題集一般來(lái)自于學(xué)校,如小學(xué)的自然科學(xué)等學(xué)科,以及后來(lái)的中學(xué)或高中知識(shí)。但是這些數(shù)據(jù)集并沒(méi)有涉足例如醫(yī)藥等復(fù)雜領(lǐng)域,因此,作者考慮構(gòu)建這樣一個(gè)數(shù)據(jù)集用于問(wèn)答領(lǐng)域的研究工作。
?
貢獻(xiàn)???
作者認(rèn)為本文的貢獻(xiàn)如下:
構(gòu)建了HEAD-QA,一個(gè)涵蓋醫(yī)療保健多個(gè)子領(lǐng)域知識(shí)的高難度多選問(wèn)答數(shù)據(jù)集,且包含西班牙語(yǔ)和英語(yǔ)兩種版本;
在上述數(shù)據(jù)集的基礎(chǔ)上,測(cè)試了當(dāng)前面向開(kāi)放域和多選的問(wèn)答模型,體現(xiàn)出該數(shù)據(jù)集的復(fù)雜性以及其對(duì)于QA研究的實(shí)用性。
開(kāi)源數(shù)據(jù)和模型鏈接:http://aghie.github.io/head-qa/
?
方法
數(shù)據(jù)集構(gòu)建
Ministerio de Sanidad, Consumo y Bienestar Social(西班牙政府機(jī)構(gòu))每年舉行的一個(gè)面向公眾醫(yī)療保健領(lǐng)域的考試,作者收集了自2013年起至今的所有試題作為HEAD-QA的原始數(shù)據(jù)源,其中包含了以下子領(lǐng)域:醫(yī)學(xué),藥理,心理學(xué),護(hù)理,生物學(xué)和化學(xué)。其中2013-14年的多選題包含五個(gè)選項(xiàng),其他年份均為四個(gè)選項(xiàng),其問(wèn)題內(nèi)容主要面向技術(shù),同時(shí)也包含一定的社會(huì)問(wèn)題,其中約14%的問(wèn)題含有圖片作為問(wèn)題的附加信息,由以下形式呈現(xiàn):
?????? 作者將數(shù)據(jù)整理為JSON結(jié)構(gòu)并添加說(shuō)明于文章的附錄A中,每個(gè)問(wèn)題的構(gòu)成包含以下幾點(diǎn):
問(wèn)題的ID和內(nèi)容
問(wèn)題對(duì)應(yīng)的圖片路徑(如果有)
候選答案列表(包含答案序號(hào)和答案文本)
問(wèn)題對(duì)應(yīng)的正確答案ID
作者指出,雖然本文測(cè)試使用的模型均采用無(wú)監(jiān)督或遠(yuǎn)程監(jiān)督,但他們依然提供了訓(xùn)練集驗(yàn)證集和測(cè)試集供其他相關(guān)方法的研究使用。對(duì)于有監(jiān)督方法,將2013-14數(shù)據(jù)作為訓(xùn)練集,2015作為驗(yàn)證集,其他年份數(shù)據(jù)作為測(cè)試集。相關(guān)統(tǒng)計(jì)信息如表2和表3所示:
作者表示,之所以沒(méi)有使用隨機(jī)抽取等常規(guī)構(gòu)建訓(xùn)練集的方法有兩個(gè)原因:
每年的問(wèn)答數(shù)據(jù)均由專家人工構(gòu)建,且主觀上已經(jīng)避免了考試內(nèi)容可能存在的明顯偏向性;
?隨機(jī)抽取可能破壞這種人工獲得的優(yōu)質(zhì)問(wèn)題分布
?
關(guān)于英文版本:雖然上述數(shù)據(jù)集僅有西班牙語(yǔ)官方版本,但作者使用Google翻譯API將其譯制為英文版本,從而用于跨語(yǔ)言問(wèn)答實(shí)驗(yàn)。論文隨機(jī)抽取了60個(gè)翻譯樣本(問(wèn)答對(duì))進(jìn)行評(píng)估,發(fā)現(xiàn)翻譯保留了原始問(wèn)題絕大部分的題意。
?
測(cè)試方法
??? 本文的測(cè)試基于信息檢索(IR)模型,主要參照 Chen 等人(2017),作者以Wikipedia作為信息數(shù)據(jù)源,用于所有baseline中。輸入問(wèn)題僅為原始問(wèn)題文本(移除了相關(guān)的ID,JSON結(jié)構(gòu)信息)
?
西班牙語(yǔ)IR(單語(yǔ)問(wèn)答)
IR方法上,沿用 DrQA’s Document Retriver(Chen et al., 2017),該方法能夠?qū)uery和文本向量之間的關(guān)系進(jìn)行打分。
?
跨語(yǔ)言方法
a)? Multi-choice DrQA:
DrQA對(duì)于輸入的問(wèn)題,首先返回五個(gè)最相關(guān)的文本,接下來(lái)的任務(wù)是從中找出包含正確答案的文本范圍(exact span),這一步利用一個(gè)神經(jīng)網(wǎng)絡(luò)模型(Attentive Reader,Hermann et al., 2015)來(lái)實(shí)現(xiàn),該模型由SQuAD數(shù)據(jù)集訓(xùn)練得到。
b)?????Multi-choice BiDAF:
該方法與上述DrQA類似,但是用BiDAF方法作為文本閱讀器,只是它的訓(xùn)練方式有所不同,除了使用SQuAD訓(xùn)練外,之后再利用science question進(jìn)行繼續(xù)訓(xùn)練,該方法可能選擇到不止一個(gè)的正確答案,當(dāng)出現(xiàn)這種情況時(shí),作者會(huì)選擇文本長(zhǎng)度最長(zhǎng)的那個(gè)作為最終選項(xiàng)。
c)?????Multi-choiceDGEM and Decompatt(Clark et al., 2018):
該方法采用DGEM和Decompatt用于IR,主要考慮將hypthesis hik=qi+aik,每個(gè)hi用作query從而檢索到相關(guān)的文本句子,接著entailment分?jǐn)?shù)用于衡量每個(gè)h與句子之間的相關(guān)性。
實(shí)驗(yàn)
?????? 論文采用準(zhǔn)確度作為問(wèn)答的評(píng)價(jià)指標(biāo),同時(shí)構(gòu)建一種得分累計(jì)機(jī)制參與系統(tǒng)性能評(píng)價(jià):即,答對(duì)加3分,答錯(cuò)扣1分。
??????? 以下是實(shí)驗(yàn)結(jié)果:
1.????非監(jiān)督設(shè)定下的實(shí)驗(yàn)結(jié)果
2.????監(jiān)督設(shè)定下的實(shí)驗(yàn)結(jié)果
對(duì)比人工回答的實(shí)驗(yàn)結(jié)果如下:
?
?
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | HEAD-QA: 一个面向复杂推理的医疗保健数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | Multilingual
- 下一篇: 论文浅尝 | 使用孪生BERT网络生成句