AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!
文 | python
前言
GPT-3 等超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,在少監(jiān)督任務(wù)(few-shot tasks)上取得了令人矚目的成績(jī)。而這篇文章中,AllenAI的研究員提出了大規(guī)模生成式問(wèn)答模型,MACAW?;诙嘟嵌阮A(yù)訓(xùn)練,MACAW可以用于包括段選取(span selection)、選擇題、生成式問(wèn)答在內(nèi)的一切問(wèn)答任務(wù),以及包括問(wèn)題生成、選項(xiàng)生成、解釋生成等在內(nèi)的多種問(wèn)答相關(guān)任務(wù)。MACAW在ARC、ARC-DA等多個(gè)問(wèn)答基準(zhǔn)上取得了業(yè)界最好的成績(jī),并且只用了GPT-3 十六分之一的參數(shù)規(guī)模,就在無(wú)監(jiān)督問(wèn)答數(shù)據(jù)集 Challenge300 上,相較GPT-3取得了10%的絕對(duì)提升。
論文題目:
General-Purpose Question-Answering with MACAW
論文鏈接:
https://arxiv.org/abs/2109.02593
項(xiàng)目地址:
https://github.com/allenai/macaw
概覽
MACAW(Multi-Angle q(C)uestion-AnsWering),字面含義指一種多角度問(wèn)答模型。在這篇文章中,作者擴(kuò)展了之前自己在UnifiedQA[1] 中提出了統(tǒng)一問(wèn)答框架,將不同的問(wèn)答任務(wù)形式進(jìn)一步擴(kuò)展到不同的問(wèn)答相關(guān)任務(wù),從而實(shí)現(xiàn)一種多角度的預(yù)訓(xùn)練的方式,提升模型的通用性的同時(shí),也提升模型的魯棒性。
編者按:這篇文章也可以稱(chēng)為Unified-UnifiedQA。一方面,這篇文章兩個(gè)作者是均為UnifiedQA文章的作者;另一方面,在UnifiedQA中,作者利用預(yù)訓(xùn)練語(yǔ)言模型,將所有生成、抽取、選擇式的問(wèn)答任務(wù)形式統(tǒng)一,而這篇文章中進(jìn)一步統(tǒng)一了如問(wèn)題生成、選項(xiàng)生成,回答解釋生成等問(wèn)答相關(guān)任務(wù)。
具體而言,MACAW基于預(yù)訓(xùn)練的T5模型[2],并通過(guò)兩階段精調(diào)得到。在第一階段中,采用包括BoolQ、 NarrativeQA、RACE在內(nèi)的7個(gè)問(wèn)答數(shù)據(jù)集,并通過(guò)問(wèn)題生成、答案生成、選項(xiàng)生成、選項(xiàng)加答案生成等6種不同的任務(wù)范式,讓模型充分地學(xué)到問(wèn)答相關(guān)的一切技巧。而在第二階段中,采用了兩個(gè)標(biāo)注有答案解釋的數(shù)據(jù)集,ARC和ARC-DA,進(jìn)一步引入了8種和解釋相關(guān)的任務(wù)范式,讓模型知其然的同時(shí),也能知其所以然。
MACAW具有以下三點(diǎn)優(yōu)勢(shì):
面向領(lǐng)域外的樣本,MACAW具備出色的無(wú)監(jiān)督遷移學(xué)習(xí)能力。在 Challenge300 ?數(shù)據(jù)集上,相較GPT-3取得10%的絕對(duì)提升。
MACAW具有“多角度問(wèn)答能力”,無(wú)論是問(wèn)題生成,還是回答生成,亦或是選項(xiàng)生成,MACAW都能勝任。
MACAW還能生成回答的解釋,體現(xiàn)出知其然亦知其所以然的能力。
MACAW 模型
精調(diào)階段1:會(huì)出題的問(wèn)答模型,才是個(gè)好模型
在第一個(gè)精調(diào)階段中,作者在7個(gè)問(wèn)答數(shù)據(jù)集上,以6種不同的任務(wù)形式精調(diào)T5。這里選用的數(shù)據(jù)集有答案段選取形式的SQuAD 2.0,有是否類(lèi)問(wèn)題BoolQ,有描述類(lèi)生成式回答的NarrativeQA,有多項(xiàng)選擇題的RACE等等。
為了統(tǒng)一不同的任務(wù)形式,作者以slot的方式約定了任務(wù)的輸入輸出。例如下圖展示的是一個(gè)給定問(wèn)題(questions)和候選選項(xiàng)(mcoptions),讓模型對(duì)答案(answer)做出預(yù)測(cè)的任務(wù)形式:
在7個(gè)數(shù)據(jù)集上,作者根據(jù)數(shù)據(jù)集特點(diǎn),設(shè)計(jì)了6種任務(wù)作為第一階段的訓(xùn)練目標(biāo)。如下表所示。其中的符號(hào),Q指問(wèn)題、C指上下文(即閱讀理解讀的文本),A指答案,M指候選選項(xiàng)(選擇題里才有)。例如QC→A指答案生成,AC→Q指問(wèn)題生成,QAC→M指給定文章問(wèn)題和答案的選項(xiàng)生成??梢钥吹?#xff0c;這里面除了在原本UnifiedQA中就包含的答案生成任務(wù)外,還引入了大量問(wèn)題生成、選項(xiàng)生成等任務(wù)。 讓模型在學(xué)會(huì)解題的同時(shí),也學(xué)會(huì)出題。
這里有兩個(gè)有意思的點(diǎn)。一方面,任務(wù)模式中可以有多種輸出,而考慮到生成模型自回歸解碼,多種輸出之間的順序關(guān)系是有意義的。比如AC→QM,是先根據(jù)文章和答案,生成問(wèn)題,再根據(jù)生成的問(wèn)題,生成候選選項(xiàng)。另一方面,這里的任務(wù)設(shè)計(jì)考慮了數(shù)據(jù)特點(diǎn),比如雖然QA→C,即給定問(wèn)答對(duì),生成閱讀文章,理論上可行。但實(shí)際中,因?yàn)閱?wèn)答對(duì)中包含的信息過(guò)少,文章C中含有大量無(wú)關(guān)信息,導(dǎo)致這種任務(wù)沒(méi)有太多實(shí)際意義。因此,這里也沒(méi)有涉及這種沒(méi)有意義的任務(wù)。
在實(shí)際訓(xùn)練過(guò)程中,所有數(shù)據(jù)集與所有任務(wù)范式混合在一起進(jìn)行訓(xùn)練。以8的批處理大小,迭代訓(xùn)練了120k步。不同的數(shù)據(jù)集之間進(jìn)行等概率采樣。不同的任務(wù)之間也先驗(yàn)性的賦給了一個(gè)采樣的權(quán)重。畢竟相對(duì)來(lái)說(shuō),答案生成比問(wèn)題生成更重要一點(diǎn),而這兩者又都明顯比選項(xiàng)生成等任務(wù)更重要。
第一階段精調(diào)的模型,在精調(diào)任務(wù)上的表現(xiàn)如下表所示。其中,NarrativeQA以ROUGE-L作評(píng)價(jià),SQuAD2.0以F1作評(píng)價(jià),其余任務(wù)均以精度為評(píng)價(jià)指標(biāo)。可以看到,引入多種不同的任務(wù)范式之后,模型在問(wèn)答任務(wù)上的表現(xiàn)與單一問(wèn)答任務(wù)的結(jié)果比是相當(dāng)?shù)?#xff0c;但具有了解決更多不同類(lèi)型任務(wù)的能力。
編者按:實(shí)際上,由于訓(xùn)練時(shí)采用多任務(wù)混合訓(xùn)練,測(cè)試時(shí)使用單一任務(wù)測(cè)試,這一差異肯定會(huì)帶來(lái)表現(xiàn)下降。個(gè)人感覺(jué),如果在這一階段訓(xùn)練后再引入單一問(wèn)答任務(wù)的精調(diào),或使用課程學(xué)習(xí)的方式,將這一階段預(yù)訓(xùn)練逐漸轉(zhuǎn)化為純問(wèn)答形式,在問(wèn)答任務(wù)上的表現(xiàn)會(huì)更好。不過(guò),這里作者主要是做一個(gè)初步的預(yù)訓(xùn)練,而非為了刷問(wèn)答任務(wù)的指標(biāo),因此沒(méi)有做這些嘗試。
精調(diào)階段2:成熟的問(wèn)答模型,還能自我解釋
作者進(jìn)一步引入了解釋類(lèi)任務(wù),讓模型知其然的同時(shí)還能夠知其所以然,使無(wú)監(jiān)督問(wèn)答任務(wù)上的回答更合理。作者使用了 WorldTree V2 explanation bank[3]中的幾十標(biāo)注,覆蓋65% 的 ARC 數(shù)據(jù)集和 50% 的 ARC-DA 數(shù)據(jù)集。
這里的“無(wú)監(jiān)督”,其實(shí)也可以理解成是領(lǐng)域外數(shù)據(jù),即沒(méi)有和測(cè)試集同分布的訓(xùn)練數(shù)據(jù),但有大量形式類(lèi)似的相關(guān)任務(wù)可以用于訓(xùn)練。
任務(wù)形式如上圖所示,其中E代表解釋(explanation)。除了部分在第一階段也采用的任務(wù)外,作者引入了8個(gè)和解釋相關(guān)的任務(wù),例如QM→AE,即給定問(wèn)題和選項(xiàng),生成答案后再生成解釋,AQC→E,即給定文本、問(wèn)題和答案,生成解釋,E→QA,給定解釋,生成問(wèn)題并作出回答。第二階段精調(diào)中,作者采用和第一階段類(lèi)似的訓(xùn)練策略,在第一階段的結(jié)果上進(jìn)一步訓(xùn)練了6k步。部分示例如下圖所示。
實(shí)驗(yàn)分析
ARC數(shù)據(jù)集
作者在ARC數(shù)據(jù)集上檢測(cè)了MACAW的表現(xiàn),如下表所示。MACAW在ARC、ARC-Easy和ARC- DA 上均達(dá)到了業(yè)界最優(yōu)的表現(xiàn)[4]。不過(guò),但監(jiān)督學(xué)習(xí)范式下,在生成答案之后引入解釋的生成(即QM→AE),并沒(méi)有讓模型表現(xiàn)有明顯的提升。作者分析表示,引入解釋生成后,答案生成時(shí)條件依賴(lài)于生成的解釋,會(huì)使得生成答案的確定性更高。而不夠完美的解釋可能會(huì)反而強(qiáng)化錯(cuò)誤答案的概率。
Challenge300數(shù)據(jù)集
Challenge300 是一個(gè)手工構(gòu)建的問(wèn)答評(píng)價(jià)數(shù)據(jù)集,由300道問(wèn)題組成,涵蓋了22類(lèi)不同的考察方面。在這里作為一個(gè)無(wú)監(jiān)督(領(lǐng)域外)的評(píng)價(jià)基準(zhǔn)。因這個(gè)數(shù)據(jù)集答案較為靈活,規(guī)模較小,評(píng)價(jià)時(shí)以人工評(píng)價(jià)為準(zhǔn)。作者對(duì)比了MACAW與GPT-3等主流無(wú)監(jiān)督問(wèn)答模型,實(shí)驗(yàn)結(jié)果如下表所示??梢钥吹?#xff0c;和GPT-3相比,MACAW也可以取得10%的絕對(duì)提升,即使MACAW的11B的參數(shù)規(guī)模知識(shí)GPT-3 的175B的參數(shù)規(guī)模的十六分之一。
在不同類(lèi)型的問(wèn)題上的表現(xiàn)對(duì)比如上圖所示??梢钥闯?#xff0c;MACAW在很多問(wèn)題類(lèi)型上均表現(xiàn)出了明顯的優(yōu)勢(shì)。例如:
實(shí)體替換類(lèi)問(wèn)題(Entity Substitution):挖掘?qū)嶓w關(guān)鍵屬性并找出可替代實(shí)體。
在條件假設(shè)下進(jìn)行推理(Hypotheticals):
一些屬性相關(guān)的暗指(Meta-reasoning)
不過(guò),MACAW也在某些問(wèn)題上表現(xiàn)不佳,比如:
數(shù)學(xué)題(Non-trivial Arithmetic):其實(shí)在“5+7=?”這種簡(jiǎn)單的數(shù)學(xué)題上,MACAW的表現(xiàn)還是不錯(cuò)的。但數(shù)大一些之后就不行了。
物體追蹤(Entity Tracking and State Changes):這類(lèi)問(wèn)題在之前的bAbI數(shù)據(jù)集上比較常見(jiàn)。
空間推理(Spatial Reasoning):
總結(jié)
這篇文章提出的MACAW,在預(yù)訓(xùn)練模型T5的基礎(chǔ)上,整合了包括段選取(span selection)、選擇題、生成式問(wèn)答在內(nèi)的一切問(wèn)答范式,以及包括問(wèn)題生成、選項(xiàng)生成、解釋生成等在內(nèi)的多種問(wèn)答相關(guān)任務(wù)做聯(lián)合精調(diào)。MACAW在多個(gè)問(wèn)答基準(zhǔn)上取得了業(yè)界最好的成績(jī),并只用了GPT-3 十六分之一的參數(shù)規(guī)模,就在無(wú)監(jiān)督問(wèn)答數(shù)據(jù)集 Challenge300 上,相較GPT-3取得了10%的絕對(duì)提升,展現(xiàn)了強(qiáng)大的無(wú)監(jiān)督學(xué)習(xí)的能力。
多數(shù)據(jù)集多任務(wù)整合一直是問(wèn)答任務(wù)的一大研究趨勢(shì)。2016年SQuAD提出以來(lái),大量的問(wèn)答數(shù)據(jù)集涌現(xiàn),為多數(shù)據(jù)集整合提供了有力的數(shù)據(jù)支撐。受到Dual learning的啟發(fā),MSRA的段楠老師等人在2017年EMNLP上提出聯(lián)合問(wèn)題生成與問(wèn)答任務(wù)[5],展現(xiàn)出多任務(wù)整合有利于問(wèn)答表現(xiàn)。而2018年提出的BERT,因其適用于多種任務(wù)多種形式的包容性,給這一趨勢(shì)提供了無(wú)限可能。近期的工作包括:MultiQA (ACL 2019) [6]整合6種大規(guī)模段選取(span selection)任務(wù),并探討了對(duì)小規(guī)模任務(wù)的遷移能力;UnifiedQA (EMNLP Findings 2020),整合了多種不同的問(wèn)答任務(wù)形式;以及這篇工作,進(jìn)一步整合了問(wèn)答任務(wù)及問(wèn)題生成、選項(xiàng)生成、解釋生成等更多的問(wèn)答相關(guān)任務(wù)形式。問(wèn)答數(shù)據(jù)集本身可能才是限制問(wèn)答任務(wù)難以走向?qū)嶋H應(yīng)用的一大難題,畢竟在業(yè)務(wù)場(chǎng)景中用戶(hù)的問(wèn)題千奇百怪,很難有足夠的同分布數(shù)據(jù)用以訓(xùn)練。借助大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型強(qiáng)大的通用性,與prompt方法的靈活性,更多數(shù)據(jù)、知識(shí)與任務(wù)形式可以整合在一起,有助于打破問(wèn)答任務(wù)應(yīng)用的壁壘。
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣(mài)萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
?
[1] Khashabi, Daniel, et al. "UnifiedQA: Crossing Format Boundaries With a Single QA System." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings. 2020.
[2] Raffel, Colin, et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." Journal of Machine Learning Research 21.140 (2020): 1-67.
[3] Jansen, Peter, et al. "WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.
[4] 數(shù)據(jù)集leaderboard:https://leaderboard.allenai.org/arc/submissions/public ,https://leaderboard.allenai.org/arceasy/submissions/public,https://leaderboard.allenai.org/genie-arcda/submissions/publicarcda/submissions/public
[5] Duan, Nan, et al. "Question generation for question answering." Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.
[6] Talmor, Alon, and Jonathan Berant. "MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.
總結(jié)
以上是生活随笔為你收集整理的AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 预训练语言模型真的是世界模型?
- 下一篇: 如何评价一个推荐系统的好坏?