當(dāng)前位置：首頁(yè) > 运维知识 > windows >内容正文

windows

AllenAI 发布万能问答系统 MACAW！各类题型样样精通，性能大幅超越 GPT-3！

發(fā)布時(shí)間：2024/7/5 windows 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 AllenAI 发布万能问答系统 MACAW！各类题型样样精通，性能大幅超越 GPT-3！小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | python

前言

GPT-3 等超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型，在少監(jiān)督任務(wù)（few-shot tasks）上取得了令人矚目的成績(jī)。而這篇文章中，AllenAI的研究員提出了大規(guī)模生成式問(wèn)答模型，MACAW?；诙嘟嵌阮A(yù)訓(xùn)練，MACAW可以用于包括段選取(span selection)、選擇題、生成式問(wèn)答在內(nèi)的一切問(wèn)答任務(wù)，以及包括問(wèn)題生成、選項(xiàng)生成、解釋生成等在內(nèi)的多種問(wèn)答相關(guān)任務(wù)。MACAW在ARC、ARC-DA等多個(gè)問(wèn)答基準(zhǔn)上取得了業(yè)界最好的成績(jī)，并且只用了GPT-3 十六分之一的參數(shù)規(guī)模，就在無(wú)監(jiān)督問(wèn)答數(shù)據(jù)集 Challenge300 上，相較GPT-3取得了10%的絕對(duì)提升。

論文題目：
General-Purpose Question-Answering with MACAW

論文鏈接：
https://arxiv.org/abs/2109.02593

項(xiàng)目地址：
https://github.com/allenai/macaw

概覽

MACAW（Multi-Angle q(C)uestion-AnsWering），字面含義指一種多角度問(wèn)答模型。在這篇文章中，作者擴(kuò)展了之前自己在UnifiedQA[1] 中提出了統(tǒng)一問(wèn)答框架，將不同的問(wèn)答任務(wù)形式進(jìn)一步擴(kuò)展到不同的問(wèn)答相關(guān)任務(wù)，從而實(shí)現(xiàn)一種多角度的預(yù)訓(xùn)練的方式，提升模型的通用性的同時(shí)，也提升模型的魯棒性。

編者按：這篇文章也可以稱(chēng)為Unified-UnifiedQA。一方面，這篇文章兩個(gè)作者是均為UnifiedQA文章的作者；另一方面，在UnifiedQA中，作者利用預(yù)訓(xùn)練語(yǔ)言模型，將所有生成、抽取、選擇式的問(wèn)答任務(wù)形式統(tǒng)一，而這篇文章中進(jìn)一步統(tǒng)一了如問(wèn)題生成、選項(xiàng)生成，回答解釋生成等問(wèn)答相關(guān)任務(wù)。

具體而言，MACAW基于預(yù)訓(xùn)練的T5模型[2]，并通過(guò)兩階段精調(diào)得到。在第一階段中，采用包括BoolQ、 NarrativeQA、RACE在內(nèi)的7個(gè)問(wèn)答數(shù)據(jù)集，并通過(guò)問(wèn)題生成、答案生成、選項(xiàng)生成、選項(xiàng)加答案生成等6種不同的任務(wù)范式，讓模型充分地學(xué)到問(wèn)答相關(guān)的一切技巧。而在第二階段中，采用了兩個(gè)標(biāo)注有答案解釋的數(shù)據(jù)集，ARC和ARC-DA，進(jìn)一步引入了8種和解釋相關(guān)的任務(wù)范式，讓模型知其然的同時(shí)，也能知其所以然。

MACAW具有以下三點(diǎn)優(yōu)勢(shì)：

面向領(lǐng)域外的樣本，MACAW具備出色的無(wú)監(jiān)督遷移學(xué)習(xí)能力。在 Challenge300 ?數(shù)據(jù)集上，相較GPT-3取得10%的絕對(duì)提升。
MACAW具有“多角度問(wèn)答能力”，無(wú)論是問(wèn)題生成，還是回答生成，亦或是選項(xiàng)生成，MACAW都能勝任。
MACAW還能生成回答的解釋，體現(xiàn)出知其然亦知其所以然的能力。

MACAW 模型

精調(diào)階段1：會(huì)出題的問(wèn)答模型，才是個(gè)好模型

在第一個(gè)精調(diào)階段中，作者在7個(gè)問(wèn)答數(shù)據(jù)集上，以6種不同的任務(wù)形式精調(diào)T5。這里選用的數(shù)據(jù)集有答案段選取形式的SQuAD 2.0，有是否類(lèi)問(wèn)題BoolQ，有描述類(lèi)生成式回答的NarrativeQA，有多項(xiàng)選擇題的RACE等等。

為了統(tǒng)一不同的任務(wù)形式，作者以slot的方式約定了任務(wù)的輸入輸出。例如下圖展示的是一個(gè)給定問(wèn)題（questions）和候選選項(xiàng)（mcoptions），讓模型對(duì)答案（answer）做出預(yù)測(cè)的任務(wù)形式：

在7個(gè)數(shù)據(jù)集上，作者根據(jù)數(shù)據(jù)集特點(diǎn)，設(shè)計(jì)了6種任務(wù)作為第一階段的訓(xùn)練目標(biāo)。如下表所示。其中的符號(hào)，Q指問(wèn)題、C指上下文（即閱讀理解讀的文本），A指答案，M指候選選項(xiàng)（選擇題里才有）。例如QC→A指答案生成，AC→Q指問(wèn)題生成，QAC→M指給定文章問(wèn)題和答案的選項(xiàng)生成?？梢钥吹?#xff0c;這里面除了在原本UnifiedQA中就包含的答案生成任務(wù)外，還引入了大量問(wèn)題生成、選項(xiàng)生成等任務(wù)。 讓模型在學(xué)會(huì)解題的同時(shí)，也學(xué)會(huì)出題。

這里有兩個(gè)有意思的點(diǎn)。一方面，任務(wù)模式中可以有多種輸出，而考慮到生成模型自回歸解碼，多種輸出之間的順序關(guān)系是有意義的。比如AC→QM，是先根據(jù)文章和答案，生成問(wèn)題，再根據(jù)生成的問(wèn)題，生成候選選項(xiàng)。另一方面，這里的任務(wù)設(shè)計(jì)考慮了數(shù)據(jù)特點(diǎn)，比如雖然QA→C，即給定問(wèn)答對(duì)，生成閱讀文章，理論上可行。但實(shí)際中，因?yàn)閱?wèn)答對(duì)中包含的信息過(guò)少，文章C中含有大量無(wú)關(guān)信息，導(dǎo)致這種任務(wù)沒(méi)有太多實(shí)際意義。因此，這里也沒(méi)有涉及這種沒(méi)有意義的任務(wù)。

在實(shí)際訓(xùn)練過(guò)程中，所有數(shù)據(jù)集與所有任務(wù)范式混合在一起進(jìn)行訓(xùn)練。以8的批處理大小，迭代訓(xùn)練了120k步。不同的數(shù)據(jù)集之間進(jìn)行等概率采樣。不同的任務(wù)之間也先驗(yàn)性的賦給了一個(gè)采樣的權(quán)重。畢竟相對(duì)來(lái)說(shuō)，答案生成比問(wèn)題生成更重要一點(diǎn)，而這兩者又都明顯比選項(xiàng)生成等任務(wù)更重要。

第一階段精調(diào)的模型，在精調(diào)任務(wù)上的表現(xiàn)如下表所示。其中，NarrativeQA以ROUGE-L作評(píng)價(jià)，SQuAD2.0以F1作評(píng)價(jià)，其余任務(wù)均以精度為評(píng)價(jià)指標(biāo)。可以看到，引入多種不同的任務(wù)范式之后，模型在問(wèn)答任務(wù)上的表現(xiàn)與單一問(wèn)答任務(wù)的結(jié)果比是相當(dāng)?shù)?#xff0c;但具有了解決更多不同類(lèi)型任務(wù)的能力。

編者按：實(shí)際上，由于訓(xùn)練時(shí)采用多任務(wù)混合訓(xùn)練，測(cè)試時(shí)使用單一任務(wù)測(cè)試，這一差異肯定會(huì)帶來(lái)表現(xiàn)下降。個(gè)人感覺(jué)，如果在這一階段訓(xùn)練后再引入單一問(wèn)答任務(wù)的精調(diào)，或使用課程學(xué)習(xí)的方式，將這一階段預(yù)訓(xùn)練逐漸轉(zhuǎn)化為純問(wèn)答形式，在問(wèn)答任務(wù)上的表現(xiàn)會(huì)更好。不過(guò)，這里作者主要是做一個(gè)初步的預(yù)訓(xùn)練，而非為了刷問(wèn)答任務(wù)的指標(biāo)，因此沒(méi)有做這些嘗試。

精調(diào)階段2：成熟的問(wèn)答模型，還能自我解釋

作者進(jìn)一步引入了解釋類(lèi)任務(wù)，讓模型知其然的同時(shí)還能夠知其所以然，使無(wú)監(jiān)督問(wèn)答任務(wù)上的回答更合理。作者使用了 WorldTree V2 explanation bank[3]中的幾十標(biāo)注，覆蓋65% 的 ARC 數(shù)據(jù)集和 50% 的 ARC-DA 數(shù)據(jù)集。

這里的“無(wú)監(jiān)督”，其實(shí)也可以理解成是領(lǐng)域外數(shù)據(jù)，即沒(méi)有和測(cè)試集同分布的訓(xùn)練數(shù)據(jù)，但有大量形式類(lèi)似的相關(guān)任務(wù)可以用于訓(xùn)練。

任務(wù)形式如上圖所示，其中E代表解釋（explanation）。除了部分在第一階段也采用的任務(wù)外，作者引入了8個(gè)和解釋相關(guān)的任務(wù)，例如QM→AE，即給定問(wèn)題和選項(xiàng)，生成答案后再生成解釋，AQC→E，即給定文本、問(wèn)題和答案，生成解釋，E→QA，給定解釋，生成問(wèn)題并作出回答。第二階段精調(diào)中，作者采用和第一階段類(lèi)似的訓(xùn)練策略，在第一階段的結(jié)果上進(jìn)一步訓(xùn)練了6k步。部分示例如下圖所示。

實(shí)驗(yàn)分析

ARC數(shù)據(jù)集

作者在ARC數(shù)據(jù)集上檢測(cè)了MACAW的表現(xiàn)，如下表所示。MACAW在ARC、ARC-Easy和ARC- DA 上均達(dá)到了業(yè)界最優(yōu)的表現(xiàn)[4]。不過(guò)，但監(jiān)督學(xué)習(xí)范式下，在生成答案之后引入解釋的生成（即QM→AE），并沒(méi)有讓模型表現(xiàn)有明顯的提升。作者分析表示，引入解釋生成后，答案生成時(shí)條件依賴(lài)于生成的解釋，會(huì)使得生成答案的確定性更高。而不夠完美的解釋可能會(huì)反而強(qiáng)化錯(cuò)誤答案的概率。

Challenge300數(shù)據(jù)集

Challenge300 是一個(gè)手工構(gòu)建的問(wèn)答評(píng)價(jià)數(shù)據(jù)集，由300道問(wèn)題組成，涵蓋了22類(lèi)不同的考察方面。在這里作為一個(gè)無(wú)監(jiān)督（領(lǐng)域外）的評(píng)價(jià)基準(zhǔn)。因這個(gè)數(shù)據(jù)集答案較為靈活，規(guī)模較小，評(píng)價(jià)時(shí)以人工評(píng)價(jià)為準(zhǔn)。作者對(duì)比了MACAW與GPT-3等主流無(wú)監(jiān)督問(wèn)答模型，實(shí)驗(yàn)結(jié)果如下表所示?？梢钥吹?#xff0c;和GPT-3相比，MACAW也可以取得10%的絕對(duì)提升，即使MACAW的11B的參數(shù)規(guī)模知識(shí)GPT-3 的175B的參數(shù)規(guī)模的十六分之一。

在不同類(lèi)型的問(wèn)題上的表現(xiàn)對(duì)比如上圖所示?？梢钥闯?#xff0c;MACAW在很多問(wèn)題類(lèi)型上均表現(xiàn)出了明顯的優(yōu)勢(shì)。例如：

實(shí)體替換類(lèi)問(wèn)題（Entity Substitution）：挖掘?qū)嶓w關(guān)鍵屬性并找出可替代實(shí)體。

在條件假設(shè)下進(jìn)行推理（Hypotheticals）：

一些屬性相關(guān)的暗指（Meta-reasoning）

不過(guò)，MACAW也在某些問(wèn)題上表現(xiàn)不佳，比如：

數(shù)學(xué)題（Non-trivial Arithmetic）：其實(shí)在“5+7=?”這種簡(jiǎn)單的數(shù)學(xué)題上，MACAW的表現(xiàn)還是不錯(cuò)的。但數(shù)大一些之后就不行了。

物體追蹤（Entity Tracking and State Changes）：這類(lèi)問(wèn)題在之前的bAbI數(shù)據(jù)集上比較常見(jiàn)。

空間推理（Spatial Reasoning）：

總結(jié)

這篇文章提出的MACAW，在預(yù)訓(xùn)練模型T5的基礎(chǔ)上，整合了包括段選取(span selection)、選擇題、生成式問(wèn)答在內(nèi)的一切問(wèn)答范式，以及包括問(wèn)題生成、選項(xiàng)生成、解釋生成等在內(nèi)的多種問(wèn)答相關(guān)任務(wù)做聯(lián)合精調(diào)。MACAW在多個(gè)問(wèn)答基準(zhǔn)上取得了業(yè)界最好的成績(jī)，并只用了GPT-3 十六分之一的參數(shù)規(guī)模，就在無(wú)監(jiān)督問(wèn)答數(shù)據(jù)集 Challenge300 上，相較GPT-3取得了10%的絕對(duì)提升，展現(xiàn)了強(qiáng)大的無(wú)監(jiān)督學(xué)習(xí)的能力。

多數(shù)據(jù)集多任務(wù)整合一直是問(wèn)答任務(wù)的一大研究趨勢(shì)。2016年SQuAD提出以來(lái)，大量的問(wèn)答數(shù)據(jù)集涌現(xiàn)，為多數(shù)據(jù)集整合提供了有力的數(shù)據(jù)支撐。受到Dual learning的啟發(fā)，MSRA的段楠老師等人在2017年EMNLP上提出聯(lián)合問(wèn)題生成與問(wèn)答任務(wù)[5]，展現(xiàn)出多任務(wù)整合有利于問(wèn)答表現(xiàn)。而2018年提出的BERT，因其適用于多種任務(wù)多種形式的包容性，給這一趨勢(shì)提供了無(wú)限可能。近期的工作包括：MultiQA (ACL 2019) [6]整合6種大規(guī)模段選取（span selection）任務(wù)，并探討了對(duì)小規(guī)模任務(wù)的遷移能力；UnifiedQA (EMNLP Findings 2020)，整合了多種不同的問(wèn)答任務(wù)形式；以及這篇工作，進(jìn)一步整合了問(wèn)答任務(wù)及問(wèn)題生成、選項(xiàng)生成、解釋生成等更多的問(wèn)答相關(guān)任務(wù)形式。問(wèn)答數(shù)據(jù)集本身可能才是限制問(wèn)答任務(wù)難以走向?qū)嶋H應(yīng)用的一大難題，畢竟在業(yè)務(wù)場(chǎng)景中用戶(hù)的問(wèn)題千奇百怪，很難有足夠的同分布數(shù)據(jù)用以訓(xùn)練。借助大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型強(qiáng)大的通用性，與prompt方法的靈活性，更多數(shù)據(jù)、知識(shí)與任務(wù)形式可以整合在一起，有助于打破問(wèn)答任務(wù)應(yīng)用的壁壘。

后臺(tái)回復(fù)關(guān)鍵詞【入群】

加入賣(mài)萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】

獲取ACL、CIKM等各大頂會(huì)論文集！

[1] Khashabi, Daniel, et al. "UnifiedQA: Crossing Format Boundaries With a Single QA System." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings. 2020.

[2] Raffel, Colin, et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." Journal of Machine Learning Research 21.140 (2020): 1-67.

[3] Jansen, Peter, et al. "WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.

[4] 數(shù)據(jù)集leaderboard：https://leaderboard.allenai.org/arc/submissions/public ，https://leaderboard.allenai.org/arceasy/submissions/public，https://leaderboard.allenai.org/genie-arcda/submissions/publicarcda/submissions/public

[5] Duan, Nan, et al. "Question generation for question answering." Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.

[6] Talmor, Alon, and Jonathan Berant. "MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

總結(jié)

以上是生活随笔為你收集整理的AllenAI 发布万能问答系统 MACAW！各类题型样样精通，性能大幅超越 GPT-3！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

windows

AllenAI 发布万能问答系统 MACAW！各类题型样样精通，性能大幅超越 GPT-3！

前言

概覽

MACAW 模型

精調(diào)階段1：會(huì)出題的問(wèn)答模型，才是個(gè)好模型

精調(diào)階段2：成熟的問(wèn)答模型，還能自我解釋

實(shí)驗(yàn)分析

ARC數(shù)據(jù)集

Challenge300數(shù)據(jù)集

總結(jié)

[1] Khashabi, Daniel, et al. "UnifiedQA: Crossing Format Boundaries With a Single QA System." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings. 2020.

[2] Raffel, Colin, et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." Journal of Machine Learning Research 21.140 (2020): 1-67.

[3] Jansen, Peter, et al. "WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.

[4] 數(shù)據(jù)集leaderboard：https://leaderboard.allenai.org/arc/submissions/public ，https://leaderboard.allenai.org/arceasy/submissions/public，https://leaderboard.allenai.org/genie-arcda/submissions/publicarcda/submissions/public

[5] Duan, Nan, et al. "Question generation for question answering." Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.

[6] Talmor, Alon, and Jonathan Berant. "MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

總結(jié)