日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models

發(fā)布時(shí)間:2023/12/3 70 生活家
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理:王春培,天津大學(xué)碩士。


? ? ? ?鏈接:https://arxiv.org/pdf/1911.04118.pdf

動(dòng)機(jī)

這篇文章聚焦的是問答系統(tǒng)(Q&A)中的一個(gè)問題:回答句子選擇(Answer Sentence Selection,AS2),給定一個(gè)問題和一組候選答案句子,選擇出正確回答問題的句子(例如,由搜索引擎檢索)。AS2 是目前虛擬客服中普遍采用的技術(shù),例如 Google Home、Alexa、Siri 等,即采用搜索引擎+AS2 的模式。

亮點(diǎn)

BERT的亮點(diǎn)主要包括:

(1)提出一種基于變壓器(Transformer-based)的 AS2 模型,為解決 AS2 的數(shù)據(jù)稀缺性問題和精調(diào)步驟的不穩(wěn)定性提供了有效的解決方案。

(2)構(gòu)建了一個(gè)應(yīng)用于 AS2 的數(shù)據(jù)庫 ASNQ(Answer Sentence Natural Questions)。

概念及模型

本文提出了一種用于自然語言任務(wù)的預(yù)訓(xùn)練變換模型精調(diào)的有效技術(shù)-TANDA( Transfer AND Adapt)。首先通過使用一個(gè)大而高質(zhì)量的數(shù)據(jù)集對模型進(jìn)行精調(diào),將一個(gè)預(yù)先訓(xùn)練的模型轉(zhuǎn)換為一個(gè)用于一般任務(wù)的模型。然后,執(zhí)行第二個(gè)精調(diào)步驟,以使傳輸?shù)哪P瓦m應(yīng)目標(biāo)域

?

  • 模型體系結(jié)構(gòu)

TANDA 架構(gòu)如下圖所示(以BERT為例):

? ? ? ? ? ? ?

?

  • AS2任務(wù):

給定問題 q 和答案句子庫 S={s1,...,sn},AS2 任務(wù)目的是找到能夠正確回答 q 的句子 s_k,r(q,S)=s_k,其中 k=argmax p(q,s_i),使用神經(jīng)網(wǎng)絡(luò)模型計(jì)算 p(q,s_i)。

?

  • 變壓器模型?(Transformer Model)

變壓器模型的目的是捕獲單詞間的依賴關(guān)系,下圖為文本對分類任務(wù)的變壓器模型架構(gòu):

? ? ? ? ? ? ?

輸入包括兩條文本,由三個(gè)標(biāo)記 [CLS]、[SEP] 和 [EOS] 分隔。將根據(jù)令牌、段及其位置編碼的嵌入向量作為輸入,輸入到transformer模型中。輸出為嵌入向量 x,x 描述單詞、句子分段之間的依賴關(guān)系。將 x 輸入到全連接層中,輸出層用于最終的任務(wù)。

?

  • TANDA

在經(jīng)典的任務(wù)中,一般只針對目標(biāo)任務(wù)和域進(jìn)行一次模型精調(diào)。對于AS2,訓(xùn)練數(shù)據(jù)是由問題和答案組成的包含正負(fù)標(biāo)簽(答案是否正確回答了問題)的句子對。當(dāng)訓(xùn)練樣本數(shù)據(jù)較少時(shí),完成 AS2 任務(wù)的模型穩(wěn)定性較差,此時(shí)在新任務(wù)中推廣需要大量樣本來精調(diào)大量的變壓器參數(shù)。本文提出,將精調(diào)過程分為兩個(gè)步驟:轉(zhuǎn)移到任務(wù),然后適應(yīng)目標(biāo)域。

? ?首先,使用 AS2 的大型通用數(shù)據(jù)集完成標(biāo)準(zhǔn)的精調(diào)處理。這個(gè)步驟應(yīng)該將語言模型遷移到具體的 AS2 任務(wù)。由于目標(biāo)域的特殊性(AS2),所得到的模型在目標(biāo)域的數(shù)據(jù)上無法達(dá)到最佳性能,此時(shí)采用第二個(gè)精調(diào)步驟使分類器適應(yīng)目標(biāo)域。

?

  • ASNQ

本文構(gòu)建了一個(gè)專門適用于 AS2 任務(wù)的通用數(shù)據(jù)庫 ASNQ。ASNQ 基于經(jīng)典 NQ 語料庫建設(shè),NQ 是用于機(jī)器閱讀(Machine Reading,MR)任務(wù)的語料庫,其中每個(gè)問題與一個(gè) Wiki 頁面關(guān)聯(lián)。

實(shí)驗(yàn)

不同模型在WikiQA數(shù)據(jù)集上的性能如下圖所示:

? ? ? ? ? ? ?

?

不同模型在treco - qa數(shù)據(jù)集上的性能如下圖所示:

? ? ? ? ? ? ?

?

對于簡單的FT和TANDA, wiki - traindata上的MAP和MRR隨著微調(diào)次數(shù)的變化而變化,如下圖所示:

? ? ? ? ? ? ?

?

FT與TANDA在Alexa虛擬助手流量數(shù)據(jù)集上的比較如下圖所示:

? ? ? ? ? ? ?

?

總結(jié)

本文的工作將經(jīng)典的精調(diào)(fine-tuning)過程拆成了兩次,其中一次針對通用數(shù)據(jù)集,另一次針對目標(biāo)數(shù)據(jù)集,此外,還專門構(gòu)建了適用于AS2任務(wù)的通用數(shù)據(jù)集ASNQ。本文在兩個(gè)著名的實(shí)驗(yàn)基準(zhǔn)庫:WikiQA和TREC-QA上進(jìn)行實(shí)驗(yàn),分別達(dá)到了 92% 和 94.3% 的 MAP 分?jǐn)?shù),超過了近期獲得的 83.4% 和 87.5% 的最高分?jǐn)?shù)。本文還討論了 TANDA 在受不同類型噪聲影響的 Alexa 特定數(shù)據(jù)集中的實(shí)驗(yàn),確認(rèn)了 TANDA 在工業(yè)環(huán)境中的有效性。

?


?

OpenKG

開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。