日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models

發布時間:2023/12/3 综合教程 66 生活家
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:王春培,天津大學碩士。


? ? ? ?鏈接:https://arxiv.org/pdf/1911.04118.pdf

動機

這篇文章聚焦的是問答系統(Q&A)中的一個問題:回答句子選擇(Answer Sentence Selection,AS2),給定一個問題和一組候選答案句子,選擇出正確回答問題的句子(例如,由搜索引擎檢索)。AS2 是目前虛擬客服中普遍采用的技術,例如 Google Home、Alexa、Siri 等,即采用搜索引擎+AS2 的模式。

亮點

BERT的亮點主要包括:

(1)提出一種基于變壓器(Transformer-based)的 AS2 模型,為解決 AS2 的數據稀缺性問題和精調步驟的不穩定性提供了有效的解決方案。

(2)構建了一個應用于 AS2 的數據庫 ASNQ(Answer Sentence Natural Questions)。

概念及模型

本文提出了一種用于自然語言任務的預訓練變換模型精調的有效技術-TANDA( Transfer AND Adapt)。首先通過使用一個大而高質量的數據集對模型進行精調,將一個預先訓練的模型轉換為一個用于一般任務的模型。然后,執行第二個精調步驟,以使傳輸的模型適應目標域

?

  • 模型體系結構

TANDA 架構如下圖所示(以BERT為例):

? ? ? ? ? ? ?

?

  • AS2任務:

給定問題 q 和答案句子庫 S={s1,...,sn},AS2 任務目的是找到能夠正確回答 q 的句子 s_k,r(q,S)=s_k,其中 k=argmax p(q,s_i),使用神經網絡模型計算 p(q,s_i)。

?

  • 變壓器模型?(Transformer Model)

變壓器模型的目的是捕獲單詞間的依賴關系,下圖為文本對分類任務的變壓器模型架構:

? ? ? ? ? ? ?

輸入包括兩條文本,由三個標記 [CLS]、[SEP] 和 [EOS] 分隔。將根據令牌、段及其位置編碼的嵌入向量作為輸入,輸入到transformer模型中。輸出為嵌入向量 x,x 描述單詞、句子分段之間的依賴關系。將 x 輸入到全連接層中,輸出層用于最終的任務。

?

  • TANDA

在經典的任務中,一般只針對目標任務和域進行一次模型精調。對于AS2,訓練數據是由問題和答案組成的包含正負標簽(答案是否正確回答了問題)的句子對。當訓練樣本數據較少時,完成 AS2 任務的模型穩定性較差,此時在新任務中推廣需要大量樣本來精調大量的變壓器參數。本文提出,將精調過程分為兩個步驟:轉移到任務,然后適應目標域。

? ?首先,使用 AS2 的大型通用數據集完成標準的精調處理。這個步驟應該將語言模型遷移到具體的 AS2 任務。由于目標域的特殊性(AS2),所得到的模型在目標域的數據上無法達到最佳性能,此時采用第二個精調步驟使分類器適應目標域。

?

  • ASNQ

本文構建了一個專門適用于 AS2 任務的通用數據庫 ASNQ。ASNQ 基于經典 NQ 語料庫建設,NQ 是用于機器閱讀(Machine Reading,MR)任務的語料庫,其中每個問題與一個 Wiki 頁面關聯。

實驗

不同模型在WikiQA數據集上的性能如下圖所示:

? ? ? ? ? ? ?

?

不同模型在treco - qa數據集上的性能如下圖所示:

? ? ? ? ? ? ?

?

對于簡單的FT和TANDA, wiki - traindata上的MAP和MRR隨著微調次數的變化而變化,如下圖所示:

? ? ? ? ? ? ?

?

FT與TANDA在Alexa虛擬助手流量數據集上的比較如下圖所示:

? ? ? ? ? ? ?

?

總結

本文的工作將經典的精調(fine-tuning)過程拆成了兩次,其中一次針對通用數據集,另一次針對目標數據集,此外,還專門構建了適用于AS2任務的通用數據集ASNQ。本文在兩個著名的實驗基準庫:WikiQA和TREC-QA上進行實驗,分別達到了 92% 和 94.3% 的 MAP 分數,超過了近期獲得的 83.4% 和 87.5% 的最高分數。本文還討論了 TANDA 在受不同類型噪聲影響的 Alexa 特定數據集中的實驗,確認了 TANDA 在工業環境中的有效性。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。