日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】TransformerXL:因为XL,所以更牛

發布時間:2025/3/20 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP】TransformerXL:因为XL,所以更牛 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前面介紹過Transformer作為一種特征抽取器的強大之處。那么,它有沒有弱點呢?能不能改進呢?

本文介紹Transformer的改進版,TransformerXL。看看它用了什么方法,改進了Transformer的哪些弱點。

作者&編輯 | 小Dream哥

1 原始Transformer哪里不好?

在上一篇“理解NLP中網紅特征抽取器Transformer”中,筆者介紹了Transformer的強大之處。那么,Transformer就已經強大到無懈可擊了嗎?其實不然,Transformer還有它的弱點。

細想一下,BERT在應用Transformer時,有一個參數sequence length,也就是BERT在訓練和預測時,每次接受的輸入是固定長度的。那么,怎么輸入語料進行訓練時最理想的呢?當然是將一個完整的段落一次性輸入,進行特征提取了。但是現實是殘酷的,這么大的Transformer,內存是消耗不起的。所以現有的做法是,對段落按照segment進行分隔。在訓練時,當輸入segment序列比sequence length短時,就做padding;當輸入segment序列比sequence length長時就做切割


這種做法顯然是一種權宜之計,它有這么兩個缺點:

1)長句子切割必然會造成語義的殘破,不利于模型的訓練。


2)segment的切割沒有考慮語義,也就是模型在訓練當前segment時拿不到前面時刻segment的信息,造成了語義的分隔。

那么,該如何解決上述問題呢?看看TransformerXL吧。

2 TransformerXL的引入

我們先想一下,如果要我們自己來解決Transformer上面的問題,會怎么處理呢?

熟悉NLP的同學,可能會想到RNN。在RNN中,為了獲取序列中的歷史記憶,采用了Recurrence機制,在計算該時刻的狀態時,引入前一時刻的狀態作為輸入。那對Transformer來說,在計算當前序列的隱藏狀態時,引入前一個序列的隱藏狀態信息不就可以解決上面的問題了嗎?

事情真的有這么簡單嗎?其實,基本上也就是這么簡單,不過TransformerXL在引入時做了一些巧妙的設計。下面我們看看,TransformerXL是如何引入這種Recurrence機制來解決上述問題的。

如圖所示,是傳統的Transformer在訓練和評估階段采用的語料輸入策略。在訓練時,將整個語料庫分割成可管理的大小的更短的片段,在每個片段中訓練模型,忽略來自前一段的所有上下文信息;在評估階段,傳統的Transformer模型在每個步驟都消耗與訓練期間相同長度的一個segment。然后,在下一步中,這個segment向右移動一個位置,并從頭開始處理,只在最后一個位置進行一次預測。

如上圖所示,在TransformerXL采用了不同的策略,在訓練過程中,對上一個segment計算的隱藏狀態序列進行固定和緩存,并在模型處理下一個新的segment時對其進行利用。在評估階段,可以重用前面部分的表示,而不是像傳統模型那樣從頭開始計算,這樣可以提高速度。

3 TransformerXL Recurrence機制

那么,上述的機制細節如何實現的呢?下面我們來做一個詳細的介紹。

事實上,問題的關鍵在于,在計算當前序列當前層的隱藏狀態時,如何引入前一個序列上一層的隱藏狀態。TransformerXL的做法很簡單,就是按照序列長度的維度將他們concate起來。如下的公式所示:

h_n_t是一個L*d的矩陣,表示的是第t個輸入序列的第n層的隱藏層的狀態。L表示序列長度,d表示嵌入維度。

SG表示的Stop Gradient,這非常重要,避免了RNN會出現的一系列問題。

從上述公式可以看出,TransformerXL與傳統的Transformer的差異主要在于隱藏層輸入KV的差異。TransformerXL中引入了上一個序列前一個隱藏層的值,將他們concatenate起來,計算新的KV。

4 Relative Positional Encodings

我們再想一想,引入上述機制,還有什么問題沒有。我們回想一下,在傳統的Transformer中,輸入序列中的位置信息是怎么表示的?通過POS函數生成,它是位置i和維度d的函數,也就是不同輸入segment在相同絕對位置中的位置表示是相同的。在傳統的Transformer中,每個segment之間的表示是沒有關聯的,這當然就沒有問題。但是在TransformerXL中,因為引入了前一時刻segment的信息,就需要對不同時刻,同樣是第i個的詞進行區分。


TransformerXL引入了一種Relative Positional Encodings機制,會根據詞之間的相對距離而非像傳統的Transformer中的絕對位置進行編碼。


在傳統的Transformer中,計算q_i和鍵k_j之間的attention分數的方式為

展開就是:

Exi是詞i的embedding,Exj是詞j的embedding,Ui?和Uj?是位置向量。

在Transformer-XL中,對上述的attention計算方式進行了變換,轉為相對位置的計算,而且不僅僅在第一層這么計算,在每一層都是這樣計算。

對比來看,主要有三點變化:

1)在b和d這兩項中,將所有絕對位置向量UiUj都轉為相對位置向量Ri?j,與Transformer一樣,這是一個固定的編碼向量,不需要學習。


2)在c這一項中,將查詢的U_i^T*W_q^T向量轉為一個需要學習的參數向量u,因為在考慮相對位置的時候,不需要查詢絕對位置i,因此對于任意的i,都可以采用同樣的向量。同理,在d這一項中,也將查詢的U_i^T*W_q^T向量轉為另一個需要學習的參數向量v。


3)將K的權重變換矩陣Wk轉為Wk_E?和Wk_R,分別作為content-based key vectors和location-based key vectors。

總的來說,Relative Positional Encodings就是在計算attention分數時,用相對位置R_i_j編碼來代替原來的絕對位置編碼Ui和Uj。并且學習了相對位置v和u用來調整不同距離和不同嵌入的得分。

5 總結

總的來說TransformerXL對Transformer進行了一些調整,試圖解決一些問題。按照論文的描述,TransformerXL學習的依賴關系比RNN長80%,比傳統Transformer長450%,在短序列和長序列上都獲得了更好的性能,并且在評估階段比傳統Transformer快1800+倍。

在XLnet中引入了Transformer-XL,獲得了不錯的效果。

總結

TransformerXL是Transformer一種非常重要的改進,思想值得我們好好學習和研究,希望對你有所幫助。

讀者們可以留言,或者加入我們的NLP群進行討論。感興趣的同學可以微信搜索jen104,備注"加入有三AI NLP群"

下期預告:XLnet:BERT和GPT的結合

知識星球推薦

掃描上面的二維碼,就可以加入我們的星球,助你成長為一名合格的自然語言處理算法工程師。

知識星球主要有以下內容:

(1) 聊天機器人??紤]到聊天機器人是一個非常復雜的NLP應用場景,幾乎涵蓋了所有的NLP任務及應用。所以小Dream哥計劃以聊天機器人作為切入點,通過介紹聊天機器人的原理和實踐,逐步系統的更新到大部分NLP的知識,會包括語義匹配,文本分類,意圖識別,語義匹配命名實體識別、對話管理以及分詞等。

(2) 知識圖譜。知識圖譜對于NLP各項任務效果好壞的重要性,就好比基礎知識對于一個學生成績好壞的重要性。他是NLP最重要的基礎設施,目前各大公司都在著力打造知識圖譜,作為一個NLP工程師,必須要熟悉和了解他。

(3) NLP預訓練模型。基于海量數據,進行超大規模網絡的無監督預訓練。具體的任務再通過少量的樣本進行Fine-Tune。這樣模式是目前NLP領域最火熱的模式,很有可能引領NLP進入一個全新發展高度。你怎么不深入的了解?


轉載文章請后臺聯系

侵權必究

往期精選

  • 【NLP】自然語言處理專欄上線,帶你一步一步走進“人工智能技術皇冠上的明珠”。

  • 【NLP】用于語音識別、分詞的隱馬爾科夫模型HMM

  • 【NLP】用于序列標注問題的條件隨機場(Conditional Random Field, CRF)

  • 【NLP】經典分類模型樸素貝葉斯解讀

  • 【NLP】 NLP專欄欄主自述,說不出口的話就交給AI說吧

  • 【NLP】 深度學習NLP開篇-循環神經網絡(RNN)

  • 【NLP】 NLP中應用最廣泛的特征抽取模型-LSTM

  • 【NLP】 聊聊NLP中的attention機制

  • 【NLP】 理解NLP中網紅特征抽取器Tranformer

  • 【NLP】 深入淺出解析BERT原理及其表征的內容

  • 【每周NLP論文推薦】從預訓練模型掌握NLP的基本發展脈絡

  • 【每周NLP論文推薦】 NLP中命名實體識別從機器學習到深度學習的代表性研究

  • 【技術綜述】深度學習在自然語言處理中的應用發展

總結

以上是生活随笔為你收集整理的【NLP】TransformerXL:因为XL,所以更牛的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产老女人乱淫免费 | 国产成人精品综合在线观看 | 污视频网站在线 | 国产欧美精品区一区二区三区 | 亚洲h视频 | 巨乳免费观看 | 久久久综合视频 | 国产日本欧美在线 | 久久久在线视频 | 日本不卡一区二区在线观看 | 天堂网av中文字幕 | 国产日韩精品一区二区 | 在线免费国产 | 北条麻妃一区二区三区四区五区 | ,国产精品国产三级国产 | 欧美高清videos高潮hd | 玖玖久久 | 亚洲色图欧洲色图 | 麻豆国产一区二区 | 国产三级自拍 | 成人在线亚洲 | 无码人妻aⅴ一区二区三区 国产高清一区二区三区四区 | 四虎影视免费永久观看在线 | 噜噜色综合 | 日本一区二区三区四区视频 | 国产精品视频久久 | 奇米在线播放 | 人妻av一区二区 | www.欧美com | 外国一级片 | 欧美日韩不卡合集视频 | 午夜在线视频免费观看 | 日日日日日日 | 国产精品久久久久久久久久东京 | 久久精品99久久久久久久久 | 久久国产小视频 | 国产99自拍 | 91大奶 | 四虎成人永久免费视频 | 国产激情无套内精对白视频 | 朋友人妻少妇精品系列 | 免费大片黄在线观看 | 波多野结衣中文字幕一区二区三区 | 99热导航| 正在播放adn156松下纱荣子 | 国产草草视频 | 黄色一级在线 | 国产女人高潮时对白 | 午夜影视在线观看 | 麻豆av免费观看 | 在线成人一区 | 一级做a爰片久久毛片 | www.日本在线视频 | 播放灌醉水嫩大学生国内精品 | 黄色美女av | 麻豆精品国产传媒av绿帽社 | 999午夜 | 国产日韩欧美久久 | 91伊人网 | 精产国品一二三产区m553麻豆 | 国产精品自拍小视频 | 不卡av免费在线观看 | 黄色美女毛片 | 色欲久久久天天天精品综合网 | 五月丁香花| 日韩视频免费看 | 偷操| 欧美体内she精高潮 日韩一区免费 | 韩国黄色精品 | 精品香蕉99久久久久网站 | 国产乱人伦 | 最新成人 | 毛片视频观看 | 超碰在线看 | 国产在线播放一区二区三区 | 尤物久久 | 校园春色自拍偷拍 | 亚洲久视频 | 久久高清av | 国产做爰xxxⅹ高潮视频12p | www黄色大片| 亚洲高清自拍 | 一本大道熟女人妻中文字幕在线 | 国产精品久久久久久久久久久久久 | 精品成人av一区二区三区 | 在线观看日批视频 | 日韩黄色在线 | 中文字幕一区二区三区四区不卡 | 国产精品久久久久久亚洲影视 | 潘金莲性xxxxhd | 国产日韩视频在线 | 16—17女人毛片 | 午夜国产小视频 | 国产com | 国产视频在线观看一区 | 亚洲激情五月 | 国产精品嫩草影院桃色 | 男人插女人下面视频 | 中文字幕在线不卡视频 |