日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

引入N-gram改进Transformer架构,ACL匿名论文超越Primer等基准

發布時間:2024/10/8 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 引入N-gram改进Transformer架构,ACL匿名论文超越Primer等基准 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


?作者?|?陳萍、杜偉

來源?|?機器之心

在提交給 ACL 的一篇匿名論文中,研究者用潛在 n-gram 來增強 Transformer。

Transformer 模型已成為自然語言處理任務的基礎模型之一,最近研究者開始把注意力轉移到對這些模型的擴展上。然而,這些大型 Transformer 語言模型的訓練和推理成本高昂,令人望而卻步,因此我們需要更多變體來消除這些不利因素。

近日,一篇匿名提交給自然語言處理頂會 ACL 的論文《 N-grammer: Augmenting Transformers with latent n-grams 》中,研究者受到統計語言建模的啟發,通過從文本序列的離散潛在表示構建 n-gram 來增強模型,進而對 Transformer 架構進行了一個簡單而有效的修改,稱為 N-grammer。

具體地,N-grammer 層通過在訓練期間將潛在 n-gram 表示合并到模型中來提高語言模型的效率。由于 N-grammer 層僅在訓練和推理期間涉及稀疏操作,研究者發現具有潛在 N-grammer 層的 Transformer 模型可以匹配更大的 Transformer,同時推理速度明顯更快。在 C4 數據集上對語言建模的 N-grammer 進行評估表明,本文提出的方法優于 Transformer 和 Primer 等基準。?

論文地址:

https://openreview.net/pdf?id=GxjCYmQAody

N-grammer 層

在網絡高層次上,該研究引入了一個簡單的層,該層基于潛在 n-gram 用更多的內存來增強 Transformer 架構。一般來說,N-grammer 層對于任意 N-gram 來說已經足夠了,該研究僅限于使用 bi-gram,以后將會研究高階 n-gram。這個簡單的層由以下幾個核心操作組成:

  • 給定文本的 uni-gram 嵌入序列,通過 PQ (Product Quantization)推導出離散潛在表示序列;

  • 推導潛在序列 bi-gram 表示;

  • 通過哈希到 bi-gram 詞匯表中查找可訓練的 bi-gram 嵌入;

  • 將 bi-gram 嵌入與輸入 uni-gram 嵌入相結合。

此外,當提到一組離散項時,該研究使用符號 [m] 表示集合{0,1,···,m?1}。

序列的離散潛在表示

第一步,N-grammer 層從給定的輸入嵌入序列學習 Codebook,獲得具有乘積量化(Product Quantization,PQ)(Jegou 等人,2011 年)的離散潛在表示的并行序列。輸入嵌入是一個 uni-gram 嵌入序列 x ? R^( l×h×d ),其中 l 是序列長度,h 是頭數量,d 是每個頭嵌入維度。該研究在 R^ k×h×d 中學習了一個 Codebook c,通過相同的步驟,該研究選取距離輸入嵌入最小的 code book ID,形成序列 x 的離散潛在表示 z ?[k]^l×h 的并行序列:

離散潛在表示 Bi-gram ID

第二步是將離散潛在表示 z 轉換為 bi-gram ID b ? [k^2 ]^( l×h )。它們通過組合來自前一個位置的 uni-gram 潛在 ID z,然后在當前位置形成潛在 bi-gram ID:

其中 k 是 codebook 大小,這直接將離散潛在序列從詞匯空間[k] 映射到潛在 bi-gram 詞匯空間 [k^2 ] 。

構建 bi-gram 表示

第三步是構建序列 bi-gram 潛在表示 b。考慮所有的 k^2 bi-gram,并通過對每個這樣的 bi-gram 嵌入來增強模型。在實踐中,對于 uni-gram 詞匯為 32,000 的機器翻譯模型壓縮,在不犧牲質量的情況下,需要將 187 個 token 聚類為 k = 212 個 cluster。在這種情況下,需要考慮所有的 bi-gram,涉及構建一個包含 1600 萬行的嵌入表。由于所構建的表仍然很大,該研究通過對每個頭使用單獨的哈希函數,將潛在 bi-gram ID 映射到大小為 v 的較小的 bi-gram 詞匯表。

更準確地講,該研究有一個潛在 bi-gram 嵌入表 B ? R^v×h×d_b,其中 v 為 bi- gram 詞匯,d_b 為 bi-gram 嵌入維度。然后將文本序列 bi-gram 嵌入構建為:

與嵌入進行結合

最后一步是將 uni-gram 嵌入 x ? R^(l×h×d)與潛在 bi-gram 嵌入 y∈R^(l×h×db)相結合,形成文本序列新表示。bi-gram 嵌入和 uni-gram 嵌入都是獨立的層歸一化(LN),然后沿著嵌入維度連接兩者以產生 w = [LN(x), LN(y)] ? R^l×h×(d+db) ,并將其作為輸入傳遞給 Transformer 網絡的其余部分。

實驗結果

該研究在 C4 數據集上將 N-grammer 模型與 Transformer 架構(Vaswani 等人,2017 年)以及最近提出的 Primer 架構(So 等人,2021 年)進行了比較。其中,該研究使用 Adam 優化器,所有模型的學習率為 10^-3,而對于 n-gram 嵌入表,學習率為 10^-2。

下表 1 比較了 N-grammer、Primer 和 Transformer 模型,其中基線 Transformer 模型有 16 層和 8 個頭,模型維度為 1024。研究者在 TPU v3 上以 256 的批大小和 1024 的序列長度訓練所有模型。研究者對 N-grammer 模型進行了消融研究,bi-gram 嵌入維度大小從 128 到 512 不等。由于添加 n-gram 嵌入增加了可訓練參數的數量,該研究還在表 1 中訓練了兩個大基線(Transformer-L 和 Primer-L),它們的參數順序與 N-grammer 模型相同。然而,與較大的 Transformer 模型不同,N-grammer 的訓練和推理成本與嵌入層中的參數數量不成比例,因為它們依賴于稀疏操作。

該研究還測試了一個簡單版本的 N-grammer,研究者直接從 uni-gram 詞匯表(3.3 節中的)而不是從潛在表示中計算 n-gram(3.1 節的)。由表 1 可知,它對應于在 clusters 列中沒有條目的 N- grammer。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的引入N-gram改进Transformer架构,ACL匿名论文超越Primer等基准的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产美女在线精品 | 在线观看污污网站 | 91麻豆产精品久久久久久 | 国产一区二区自拍视频 | 青青视频免费 | 日韩精品一区二区在线播放 | 欧美一级射 | 国产av人人夜夜澡人人爽麻豆 | 麻豆激情网 | 91社区在线播放 | 国产精品久久久久久久免费观看 | 亚洲17p| 欧美精品毛片 | 久久com| 欧美激情视频一区二区三区在线播放 | 色哟哟视频网站 | 黄色免费看视频 | www.激情.com | 亚洲欧美综合视频 | 亚洲欧美日韩中文在线 | 五月中文字幕 | 中文字幕9 | 国产丝袜第一页 | 午夜黄色福利视频 | 久久网国产 | 永久免费AV无码网站韩国毛片 | 色97色| 98在线视频 | www.日批| 久久精工是国产品牌吗 | 免费观看91视频 | jizzjizz国产| 国产精品免费av | 欧美双性人妖o0 | 久久99精品国产91久久来源 | 91视频网页| 蜜桃导航-精品导航 | 免费激情| 欧美日韩久久久久 | 国产激情精品一区二区三区 | 成人做爰视频www网站小优视频 | 超碰中文字幕在线 | 秘密基地免费观看完整版中文 | 免费观看一区 | 精品一区不卡 | 超碰免费在线观看 | 顶级尤物极品女神福利视频 | 校园春色 亚洲色图 | 久久网站av | 欧美h视频在线观看 | 日本少妇性高潮 | 伊人看片| 特黄特色大片免费视频大全 | 香蕉视频黄污 | 丰满人妻一区二区三区46 | 99色在线视频 | 扒开美女内裤狂揉下部 | 国产女人18毛片18精品 | 精品白浆 | 国产无遮挡又黄又爽 | japanese在线| 日本免费不卡 | 欧美三级久久久 | www.99re7.com| 思思久久精品 | 美女视频三区 | 精品成人无码久久久久久 | 污视频免费在线观看 | 欧美成人猛片aaaaaaa | 日韩影视在线 | 欧美日韩欧美日韩在线观看视频 | 国产91精品久久久久久久 | 欧美黑人一区 | 亚洲av久久久噜噜噜熟女软件 | 韩国黄色网 | 91在线观看.| 在线观看免费日韩av | 深爱五月网 | 久久精品视频一区二区 | 波多野结衣中文字幕久久 | 成人狠狠干 | 一级久久久久久 | 国产深喉视频一区二区 | 欧美性色网站 | 嫩草网站入口 | 丰满少妇麻豆av苏语棠 | 欧美三级在线观看视频 | 色悠悠网| 日日舔夜夜操 | 正在播放超嫩在线播放 | 日韩女同强女同hd | 永久免费成人代码 | 69亚洲精品久久久蜜桃小说 | 欧洲女性下面有没有毛发 | 国产第2页| 一级特黄aa大片免费播放 | 91麻豆产精品久久久久久 | 影音先锋男人的天堂 | 美女露出让男生揉的视频 |