當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NeurIPS 2019 | 适用于众多模型的Embedding正则化方法

發(fā)布時(shí)間：2024/10/8 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 NeurIPS 2019 | 适用于众多模型的Embedding正则化方法小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜崔克楠

學(xué)校｜上海交通大學(xué)博士生

研究方向｜異構(gòu)信息網(wǎng)絡(luò)、推薦系統(tǒng)

本文為 NeurIPS 2019 的文章，提出了一種對 embedding 的參數(shù)進(jìn)行的正則化技術(shù)。

在許多神經(jīng)網(wǎng)絡(luò)中，底層的 embedding 層的參數(shù)占據(jù)了網(wǎng)絡(luò)中參數(shù)的大部分，例如基于 BERT 額模型中的 embedding 高維向量，例如 BERT-Base 中使用 768 維向量表征單詞，在推薦系統(tǒng)中，用戶和商品也往往使用低維向量來表示，例如 50 到 100 維左右。前者中單詞的數(shù)量往往在 15000 左右，而后者推薦系統(tǒng)中，商品和用戶的數(shù)量往往能夠達(dá)到數(shù)億的級(jí)別。?

本文提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的 embedding 正則化技術(shù)，稱為 Stochastic Shared Embedding (SSE)，能夠很好地和 SGD 這些算法結(jié)合，使用形式簡單能夠使用于許，多現(xiàn)有的網(wǎng)絡(luò)，并且對他們的改動(dòng)幅度也很小。

論文標(biāo)題：Stochastic Shared Embeddings: Data-driven Regularization of Embedding Layers

論文來源：NeurIPS 2019

論文鏈接：https://arxiv.org/abs/1905.10630

源碼鏈接：https://github.com/wuliwei9278/SSE-PT

論文方法

從下圖可以預(yù)覽該方法，相較于普通的網(wǎng)絡(luò)，作者在 embedding layer 后添加了 SSE layer。而 SSE layer 的具體操作則是，在訓(xùn)練時(shí)隨機(jī)地對兩個(gè) embedding 進(jìn)行替換，而在測試時(shí)則關(guān)閉該操作。

用式子的形式可以表示為如下所示：

S 代表優(yōu)化目標(biāo)，下標(biāo) i 代表第 i 個(gè)訓(xùn)練樣本，j 和 k 為 embedding 的索引 index（例如對于 BERT 的情感分析任務(wù)，訓(xùn)練樣本用 i 表示，訓(xùn)練樣本中的輸入為文本，文本當(dāng)中的單詞用 j 和 k 索引表示）。

Φ 為兩個(gè) embedding 之間的替換概率參數(shù)。p 代表使用 embedding k 替換 embedding j 的概率，而 E[k] 代表從取出 embedding k 的操作，l 則代表和目標(biāo)任務(wù)相關(guān)的 loss。集合 I 則代表第 I 個(gè) embedding 的索引集合。所以上邊的具體例子指的是我們僅僅對網(wǎng)絡(luò)中添加一層 SSE 的情況。?

而轉(zhuǎn)移概率的定義方法則有兩種，如果我們有 graph 的先驗(yàn)知識(shí)，可以使用 random walk 的方法，例如已知 j 點(diǎn)和 k 點(diǎn)連接，j 和 i 未連接，則有：

ρ 通常大于 1，代表連接的 embedding 之間應(yīng)當(dāng)更加接近，同時(shí)還有 j 還有一定的概率 1-ρ_0 選擇不進(jìn)行替換節(jié)點(diǎn)，即 self loops。這種基于 Graph 的方法記為 SSE-Graph。圖 2 中也給出了一個(gè) SSE-Graph 的示例圖。

當(dāng)我們對 embedding 沒有 graph 的先驗(yàn)知識(shí)時(shí)，我們采用如下方法：

即所有節(jié)點(diǎn)同其他節(jié)點(diǎn)之間的轉(zhuǎn)移概率想用，N 為 embedding 的數(shù)量。一般 ρ_0 大小為 0.01，這種方法簡稱為 SSE-SE。

另外，當(dāng)網(wǎng)絡(luò)中有多層 embedding layer 時(shí)，上述操作可以在每層 embedding 層之后操作，用式子表示為如下，M 代表不同的 embedding layer 的數(shù)量。

另外作者給出了該方法能夠有效減小 variance 的理論分析，而整體的算法如下表所示。

比較與聯(lián)系

我們最常用的正則化技術(shù)包括 L1，L2 正則化，dropout，以及參數(shù)共享，max-norm 正則化，梯度階段等。

本文提出的該技術(shù)和以往的許多正則化技術(shù)有著一些聯(lián)系。例如 Laplacian 正則化，在 graph 上連接的兩個(gè)點(diǎn)的 embedding 之間的 distance 會(huì)被懲罰。Hard parameter sharing 要求在同一個(gè) group 內(nèi)的 embedding 完全共享參數(shù)。Soft parameter 要求所有的 embedding 之間的距離都要被懲罰。這些正則化技術(shù)都和 loss 沒有關(guān)聯(lián)，而 SSE 是數(shù)據(jù)驅(qū)動(dòng)的，并且像 dropout 一樣具有隨機(jī)性的優(yōu)勢。?

同時(shí)當(dāng)我們把標(biāo)簽看作 one hot 向量，對其使用 SSE，則 SSE 和 label smoothing 較為相似。BERT 的預(yù)訓(xùn)練階段會(huì)隨機(jī)的去掉輸入 10% 的文本，同時(shí)對這些文本的 10% 進(jìn)行隨機(jī)替換，這種操作也可以視為一種特殊化的 SSE。

實(shí)驗(yàn)和分析

Q1：SSE 僅使用一層時(shí)表現(xiàn)如何?

在推薦數(shù)據(jù)集上，如 movielens 上，作者利用 movie 和 actors 之間的關(guān)系在 movies 之間構(gòu)建 graph，對比了 SSE-Graph 和 Graph Lapalacian 以及 Dropout 對 MF 和 BPR 模型的提升。可以不管是否提供 Graph 信息，SSE 的表現(xiàn)都是最優(yōu)的。同時(shí) SSE 還能夠和 dropout 共同使用，一起提升模型效果。

Q2：SSE 對于多層 embedding 的模型提升效果如何？?

作者考慮在模型 BERT 中使用 SSE，其實(shí)在以往 BERT 的預(yù)訓(xùn)練中，就已經(jīng)在隱性的使用了 SSE 的思想。例如 BERT 預(yù)訓(xùn)練中，隨機(jī) mask 掉 15% 的詞，同時(shí)這 15% 中另外再取 10% 替換為其他隨機(jī)的單詞，這就相當(dāng)使用了替換概率為 0.015 的 SSE。

另外在 fine tune 階段，作者還考慮了對 label 層的 one hot encoding 也使用 SSE。可以從下邊兩個(gè)表格中看出在 pre-train 和 fine-tune 階段使用 SSE，模型效果均有提升。

Q3：SSE 效率如何？?

可以看到 SSE 不僅使得模型在測試集上的泛化誤差較小，同時(shí)收斂速度也更快了。

總結(jié)

本文提出的方法和 label smoothing 以及 BERT 預(yù)訓(xùn)練技術(shù)有著一些聯(lián)系，本文的方法簡單有效，能夠應(yīng)用到眾多模型中。使用要求可以有 graph 先驗(yàn)信息或沒有，并且可以和 dropout 等技術(shù)結(jié)合使用，是一種可以廣泛使用的 embedding 正則化技術(shù)。

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

變分推斷（Variational Inference）最新進(jìn)展簡述
變分自編碼器VAE：原來是這么一回事
圖神經(jīng)網(wǎng)絡(luò)三劍客：GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法？
深度學(xué)習(xí)預(yù)訓(xùn)練模型可解釋性概覽
ICLR 2020：從去噪自編碼器到生成模型

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

???? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨(dú)在附件中發(fā)送?

? 請留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們在編輯發(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的NeurIPS 2019 | 适用于众多模型的Embedding正则化方法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：加快手机直连卫星落地，中国联通完成国内运
下一篇：麦克维尔中央空调接入米家 App，支持小