當前位置：首頁 >

em算法实例正态分布_Petuum提出序列生成学习算法通用框架

發布時間：2025/3/15 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 em算法实例正态分布_Petuum提出序列生成学习算法通用框架小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

近日，來自人工智能創業公司 Petuum 的研究人員發表論文，提出序列生成學習算法的通用框架——廣義的熵正則化策略優化框架(Generalized Entropy-Regularized Policy Optimization)。該框架是對包括最大似然學習 (MLE)、增強學習 (RL) 等多種廣泛使用的算法的泛化。研究人員進而提出一種新的序列生成算法，該算法在已有算法中進行動態插值，在機器翻譯和文本摘要任務中實現了穩定的提升。

序列生成是一個常見的機器學習任務，比如機器翻譯、文本摘要、圖像字幕生成等。

近日，Petuum 發布論文《Connecting the Dots Between MLE and RL for Sequence Generation》，對多種廣泛使用的序列生成學習算法提出了統一的視角，即廣義的熵正則化策略優化框架。可以證明這些算法在數學上等同于在框架中設定不同超參數的特例。該研究提供了對不同算法的系統性的理解和對比，并啟發更多的算法提升。基于此通用框架，研究人員還提出了一種新的插值算法，在機器翻譯和文本摘要任務中實現了穩定的提升。

序列模型的發展(如具備不同單元和注意力機制的循環神經網絡)促進了序列生成任務的進步。這些模型通常可以使用多種不同的學習算法進行訓練，詳見下文。

常用的序列生成學習算法(點)

標準的訓練算法基于最大似然估計(MLE)，即試圖最大化真實數據的對數似然(data log-likelihood)。盡管 MLE 訓練計算簡單、高效，但它會遭遇曝光偏差(exposure bias)。即模型在預測下一個 token 時使用的是真實數據中的 token，而訓練出的模型在測試時無法得到真實數據而只能使用模型預測出的 token。這種訓練和測試之間的偏差導致預測出現誤差，且隨著序列長度的增加，這一偏差也會越來越大。

很多研究試圖解決該問題，其中一些基于強化學習 (RL)。例如，Ranzato 等人在《Sequence Level Training with Recurrent Neural Networks》中采用策略梯度算法，通過在訓練和測試階段使用同樣的解碼策略來避免這種偏差。但是，基于 RL 的序列生成方法會面臨極低的采樣效率和極高的方差。

為了使訓練更加可行，其他研究人員提出了多種方法，這些方法介于 MLE 和 RL 之間。例如，RAML 對 MLE 數據樣本根據 reward 函數進行擾動，SPG 基于 reward 分布實現策略梯度的高效采樣，數據加噪(data noising)等方法也有一定的性能提升。

最大似然估計(MLE)

最大似然估計是訓練序列生成模型最常用的方法。MLE 旨在尋找最大化數據對數似然的最優參數值：

獎勵增強最大似然(RAML)

RAML 最初用于將特定任務的 reward(task metric reward)納入 MLE 訓練，該方法相對于原版 MLE 有很大的性能提升。具體來說，RAML 引入了一個指數 reward 分布 e(y|y*) ∝ exp{R(y|y*)}，其中 R 指任務度量(如 BLEU)。RAML 最大化以下目標函數：

如果我們將 e(y|y*) 中的任務獎勵 R 換成 MLE 的 δ 獎勵，則 RAML 目標函數等同于原版 MLE 目標函數，即：

數據加噪

向訓練數據添加噪聲是常用的正則化方法。之前的研究提出多種適合序列生成的數據加噪策略。例如，將數據 y* 中的每個 token 以概率 γ 替換成噪聲 token，每個噪聲 token 隨機從一元頻率分布(unigram frequency distribution)中采樣獲得。然后將得到的帶噪聲數據用于 MLE 訓練。形式上來看，它等同于使用獎勵函數：

其中 u(·) 表示一元頻率分布。使用松弛(即平滑)獎勵后，數據加噪一定程度上擴展了原版 MLE 的探索空間。其效果本質上等同于 RAML 算法，區別在于 RAML 基于任務獎勵函數來擴展探索空間。

Softmax 策略梯度 (SPG)

SPG 旨在適應原版策略梯度，用作采樣的獎勵函數。SPG 的目標函數如下：

其中 R 表示 reward 函數。作為標準策略梯度算法的變體，SPG 旨在解決曝光偏差問題，并表現出了卓越的結果。

圖 1：不同算法的有效探索空間。(a)：MLE 的探索空間即訓練樣本的集合。(b)：RAML 和數據加噪使用平滑的獎勵函數，允許訓練樣本周圍的較大探索空間。(c)：常見的策略優化算法(如 SPG)大體上允許全部探索空間。

連點成線

Petuum 對這些學習算法構建了一個統一的視角。具體來說，他們展示了一個廣義熵正則化策略優化(ERPO)框架，并證明明顯不同的多種算法(如 MLE、RAML、SPG 和數據加噪)都可以重新公式化為該框架中的特殊實例，唯一的區別在于 reward 函數和超參數值的不同選擇。

除了對已有算法進行全新詮釋以外，該統一視角還推動了新算法的開發。研究人員展示了一個新算法，隨著訓練的進行，新算法對 reward 函數和超參數值退火，從而逐漸擴展探索空間。退火實際上就是在已有算法中進行動態插值。在機器翻譯和文本摘要任務上的實驗表明，該插值算法比已有的方法有顯著提升。

通用框架

該研究提出的通用框架旨在用常見的數學公式統一上述算法。該框架基于策略優化，策略優化即在模型分布下最大化期望獎勵。大量關于熵正則化策略優化(ERPO)的研究通過用信息論正則化項增強策略優化來穩定學習。Petuum 研究人員提出一個 ERPO 的通用公式。假設變量分布為 q(y|x)，則我們采用以下目標函數：

其中 (x, y*) 表示訓練數據對，y 指在 q(y|x) 分布中采樣的句子，KL(·||·) 表示 KL 散度，H(·) 是香農熵，α 和 β表示相應項的均衡權重，pθ 指用 θ 進行參數化的序列生成模型。

使用拉格朗日乘子法，該目標函數可以通過類似 EM 算法的步驟分別優化 q 和θ。在第 n 次迭代時：

現有算法是特殊實例

我們可以將已有的序列生成算法表示為該框架的特殊實例。

最大似然估計(MLE)

使 (R = Rδ, α → 0, β = 1)。如果 y = y*，則 ERPO 的 E-step 中 q(y|x) = 1，反之結果為 0。因此 M-step 與以下公式等價：

可見上式精確地還原了 MLE 的目標函數。

也就是說，MLE 可以看做帶有 δ 獎勵及上述權重值的策略優化算法的一個實例。任何不能精確匹配數據 y* 的樣本 y 都將收到負無窮獎勵，從而永遠不對模型學習做出貢獻。

獎勵增強最大似然(RAML)

如果用 MLE δ 獎勵取代 e(y|y*) 中的任務獎勵 R，則 RAML 目標函數就將等同于原版 MLE 目標函數。MLE 和 RAML 之間的這種關系在 ERPO 中仍然存在。與在 ERPO 中還原 MLE 的方法類似，使 (α → 0, β = 1)，但將 R 設置為任務度量獎勵，則 ERPO 的 M-step 精確地等同于最大化上述 RAML 目標函數。

數據加噪

數據加噪也可以作為 ERPO 框架中的特殊實例。從取 (R = Rδ, α → 0, β = 1) 的 MLE 的 ERPO 重公式化開始，數據加噪可以用上述一元松弛 Rδ 進行公式化。

Softmax 策略梯度(SPG)

SPG 可以輕松兼容 ERPO 框架。將 SPG 目標函數的梯度設為 θ，我們可以立即得到與 ERPO 相同的更新規則，(α = 1, β = 0, R = common reward)。

注意，SPG 和 RAML 配置中唯一的區別在于現在 α = 1。與 RAML 相比，SPG 利用獎勵分布和模型分布使探索空間更向前了一步。從理論上來講，在訓練階段進行充分的探索將提高測試階段的性能。然而，隨著訓練難度的增加，必須使用額外的復雜優化及近似技術(Ding & Soricut, 2017)，使訓練更加可行。

圖 2：不同學習算法的統一表述。每個算法對通用 ERPO 框架來說都是一個特例，采用了超參數 (R, α, β) 的某些特定取值。

應用：插值算法

在廣義 ERPO 框架中，一系列常用學習算法都可以被理解為具有三個特定規格超參數 (R, α, β) 的實例。每個算法都可以被視為超參數空間(圖 1)中的一個點。通常，具有更受限的獎勵函數 R 和非常小的 α 的點具有更小的有效探索空間，并且允許高效學習(如 MLE)，相比之下，帶有平滑 R 和較大 α 的點將導致更難的學習問題，但允許更高效的探索和更好的測試性能(如 (softmax) 策略梯度)。研究人員在論文中還探索了一種對現有算法進行插值的示例算法。

該插值算法從最受限但最簡單的配置 (MLE) 開始學習，并逐漸擴展探索空間以減少和測試階段之間的差異——由易到難的學習范式。由于已經將常用算法映射到超參數空間中的點，因此插值變得非常簡單，只需超參數值的退火。

實驗結果

研究人員在機器翻譯和文本摘要任務上評估了上述插值算法。如下圖所示，與之前的方法相比，該算法達到了更好的效果。

圖 3：上圖是不同學習算法在機器翻譯任務上的收斂曲線。下圖是與 MLE 相比，該算法在文本摘要任務上的提升。

論文：Connecting the Dots Between MLE and RL for Sequence Generation

論文鏈接：https://arxiv.org/abs/1811.09740
代碼：https://github.com/asyml/texar/tree/master/examples/seq2seq_exposure_bias

該研究的代碼實現基于 Texar，一個通用、易用的文本生成工具庫。

總結

以上是生活随笔為你收集整理的em算法实例正态分布_Petuum提出序列生成学习算法通用框架的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： idea 分支管理插件_Git的分支管理
下一篇： arcgis显示后台错误_死亡、税收和E

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

em算法 实例 正态分布_Petuum提出序列生成学习算法通用框架

總結

em算法实例正态分布_Petuum提出序列生成学习算法通用框架