日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

em算法 实例 正态分布_Petuum提出序列生成学习算法通用框架

發(fā)布時間:2025/3/15 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 em算法 实例 正态分布_Petuum提出序列生成学习算法通用框架 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
近日,來自人工智能創(chuàng)業(yè)公司 Petuum 的研究人員發(fā)表論文,提出序列生成學習算法的通用框架——廣義的熵正則化策略優(yōu)化框架(Generalized Entropy-Regularized Policy Optimization)。該框架是對包括最大似然學習 (MLE)、增強學習 (RL) 等多種廣泛使用的算法的泛化。研究人員進而提出一種新的序列生成算法,該算法在已有算法中進行動態(tài)插值,在機器翻譯和文本摘要任務(wù)中實現(xiàn)了穩(wěn)定的提升。

序列生成是一個常見的機器學習任務(wù),比如機器翻譯、文本摘要、圖像字幕生成等。

近日,Petuum 發(fā)布論文《Connecting the Dots Between MLE and RL for Sequence Generation》,對多種廣泛使用的序列生成學習算法提出了統(tǒng)一的視角,即廣義的熵正則化策略優(yōu)化框架。可以證明這些算法在數(shù)學上等同于在框架中設(shè)定不同超參數(shù)的特例。該研究提供了對不同算法的系統(tǒng)性的理解和對比,并啟發(fā)更多的算法提升。基于此通用框架,研究人員還提出了一種新的插值算法,在機器翻譯和文本摘要任務(wù)中實現(xiàn)了穩(wěn)定的提升。

序列模型的發(fā)展(如具備不同單元和注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò))促進了序列生成任務(wù)的進步。這些模型通常可以使用多種不同的學習算法進行訓練,詳見下文。

常用的序列生成學習算法(點)

標準的訓練算法基于最大似然估計(MLE),即試圖最大化真實數(shù)據(jù)的對數(shù)似然(data log-likelihood)。盡管 MLE 訓練計算簡單、高效,但它會遭遇曝光偏差(exposure bias)。即模型在預測下一個 token 時使用的是真實數(shù)據(jù)中的 token,而訓練出的模型在測試時無法得到真實數(shù)據(jù)而只能使用模型預測出的 token。這種訓練和測試之間的偏差導致預測出現(xiàn)誤差,且隨著序列長度的增加,這一偏差也會越來越大。

很多研究試圖解決該問題,其中一些基于強化學習 (RL)。例如,Ranzato 等人在《Sequence Level Training with Recurrent Neural Networks》中采用策略梯度算法,通過在訓練和測試階段使用同樣的解碼策略來避免這種偏差。但是,基于 RL 的序列生成方法會面臨極低的采樣效率和極高的方差。

為了使訓練更加可行,其他研究人員提出了多種方法,這些方法介于 MLE 和 RL 之間。例如,RAML 對 MLE 數(shù)據(jù)樣本根據(jù) reward 函數(shù)進行擾動,SPG 基于 reward 分布實現(xiàn)策略梯度的高效采樣,數(shù)據(jù)加噪(data noising)等方法也有一定的性能提升。

最大似然估計(MLE)

最大似然估計是訓練序列生成模型最常用的方法。MLE 旨在尋找最大化數(shù)據(jù)對數(shù)似然的最優(yōu)參數(shù)值:

獎勵增強最大似然(RAML)

RAML 最初用于將特定任務(wù)的 reward(task metric reward)納入 MLE 訓練,該方法相對于原版 MLE 有很大的性能提升。具體來說,RAML 引入了一個指數(shù) reward 分布 e(y|y*) ∝ exp{R(y|y*)},其中 R 指任務(wù)度量(如 BLEU)。RAML 最大化以下目標函數(shù):

如果我們將 e(y|y*) 中的任務(wù)獎勵 R 換成 MLE 的 δ 獎勵,則 RAML 目標函數(shù)等同于原版 MLE 目標函數(shù),即:

數(shù)據(jù)加噪

向訓練數(shù)據(jù)添加噪聲是常用的正則化方法。之前的研究提出多種適合序列生成 的數(shù)據(jù)加噪策略。例如,將數(shù)據(jù) y* 中的每個 token 以概率 γ 替換成噪聲 token,每個噪聲 token 隨機從一元頻率分布(unigram frequency distribution)中采樣獲得。然后將得到的帶噪聲數(shù)據(jù)用于 MLE 訓練。形式上來看,它等同于使用獎勵函數(shù):

其中 u(·) 表示一元頻率分布。使用松弛(即平滑)獎勵后,數(shù)據(jù)加噪一定程度上擴展了原版 MLE 的探索空間。其效果本質(zhì)上等同于 RAML 算法,區(qū)別在于 RAML 基于任務(wù)獎勵函數(shù)來擴展探索空間。

Softmax 策略梯度 (SPG)

SPG 旨在適應(yīng)原版策略梯度,用作采樣的獎勵函數(shù)。SPG 的目標函數(shù)如下:

其中 R 表示 reward 函數(shù)。作為標準策略梯度算法的變體,SPG 旨在解決曝光偏差問題,并表現(xiàn)出了卓越的結(jié)果。

圖 1:不同算法的有效探索空間。(a):MLE 的探索空間即訓練樣本的集合。(b):RAML 和數(shù)據(jù)加噪使用平滑的獎勵函數(shù),允許訓練樣本周圍的較大探索空間。(c):常見的策略優(yōu)化算法(如 SPG)大體上允許全部探索空間。

連點成線

Petuum 對這些學習算法構(gòu)建了一個統(tǒng)一的視角。具體來說,他們展示了一個廣義熵正則化策略優(yōu)化(ERPO)框架,并證明明顯不同的多種算法(如 MLE、RAML、SPG 和數(shù)據(jù)加噪)都可以重新公式化為該框架中的特殊實例,唯一的區(qū)別在于 reward 函數(shù)和超參數(shù)值的不同選擇。

除了對已有算法進行全新詮釋以外,該統(tǒng)一視角還推動了新算法的開發(fā)。研究人員展示了一個新算法,隨著訓練的進行,新算法對 reward 函數(shù)和超參數(shù)值退火,從而逐漸擴展探索空間。退火實際上就是在已有算法中進行動態(tài)插值。在機器翻譯和文本摘要任務(wù)上的實驗表明,該插值算法比已有的方法有顯著提升。

通用框架

該研究提出的通用框架旨在用常見的數(shù)學公式統(tǒng)一上述算法。該框架基于策略優(yōu)化,策略優(yōu)化即在模型分布下最大化期望獎勵。大量關(guān)于熵正則化策略優(yōu)化(ERPO)的研究通過用信息論正則化項增強策略優(yōu)化來穩(wěn)定學習。Petuum 研究人員提出一個 ERPO 的通用公式。假設(shè)變量分布為 q(y|x),則我們采用以下目標函數(shù):

其中 (x, y*) 表示訓練數(shù)據(jù)對,y 指在 q(y|x) 分布中采樣的句子,KL(·||·) 表示 KL 散度,H(·) 是香農(nóng)熵,α 和 β表示相應(yīng)項的均衡權(quán)重,pθ 指用 θ 進行參數(shù)化的序列生成模型。

使用拉格朗日乘子法,該目標函數(shù)可以通過類似 EM 算法的步驟分別優(yōu)化 q 和θ。在第 n 次迭代時:

現(xiàn)有算法是特殊實例

我們可以將已有的序列生成算法表示為該框架的特殊實例。

最大似然估計(MLE)

使 (R = Rδ, α → 0, β = 1)。如果 y = y*,則 ERPO 的 E-step 中 q(y|x) = 1,反之結(jié)果為 0。因此 M-step 與以下公式等價:

可見上式精確地還原了 MLE 的目標函數(shù)。

也就是說,MLE 可以看做帶有 δ 獎勵及上述權(quán)重值的策略優(yōu)化算法的一個實例。任何不能精確匹配數(shù)據(jù) y* 的樣本 y 都將收到負無窮獎勵,從而永遠不對模型學習做出貢獻。

獎勵增強最大似然(RAML)

如果用 MLE δ 獎勵取代 e(y|y*) 中的任務(wù)獎勵 R,則 RAML 目標函數(shù)就將等同于原版 MLE 目標函數(shù)。MLE 和 RAML 之間的這種關(guān)系在 ERPO 中仍然存在。與在 ERPO 中還原 MLE 的方法類似,使 (α → 0, β = 1),但將 R 設(shè)置為任務(wù)度量獎勵,則 ERPO 的 M-step 精確地等同于最大化上述 RAML 目標函數(shù)。

數(shù)據(jù)加噪

數(shù)據(jù)加噪也可以作為 ERPO 框架中的特殊實例。從取 (R = Rδ, α → 0, β = 1) 的 MLE 的 ERPO 重公式化開始,數(shù)據(jù)加噪可以用上述一元松弛 Rδ 進行公式化。

Softmax 策略梯度(SPG)

SPG 可以輕松兼容 ERPO 框架。將 SPG 目標函數(shù)的梯度設(shè)為 θ,我們可以立即得到與 ERPO 相同的更新規(guī)則,(α = 1, β = 0, R = common reward)。

注意,SPG 和 RAML 配置中唯一的區(qū)別在于現(xiàn)在 α = 1。與 RAML 相比,SPG 利用獎勵分布和模型分布使探索空間更向前了一步。從理論上來講,在訓練階段進行充分的探索將提高測試階段的性能。然而,隨著訓練難度的增加,必須使用額外的復雜優(yōu)化及近似技術(shù)(Ding & Soricut, 2017),使訓練更加可行。

圖 2:不同學習算法的統(tǒng)一表述。每個算法對通用 ERPO 框架來說都是一個特例,采用了超參數(shù) (R, α, β) 的某些特定取值。

應(yīng)用:插值算法

在廣義 ERPO 框架中,一系列常用學習算法都可以被理解為具有三個特定規(guī)格超參數(shù) (R, α, β) 的實例。每個算法都可以被視為超參數(shù)空間(圖 1)中的一個點。通常,具有更受限的獎勵函數(shù) R 和非常小的 α 的點具有更小的有效探索空間,并且允許高效學習(如 MLE),相比之下,帶有平滑 R 和較大 α 的點將導致更難的學習問題,但允許更高效的探索和更好的測試性能(如 (softmax) 策略梯度)。研究人員在論文中還探索了一種對現(xiàn)有算法進行插值的示例算法。

該插值算法從最受限但最簡單的配置 (MLE) 開始學習,并逐漸擴展探索空間以減少和測試階段之間的差異——由易到難的學習范式。由于已經(jīng)將常用算法映射到超參數(shù)空間中的點,因此插值變得非常簡單,只需超參數(shù)值的退火。

實驗結(jié)果

研究人員在機器翻譯和文本摘要任務(wù)上評估了上述插值算法。如下圖所示,與之前的方法相比,該算法達到了更好的效果。

圖 3:上圖是不同學習算法在機器翻譯任務(wù)上的收斂曲線。下圖是與 MLE 相比,該算法在文本摘要任務(wù)上的提升。

論文:Connecting the Dots Between MLE and RL for Sequence Generation

  • 論文鏈接:https://arxiv.org/abs/1811.09740
  • 代碼:https://github.com/asyml/texar/tree/master/examples/seq2seq_exposure_bias

該研究的代碼實現(xiàn)基于 Texar,一個通用、易用的文本生成工具庫。

總結(jié)

以上是生活随笔為你收集整理的em算法 实例 正态分布_Petuum提出序列生成学习算法通用框架的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。