當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICML 2021 Long Oral | 顺序不可知的交叉熵函数

發布時間：2024/10/8 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICML 2021 Long Oral | 顺序不可知的交叉熵函数小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者?|?張一帆

學校?|?華南理工大學本科生

研究方向?|?CV，Causality

本文針對非自回歸翻譯模型提出了一個新的損失函數：order-agnostic cross entropy（OAXE），這種交叉熵損失函數忽略了詞與詞的順序，將 NAT 看成了一個集合預測的問題，基于模型預測和目標標簽之間的最佳可能對齊計算交叉熵損失。

為了解決由于次序忽略帶來的問題，文中提出了使用交叉熵損失 pretrain 模型再使用 OAXE finetune 以及對 confidence 較小的預測進行截斷兩種正則化的策略，極大的提高了翻譯的性能。

論文標題：

Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation

論文鏈接：

https://arxiv.org/abs/2106.05093

代碼鏈接：

https://github.com/tencent-ailab/ICML21_OAXE

Methodology

先來直觀的看一下本文的損失函數和已有的 loss 有什么本質的區別。傳統的交叉熵損失對每一個錯誤的詞序都會引入懲罰，之前的工作AXE會對詞進行單調的對齊，而本文直接找最優的對齊方式。

那么我們將傳統的交叉熵損失寫為：

本文提出的 loss 其實很簡單：

其中是我們的排序空間，是其中一種對預測詞排序的策略，對于一個長度為的預測，可以找到種不同的排序，因此如何計算這個損失是個問題。在本文種，作者將該問題簡化為了二分圖匹配，對預測出的每個位置和目標詞匯之間進行二分圖匹配。

Training

2.1 Avoiding Invalid Orderings via XE Initialization

如果我們直接使用 OAXE loss 進行訓練，那么顯然會丟失掉詞序信息，文中有兩種策略緩解這個問題：

我們先使用 XE loss 訓練一個模型，然后使用 OAXE 進行微調，這樣 XE loss 其實已經學到了不錯的詞序信息。

第二種方法是將 XE 和 OAXE 根據一個加權因子進行結合，這個權重隨著時間變化逐漸趨于 0。

2.2 Dropping Invalid Predictions via Loss Truncation

即使使用 XE 來初始化，也還是會產生一些例如“I apple have”之類的語句，作者根據置信度進行截斷，其中截斷參數是根據驗證集進行尋找的。

只反向傳播概率高于 margin 的詞，這使得模型傾向于只學習有信心的預測。

Experiments

作者在 6 個數據集上進行了實驗，均采取了句子級別的 distillation，baseline 為 CMLM。

3.1 不同的OAXE引入策略

上述提到了兩種防止次序信息丟失的方法，從實驗中可以得到，從 XE 預訓練的模型開始引入 OAXE 得到的效果最好。

3.2 與SOTA的比較

CMLM 是之前的 SOTA，如果在輸出端經過足夠多次數的 refinement，CMLM 可以在 WMT14 EN-DE 上得到 27 左右的 BLUE，只有一次 refinement 的話只有 18.3，但是通過 OAXE 進行 fine-tune，可以使得其獲得超過 7 個點的提升。

3.3 Raw Data

上面說到了，現在 NAT 都采用了句子級別的 distillation 來減少訓練數據的多樣性，從而提升模型的性能。在 raw data 上，OAXE 帶來了更大的提升，即使使用raw data，其也比 cmlm 強。

除此之外文章還做了對于多樣性，詞序和句子長度相關的實驗，相比于 XE，OAXE 在文中涉及的所有 metric 種均帶來了巨大的提升。

Conclusion

XE 是一個典型的 token-level 的損失函數，相比較而言，OAXE 雖然依然是交叉熵，但是更像是 sentence-level 的損失函數，因此他已經和單個詞的位置沒有關系了，更多的 focus 在句子的語義上。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

?????稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

?????投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的ICML 2021 Long Oral | 顺序不可知的交叉熵函数的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

编程问答

​ICML 2021 Long Oral | 顺序不可知的交叉熵函数

2.2 Dropping Invalid Predictions via Loss Truncation

總結

ICML 2021 Long Oral | 顺序不可知的交叉熵函数