ICML 2021 Long Oral | 顺序不可知的交叉熵函数
?PaperWeekly 原創 ·?作者?|?張一帆
學校?|?華南理工大學本科生
研究方向?|?CV,Causality
本文針對非自回歸翻譯模型提出了一個新的損失函數:order-agnostic cross entropy(OAXE),這種交叉熵損失函數忽略了詞與詞的順序,將 NAT 看成了一個集合預測的問題,基于模型預測和目標標簽之間的最佳可能對齊計算交叉熵損失。
為了解決由于次序忽略帶來的問題,文中提出了使用交叉熵損失 pretrain 模型再使用 OAXE finetune 以及對 confidence 較小的預測進行截斷兩種正則化的策略,極大的提高了翻譯的性能。
論文標題:
Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation
論文鏈接:
https://arxiv.org/abs/2106.05093
代碼鏈接:
https://github.com/tencent-ailab/ICML21_OAXE
Methodology
先來直觀的看一下本文的損失函數和已有的 loss 有什么本質的區別。傳統的交叉熵損失對每一個錯誤的詞序都會引入懲罰,之前的工作AXE會對詞進行單調的對齊,而本文直接找最優的對齊方式。
那么我們將傳統的交叉熵損失寫為:
本文提出的 loss 其實很簡單:
其中 是我們的排序空間, 是其中一種對預測詞排序的策略,對于一個長度為 的預測,可以找到 種不同的排序,因此如何計算這個損失是個問題。在本文種,作者將該問題簡化為了二分圖匹配,對預測出的每個位置和目標詞匯之間進行二分圖匹配。
Training
2.1 Avoiding Invalid Orderings via XE Initialization
如果我們直接使用 OAXE loss 進行訓練,那么顯然會丟失掉詞序信息,文中有兩種策略緩解這個問題:
我們先使用 XE loss 訓練一個模型,然后使用 OAXE 進行微調,這樣 XE loss 其實已經學到了不錯的詞序信息。
第二種方法是將 XE 和 OAXE 根據一個加權因子進行結合,這個權重隨著時間變化逐漸趨于 0。
2.2 Dropping Invalid Predictions via Loss Truncation
即使使用 XE 來初始化,也還是會產生一些例如“I apple have”之類的語句,作者根據置信度進行截斷,其中截斷參數 是根據驗證集進行尋找的。
只反向傳播概率高于 margin 的詞,這使得模型傾向于只學習有信心的預測。
Experiments
作者在 6 個數據集上進行了實驗,均采取了句子級別的 distillation,baseline 為 CMLM。
3.1 不同的OAXE引入策略
上述提到了兩種防止次序信息丟失的方法,從實驗中可以得到,從 XE 預訓練的模型開始引入 OAXE 得到的效果最好。
3.2 與SOTA的比較
CMLM 是之前的 SOTA,如果在輸出端經過足夠多次數的 refinement,CMLM 可以在 WMT14 EN-DE 上得到 27 左右的 BLUE,只有一次 refinement 的話只有 18.3,但是通過 OAXE 進行 fine-tune,可以使得其獲得超過 7 個點的提升。
3.3 Raw Data
上面說到了,現在 NAT 都采用了句子級別的 distillation 來減少訓練數據的多樣性,從而提升模型的性能。在 raw data 上,OAXE 帶來了更大的提升,即使使用raw data,其也比 cmlm 強。
除此之外文章還做了對于多樣性,詞序和句子長度相關的實驗,相比于 XE,OAXE 在文中涉及的所有 metric 種均帶來了巨大的提升。
Conclusion
XE 是一個典型的 token-level 的損失函數,相比較而言,OAXE 雖然依然是交叉熵,但是更像是 sentence-level 的損失函數,因此他已經和單個詞的位置沒有關系了,更多的 focus 在句子的語義上。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ICML 2021 Long Oral | 顺序不可知的交叉熵函数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 克拉玛依为什么蚊子多
- 下一篇: 简历上写CV开源项目,有用吗?