日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

​ICML 2021 Long Oral | 顺序不可知的交叉熵函数

發布時間:2024/10/8 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ​ICML 2021 Long Oral | 顺序不可知的交叉熵函数 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者?|?張一帆

學校?|?華南理工大學本科生

研究方向?|?CV,Causality

本文針對非自回歸翻譯模型提出了一個新的損失函數:order-agnostic cross entropy(OAXE),這種交叉熵損失函數忽略了詞與詞的順序,將 NAT 看成了一個集合預測的問題,基于模型預測和目標標簽之間的最佳可能對齊計算交叉熵損失。

為了解決由于次序忽略帶來的問題,文中提出了使用交叉熵損失 pretrain 模型再使用 OAXE finetune 以及對 confidence 較小的預測進行截斷兩種正則化的策略,極大的提高了翻譯的性能。

論文標題:

Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation

論文鏈接:

https://arxiv.org/abs/2106.05093

代碼鏈接:

https://github.com/tencent-ailab/ICML21_OAXE

Methodology

先來直觀的看一下本文的損失函數和已有的 loss 有什么本質的區別。傳統的交叉熵損失對每一個錯誤的詞序都會引入懲罰,之前的工作AXE會對詞進行單調的對齊,而本文直接找最優的對齊方式。

那么我們將傳統的交叉熵損失寫為:

本文提出的 loss 其實很簡單:

其中 是我們的排序空間, 是其中一種對預測詞排序的策略,對于一個長度為 的預測,可以找到 種不同的排序,因此如何計算這個損失是個問題。在本文種,作者將該問題簡化為了二分圖匹配,對預測出的每個位置和目標詞匯之間進行二分圖匹配。

Training

2.1 Avoiding Invalid Orderings via XE Initialization

如果我們直接使用 OAXE loss 進行訓練,那么顯然會丟失掉詞序信息,文中有兩種策略緩解這個問題:

  • 我們先使用 XE loss 訓練一個模型,然后使用 OAXE 進行微調,這樣 XE loss 其實已經學到了不錯的詞序信息。

  • 第二種方法是將 XE 和 OAXE 根據一個加權因子進行結合,這個權重隨著時間變化逐漸趨于 0。

  • 2.2 Dropping Invalid Predictions via Loss Truncation

    即使使用 XE 來初始化,也還是會產生一些例如“I apple have”之類的語句,作者根據置信度進行截斷,其中截斷參數 是根據驗證集進行尋找的。

    只反向傳播概率高于 margin 的詞,這使得模型傾向于只學習有信心的預測。

    Experiments

    作者在 6 個數據集上進行了實驗,均采取了句子級別的 distillation,baseline 為 CMLM。

    3.1 不同的OAXE引入策略

    上述提到了兩種防止次序信息丟失的方法,從實驗中可以得到,從 XE 預訓練的模型開始引入 OAXE 得到的效果最好。

    3.2 與SOTA的比較

    CMLM 是之前的 SOTA,如果在輸出端經過足夠多次數的 refinement,CMLM 可以在 WMT14 EN-DE 上得到 27 左右的 BLUE,只有一次 refinement 的話只有 18.3,但是通過 OAXE 進行 fine-tune,可以使得其獲得超過 7 個點的提升。

    3.3 Raw Data

    上面說到了,現在 NAT 都采用了句子級別的 distillation 來減少訓練數據的多樣性,從而提升模型的性能。在 raw data 上,OAXE 帶來了更大的提升,即使使用raw data,其也比 cmlm 強。

    除此之外文章還做了對于多樣性,詞序和句子長度相關的實驗,相比于 XE,OAXE 在文中涉及的所有 metric 種均帶來了巨大的提升。

    Conclusion

    XE 是一個典型的 token-level 的損失函數,相比較而言,OAXE 雖然依然是交叉熵,但是更像是 sentence-level 的損失函數,因此他已經和單個詞的位置沒有關系了,更多的 focus 在句子的語義上。

    更多閱讀

    #投 稿?通 道#

    ?讓你的文字被更多人看到?

    如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

    總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

    PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

    ?????稿件基本要求:

    ? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

    ? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

    ? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

    ?????投稿通道:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

    ? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

    △長按添加PaperWeekly小編

    ????

    現在,在「知乎」也能找到我們了

    進入知乎首頁搜索「PaperWeekly」

    點擊「關注」訂閱我們的專欄吧

    關于PaperWeekly

    PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    總結

    以上是生活随笔為你收集整理的​ICML 2021 Long Oral | 顺序不可知的交叉熵函数的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。