日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

BERT 蒸馏在垃圾舆情识别中的探索

發布時間:2024/9/3 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 BERT 蒸馏在垃圾舆情识别中的探索 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
簡介:近來 BERT等大規模預訓練模型在 NLP 領域各項子任務中取得了不凡的結果,但是模型海量參數,導致上線困難,不能滿足生產需求。輿情審核業務中包含大量的垃圾輿情,會耗費大量的人力。本文在垃圾輿情識別任務中嘗試 BERT 蒸餾技術,提升 textCNN 分類器性能,利用其小而快的優點,成功落地。


近來 BERT等大規模預訓練模型在 NLP 領域各項子任務中取得了不凡的結果,但是模型海量參數,導致上線困難,不能滿足生產需求。輿情審核業務中包含大量的垃圾輿情,會耗費大量的人力。本文在垃圾輿情識別任務中嘗試 BERT 蒸餾技術,提升 textCNN 分類器性能,利用其小而快的優點,成功落地。

風險樣本如下:

一 傳統蒸餾方案

目前,對模型壓縮和加速的技術主要分為四種:

  • 參數剪枝和共享
  • 低秩因子分解
  • 轉移/緊湊卷積濾波器
  • 知識蒸餾

知識蒸餾就是將教師網絡的知識遷移到學生網絡上,使得學生網絡的性能表現如教師網絡一般。本文主要集中講解知識蒸餾的應用。

1 soft label

知識蒸餾最早是 2014 年 Caruana 等人提出方法。通過引入 teacher network(復雜網絡,效果好,但預測耗時久) 相關的軟標簽作為總體 loss 的一部分,來引導 student network(簡單網絡,效果稍差,但預測耗時低) 進行學習,來達到知識的遷移目的。這是一個通用而簡單的、不同的模型壓縮技術。

  • 大規模神經網絡 (teacher network)得到的類別預測包含了數據結構間的相似性。
  • 有了先驗的小規模神經網絡(student network)只需要很少的新場景數據就能夠收斂。
  • Softmax函數隨著溫度變量(temperature)的升高分布更均勻。

Loss公式如下:

其中,

由此我們可以看出蒸餾有以下優點:

  • 學習到大模型的特征表征能力,也能學習到one-hot label中不存在的類別間信息。
  • 具有抗噪聲能力,如下圖,當有噪聲時,教師模型的梯度對學生模型梯度有一定的修正性。
  • 一定的程度上,加強了模型的泛化性。

2 using hints

(ICLR 2015) FitNets Romero等人的工作不僅利用教師網絡的最后輸出logits,還利用了中間隱層參數值,訓練學生網絡。獲得又深又細的FitNets。

中間層學習loss如下:

作者通過添加中間層loss的方式,通過teacher network 的參數限制student network的解空間的方式,使得參數的最優解更加靠近到teacher network,從而學習到teacher network的高階表征,減少網絡參數的冗余。

3 co-training

(arXiv 2019) Route Constrained Optimization (RCO) Jin和Peng等人的工作受課程學習(curriculum learning)啟發,并且知道學生和老師之間的gap很大導致蒸餾失敗,導致認知偏差,提出路由約束提示學習(Route Constrained Hint Learning),把學習路徑更改為每訓練一次teacher network,并把結果輸出給student network進行訓練。student network可以一步一步地根據這些中間模型慢慢學習,from easy-to-hard。

訓練路徑如下圖:

二 Bert2TextCNN蒸餾方案

為了提高模型的準確率,并且保障時效性,應對GPU資源緊缺,我們開始構建bert模型蒸餾至textcnn模型的方案。

方案1:離線logit textcnn 蒸餾

使用的是Caruana的傳統方法進行蒸餾。

方案2:聯合訓練 bert textcnn 蒸餾

參數隔離:teacher model 訓練一次,并把logit傳給student。teacher 的參數更新至受到label的影響,student 參數更新受到teacher loigt的soft label loss 和label 的 hard label loss 的影響。

方案3:聯合訓練 bert textcnn 蒸餾

參數不隔離: 與方案2類似,主要區別在于前一次迭代的student 的 soft label 的梯度會用于teacher參數的更新。

方案4:聯合訓練 bert textcnn loss 相加

teacher 和student 同時訓練,使用mutil-task的方式。

方案5:多teacher

大部分模型,在更新時候需要覆蓋線上歷史模型的樣本,使用線上歷史模型作為teacher,讓模型學習原有歷史模型的知識,保障對原有模型有較高的覆蓋。

實驗結果如下:

從以上的實驗,可以發現很有趣的現象。

1)方案2和方案3均使用先訓練teacher,再訓練student的方式,但是由于梯度返回更新是否隔離的差異,導致方案2低于方案3。是由于方案3中,每次訓練一次teacher,在訓練一次student,student學習完了的soft loss 會再反饋給teacher,讓teacher知道指如何導student是合適的,并且還提升了teacher的性能。

2)方案4采用共同更新的,同時反饋梯度的方式。反而textcnn 的性能迅速下降,雖然bert的性能基本沒有衰減,但是bert難以對textcnn每一步的反饋有個正確性的引導。

3)方案5中使用了歷史textcnn 的logit,主要是為了用替換線上模型時候,并保持對原有模型有較高的覆蓋率,雖然召回下降,但是整體的覆蓋率相比于單textcnn 提高了5%的召回率。

Reference

1.Dean, J. (n.d.). Distilling the Knowledge in a Neural Network. 1–9.
2.Romero A , Ballas N , Kahou S E , et al. FitNets: Hints for Thin Deep Nets[J].
3.Jin X , Peng B , Wu Y , et al. Knowledge Distillation via Route Constrained Optimization[J].

歡迎各位技術同路人加入螞蟻集團大安全機器智能團隊,我們專注于面向海量輿情借助大數據技術和自然語言理解技術挖掘存在的金融風險、平臺風險,為用戶資金安全護航、提高用戶在螞蟻生態下的用戶體驗。內推直達 lingke.djt@antfin.com,有信必回。

原文鏈接:https://developer.aliyun.com/article/768089?

版權聲明:本文中所有內容均屬于阿里云開發者社區所有,任何媒體、網站或個人未經阿里云開發者社區協議授權不得轉載、鏈接、轉貼或以其他方式復制發布/發表。申請授權請郵件developerteam@list.alibaba-inc.com,已獲得阿里云開發者社區協議授權的媒體、網站,在轉載使用時必須注明"稿件來源:阿里云開發者社區,原文作者姓名",違者本社區將依法追究責任。 如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至:developer2020@service.aliyun.com 進行舉報,并提供相關證據,一經查實,本社區將立刻刪除涉嫌侵權內容。

總結

以上是生活随笔為你收集整理的BERT 蒸馏在垃圾舆情识别中的探索的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。