日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

知识蒸馏(Knowledge Distillation)详细深入透彻理解重点

發布時間:2023/11/28 生活经验 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 知识蒸馏(Knowledge Distillation)详细深入透彻理解重点 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


知識蒸餾是一種模型壓縮方法,是一種基于“教師-學生網絡思想”的訓練方法,由于其簡單,有效,在工業界被廣泛應用。這一技術的理論來自于2015年Hinton發表的一篇神作:

論文鏈接

?chrome-extension://ibllepbpahcoppkjjllbabhnigcbffpi/content/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1503.02531.pdf

arxiv.org
Knowledge Distillation,簡稱KD,顧名思義,就是將已經訓練好的模型包含的知識(”Knowledge”),蒸餾(“Distill”)提取到另一個模型里面去。今天,我們就來簡單讀一下這篇論文,力求用簡單的語言描述論文作者的主要思想。在本文中,我們將從背景和動機講起,然后著重介紹“知識蒸餾”的方法,最后我會討論“溫度“這個名詞:

溫度: 我們都知道“蒸餾”需要在高溫下進行,那么這個“蒸餾”的溫度代表了什么,又是如何選取合適的溫度?






MNIST任務

假設某個輸入的“2”更加形似"3",softmax的輸出值中"3"對應的概率為0.1,而其他負標簽對應的值都很小,而另一個"2"更加形似"7","7"對應的概率為0.1。這兩個"2"對應的hard target的值是相同的,但是它們的soft target卻是不同的,由此我們可見soft target蘊含著比hard target多的信息。并且soft target分布的熵相對高時,其soft target蘊含的知識就更豐富。


這就解釋了為什么通過蒸餾的方法訓練出的Net-S相比使用完全相同的模型結構和訓練數據只使用hard target的訓練方法得到的模型,擁有更好的泛化能力。









TextBrewer
5. 參考
深度壓縮之蒸餾模型 - 風雨兼程的文章 - 知乎 https://zhuanlan.zhihu.com/p/24337627
知識蒸餾Knowledge Distillation - 船長的文章 - 知乎 https://zhuanlan.zhihu.com/p/83456418
https://towardsdatascience.com/knowledge-distillation-simplified-dd4973dbc764
https://nervanasystems.github.io/distiller/knowledge_distillation.html

bert 本身就以市面上公布的小模型參數作為student 模型

總結

以上是生活随笔為你收集整理的知识蒸馏(Knowledge Distillation)详细深入透彻理解重点的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。