當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【CVPR2020 论文翻译】 | Explaining Knowledge Distillation by Quantifying the Knowledge

發布時間：2023/12/14 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了【CVPR2020 论文翻译】 | Explaining Knowledge Distillation by Quantifying the Knowledge 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本篇基于有道翻譯進行翻譯的。為了自己閱讀翻遍，公式部分處理不太好。
論文原文鏈接：https://arxiv.org/abs/2003.03622

Abstract

本文提出了一種通過對深度神經網絡中間層中與任務相關和任務無關的視覺概念進行量化和分析來解釋知識蒸餾成功的方法。更具體地說，提出以下三個假設。

知識蒸餾使DNN比從原始數據中學習更多的視覺概念

知識蒸餾確保了DNN易于同時學習各種視覺概念。然而，在從原始數據學習的場景中，DNN順序學習視覺概念

與從原始數據中學習相比，知識蒸餾可以產生更穩定的優化方向。因此，我們設計了三種類型的數學度量來評估DNN的特征表示。在實驗中，我們對各種DNNs進行了診斷，并驗證了上述假設。

1. Introduction

知識蒸餾[16]的成功已經在各種研究中得到證明[31,45,11]。它將知識從一個成熟的深度神經網絡(DNN)，即教師網絡，轉移到另一個DNN，即學生網絡。然而，解釋如何以及為什么知識蒸餾優于從原始數據學習仍然是一個挑戰。

在這項工作中，我們的目標是從一個新的角度來分析知識蒸餾的成功，即量化編碼在DNN中間層的知識。我們分別對通過知識蒸餾和從原始數據中學習的DNN中編碼的知識的數量進行了量化和比較。這里，從原始數據中獲得的DNN稱為基線網絡。在本研究中，將某一層的知識量測量為視覺概念的數量(如物體的尾部、頭部等)，如圖1所示。這些視覺概念激活了這個特定層的特征圖，并用于預測。

圖1所示。通過量化視覺概念來解釋知識的提煉。提出并驗證了三個假設:1. 知識蒸餾使DNN學習更直觀而不是從原始數據中學習。2. 知識蒸餾確保了DNN易于同時學習各種視覺概念。3.與從原始數據中學習相比，知識蒸餾可以產生更穩定的優化方向。

假設1: 知識蒸餾使DNN學習更多的視覺概念。在本文中，視覺概念被定義為一個圖像區域，其信息的丟棄性顯著降低，并且主要被DNN使用。我們將與任務相關的視覺概念與其他概念區分開來，即與任務無關的概念。對于實現，讓我們以分類任務為例。如圖1所示，前景中的視覺概念通常被認為與任務相關，而背景中的視覺概念則被認為與任務無關。

根據信息瓶頸理論[41,36]，DNNs傾向于暴露與任務相關的視覺概念，而拋棄與任務無關的概念來學習區別性特征。與基線網絡(從原始數據中學習)相比，訓練有素的教師網絡通常被認為編碼了更多與任務相關的視覺概念和/或較少與任務無關的概念。因為學生網絡模仿了教師網絡的邏輯，所以學生網絡應該包含更多與任務相關的視覺概念，而較少與任務無關的概念。

假設2: 知識蒸餾確保了DNN易于同時學習各種視覺概念。相比之下，基線網絡傾向于順序學習視覺概念，即在不同的epoch學習不同的概念。

假設3: 與從原始數據中學習相比，知識蒸餾通常會產生更穩定的優化方向。DNN在對原始數據進行學習時，通常會在早期嘗試對各種視覺概念進行建模，然后在后期拋棄不加區分的概念[41,36]，導致優化方向不穩定。本文將不同epoch的優化方向不一致現象簡稱為“迂回”。相比之下，在知識蒸餾過程中，教師網絡直接引導學生網絡瞄準視覺概念，沒有明顯的迂回。讓我們以鳥類的分類為例。基線網絡傾向于在早期從頭部、腹部、尾部和樹枝部位提取特征，而在后期從樹枝部位丟棄特征。而學生網絡則是直接從頭部和腹部部位學習特征，少走彎路。

方法: 我們提出了三種數學度量方法來量化隱藏在DNN中間層中的視覺概念，并分析了視覺概念在學習過程中是如何被習得的。這些度量標準度量

視覺概念的數量。

不同概念的學習速度。

優化方向的穩定性。

我們使用這些指標來分析比較研究中的學生網絡和基線網絡，以證明三個假設。更具體地說，學生網絡是通過知識蒸餾來學習的，而從原始數據中學習的基線網絡被構造成具有與學生網絡相同的體系結構。

注意，視覺概念應該在沒有人工標注的情況下進行量化。主要有兩個原因。1)人們不可能對世界上各種潛在的視覺概念進行注釋。2)對于嚴謹的研究，人的注釋的主觀偏向不應該影響定量的度量。為此，[14,26]利用熵來量化編碼在中間層中的視覺概念。

貢獻: 我們的貢獻可以總結如下。

我們提出一種方法來量化暗物質的概念，[42]編碼在一個DNN的中間層。

基于視覺概念的量化，我們提出了三種度量方法，從編碼在DNN中的知識表示的角度來診斷和解釋知識蒸餾的優越性能。

提出并驗證了關于知識蒸餾的三個假設，為解釋知識蒸餾提供了依據。

2. Related Work

雖然深度神經網絡在各種任務中表現出了優越的性能，但它們仍然被視為黑匣子。以往對DNNs的解釋研究大致可歸納為語義解釋和數學解釋。

DNNs的語義解釋: 一種直觀的解釋DNNs的方法是將編碼在DNNs中間層的視覺概念可視化。特征可視化方法通常顯示可能顯著激活某一層特定神經元的概念。基于梯度的方法[47,37,46,27]使用輸出的梯度w.r.t.輸入圖像來測量中間層激活單元或輸入單元的重要性。基于反轉的[5]方法將卷積層的特征映射轉換為圖像。從可視化結果來看，人們大致理解了編碼在dna中間層的視覺概念。例如，低層次的過濾器通常編碼簡單的視覺概念，如邊緣和紋理，而高層次的過濾器通常編碼概念，如對象和模式。

其他方法通常估計輸入圖像的像素屬性/重要性/顯著性，測量每個輸入像素對最終輸出的影響[30,25,20,9]。一些方法利用中間層特征來探索輸入圖像的顯著性，如CAM[52]、graden -CAM[34]和graden -CAM++[2]。Zhou等人計算了特征圖中神經激活的實際圖像分辨率接受域。

Bau等人使用人工注釋將特征表示分解為語義概念。Fong和Vedaldi[8]證明了DNN使用多個過濾器（fliter）來表示一個特定的語義概念。Zhang等人使用解釋圖[48]和決策樹[50]來表示CNNs中的層次組成部分表示。TCAV[19]測量了用戶定義的概念對分類的重要性。

可解釋人工智能的另一個方向是以無監督或弱監督的方式學習具有可解釋特征表示的DNN。在膠囊網絡[33]中，每個膠囊的活性編碼了各種屬性。可解釋的CNN[49]學習對象部分特征，沒有部分注釋。InfoGAN[4]和β-VAE[15]學習可判斷的factorised生成網絡潛在的表示。

而在本研究中，中間層視覺概念的量化要求我們設計出具有一致性和通用性的度量。也就是說，與以前的研究不同，我們計算重要性/顯著性/注意力[47,37,46,27]是基于啟發式的假設，或者使用大量的人類注釋的概念[1]來解釋網絡特征，我們使用輸入的條件熵來量化視覺概念。熵是一種通用工具，與各種理論有很強的聯系，如信息瓶頸理論[41,36]。此外，這種一致性還允許使用相同的度量標準來確保不同層次的DNN之間以及不同時代學習的DNN之間的公平比較。

DNNs表達能力的數學解釋: 對DNNs表達能力的數學評價為解釋提供了新的視角。信息瓶頸理論[41,36]利用相互信息來評價DNNs的表達能力[13,43]。提出了剛度[10]診斷神經網絡泛化的方法。利用smart評分[40]估計神經網絡的魯棒性。應用傅里葉分析[44]解釋了隨機梯度下降學習神經網絡的泛化。Novak等人研究了訓練神經網絡的敏感性與泛化之間的相關性。利用典型相關分析(CCA)[21]來測量神經網絡表征之間的相似性。Chen等人提出了通過互信息進行實例特征選擇的模型解釋方法。Zhang等人研究了DNNs之間的知識一致性。

與以往的研究方法不同，我們的研究目的是在數學解釋和語義解釋之間架起一座橋梁。我們使用輸入的熵來測量一個DNN中視覺概念的數量。此外，我們利用輸入圖像對背景和前景的視覺概念進行量化，探討DNN是同時學習還是順序學習各種概念，并分析優化方向的穩定性。

知識蒸餾:知識蒸餾是一種流行的、成功的知識轉移技術。Hinton等人[16]認為“軟目標”導致了知識精餾的優越性能。Furlanello等人[11]將教師傳授給學生的黑暗知識解釋為重要性加權。

從理論角度看，Lopez-Paz等人[24]將知識蒸餾解釋為一種帶有特權信息的學習形式。Phuong等人的[29]從數據分布、優化偏差和訓練集大小的角度解釋了知識提取的成功。

然而，就我們所知，對知識蒸餾的數學解釋是罕見的。本文從一個新的角度對知識蒸餾進行了解釋，即從數學的角度對知識蒸餾和單純從原始數據獲取的DNNs之間中間層編碼的視覺概念進行量化、分析和比較。

3. Algorithm

在本節中，我們將得到一個預先訓練好的DNN(即教師網絡)，然后將其提取為另一個DNN(即學生網絡)。這樣，我們的目的是比較和解釋學生網絡和從原始數據(即基線網絡)中學習的DNN之間的區別。為了簡化這個故事，我們將注意力限制在對象分類的任務上。令x∈Rn表示輸入圖像，fT (x)， fS(x)∈RL分別表示教師網絡及其對應學生網絡的中間層特征。通過知識蒸餾迫使fS(x)逼近fT (x)，教師和學生的分類結果分別為yT = gT (fT (x))和yS = gS(fS(x))∈Rc。我們比較基線網絡和學生網絡中編碼的視覺概念，以解釋知識的提煉。為了進行公平的比較，基線網絡與學生網絡具有相同的結構，實現細節如4.1節所示。

3.1. Preliminaries: Quantifification of Information iscarding

根據信息瓶頸理論[41,36]，輸入圖像的信息通過層逐步丟棄。[14, 26]提出了一種對DNN特定中間層編碼的輸入信息進行量化的方法，即測量DNN提取該層特征時忽略了多少輸入信息。根據中間層特性f = f(x)，信息丟棄被表示為輸入的條件熵H(X0)，如下所示。

X’表示一組圖像，它們對應于特定對象實例的概念。對象的概念被認為是由一個小范圍的特征k (x’)) f?k2≤τ,τ是小正的標量。假設x遵循一個先驗知識。高斯分布,x’～N (x,Σ=診斷接頭(σ21,。σ2n)),σi控制擾動的大小在每個i像素。n表示輸入圖像的像素個數。這樣，高斯分布的假設保證了整個圖像的熵H(X’)可以分解為如下的像素級熵{Hi}。

當 Hi = log σi + 12 log(2πe) 其中度量像素級信息的丟棄。詳見[14,26]。

3.2. Quantifification of visual concepts

假設1:知識的提煉使得DNN比從原始數據中學習更可靠的視覺概念。

在本節中，我們的目標是比較基線網絡和學生網絡中編碼的視覺概念的數量，從而驗證上述假設。

是否使用帶注釋的概念: 為了進行比較，我們嘗試定義和量化編碼在DNN中間層(學生網絡或基線網絡)中的視覺概念。注意，在本研究中，我們不研究由人工標注定義的視覺概念。例如，Bau等人[1]使用手動注釋定義了對象、部件、紋理、場景、材料和顏色的視覺概念。然而，這項研究要求我們使用和量化的視覺概念沒有明確的名稱，無法準確地標記。這些視覺概念通常被稱為“暗物質”[42]。

使用暗物質視覺概念代替傳統語義視覺概念主要有兩個原因。1. 語義視覺概念沒有標準的定義，語義視覺概念的分類可能存在明顯的偏差。2. 注釋所有視覺概念的成本通常是無法承受的

度量: 本文從信息論的角度對暗物質視覺概念進行了量化。給定一個預先訓練好的DNN、一組訓練圖像I和一個輸入圖像x∈I，讓我們把重點放在像素級信息上，將Hi w.r.t作為中間層特征f*= f(x)。高像素熵{Hi}如式(2)所示，說明DNN忽略了這些像素的更多信息。而DNN主要利用低熵的像素{Hi}來計算特征f的被積函數。這樣，低像素熵的圖像區域可以被認為代表了相對有效的視覺概念。例如，圖2中的鳥的頭部和翅膀主要由DNN用于細粒度分類。因此，度量標準定義如下

其中N bgconcept(x)和Nfg concept(x)分別表示編碼在背景和前景上的視覺概念數量。Λbg和Λfg像素集的輸入圖像的背景和前景w.r.t. x,分別。?(·)指標函數里面的條件是有效的,?(·)返回1,否則為0。H = Ei∈Λbg (Hi)表示平均熵值的背景、措施的意義信息丟棄w.r.t.背景像素。背景上的像素被認為代表了與任務無關的視覺概念。因此，我們可以用H作為基線熵。熵值顯著小于H的圖像區域可以被認為是有效的視覺概念，其中b是正的標量。度規λ是用來測量特性的辨別力。如圖2所示,為了提高穩定性和效率的計算,{嗨}是16×16網格計算,即每個局部網格中所有像素共享相同的σi。圖2中的深色表示低熵值Hi。

圖2。視覺概念的可視化。第二列顯示不同圖像的{Hi}。低像素熵的圖像區域被認為是視覺概念，如第三列所示。

在統計學中，前臺的視覺概念通常是與任務相關的，而后臺的視覺概念主要是與任務無關的。通過這種方式，一個博學的DNN應該在前景編碼大量的視覺概念，在背景編碼很少的視覺概念。因此,一個更大的λ值表示更有識別力的款。

一般性和一致性:度量的設計應該同時考慮一般性和一致性。概括性是指度規應該與現有的數學理論有很強的聯系。這種一致性保證了在不同情況下的全面和公平的比較。在本文中，我們的目標是量化和比較不同網絡架構和不同層之間的視覺概念的數量。如[14,26]所述，現有的DNNs解釋方法通常依賴于特定的網絡架構或特定的任務，如基于梯度的方法[47,37,46,27]、基于擾動的方法[9,20]和基于反轉的方法[5]。與以前的方法不同，輸入的條件熵確保了不同網絡架構和不同層之間的公平比較，如表1所示。

3.3. Learning simultaneously or sequentially

假設2:知識蒸餾確保了DNN易于同時學習各種概念。而從原始數據中學習的DNN則是在不同的時代中依次學習概念。

在本節中，我們提出兩個度量來證明假設2。給出一組訓練圖像I, g1, g2，…， gM表示不同時期學習的DNNs。這個DNN可以是學生網絡，也可以是基線網絡。最后一個歷元之后得到的gM被認為是最終的DNN。對于每個具體的圖像I∈I，我們將經過不同紀元的Nfg 1 (I)， Nfg 2 (I)，…,Nfg M (I)。

這樣，DNN是否同時學習視覺概念可以從以下兩個方面進行分析:nfg j (I)是否隨epoch快速增加;2. 不同圖像的nfg j (I)是否同時增大。第一項表示DNN是否能快速學習特定圖像的各種視覺概念，第二項表示DNN是否能同時學習不同圖像的視覺概念。

為了進行嚴格的評估，如圖3所示，我們計算了epoch數m = arg maxk N fg k (I)，其中DNN在前景中獲得了最豐富的視覺概念。設w0和wk分別表示第k個epoch之后的初始參數和學習的參數。我們利用公式,名叫“重量距離”,衡量學習效果在m?th epoch[12、7]。與使用epoch數相比，權值距離更能量化每個歷元k更新參數wk的總路徑，因此，我們使用權值距離的平均值Dmean和標準差Dstd來量化一個DNN是否同時學習視覺概念。Dmean和Dstd如下

圖3。前景視覺概念的學習過程，加權距離。根據信息瓶頸理論，DNN傾向于在早期階段學習各種視覺概念，然后在后期主要拋棄與任務無關的概念。嚴格地說，DNN在整個過程中學習新概念，拋棄舊概念。我們可以考慮的學習階段m?編碼富有的概念。

Dmean表示平均權距離，其中DNN獲得最豐富的任務相關視覺概念。Dmean的值表示DNN是否能快速學習視覺概念。Dstd描述了重量距離wr的變化。t為不同的圖像，其值表示DNN是否同時學習不同的視覺概念。因此，較小的Dmean和Dstd值表明，DNN可以同時快速地學習各種概念。

3.4. Learning with Less Detours

假設3:知識蒸餾比從原始數據中學習得到更穩定的優化方向。

在知識蒸餾過程中，教師網絡直接引導學生網絡學習目標視覺概念，沒有明顯的迂回。相比之下，根據信息瓶頸理論[41,36]，DNN在對原始數據進行學習時，往往會嘗試對各種視覺概念進行建模，然后拋棄不加區分的概念，導致優化方向不穩定

為了量化DNN優化方向的穩定性，提出了一種新的度量方法。令S1(I) S2(I)。， SM(I)表示由g1、g2、…編碼的圖像前景上的一組視覺概念。分別,通用。其中，每個視覺概念a∈Sj (I)表示圖像I前景上的一個特定像素I，該像素I滿足H - Hi > b，優化方向的穩定性可測量如下:

分子反映了最終被選擇用于對象分類的視覺概念的數量，如圖4中的黑框所示。分母表示在學習過程中臨時學到的視覺概念，如圖4中的綠色方框所示。(SMj=1 Sj (I) \ SM(I))表示一組視覺概念，這些概念已經嘗試過，但最終被DNN拋棄。ρ表示款的高價值優化detours1較少,更穩定;亦然。

分子反映了最終被選擇用于對象分類的視覺概念的數量，如圖4中的黑框所示。分母表示在學習過程中臨時學到的視覺概念，如圖4中的綠色方框所示。(SMj=1 Sj (I) \ SM(I))表示一組視覺概念，這些概念已經嘗試過，但最終被DNN拋棄。高價值的ρ表示深度神經網絡優化減少彎路,更穩定;亦然。

4. Experiment

4.1. Implementation Details

數據集和DNNs:我們設計了比較實驗來驗證三個提出的假設。為了綜合比較，我們使用了AlexNet[22]、VGG-11、VGG-16、VGG-19[38]、ResNet-50、ResNet-101和ResNet-152[18]進行實驗。將每個DNN作為教師網絡，我們將知識從教師網絡提取到學生網絡，學生網絡與教師網絡具有相同的架構，以便進行公平的比較。同時，要求基線網絡具有與教師網絡相同的體系結構。

我們基于ILSVRC-2013 DET數據集[35]、CUB200-2011數據集[39]和Pascal VOC 2012數據集[6]訓練這些DNNs。第4.3、4.4和4.5節中的所有教師網絡都在ImageNet數據集[32]上進行了預訓練，然后分別使用這三個數據集進行了微調。為了對ILSVRC-2013 DET數據集進行微調，考慮到計算量較大，我們進行了陸地哺乳動物分類的對比實驗。對于ILSVRC-2013 DET數據集和Pascal VOC 2012數據集，使用了數據擴充[17]來防止過擬合。對于CUB200-2011數據集，我們使用由對象邊界框裁剪的對象圖像進行訓練和測試。特別是對于Pascal VOC 2012數據集，為了得到穩定的結果，使用1.2 width×1.2 height of the original object bounds box對圖像進行裁剪。對于ILSVRC-2013 DET數據集，我們使用原始對象邊界框的1.5寬×1.5高裁剪每張圖像。因為在ILSVRC-2013 DET數據集中不存在物體分割的ground-truth注釋，所以我們使用物體邊界框作為前景區域。像素內的對象邊界框被視為前景Λfg和像素以外的對象邊界框被稱為背景Λbg。

蒸餾:在知識蒸餾過程中，我們選擇了一個全連通(FC)層l作為目標層。以kfT (x)) fS(x)k2為蒸餾損失，模擬教師網絡對應層的特征，其中fT (x)和fS(x)分別表示教師網絡的l層特征和對應的學生網絡的l層特征。

利用蒸餾損失，獲得了目標FC層l下學生網絡的參數。因此，除了教師網絡中編碼的知識外，額外的人工標注信息不會影響學習過程，從而保證了公平的比較。然后對目標層l下的參數進行凍結，僅利用分類損失對目標層l上的參數進行學習。

層的選擇:對于每一對學生網絡和基線網絡，我們的目標是量化FC層中編碼的視覺概念，并進行對比實驗。我們發現這些被選擇的dnns通常有三個FC層。為了簡單起見，我們將三個FC層分別命名為FC1、FC2、FC3。注意，對于ILSVRC-2013 DET數據集和Pascal VOC 2012數據集，編碼在FC3層的中間層特征的維數要比編碼在FC1層和FC2層的特征維數小得多。因此，在ILSVRC-2013 DET數據集和Pascal VOC 2012數據集上學習DNNs時，從FC1和FC2層中選擇目標層。對于CUB200-2011數據集，所有三個FC層都被選擇為目標層。注意，ResNets通常只有一個FC層。通過這種方式，我們用兩個卷積層和三個FC層將唯一的FC層替換為一個塊，每個層后面都有一個ReLU層。因此，我們可以測量視覺概念在學生網絡和基線網絡w.r.t每個FC層。對于超參數b(如式(3)所示)，對于AlexNet設置為0.25，對于其他DNNs設置為0.2。這是因為AlexNet比其他dnns的層次要少得多。

4.2. Quantifification of Visual Concepts in the Teacher Network, the Student Network and the Baseline Network

根據我們的假設，教師網絡是從大量的訓練數據中學習的。因此，教師網絡學習到更好的表現，即編碼更多的視覺概念在前景和較少的概念在背景比基線網絡。因此，向老師學習的學生網絡應該比基線網絡包含更多的前景視覺概念。在本節中，我們的目標是比較編碼在教師網絡、學生網絡和基線網絡中的視覺概念的數量。

在ILSVRC-2013 DET數據集和CUB200 2011數據集上，我們從零開始學習了一個教師網絡。為了提高教師網絡的性能，使用了數據擴充[17]。學生網絡以4.1節相同的方式提取，其架構與教師網絡和基線網絡相同。在不失一般性的情況下，選擇VGG 16，結果見表2。我們發現的數量概念前臺N fg concept和老師比λ的網絡比學生大網絡。與此同時,學生網絡獲得N fg concept和λ的值比基線網絡。這樣，就大致驗證了教師網絡、學生網絡和基線網絡之間的假設關系。我們也注意到有一個例外，教師網絡的nfg概念值小于學生網絡。這是因為教師網絡的平均背景熵值H(式(3))大于學生網絡。

4.3. Verifification of Hypothesis 1

假設1假設通過知識蒸餾，保證了學生網絡學習更多與任務相關的視覺概念，學習較少與任務無關的視覺概念。因此,我們利用N fg concept ,bg concept和λ指標在方程(3)來驗證這個假設。

值N fg concept,bg concept和λ,評估在每個款的FC1和FC2層學習使用cub200 - 2011數據集,ilsvrc - 2013數據集和帕斯卡VOC 2012數據集,表3所示。大部分結果證實了假設1。即學生網絡傾向于更多的視覺編碼概念的前景和更少的概念背景,從而表現出更大的比率比基線網絡λ。圖5顯示了編碼在VGG-11的FC1層的視覺概念，這也證明了假設1。請注意，很少有學生網絡編碼更多的背景視覺概念N bg概念。這是因為在第4.3、4.4、4.5節中，將作為教師網絡的DNNs預先訓練在ImageNet數據集上，以驗證假設1-3。預先訓練的教師網絡編碼了1000個類別的視覺概念，這遠遠超出了需要。這將使學生網絡表現出比基線網絡更大的N bg concept值。

4.4. Verifification of Hypothesis 2

對于假設2，我們的目的是驗證知識蒸餾使得學生網絡具有更高的學習速度，即同時學習不同的概念。我們用Dmean和Dstd來證明這個假設。

由表3可知，學生網絡的Dmean和Dstd值均小于基線網絡，驗證了假設2。請注意，仍然存在失敗案例。例如，在AlexNet的FC1層或VGG-11的FC2層測量Dmean和Dstd。原因是AlexNet和VGG-11都有相對較淺的網絡架構。在學習原始數據時，淺架構的DNNs會學習更多的概念，避免過擬合。然而，除了極少數例外情況外，大多數DNNs的知識提取優于從原始數據中學習。

表3。學生網絡(S)與基線網絡(B)比較，↑/↓表示值越大/越小越好。一般來說,N fg的學生網絡更大的價值概念,λ,ρ,和小N bg值概念,Dmean,比基線網絡Dstd,這證明了假設1 - 3。

4.5. Verifification of Hypothesis 3

假設3旨在證明，與基線網絡相比，知識蒸餾使得學生網絡在更少繞路的情況下得到優化1。度規ρ描繪穩定性的優化方向和被用來驗證以上假設。結果報道在表3表明,在大多數情況下,學生的ρ值網絡比基線網絡。當我們測量ρAlexNet和VGG-11失敗病例出現由于淺這兩個網絡的體系結構。因此，學生網絡的優化方向往往是不穩定的，需要走更多的彎路1。

5. Conclusion and Discussions

本文從對DNN中間層編碼的知識進行量化的角度來解釋知識蒸餾的成功。提出了三種類型的度量標準來驗證分類場景中的三種假設。也就是說，相對于從原始數據中學習，知識蒸餾可以確保DNNs學習更多與任務相關的概念，學習較少與任務相關的概念，具有更高的學習速度，并以更少的彎路進行優化。

我們的工作有幾個局限性。本文只關注分類任務。然而，將我們的方法應用于其他任務(如對象分割)或其他類型的數據(如視頻)在理論上是可行的。同時，對于這些任務，可能需要側信息。在本文中，我們所提出的度量是通過基于熵的分析來實現的，該分析與信息瓶頸理論有著很強的聯系。與信息瓶頸理論不同，所提出的度量方法可以度量像素級的丟棄。然而，DNNs的學習過程不能準確地分為學習階段和丟棄階段。在每個時代，DNN可以同時學習新的視覺概念和拋棄舊的與任務無關的概念。因此,圖3中的目標時代m?只是一個粗略的估計兩個學習階段的劃分。

Acknowledgements

析與信息瓶頸理論有著很強的聯系。與信息瓶頸理論不同，所提出的度量方法可以度量像素級的丟棄。然而，DNNs的學習過程不能準確地分為學習階段和丟棄階段。在每個時代，DNN可以同時學習新的視覺概念和拋棄舊的與任務無關的概念。因此,圖3中的目標時代m?只是一個粗略的估計兩個學習階段的劃分。

Acknowledgements

通訊作者張全石就職于上海交通大學約翰·霍普克羅夫特中心和人工智能人工智能研究所教育部重點實驗室。他感謝中國國家自然科學基金(U19B2043和61906120)和華為技術有限公司的支持。饒哲凡和陳宜蘭作為上海交通大學的實習生對這項工作做出了同樣的貢獻。

總結

以上是生活随笔為你收集整理的【CVPR2020 论文翻译】 | Explaining Knowledge Distillation by Quantifying the Knowledge的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

【CVPR2020 论文翻译】 | Explaining Knowledge Distillation by Quantifying the Knowledge

Abstract

1. Introduction

2. Related Work

3. Algorithm

3.1. Preliminaries: Quantifification of Information iscarding

3.2. Quantifification of visual concepts

3.3. Learning simultaneously or sequentially

3.4. Learning with Less Detours

4. Experiment

4.1. Implementation Details

4.2. Quantifification of Visual Concepts in the Teacher Network, the Student Network and the Baseline Network

4.3. Verifification of Hypothesis 1

4.4. Verifification of Hypothesis 2

4.5. Verifification of Hypothesis 3

5. Conclusion and Discussions

Acknowledgements

Acknowledgements

總結