迁移学习之域自适应理论简介(Domain Adaptation Theory)
?作者 | 江俊廣
單位 | 清華大學
研究方向 | 遷移學習
本文主要介紹域自適應(Domain Adaptation)最基本的學習理論,全文不涉及理論的證明,主要是對部分理論的發展脈絡的梳理,以及對理論的直觀解釋,目的是:
1. 通過這些分析啟發后續域自適應算法的設計;
2. 幫助讀者分析域自適應算法在具體應用中失效的原因,并提供一些改進的思路。
閱讀本文前,你需要了解最基本的學習理論,包括:
泛化誤差界(Generalization Bound )
概率近似正確(PAC Learning)
Rademacher 復雜度 [1]
問題描述
機器學習的基本問題是,給定若干訓練樣本,設計一個學習算法 ,在一個函數空間 中,找到最接近目標函數的函數 。
▲ 機器學習一般的訓練框架
其中,監督學習(Supervised Learning)通常有一個很強的假設——獨立同分布假設(independent and identically distributed, i.i.d.),即所有的訓練數據和測試數據都是從同一個未知的數據分布中獨立采樣出來的。
▲ 獨立同分布假設
獨立同分布的假設使得在訓練數據集上得到的函數 在測試集上的誤差是能被界定(bounded)的,比如
這個假設保證了一定范圍內的機器學習模型是可用的,然而它也限制了機器學習的適用范圍。獨立同分布假設往往只存在于人工打標和清洗過的數據集上,而在大部分的生產實踐中很難得到滿足。圖學習(Graph Learning)嘗試解決數據的生成不符合獨立假設的情況,而域自適應(Domain Adaptation)則嘗試解決數據分布不一致的情況。
在標準的域適應問題中,存在一個有標注數據的源域(Source Domain) 和一個只有無標注數據的目標域(Target Domain),學習算法的目標是在函數空間 找到使得目標域泛化誤差
402 Payment Required
盡可能小的函數,其中 是一個損失函數。▲ 域自適應問題設定
域自適應的理論
2.1 理論出發點
域自適應理論最核心的想法就是如何將目標域上的泛化誤差和源域上的泛化誤差聯系在一起。那么通過降低源域上的誤差,就能間接地降低目標域上的誤差。
首先,定義函數 和 在數據分布 上的差異(Disparity)[2]
首其中,差異 是泛化誤差 的推廣(泛化誤差中 就是目標函數,因此可以忽略不寫)。
然后,只需要使用泛化誤差的定義以及三角不等式,我們就可以將目標域誤差與源域誤差聯系起來。
上述不等式是目前大部分域自適應理論的出發點,它表明目標域誤差除了和源域誤差有關,還和兩個因素有關:
源域和目標域上的最優聯合誤差(Ideal Joint Error),即 中最優的函數在源域和目標域上的泛化誤差。它與假設空間的大小相關,當假設空間比較小時(比如淺層神經網絡), 中可能不存在一個函數能夠同時應對兩個不同分布的數據域。在域自適應理論中,通常認為函數空間足夠大(比如采用深度網絡),從而使得最優聯合誤差可以忽略不計。但是在實際應用中,這個假設不一定成立。
源域和目標域上的差異分歧(Disparity Difference),即 Disparity 在源域和目標域上的分歧,它刻畫了不同數據域之間的距離,而大部分域自適應理論的出發點就是估計并縮小不同數據域之間的差異分歧。由于 Disparity 是定義在 和 上的,而最優函數 是未知的,因此差異分歧無法直接計算。
而不同域自適應理論的區別就在于它們是差異分歧不同的上界(Upper Bound)。
2.2 經典理論 -Divergence
-Divergence [3]?是最早的域自適應理論工作,也是目前用的最多的一個理論,比如著名的 Domain Adversarial Neural Network(DANN)[4] 就是基于這個理論。
它的想法非常簡單,就是讓差異分歧 在 和 所在的函數空間 求上界。
取上界的操作盡管很直觀,但是通常很難進行計算和優化。因此,實際計算時還會引入一個域判別器(Domain Discriminator),判別器的任務是將源樣本和目標樣本區分開。這里的潛在假設是,判別器的函數空間 足夠豐富,使得它能完全包含 ,即 。
此時 就可以被 進一步界定住。
為了讓 成立,通常會使用多層感知器(MLP)來作為域判別器(理論上,MLP 是任何函數的通用逼近器)。
域判別器的準確率,刻畫了源域和目標域之間的分布距離。下面的定理基于 -Divergence 給出了域自適應理論最早的泛化誤差界。
其中最后一項表明,盡管目標域上的數據都是無標注的,但是目標域上的訓練樣本數 也會影響目標域的泛化誤差。原因 -Divergence 只能在訓練樣本上進行估計,當 較小時,-Divergence 的估計不夠準確,導致目標域上的泛化誤差上界也會變大。
需要指出的是,上述定理成立的大前提是二分類問題以及 0-1 損失。在實際應用中使用域判別器計算并優化分布距離時,
如果損失函數是分類問題常用的交叉熵損失函數,理論上沒有保證,實驗上大部分時候有效。
如果損失函數是回歸問題常用的 L1 損失或者 L2 損失,理論上沒有保證,實驗上一般無效。
2.3 返璞歸真 Disparity Discrepancy
為了求差異分歧 的上界,-Divergence 同時對 和 求上界。
但這其實這是沒有必要的,因為 是已知的,就是當前的函數,同時對 和 求上界反而讓上界變松了。
因此差異散度(Disparity Discrepancy)[5] 的想法更加簡單,就是讓差異分歧只對 求上界。
下圖是一個可視化的對比,橙色的區域表示取上界的函數空間。
▲ H△H-Divergence和 Disparity Discrepancy的對比
因此,理論上 Disparity Discrepancy 提供了比 -Divergence 嚴格更緊的差異分歧上界。
Disparity Discrepancy 更好的一個性質是,它并不限制在 0-1 損失函數上。比如對于 L1 損失函數而言,理論上只需要如下定義,Disparity Discrepancy 就可以擴展到回歸問題
而且實驗上也有明顯的效果:
https://github.com/thuml/Transfer-Learning-Library/tree/master/examples/domain_adaptation/image_regression
2.4 間隔理論Margin Disparity Discrepancy
在分類問題中,交叉熵損失函數相比于 0-1 損失函數,一個重要的性質是,它在訓練準確率為 100% 的時候依然存在損失。即使訓練集的準確率沒有變化(也就是 0-1 損失沒有變化),當交叉熵損失下降時,測試集上的錯誤率也能隨之下降。為了解釋這個現象,學術界基于提出了間隔學習理論(Margin Theory)。
評分函數(scoring function) 的間隔(Margin)的定義是
它描述了函數 將數據 預測為類別 而不是其他類 的信心間隔。
間隔損失(Margin Loss)的含義是,只有當間隔大于某個閾值 時,損失才降為 0。因此間隔損失具有和交叉損失函數類似的性質,所以常被用于理論分析中。
為了應對多分類問題的交叉熵損失函數,間隔差異散度(Margin Disparity Disparity)[5] 將 Disparity 相關的概念擴展到帶間隔的版本。
下面的定理基于間隔差異散度,給出了域自適應理論第一個針對多分類問題的泛化誤差界:
從這個泛化誤差界,我們能得到的結論包括:
1. 增大源域的樣本數 和目標域的樣本數 可以降低目標域上的泛化誤差。
2. 合理控制函數空間 的大小,能夠降低目標域上的泛化誤差( 也不能太小,否則最優聯合誤差 可以忽略的假設不再成立)。
3. 類別數 的增加會導致目標域上泛化誤差的增大。
4. 一定范圍增大間隔 的大小,可以降低目標域上的泛化誤差(在實際使用 MDD 算法時,這也是最重要的超參數)。
實際問題中的理論分析
在理解了上述域自適應理論后,我們現在來分析一些實際應用中的問題。
3.1 回歸問題中的域自適應
回歸問題是域自適應理論和應用都解決得還不夠好的問題。
一個簡單的想法是,能不能將回歸任務離散化,轉化成若干個區間的分類任務,然后就可以套用原先針對分類問題的域自適應理論?
答案是否定的。定理 10(間隔差異散度)已經告訴我們,目標域上的泛化誤差界和類別數 的平方正相關。而常見的回歸任務,比如關鍵點檢測中,一般會將輸出空間分成 64x64 的大小,此時類別數是 4096,因此大大增加了泛化誤差界。
定理 10 也給出了降低目標域上泛化誤差界的手段,比如增加樣本數量,或者降低函數空間的大小。例如 Regressive Domain Adaptation(RegDA)[6] 引入了空間概率分布來描述輸出空間的稀疏密度,并用它來指導差異散度的估計,從而在期望的意義上,降低函數空間的大小,避免過大的泛化誤差界。
https://zhuanlan.zhihu.com/p/356227636
3.2 域自適應與預訓練
基于域自適應理論的深度遷移學習算法,總是使用預訓練模型,而很少有從頭訓練的。
原因在于,深度網絡的函數空間 非常大,這使得 -Divergence和差異散度中的上確界失去意義。
而預訓練過程可以有效地降低允許的函數空間(Allowed Hypothesis Space) [7],從而大大降低目標域上的泛化誤差。
▲ 預訓練對于H△H-Divergence和 Disparity Discrepancy的影響
這個結論至少有兩個用處:
1. 當下游任務和預訓練任務差異較大時,為了降低允許的函數空間,一種有效的策略是先在源域上進行預訓練,然后再遷移到目標域。(這也是 RegDA [6]?采用的策略);
2. 經過預訓練后,小模型允許的函數空間反而比大模型大,導致在越大的模型上進行域自適應獲得的增益越大(REDA?[8]?觀察到的實驗現象)。因此實踐中一種有效的策略是,先用大模型進行域自適應,然后將遷移得到的大模型的知識蒸餾到小模型上。
本文主要參考 Transferability in Deep Learning: A Survey [9]?中的章節 3.2.0 Domain Adaptation Theory,以及清華大學龍明盛老師的遷移學習理論講座:
http://ise.thss.tsinghua.edu.cn/~mlong/doc/transfer-learning-theories-algorithms-open-library-ijcai
感興趣的讀者可以閱讀原文:
https://arxiv.org/abs/2201.05867
鏈接
文獻綜述:
https://arxiv.org/pdf/2201.05867.pdf
Paper List:
https://github.com/thuml/Awesome-Transfer-Learning
算法庫Github:
https://github.com/thuml/Transfer-Learning-Library
算法庫網站:
https://transfer.thuml.ai/
參考文獻
[1] Peter L. Bartlett and Shahar Mendelson. Rademacher and gaussian complexities: Risk bounds and structural results. In JMLR, 2002.
[2] Shai Ben-David, John Blitzer, Koby Crammer, and Fernando Pereira. Analysis of repre- sentations for domain adaptation. In NeurIPS, 2006.
[3] S. Ben-David, J. Blitzer, K. Crammer, A. Kulesza, F. Pereira, and J. W. Vaughan. A theory of learning from different domains. Machine Learning, 79, page 151–175, 2010a.
[4] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropaga- tion. In ICML, 2015.
[5] abYuchen Zhang, Tianle Liu, Mingsheng Long, and Michael Jordan. Bridging theory and algorithm for domain adaptation. In ICML, 2019c
[6] abJunguang Jiang, Yifei Ji, Ximei Wang, Yufeng Liu, Jianmin Wang, and Mingsheng Long. Regressive domain adaptation for unsupervised keypoint detection. In CVPR, 2021.
[7] Armen Aghajanyan, Luke Zettlemoyer, and Sonal Gupta. Intrinsic dimensionality explains the effectiveness of language model fine-tuning. In ACL, 2021.
[8] Junguang Jiang, Ximei Wang, Mingsheng Long, and Jianmin Wang. Resource Efficient Domain Adaptation
[9] Junguang Jiang, Yang Shu, Jianmin Wang, Mingsheng Long, Transferability in Deep Learning: A Survey?https://arxiv.org/abs/2201.05867
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的迁移学习之域自适应理论简介(Domain Adaptation Theory)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无鼠标怎么移动 没有鼠标怎样操作
- 下一篇: u盘win7安装不了怎么回事 U盘安装W