Adversarial Discriminative Domain Adaptation阅读笔记(详细)
我的第一篇在線論文閱讀筆記-Adversarial Discriminative Domain Adaptation
- 快速導(dǎo)覽
- 為什么采用這種形式
- 對(duì)這篇文章的態(tài)度
- 數(shù)據(jù)集和完成的任務(wù)
- 名詞解釋
- 重點(diǎn)語(yǔ)句分析(部分單詞給出中文注釋)
- 符號(hào)標(biāo)記和公式解讀
- 公式計(jì)算含義
快速導(dǎo)覽
為什么采用這種形式
某日下午(2021.10.16)想著,看一篇論文,我在原文里面寫注釋和筆記,然后每次看完以后我都得把標(biāo)注過的論文傳到QQ或者微信里,這樣方便下一臺(tái)電腦接著看。這樣剛開始好像沒啥問題,可是時(shí)間長(zhǎng)了,最新注釋版本的論文也不知道放到哪里去了,也不知道哪個(gè)版本是最新的,那么為什么不放在網(wǎng)絡(luò)的博客里面,這樣既可以分享一下,還可以方便存儲(chǔ)呢!
對(duì)這篇文章的態(tài)度
我會(huì)從我自己的角度,一個(gè)對(duì)遷移學(xué)習(xí)零基礎(chǔ)入門的角度,闡釋清楚這篇文章的整體結(jié)構(gòu)和一些細(xì)節(jié),包括專業(yè)術(shù)語(yǔ)、對(duì)比等等。
數(shù)據(jù)集和完成的任務(wù)
根據(jù)文章Introduction部分(第二頁(yè)左側(cè)倒數(shù)第七行),驗(yàn)證模型的數(shù)據(jù)集是 MNIST, USPS, and SVHN digits datasets。后面還說了為了檢驗(yàn)ADDA跨形態(tài)檢測(cè)能力,還用了NYUD dataset(RGB
and HHA encoded depth images as source and target domains respectively各自)
完成的任務(wù)有:在上述數(shù)據(jù)集上實(shí)現(xiàn)可視化的自適應(yīng)結(jié)果,測(cè)試模型無(wú)監(jiān)督下通過把目標(biāo)分類器從RGB彩色圖像轉(zhuǎn)化為深度在減小更復(fù)雜的跨形態(tài)數(shù)據(jù)漂移帶來(lái)的影響的方面的潛力
名詞解釋
閱讀文獻(xiàn)時(shí)難免遇到自己不懂的專業(yè)術(shù)語(yǔ)。我是初學(xué)者入門,不認(rèn)識(shí)的還是太多了些。也希望這樣能幫助和我一樣的人能快速入門,也希望有精力的各位大佬們能接力下去。
標(biāo)題
我給這篇文章起的中文標(biāo)題是“對(duì)抗性區(qū)分域自適應(yīng)”,Domain Adaptation是遷移學(xué)習(xí)算法。
Abstract部分(第一頁(yè)):
| Domain Shift領(lǐng)域漂移 | 數(shù)據(jù)集不同,數(shù)據(jù)分布也不同,如豬尾巴(很短)和馬尾巴(很長(zhǎng)),原因是因?yàn)闃颖緮?shù)據(jù)分布和待預(yù)測(cè)樣本的不一樣 | 第四行 |
| Database Bias數(shù)據(jù)集偏差 | 現(xiàn)有數(shù)據(jù)集總有某種/些因素被倚重,和domainshift一樣導(dǎo)致判斷失誤 | 第四行 |
| tied weights | 權(quán)重共享,直接拿訓(xùn)練好的模型投入自己的使用,如拿白人的人臉識(shí)別模型去識(shí)別黑人的 | 第十二行 |
| GAN-based Loss | GAN的loss公式,核心是最大化判別器、最小化生成器的loss | 第十三行 |
| untied weight sharing | 無(wú)約束權(quán)重共享,遷移時(shí)權(quán)重可以改變 | 第十九行 |
| domain-adversarial methods | 域?qū)狗椒?#xff0c;這應(yīng)該不是某個(gè)特定的術(shù)語(yǔ),是統(tǒng)稱的方法,思想類似GAN | 倒數(shù)五行 |
Introduction部分(第一、二頁(yè))
對(duì)于換頁(yè)換側(cè)換段的地方,會(huì)寫出來(lái),后面和它在同一頁(yè)同一側(cè)同一段的就不詳細(xì)說明了。
| maximum mean discrepancy | 最大平均差異,具體原理見MMD介紹,作為最后的Loss函數(shù)去優(yōu)化 | 第二頁(yè)左側(cè)第四行 |
| correlation distances | 相關(guān)距離=1-相關(guān)系數(shù) | 第五行 |
| depth observation | 觀察圖像深度,確定彩色圖像顏色數(shù) | 第五行 |
Related work部分(第二頁(yè)右側(cè))
| domain invariance | 域的不變性,是拓?fù)鋵W(xué)中的概念,證明兩個(gè)拓?fù)淇臻g同胚 | 第三段倒數(shù)第四行 |
| latent space | 隱空間,降維數(shù)據(jù)后學(xué)習(xí)其根本特征 | 第二頁(yè)最后一個(gè)詞 |
3.1 Source and target mappings
| LeNet model | 辨別手寫字符的神經(jīng)網(wǎng)絡(luò),有卷積和pooling運(yùn)算從input中提取出feature map | 第二段第八行 |
| mapping consistency | 這里寫出來(lái)是為了防止和consistent mapping搞混,原文表達(dá)的意思就是源和目標(biāo)要映射到同一個(gè)空間 | 第六段第三行 |
| partial alignment | 部分對(duì)準(zhǔn),個(gè)人理解,舉個(gè)例子說明:源圖是黑白點(diǎn)位數(shù)字,目標(biāo)圖是彩色連續(xù)高清版,利用前者訓(xùn)練出的數(shù)字識(shí)別模型去做后者的識(shí)別,“alignment"原意"對(duì)齊”,這里指的應(yīng)該是做mapping后的結(jié)果,也就是找出兩類圖像的"數(shù)字骨架" | 第六段第三行 |
3.2 Adversarial losses
| fixed-point properties | 暫不知 | 第五頁(yè)公式7下面 |
| cross-entropy loss | 交叉熵?fù)p失函數(shù),常用于分類問題,具體可參考:損失函數(shù)|交叉熵?fù)p失函數(shù) | 第五頁(yè)公式8上面 |
4. Adversarial discriminative domain adaptation部分(第五頁(yè)左側(cè)下方)
| degenerate solution | 退化解,意思大致是可行的非唯一解 | 第五頁(yè)右側(cè)第二段第六行 |
| the inverted label GAN loss | 暫不知 | 第五頁(yè)公式9上方右側(cè) |
5. Experiments(第六頁(yè)左側(cè))
| ReLU activation function | 線性整流,神經(jīng)網(wǎng)絡(luò)的激活函數(shù) | 第六頁(yè)右側(cè)第一段最后 |
| Source Only | 沒有做適應(yīng)之前的模型 | Tabel 2第一個(gè) |
重點(diǎn)語(yǔ)句分析(部分單詞給出中文注釋)
我自己的英文水平不算很高,有些單詞還得加注中文,也許這也會(huì)給您省去查單詞的時(shí)間。重點(diǎn)語(yǔ)句基本包含了文章對(duì)于模型的介紹,對(duì)于速度此文相信是莫有裨益。
Abstract部分(第一頁(yè))
1.對(duì)先前模型的批判(第9行):
Prior generative approaches show compelling引人入勝的 visualizations, but are not optimal on discriminative tasks and can be limited to smaller shifts. Prior discriminative approaches could handle larger domain shifts, but imposed tied weights 參數(shù)共享 on the model and did not exploit a GAN-based loss.
從這段話可以看出,文章中說的先前的模型有一下缺點(diǎn):
(1)生成方法:可視化做得很好,但沒有很好地優(yōu)化判別任務(wù),很容易受到小規(guī)模(領(lǐng)域)漂移的限制
(2)判別方法:能處理大規(guī)模領(lǐng)域漂移任務(wù),但在模型里只是使用了權(quán)重共享
2.提出的模型的總體思路(第13行靠后):
We first outline a novel全新的 generalized framework for adversarial adaptation對(duì)抗性自適應(yīng), which subsumes歸納 recent state-of-the-art先進(jìn)的 approaches as special cases, and we use this generalized概括性的 view to better relate與…聯(lián)系起來(lái) the prior approaches.
這段話寫進(jìn)摘要里應(yīng)該不奇怪,雖然看上是在自夸,不過在摘要里也算正常了。
后面基本上就是開始說這個(gè)模型的特點(diǎn)和夸了——特點(diǎn)是結(jié)合了判別模型(discriminative modeling)、無(wú)約束權(quán)重共享(untied weight sharing)和GAN Loss。優(yōu)點(diǎn)是比競(jìng)爭(zhēng)性的域?qū)狗椒ǜ?jiǎn)單,在跨域字分析(各種奇怪的1、2、3、4)和跨形態(tài)物體分類比最前沿的無(wú)監(jiān)督適應(yīng)算法更有前景。
Introduction部分(第一、二頁(yè))
1.對(duì)領(lǐng)域漂移問題的傳統(tǒng)解決方法和窘境:
The typical solution is to further fine-tune微調(diào) these networks on task-specific datasets— however, it is often prohibitively difficult太過困難 and expensive to obtain enough labeled data to properly fine-tune the large number of parameters employed by deep multilayer networks.
參數(shù)既然不能直接拿來(lái)用,那當(dāng)然是“微調(diào)”啦。可是這說著容易,想有足量的帶標(biāo)記數(shù)據(jù)去做微調(diào)(那差不多是重新學(xué)一遍了)還是太過于困難(遷移學(xué)習(xí)目標(biāo)之一是利用訓(xùn)練好的模型去識(shí)別未標(biāo)記的數(shù)據(jù))。
2.介紹Adversarial adaptation的大概原理,和GAN類似:
Adversarial adaptation methods have become an increasingly popular incarnation化身 of this type of approach which seeks to minimize an approximate domain discrepancy差異 distance through an adversarial objective with respect to a domain discriminator關(guān)于域判別器的對(duì)抗目標(biāo)(意思是最大化判別器的差異,這便是對(duì)抗性的含義).
3.介紹模型的總體流程:
ADDA first learns a discriminative representation using the labels in the source domain and then a separate不同的 encoding that maps the target data to the same space using an asymmetric mapping learned through a domain-adversarial loss.
用在源域的標(biāo)簽學(xué)習(xí)一個(gè)判別模型,再用一個(gè)不同的編碼方式,它能夠利用非對(duì)稱映射通過域?qū)箵p失優(yōu)化來(lái)把目標(biāo)數(shù)據(jù)映射到同樣的空間。(個(gè)人理解是想辦法把豬尾巴弄成馬尾巴)
這段話可以說是文章的主旨了,和第三頁(yè)的流程圖結(jié)合來(lái)看效果更佳:
下面是原文對(duì)上圖的說明:現(xiàn)有的對(duì)抗性適應(yīng)方法是我們實(shí)現(xiàn)的框架的特例,根據(jù)特點(diǎn)不同,對(duì)上面深色方框中問題給出的選擇也不同。
那么對(duì)于ADDA,這個(gè)模型的選擇又是什么呢?從上面那段話應(yīng)該是可以看出答案的!當(dāng)然了,原文第四頁(yè)的表格更是直接把答案貼出來(lái)了。
從上表中顯而易見,ADDA在source和target的映射間選取的基模型是判別式的,采用無(wú)約束權(quán)值共享,對(duì)抗目標(biāo)是GAN的loss
第四部分其中原句:
Specifically, we use a discriminative base model, unshared weights, and the standard GAN loss
Related work部分(第二、三頁(yè))
對(duì)幾種GAN變種模型的比較后:
In this paper, we observe that modeling the image distributions is not strictly necessary to achieve domain adaptation, as long as the latent feature space is domain invariant
ADDA模型認(rèn)為,要做到域適應(yīng),并不一定要對(duì)圖像分布建模,因?yàn)殡[空間是有域不變形的。
后面開始講模型了,重點(diǎn)語(yǔ)句分析后面基本上沒什么內(nèi)容,但也講了很多其他遷移學(xué)習(xí)模型的常見做法,還是值得一讀的。
3.2 Adversarial losses(第四頁(yè)右側(cè)、第五頁(yè)左側(cè))
1.表明模型里,source和target的映射是獨(dú)立的,要學(xué)的只有MMMt
Note that, in this setting, we use independent mappings for source and target and learn only Mt adversarially.
4. Adversarial discriminative domain adaptation部分(第五頁(yè)左側(cè)下方)
1.根據(jù)原文介紹,這段在流程圖下面解釋的話說明了模型整體的訓(xùn)練流程(sequential training procedure)
首先:使用含標(biāo)簽的源圖像訓(xùn)練編碼源的卷積神經(jīng)網(wǎng)絡(luò)
然后:學(xué)習(xí)一個(gè)能使得判別器無(wú)法準(zhǔn)確辨別域標(biāo)簽的編碼目標(biāo)的卷積神經(jīng)網(wǎng)絡(luò)(打個(gè)比方:現(xiàn)在有個(gè)判斷動(dòng)物是否有尾巴的模型,source是馬,target是豬,這個(gè)網(wǎng)絡(luò)就是希望把它們“尾巴”的共同特征找到,而不是把短尾當(dāng)沒有)
測(cè)試中:目標(biāo)圖像經(jīng)目標(biāo)編碼器映射到共享特征空間并被源分類器分類。虛線表明這是固定的網(wǎng)絡(luò)參數(shù)(意思是直接套用的)。
An overview of our proposed Adversarial Discriminative Domain Adaptation (ADDA) approach. We first pre-train a source encoder CNN using labeled source image examples. Next, we perform adversarial adaptation by learning a target encoder CNN such that 使得 a discriminator that sees encoded source and target examples cannot reliably 準(zhǔn)確地 predict their domain label. During testing, target images are mapped with the target encoder to the shared feature space and classified by the source classifier. Dashed lines 虛線 indicate fixed network parameters.
其實(shí)類似的話在上文也提到過很多次,不過是拆分來(lái)說的,細(xì)節(jié)還在第四部分繼續(xù)說。
2.關(guān)于上述流程中第二部的幾個(gè)細(xì)節(jié)問題回答:
(1)為什么要無(wú)約束權(quán)值共享?這是一個(gè)靈活的學(xué)習(xí)模式,能學(xué)習(xí)到更多領(lǐng)域特征。
This is a more flexible learning paradigm 學(xué)習(xí)模式 as it allows more domain specific feature extraction to be learned
(2)為什么要保留一部分權(quán)值?有可能產(chǎn)生退化解。
The target domain has no label access, and thus without weight sharing a target model may quickly learn a degenerate solution 退化解
(3)怎么解決?把對(duì)source預(yù)訓(xùn)練出的模型作為target表達(dá)空間初始版本再通過訓(xùn)練去改進(jìn)。
We use the pre-trained source model as an intitialization for the target representation space and fix the source model during adversarial training.
3.優(yōu)化步驟:
We choose to optimize this objective in stages 分階段. We begin by optimizing Lcls\mathcal{L}_{\mathrm{cls}}Lcls? over MsM_sMs? and CCC by training, using the labeled source data, XsX_sXs? and YsY_sYs?. Because we have opted to leave MsM_sMs? fixed while learning MtM_tMt?, we can thus optimize LadvD\mathcal{L}_{\mathrm{adv_D}}LadvD?? and LadvM\mathcal{L}_{\mathrm{adv_M}}LadvM?? without revisiting the first objective term. A summary of this entire training process is provided in Figure 3.
5. Experiments(第六頁(yè)左側(cè))
1.如何進(jìn)行的實(shí)驗(yàn):
We use the simple modified LeNet architecture provided in the Caffe source code. When training with ADDA, our adversarial discriminator consists of 3 fully connected layers: two layers with 500 hidden units followed by the final discriminator output. Each of the 500-unit layers uses a ReLU activation function.
符號(hào)標(biāo)記和公式解讀
首次出現(xiàn)位置的格式:(段落,行數(shù))負(fù)數(shù)表示倒數(shù)第幾行
3.Generalized adversarial adaptation(第三頁(yè))
| Xs | source images源圖像 | 1,3 |
| Ys | 源圖像的標(biāo)簽 | 1,3 |
| ps(x,y) | source domain distribution源域分布 | 1,4 |
| Xt | target images目標(biāo)圖像 | 1,5 |
| pt(x,y) | target domain distribution目標(biāo)域分布 | 1,5 |
| Mt | target representation目標(biāo)模型 | 1,7 |
| Ct | 目標(biāo)圖像K分類器 | 1,7 |
| Ms | source representation mapping | 1,-3 |
| Cs | source classifier | 1,-2 |
| LLLadvD_DD? | 判別器的loss | 4,-2 |
| LLLadvM_MM? | adversarial mapping loss | 6,-1 |
公式位置表示(x,y):x=頁(yè)數(shù),y=0時(shí)表示在左側(cè),y=1時(shí)表示在右側(cè)
先搞明白含義,把文章算法步驟搞懂后再來(lái)具體看是怎么算的
| C=Cs=Ct | 源圖像和目標(biāo)圖像的映射分布差距很小,可以直接把源圖像的分類器用到目標(biāo)圖像上 | 3,2 |
| 優(yōu)化源分類器的standrad supervised loss | 3,2 | |
| Domain Discriminator的loss,需要最大化保證它看不出來(lái)數(shù)據(jù)是來(lái)自source還是target | 3,2 | |
| 原文說明此為“Generic Formulation",意思就是總體實(shí)現(xiàn)的目標(biāo):最大化判別器的loss,最小化源和目標(biāo)在映射之后的差異,最下面的意思是實(shí)現(xiàn)一個(gè)特定的映射結(jié)構(gòu) | 3,2 |
3.1 Source and target mappings
| Mls | source images的l層的參數(shù) | 4,2 |
| {l1,l2,…,ln} | l=layer,第幾層的意思 | 4,3 |
| 整體的映射結(jié)構(gòu)是每一層的映射結(jié)構(gòu)組合在一起(原文用詞constraints) | 4,1 | |
| 每一層的映射結(jié)構(gòu)可以表示為該層的源或目標(biāo)圖像的計(jì)算參數(shù) | 4,2 |
3.2 Adversarial losses
| adversarial mapping loss,判斷映射的優(yōu)劣 | 5,1 | |
| 交叉熵?fù)p失的計(jì)算公式,D(Md(xd))表示分類器D把第d個(gè)樣本xd映射為某個(gè)類的概率,Md含義和取12\frac{1}{2}21?的原因是label只有1/0,默認(rèn)正確率取個(gè)一半 | 5,1 | |
| ADDA模型的無(wú)約束優(yōu)化公式(unconstrained optimization),具體計(jì)算含義見下面公式解讀部分 | 5,2 |
公式計(jì)算含義
總結(jié)
以上是生活随笔為你收集整理的Adversarial Discriminative Domain Adaptation阅读笔记(详细)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大学生如何应聘高薪IT职位
- 下一篇: IT职位名称