自监督学习
轉(zhuǎn)自:https://zhuanlan.zhihu.com/p/108906502
1. 什么是自監(jiān)督學(xué)習(xí)?
自監(jiān)督學(xué)習(xí)主要是利用輔助任務(wù)(pretext)從大規(guī)模的無(wú)監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息,通過(guò)這種構(gòu)造的監(jiān)督信息對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而可以學(xué)習(xí)到對(duì)下游任務(wù)有價(jià)值的表征。
2.如何評(píng)測(cè)自監(jiān)督學(xué)習(xí)的效果?
評(píng)測(cè)自監(jiān)督學(xué)習(xí)的能力,主要是通過(guò) Pretrain-Fintune 的模式:首先從大量的無(wú)標(biāo)簽數(shù)據(jù)中通過(guò) pretext 來(lái)訓(xùn)練網(wǎng)絡(luò),得到預(yù)訓(xùn)練的模型,然后對(duì)于新的下游任務(wù),和監(jiān)督學(xué)習(xí)一樣,遷移學(xué)習(xí)到的參數(shù)后微調(diào)即可。所以自監(jiān)督學(xué)習(xí)的能力主要由下游任務(wù)的性能來(lái)體現(xiàn)。
2. 自監(jiān)督學(xué)習(xí)的主要方法
自監(jiān)督學(xué)習(xí)的方法主要可以分為 3 類(lèi):基于上下文(Context based)、基于時(shí)序(Temporal Based)、基于對(duì)比(Contrastive Based)。
2.1 基于上下文(Context based)
基于數(shù)據(jù)自身的上下文信息可以構(gòu)造很多任務(wù)。
NLP領(lǐng)域,最重要的算法Word2vec其中的一種,可以基于上下文構(gòu)造pretext;另外BERT的MASK LM,隨機(jī)扣掉一些詞,然后預(yù)測(cè)扣掉的詞,讓模型讀懂句子;
圖像領(lǐng)域,以拼圖的方式構(gòu)造pretext,比如將一張圖分成9個(gè)部分,然后通過(guò)預(yù)測(cè)這幾個(gè)部分的相對(duì)位置來(lái)產(chǎn)生損失;以摳圖的方式構(gòu)造pretext,隨機(jī)將圖片的一部分刪掉,用剩余的部分預(yù)測(cè)扣掉的部分,類(lèi)似BERT的MASK LM;預(yù)測(cè)圖片的顏色,比如輸入圖像的灰度圖,預(yù)測(cè)圖片的色彩,只有模型讀懂圖片的語(yǔ)義信息才能知道各部分對(duì)應(yīng)的顏色,比如天空是藍(lán)色的,草地是綠色的;
數(shù)據(jù)增廣Data Augmentation,以數(shù)據(jù)增廣的方式尋找自監(jiān)督上下文。ICLR 2018的工作是給定一張輸入的圖片,我們對(duì)其進(jìn)行不同角度的旋轉(zhuǎn),模型的目的是預(yù)測(cè)該圖片的旋轉(zhuǎn)角度,這種樸素的想法卻能帶來(lái)巨大的增益;
自監(jiān)督學(xué)習(xí)也可以與下游的具體任務(wù)集合一起訓(xùn)練,已成為一個(gè)新的趨勢(shì)。
2.2 基于時(shí)序(Temporal Based)
在某些場(chǎng)景,不同樣本間也有約束關(guān)系,比如基于時(shí)序約束。
視頻領(lǐng)域,最能體現(xiàn)時(shí)序約束的就是視頻,在視頻中,相鄰的幀特征是相似的,非相鄰的幀的特征通常不相似,利用該思想可以構(gòu)造pretext;另外,同一個(gè)物體的拍攝是可能存在多個(gè)視角(multi-view),對(duì)于多個(gè)視角中的同一幀,可以認(rèn)為特征是相似的,不同幀認(rèn)為是不相似的。
NLP,BERT訓(xùn)練的其中一個(gè)任務(wù)Next Sentence Prediction 也可以看作是基于順序的約束;
2.3 基于對(duì)比(Contrastive Based)
第三類(lèi)自監(jiān)督學(xué)習(xí)的方法是基于對(duì)比約束,它通過(guò)學(xué)習(xí)對(duì)兩個(gè)事物的相似或不相似進(jìn)行編碼來(lái)構(gòu)建表征,即通過(guò)構(gòu)建正樣本(positive)和負(fù)樣本(negative),然后度量正負(fù)樣本的距離來(lái)實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)。核心思想樣本和正樣本之間的相似度遠(yuǎn)遠(yuǎn)大于樣本和負(fù)樣本之間的相似度,類(lèi)似triplet模式。對(duì)比的思路構(gòu)建比較多樣,是目前自監(jiān)督學(xué)習(xí)的一個(gè)熱點(diǎn)。比如上面提到的基于時(shí)序的方法就有涉及對(duì)比約束。
ICLR 2019 的 DIM:具體思想是對(duì)于隱層的表達(dá),可以通過(guò)構(gòu)造全局特征(編碼器最終的輸出)和局部特征(編碼器中間層的特征)的對(duì)比約束來(lái)設(shè)計(jì)pretext,模型需要分類(lèi)全局特征和局部特征是否來(lái)自同一圖像;
所以基于對(duì)比約束的自監(jiān)督方法主要圍繞如何選取正負(fù)樣本, 比如利用多模態(tài)(多視角)的信息來(lái)構(gòu)造樣本,一個(gè)樣本的多個(gè)模態(tài)為正樣本,其他樣本的模態(tài)為負(fù)樣本。
總結(jié)
- 上一篇: 2023-12-13:用go语言,密码是
- 下一篇: .net程序员转行做手游开发经历(三)