小样本学习(Few-shot Learning)综述
作者丨耿瑞瑩、李永彬、黎檳華
單位丨阿里巴巴智能服務(wù)事業(yè)部小蜜北京團(tuán)隊(duì)
分類非常常見,但如果每個類只有幾個標(biāo)注樣本,怎么辦呢?
筆者所在的阿里巴巴小蜜北京團(tuán)隊(duì)就面臨這個挑戰(zhàn)。我們打造了一個智能對話開發(fā)平臺——Dialog Studio,以賦能第三方開發(fā)者來開發(fā)各自業(yè)務(wù)場景中的任務(wù)型對話,其中一個重要功能就是對意圖進(jìn)行分類。大量平臺用戶在創(chuàng)建一個新對話任務(wù)時(shí),并沒有大量標(biāo)注數(shù)據(jù),每個意圖往往只有幾個或十幾個樣本。?
面對這類問題,有一個專門的機(jī)器學(xué)習(xí)分支——Few-shot Learning 來進(jìn)行研究和解決。過去一年,我們對 Few-shot Learning 進(jìn)行了系統(tǒng)的梳理和研究,將 Few-shot Learning 和 Capsule Network 融合,提出了 Induction Network,在文本分類上做到了新的 state-of-the-art。
創(chuàng)新總是基于對已有成果的梳理和思考,這篇綜述算是一個小結(jié),寫出來和大家一起分享,一起討論。?
本文先介紹?Few-shot Learning 定義;由于最近幾年?Few-shot Learning 在圖像領(lǐng)域的進(jìn)展領(lǐng)先于在自然語言處理領(lǐng)域,所以第二部分結(jié)合其在圖像處理領(lǐng)域的研究進(jìn)展,詳細(xì)介紹 Few-shot Learning 的三類典型方法及每種方法的代表性模型;接下來介紹在自然語言處理領(lǐng)域的研究進(jìn)展以及我們對 metric-based 的方法進(jìn)行系統(tǒng)總結(jié)后提出的 few-shot learning framework。
問題定義
人類非常擅長通過極少量的樣本識別一個新物體,比如小孩子只需要書中的一些圖片就可以認(rèn)識什么是“斑馬”,什么是“犀牛”。在人類的快速學(xué)習(xí)能力的啟發(fā)下,研究人員希望機(jī)器學(xué)習(xí)模型在學(xué)習(xí)了一定類別的大量數(shù)據(jù)后,對于新的類別,只需要少量的樣本就能快速學(xué)習(xí),這就是 Few-shot Learning 要解決的問題。?
Few-shot Learning?是 Meta Learning 在監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用。Meta Learning,又稱為 learning to learn,在 meta training 階段將數(shù)據(jù)集分解為不同的 meta task,去學(xué)習(xí)類別變化的情況下模型的泛化能力,在 meta testing 階段,面對全新的類別,不需要變動已有的模型,就可以完成分類。?
形式化來說,few-shot 的訓(xùn)練集中包含了很多的類別,每個類別中有多個樣本。在訓(xùn)練階段,會在訓(xùn)練集中隨機(jī)抽取 C 個類別,每個類別 K 個樣本(總共 CK 個數(shù)據(jù)),構(gòu)建一個 meta-task,作為模型的支撐集(support set)輸入;再從這 C 個類中剩余的數(shù)據(jù)中抽取一批(batch)樣本作為模型的預(yù)測對象(batch set)。即要求模型從 C*K 個數(shù)據(jù)中學(xué)會如何區(qū)分這 C 個類別,這樣的任務(wù)被稱為 C-way K-shot 問題。?
訓(xùn)練過程中,每次訓(xùn)練(episode)都會采樣得到不同 meta-task,所以總體來看,訓(xùn)練包含了不同的類別組合,這種機(jī)制使得模型學(xué)會不同 meta-task 中的共性部分,比如如何提取重要特征及比較樣本相似等,忘掉 meta-task 中 task 相關(guān)部分。通過這種學(xué)習(xí)機(jī)制學(xué)到的模型,在面對新的未見過的 meta-task 時(shí),也能較好地進(jìn)行分類。?
圖 1 展示的是一個 2-way 5-shot 的示例,可以看到 meta training 階段構(gòu)建了一系列 meta-task 來讓模型學(xué)習(xí)如何根據(jù) support set 預(yù)測 batch set 中的樣本的標(biāo)簽;meta testing 階段的輸入數(shù)據(jù)的形式與訓(xùn)練階段一致(2-way 5-shot),但是會在全新的類別上構(gòu)建 support set 和 batch。
▲?圖1:Few-shot Learning示例
在圖像領(lǐng)域的研究現(xiàn)狀
早期的 Few-shot Learning 算法研究多集中在圖像領(lǐng)域,如圖 2 所示,Few-shot Learning 模型大致可分為三類:Mode Based,Metric Based 和 Optimization Based。
▲?圖2:Few-shot Learning模型分類
其中 Model Based 方法旨在通過模型結(jié)構(gòu)的設(shè)計(jì)快速在少量樣本上更新參數(shù),直接建立輸入 x 和預(yù)測值 P 的映射函數(shù);Metric Based 方法通過度量 batch 集中的樣本和 support 集中樣本的距離,借助最近鄰的思想完成分類;Optimization Based 方法認(rèn)為普通的梯度下降方法難以在 few-shot 場景下擬合,因此通過調(diào)整優(yōu)化方法來完成小樣本分類的任務(wù)。
Model Based方法
Santoro 等人 [3] 提出使用記憶增強(qiáng)的方法來解決 Few-shot Learning 任務(wù)。基于記憶的神經(jīng)網(wǎng)絡(luò)方法早在 2001 年被證明可以用于 meta-learning。他們通過權(quán)重更新來調(diào)節(jié) bias,并且通過學(xué)習(xí)將表達(dá)快速緩存到記憶中來調(diào)節(jié)輸出。
然而,利用循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部記憶單元無法擴(kuò)展到需要對大量新信息進(jìn)行編碼的新任務(wù)上。因此,需要讓存儲在記憶中的表達(dá)既要穩(wěn)定又要是元素粒度訪問的,前者是說當(dāng)需要時(shí)就能可靠地訪問,后者是說可選擇性地訪問相關(guān)的信息;另外,參數(shù)數(shù)量不能被內(nèi)存的大小束縛。神經(jīng)圖靈機(jī)(NTMs)和記憶網(wǎng)絡(luò)就符合這種必要條件。?
文章基于神經(jīng)網(wǎng)絡(luò)圖靈機(jī)(NTMs)的思想,因?yàn)?NTMs 能通過外部存儲(external memory)進(jìn)行短時(shí)記憶,并能通過緩慢權(quán)值更新來進(jìn)行長時(shí)記憶,NTMs 可以學(xué)習(xí)將表達(dá)存入記憶的策略,并如何用這些表達(dá)來進(jìn)行預(yù)測。由此,文章方法可以快速準(zhǔn)確地預(yù)測那些只出現(xiàn)過一次的數(shù)據(jù)。
文章基于 LSTM 等 RNN 的模型,將數(shù)據(jù)看成序列來訓(xùn)練,在測試時(shí)輸入新的類的樣本進(jìn)行分類。
具體地,在 t 時(shí)刻,模型輸入,也就是在當(dāng)前時(shí)刻預(yù)測輸入樣本的類別,并在下一時(shí)刻給出真實(shí)的 label,并且添加了 external memory 存儲上一次的 x 輸入,這使得下一次輸入后進(jìn)行反向傳播時(shí),可以讓 y (label) 和 x 建立聯(lián)系,使得之后的 x 能夠通過外部記憶獲取相關(guān)圖像進(jìn)行比對來實(shí)現(xiàn)更好的預(yù)測。
▲?圖3:Memory Augmented Model
Meta Network?[12] 的快速泛化能力源自其“快速權(quán)重”的機(jī)制,在訓(xùn)練過程中產(chǎn)生的梯度被用來作為快速權(quán)重的生成。模型包含一個 meta learner 和一個 base learner,meta learner 用于學(xué)習(xí) meta task 之間的泛化信息,并使用 memory 機(jī)制保存這種信息,base learner 用于快速適應(yīng)新的 task,并和 meta learner 交互產(chǎn)生預(yù)測輸出。
Metric Based方法?
如果在?Few-shot Learning?的任務(wù)中去訓(xùn)練普通的基于 cross-entropy 的神經(jīng)網(wǎng)絡(luò)分類器,那么幾乎肯定是會過擬合,因?yàn)樯窠?jīng)網(wǎng)絡(luò)分類器中有數(shù)以萬計(jì)的參數(shù)需要優(yōu)化。
相反,很多非參數(shù)化的方法(最近鄰、K-近鄰、Kmeans)是不需要優(yōu)化參數(shù)的,因此可以在 meta-learning 的框架下構(gòu)造一種可以端到端訓(xùn)練的 few-shot 分類器。該方法是對樣本間距離分布進(jìn)行建模,使得同類樣本靠近,異類樣本遠(yuǎn)離。下面介紹相關(guān)的方法。?
如圖 4 所示,孿生網(wǎng)絡(luò)(Siamese Network)[4] 通過有監(jiān)督的方式訓(xùn)練孿生網(wǎng)絡(luò)來學(xué)習(xí),然后重用網(wǎng)絡(luò)所提取的特征進(jìn)行 one/few-shot 學(xué)習(xí)。
▲?圖4:Siamese Network
具體的網(wǎng)絡(luò)是一個雙路的神經(jīng)網(wǎng)絡(luò),訓(xùn)練時(shí),通過組合的方式構(gòu)造不同的成對樣本,輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在最上層通過樣本對的距離判斷他們是否屬于同一個類,并產(chǎn)生對應(yīng)的概率分布。在預(yù)測階段,孿生網(wǎng)絡(luò)處理測試樣本和支撐集之間每一個樣本對,最終預(yù)測結(jié)果為支撐集上概率最高的類別。
相比孿生網(wǎng)絡(luò),匹配網(wǎng)絡(luò)(Match Network)[2] 為支撐集和 Batch 集構(gòu)建不同的編碼器,最終分類器的輸出是支撐集樣本和 query 之間預(yù)測值的加權(quán)求和。
如圖 5 所示,該文章也是在不改變網(wǎng)絡(luò)模型的前提下能對未知類別生成標(biāo)簽,其主要創(chuàng)新體現(xiàn)在建模過程和訓(xùn)練過程上。對于建模過程的創(chuàng)新,文章提出了基于 memory 和 attention 的 matching nets,使得可以快速學(xué)習(xí)。
對于訓(xùn)練過程的創(chuàng)新,文章基于傳統(tǒng)機(jī)器學(xué)習(xí)的一個原則,即訓(xùn)練和測試是要在同樣條件下進(jìn)行的,提出在訓(xùn)練的時(shí)候不斷地讓網(wǎng)絡(luò)只看每一類的少量樣本,這將和測試的過程是一致的。
具體地,它顯式的定義一個基于支撐集的分類器,對于一個新的數(shù)據(jù),其分類概率由與支撐集 S 之間的距離度量得出:
其中 a 是基于距離度量的 attention score:
進(jìn)一步,支撐集樣本 embedding 模型 g 能繼續(xù)優(yōu)化,并且支撐集樣本應(yīng)該可以用來修改測試樣本的 embedding 模型 f。
這個可以通過如下兩個方面來解決,即:1)基于雙向 LSTM 學(xué)習(xí)訓(xùn)練集的 embedding,使得每個支撐樣本的 embedding 是其它訓(xùn)練樣本的函數(shù);2)基于 attention-LSTM 來對測試樣本 embedding,使得每個 Query 樣本的 embedding 是支撐集 embedding 的函數(shù)。文章稱其為 FCE (fully-conditional embedding)。
▲?圖5:Match Network
原型網(wǎng)絡(luò)(Prototype Network)[5] 基于這樣的想法:每個類別都存在一個原型表達(dá),該類的原型是 support set 在 embedding 空間中的均值。然后,分類問題變成在 embedding 空間中的最近鄰。
如圖 6 所示,c1、c2、c3 分別是三個類別的均值中心(稱 Prototype),將測試樣本 x 進(jìn)行 embedding 后,與這 3 個中心進(jìn)行距離計(jì)算,從而獲得 x 的類別。
▲?圖6:Prototype Network
文章采用在 Bregman 散度下的指數(shù)族分布的混合密度估計(jì),文章在訓(xùn)練時(shí)采用相對測試時(shí)更多的類別數(shù),即訓(xùn)練時(shí)每個 episodes 采用 20 個類(20 way),而測試對在 5 個類(5 way)中進(jìn)行,其效果相對訓(xùn)練時(shí)也采用 5 way 的提升了 2.5 個百分點(diǎn)。
前面介紹的幾個網(wǎng)絡(luò)結(jié)構(gòu)在最終的距離度量上都使用了固定的度量方式,如 cosine,歐式距離等,這種模型結(jié)構(gòu)下所有的學(xué)習(xí)過程都發(fā)生在樣本的 embedding 階段。
而 Relation Network [6] 認(rèn)為度量方式也是網(wǎng)絡(luò)中非常重要的一環(huán),需要對其進(jìn)行建模,所以該網(wǎng)絡(luò)不滿足單一且固定的距離度量方式,而是訓(xùn)練一個網(wǎng)絡(luò)來學(xué)習(xí)(例如 CNN)距離的度量方式,在 loss 方面也有所改變,考慮到 relation network 更多的關(guān)注 relation score,更像一種回歸,而非 0/1 分類,所以使用了 MSE 取代了 cross-entropy。
▲?圖7:Relation Networks
Optimization Based方法
Ravi 等人 [7] 研究了在少量數(shù)據(jù)下,基于梯度的優(yōu)化算法失敗的原因,即無法直接用于 meta learning。
首先,這些梯度優(yōu)化算法包括 momentum, adagrad, adadelta, ADAM 等,無法在幾步內(nèi)完成優(yōu)化,特別是在非凸的問題上,多種超參的選取無法保證收斂的速度。
其次,不同任務(wù)分別隨機(jī)初始化會影響任務(wù)收斂到好的解上。雖然 finetune 這種遷移學(xué)習(xí)能緩解這個問題,但當(dāng)新數(shù)據(jù)相對原始數(shù)據(jù)偏差比較大時(shí),遷移學(xué)習(xí)的性能會大大下降。我們需要一個系統(tǒng)的學(xué)習(xí)通用初始化,使得訓(xùn)練從一個好的點(diǎn)開始,它和遷移學(xué)習(xí)不同的是,它能保證該初始化能讓 finetune 從一個好的點(diǎn)開始。?
文章學(xué)習(xí)的是一個模型參數(shù)的更新函數(shù)或更新規(guī)則。它不是在多輪的 episodes 學(xué)習(xí)一個單模型,而是在每個 episode 學(xué)習(xí)特定的模型。
具體地,學(xué)習(xí)基于梯度下降的參數(shù)更新算法,采用 LSTM 表達(dá) meta learner,用其狀態(tài)表達(dá)目標(biāo)分類器的參數(shù)的更新,最終學(xué)會如何在新的分類任務(wù)上,對分類器網(wǎng)絡(luò)(learner)進(jìn)行初始化和參數(shù)更新。這個優(yōu)化算法同時(shí)考慮一個任務(wù)的短時(shí)知識和跨多個任務(wù)的長時(shí)知識。
文章設(shè)定目標(biāo)為通過少量的迭代步驟捕獲優(yōu)化算法的泛化能力,由此 meta learner 可以訓(xùn)練讓 learner 在每個任務(wù)上收斂到一個好的解。另外,通過捕獲所有任務(wù)之前共享的基礎(chǔ)知識,進(jìn)而更好地初始化 learner。?
以訓(xùn)練 miniImage 數(shù)據(jù)集為例,訓(xùn)練過程中,從訓(xùn)練集(64 個類,每類 600 個樣本)中隨機(jī)采樣 5 個類,每個類 5 個樣本,構(gòu)成支撐集,去學(xué)習(xí) learner;然后從訓(xùn)練集的樣本(采出的 5 個類,每類剩下的樣本)中采樣構(gòu)成 Batch 集,集合中每類有 15 個樣本,用來獲得 learner 的 loss,去學(xué)習(xí) meta leaner。
測試時(shí)的流程一樣,從測試集(16 個類,每類 600 個樣本)中隨機(jī)采樣 5 個類,每個類 5 個樣本,構(gòu)成支撐集 Support Set,去學(xué)習(xí) learner;然后從測試集剩余的樣本(采出的 5 個類,每類剩下的樣本)中采樣構(gòu)成 Batch 集,集合中每類有 15 個樣本,用來獲得 learner 的參數(shù),進(jìn)而得到預(yù)測的類別概率。這兩個過程分別如圖 8 中虛線左側(cè)和右側(cè)。
▲?圖8:Optimization as a model
meta learner 的目標(biāo)是在各種不同的學(xué)習(xí)任務(wù)上學(xué)出一個模型,使得可以僅用少量的樣本就能解決一些新的學(xué)習(xí)任務(wù)。這種任務(wù)的挑戰(zhàn)是模型需要結(jié)合之前的經(jīng)驗(yàn)和當(dāng)前新任務(wù)的少量樣本信息,并避免在新數(shù)據(jù)上過擬合。?
Finn?[8] 提出的方法使得可以在小量樣本上,用少量的迭代步驟就可以獲得較好的泛化性能,而且模型是容易 fine-tine 的。而且這個方法無需關(guān)心模型的形式,也不需要為 meta learning 增加新的參數(shù),直接用梯度下降來訓(xùn)練 learner。
文章的核心思想是學(xué)習(xí)模型的初始化參數(shù)使得在一步或幾步迭代后在新任務(wù)上的精度最大化。它學(xué)的不是模型參數(shù)的更新函數(shù)或是規(guī)則,它不局限于參數(shù)的規(guī)模和模型架構(gòu)(比如用 RNN 或 siamese)。它本質(zhì)上也是學(xué)習(xí)一個好的特征使得可以適合很多任務(wù)(包括分類、回歸、增強(qiáng)學(xué)習(xí)),并通過 fine-tune 來獲得好的效果。
文章提出的方法,可以學(xué)習(xí)任意標(biāo)準(zhǔn)模型的參數(shù),并讓該模型能快速適配。他們認(rèn)為,一些中間表達(dá)更加適合遷移,比如神經(jīng)網(wǎng)絡(luò)的內(nèi)部特征。因此面向泛化性的表達(dá)是有益的。因?yàn)槲覀儠谔荻认陆挡呗栽谛碌娜蝿?wù)上進(jìn)行 finetune,所以目標(biāo)是學(xué)習(xí)這樣一個模型,它能對新的任務(wù)從之前任務(wù)上快速地進(jìn)行梯度下降,而不會過擬合。事實(shí)上,是要找到一些對任務(wù)變化敏感的參數(shù),使得當(dāng)改變梯度方向,小的參數(shù)改動也會產(chǎn)生較大的 loss。
在自然語言處理的研究現(xiàn)狀
早期的 Few-shot Learning 算法研究主要集中在小樣本圖像識別的任務(wù)上,以 MiniImage 和 Omnigraffle 兩個數(shù)據(jù)集為代表。
近年來,在自然語言處理領(lǐng)域也開始出現(xiàn) Few-shot Learning 的數(shù)據(jù)集和模型,相比于圖像,文本的語義中包含更多的變化和噪聲,我們將在本節(jié)從數(shù)據(jù)集和模型兩個方面介紹 Few-shot Learning?在自然語言處理領(lǐng)域的進(jìn)展,以及我們團(tuán)隊(duì)基于對話工廠平臺所做的探索。
數(shù)據(jù)集
1. FewRel 數(shù)據(jù)集 [11]?由Han等人在EMNLP 2018提出,是一個小樣本關(guān)系分類數(shù)據(jù)集,包含64種關(guān)系用于訓(xùn)練,16種關(guān)系用于驗(yàn)證和20種關(guān)系用于測試,每種關(guān)系下包含700個樣本。?
2. ARSC 數(shù)據(jù)集?[10]?由 Yu 等人在 NAACL 2018 提出,取自亞馬遜多領(lǐng)域情感分類數(shù)據(jù),該數(shù)據(jù)集包含 23 種亞馬遜商品的評論數(shù)據(jù),對于每一種商品,構(gòu)建三個二分類任務(wù),將其評論按分?jǐn)?shù)分為 5、4、 2 三檔,每一檔視為一個二分類任務(wù),則產(chǎn)生 23*3=69 個 task,然后取其中 12 個 task(4*3)作為測試集,其余 57 個 task 作為訓(xùn)練集。?
3. ODIC 數(shù)據(jù)集來自阿里巴巴對話工廠平臺的線上日志,用戶會向平臺提交多種不同的對話任務(wù),和多種不同的意圖,但是每種意圖只有極少數(shù)的標(biāo)注數(shù)據(jù),這形成了一個典型的 Few-shot Learning?任務(wù),該數(shù)據(jù)集包含 216 個意圖,其中 159 個用于訓(xùn)練,57 個用于測試。
主要模型
Gao?[9] 等人提出文本與圖像的一大區(qū)別在于其多樣性和噪音更大,因此提出一種基于混合注意力的原型網(wǎng)絡(luò)結(jié)構(gòu),如圖 9 所示,首先使用 instance-level 的 attention 從支撐集中選出和 query 更為貼近的實(shí)例,同時(shí)降低噪聲實(shí)例所帶來的影響。
然后 feature-level 的實(shí)例能夠衡量特征空間中的哪些維度對分類更為重要,從而為每種不同的關(guān)系都生成相適應(yīng)的距離度量函數(shù),從而使模型能夠有效處理特征稀疏的問題。
▲?圖9:基于混合注意力的原型網(wǎng)絡(luò)
Yu?[10] 等人指出在圖像領(lǐng)域的 Few-shot Learning 任務(wù)中,比如 Omniglot 和 miniImage 數(shù)據(jù)集,所有的數(shù)據(jù)都是從同一個大的數(shù)據(jù)集采樣而來,也就是說所有的 meta-task 都是來自同一個領(lǐng)域,所以相關(guān)性是很強(qiáng)的。
所以之前的 Few-shot Learning?方法只需使用一個 meta model 即可解決剩余的 few-shot 任務(wù)。但是在現(xiàn)實(shí)場景當(dāng)中,不同的 meta task 可能來自完全不同的領(lǐng)域,因此使用單獨(dú)的度量方式不足以衡量所有的 meta task。?
在這種場景下,Yu 提出使用多種度量方式融合來解跨領(lǐng)域的 Few-shot Learning 問題。在訓(xùn)練階段,meta learner 通過任務(wù)聚類選擇和結(jié)合多種度量方式來學(xué)習(xí)目標(biāo)任務(wù),不同領(lǐng)域的 meta task 首先通過聚類來劃分,因此同一個簇內(nèi)的 task 可以認(rèn)為是相關(guān)的,然后在該簇中訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)作為度量函數(shù),這種機(jī)制保證了只有在同一個簇中的 task 才會共享度量函數(shù)。
在測試階段,為每個 test task 使用所有度量函數(shù)的線性組合作為任務(wù)適應(yīng)的度量方式。
在對話工廠平臺的研究和應(yīng)用
我們團(tuán)隊(duì)基于目前 Metric Based 方法,提出了 Encoder-Induction-Relation 的三級框架,如圖 10 所示,Encoder 模塊用于獲取每個樣本的語義表示,可以使用典型的 CNN、LSTM、Transformer 等結(jié)構(gòu),Induction 模塊用于從支撐集的樣本語義中歸納出類別特征,Relation 模塊用于度量 query 和類別之間的語義關(guān)系,進(jìn)而完成分類。
▲?圖10:Encoder-Induction-Relation三級框架
如表 1 所示,之前的工作往往致力于學(xué)習(xí)不同的距離度量方式,而忽視了從樣本表示到類表示的建模。而在自然語言當(dāng)中,由于每個人的語言習(xí)慣不同,同一個類別的不同表述往往有很多種,如果僅僅是簡單加和或取平均來作為類別的表示,這些與分類無關(guān)的干擾信息就會累加,影響最終的效果。
因此我們的工作顯式的建模了從樣本表示到類表示這一能力,在 ODIC 和 ARSC 兩個數(shù)據(jù)集上,超過了之前的 state-of-the-art 的模型,實(shí)驗(yàn)結(jié)果如表 2 所示。
▲?表1:Metric Based方法對比
▲?表2:ODIC數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
此外,我們在 ODIC 數(shù)據(jù)集上逐漸增加訓(xùn)練數(shù)據(jù)的類別數(shù),如圖 11,在測試集上得到的效果會逐漸提升,這滿足了平臺級的語言理解所需要的可泛化、可持續(xù)學(xué)習(xí)的需求。
▲?圖11:ODIC數(shù)據(jù)集變化趨勢
總結(jié)
本文從對話工廠平臺的實(shí)際問題出發(fā),對小樣本學(xué)習(xí)方法進(jìn)行了系統(tǒng)梳理和研究,給出了 Few-shot Learning 的定義,綜述了其在圖像和 NLP 領(lǐng)域的研究現(xiàn)狀。
針對 Metric Based 系列方法,我們提出了統(tǒng)一的 Encode-Induction-Relation 描述框架,介紹了我們團(tuán)隊(duì)在使用 Few-shot Learning?解決平臺級自然語言理解所做的工作,即顯式建模從樣本表示到類表示的歸納能力。
參考文獻(xiàn)
[1] Brenden M. Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua B. Tenenbaum. One shot learning of simple visual concepts. In CogSci, 2011.?
[2] Oriol Vinyals, Charles Blundell, Tim Lillicrap, Daan Wierstra, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pages 3630–3638, 2016.?
[3] Santoro A, Bartunov S, Botvinick M, et al. One-shot learning with memory-augmented neural networks[J]. arXiv preprint arXiv:1605.06065, 2016.?
[4] Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. "Siamese neural networks for one-shot image recognition." ICML Deep Learning Workshop. Vol. 2. 2015.?
[5] Snell, Jake, Kevin Swersky, and Richard Zemel. "Prototypical networks for few-shot learning." Advances in Neural Information Processing Systems. 2017.?
[6] Sung, Flood, et al. "Learning to compare: Relation network for few-shot learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.?
[7] Ravi, Sachin, and Hugo Larochelle. "Optimization as a model for few-shot learning." (2016).?
[8] Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?
[9] Gao, Tianyu, et al. "Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification." (2019).?
[10] Yu, Mo, et al. "Diverse few-shot text classification with multiple metrics." arXiv preprint arXiv:1805.07513 (2018).?
[11] Han, Xu, et al. "FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation." arXiv preprint arXiv:1810.10147 (2018).?
[12] Munkhdalai, Tsendsuren, and Hong Yu. "Meta networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?
[13] Geng R, Li B, Li Y, et al. Few-Shot Text Classification with Induction Network[J]. arXiv preprint arXiv:1902.10482, 2019.?
[14] https://blog.csdn.net/qq_16234613/article/details/79902085?
[15] https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html#learner-and-meta-learner
點(diǎn)擊以下標(biāo)題查看往期內(nèi)容推薦:?
近期必讀的12篇「推薦系統(tǒng)」相關(guān)論文
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
后ResNet時(shí)代:SENet與SKNet
F-Principle:初探理解深度學(xué)習(xí)不能做什么
萬字綜述之生成對抗網(wǎng)絡(luò)(GAN)
讓Keras更酷一些:分層的學(xué)習(xí)率和自由的梯度
小米拍照黑科技:基于NAS的圖像超分辨率算法
AAAI 2019 | 基于區(qū)域分解集成的目標(biāo)檢測
AAAI 2019 | 基于分層強(qiáng)化學(xué)習(xí)的關(guān)系抽取
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的小样本学习(Few-shot Learning)综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR2019接收结果公布了,但CVP
- 下一篇: CVPR 2019 | 基于骨架表达的单