當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

小样本学习（Few-shot Learning）综述

發(fā)布時(shí)間：2024/10/8 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了小样本学习（Few-shot Learning）综述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者丨耿瑞瑩、李永彬、黎檳華

單位丨阿里巴巴智能服務(wù)事業(yè)部小蜜北京團(tuán)隊(duì)

分類非常常見，但如果每個類只有幾個標(biāo)注樣本，怎么辦呢？

筆者所在的阿里巴巴小蜜北京團(tuán)隊(duì)就面臨這個挑戰(zhàn)。我們打造了一個智能對話開發(fā)平臺——Dialog Studio，以賦能第三方開發(fā)者來開發(fā)各自業(yè)務(wù)場景中的任務(wù)型對話，其中一個重要功能就是對意圖進(jìn)行分類。大量平臺用戶在創(chuàng)建一個新對話任務(wù)時(shí)，并沒有大量標(biāo)注數(shù)據(jù)，每個意圖往往只有幾個或十幾個樣本。?

面對這類問題，有一個專門的機(jī)器學(xué)習(xí)分支——Few-shot Learning 來進(jìn)行研究和解決。過去一年，我們對 Few-shot Learning 進(jìn)行了系統(tǒng)的梳理和研究，將 Few-shot Learning 和 Capsule Network 融合，提出了 Induction Network，在文本分類上做到了新的 state-of-the-art。

創(chuàng)新總是基于對已有成果的梳理和思考，這篇綜述算是一個小結(jié)，寫出來和大家一起分享，一起討論。?

本文先介紹?Few-shot Learning 定義；由于最近幾年?Few-shot Learning 在圖像領(lǐng)域的進(jìn)展領(lǐng)先于在自然語言處理領(lǐng)域，所以第二部分結(jié)合其在圖像處理領(lǐng)域的研究進(jìn)展，詳細(xì)介紹 Few-shot Learning 的三類典型方法及每種方法的代表性模型；接下來介紹在自然語言處理領(lǐng)域的研究進(jìn)展以及我們對 metric-based 的方法進(jìn)行系統(tǒng)總結(jié)后提出的 few-shot learning framework。

問題定義

人類非常擅長通過極少量的樣本識別一個新物體，比如小孩子只需要書中的一些圖片就可以認(rèn)識什么是“斑馬”，什么是“犀牛”。在人類的快速學(xué)習(xí)能力的啟發(fā)下，研究人員希望機(jī)器學(xué)習(xí)模型在學(xué)習(xí)了一定類別的大量數(shù)據(jù)后，對于新的類別，只需要少量的樣本就能快速學(xué)習(xí)，這就是 Few-shot Learning 要解決的問題。?

Few-shot Learning?是 Meta Learning 在監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用。Meta Learning，又稱為 learning to learn，在 meta training 階段將數(shù)據(jù)集分解為不同的 meta task，去學(xué)習(xí)類別變化的情況下模型的泛化能力，在 meta testing 階段，面對全新的類別，不需要變動已有的模型，就可以完成分類。?

形式化來說，few-shot 的訓(xùn)練集中包含了很多的類別，每個類別中有多個樣本。在訓(xùn)練階段，會在訓(xùn)練集中隨機(jī)抽取 C 個類別，每個類別 K 個樣本（總共 CK 個數(shù)據(jù)），構(gòu)建一個 meta-task，作為模型的支撐集（support set）輸入；再從這 C 個類中剩余的數(shù)據(jù)中抽取一批（batch）樣本作為模型的預(yù)測對象（batch set）。即要求模型從 C*K 個數(shù)據(jù)中學(xué)會如何區(qū)分這 C 個類別，這樣的任務(wù)被稱為 C-way K-shot 問題。?

訓(xùn)練過程中，每次訓(xùn)練（episode）都會采樣得到不同 meta-task，所以總體來看，訓(xùn)練包含了不同的類別組合，這種機(jī)制使得模型學(xué)會不同 meta-task 中的共性部分，比如如何提取重要特征及比較樣本相似等，忘掉 meta-task 中 task 相關(guān)部分。通過這種學(xué)習(xí)機(jī)制學(xué)到的模型，在面對新的未見過的 meta-task 時(shí)，也能較好地進(jìn)行分類。?

圖 1 展示的是一個 2-way 5-shot 的示例，可以看到 meta training 階段構(gòu)建了一系列 meta-task 來讓模型學(xué)習(xí)如何根據(jù) support set 預(yù)測 batch set 中的樣本的標(biāo)簽；meta testing 階段的輸入數(shù)據(jù)的形式與訓(xùn)練階段一致（2-way 5-shot），但是會在全新的類別上構(gòu)建 support set 和 batch。

▲?圖1：Few-shot Learning示例

在圖像領(lǐng)域的研究現(xiàn)狀

早期的 Few-shot Learning 算法研究多集中在圖像領(lǐng)域，如圖 2 所示，Few-shot Learning 模型大致可分為三類：Mode Based，Metric Based 和 Optimization Based。

▲?圖2：Few-shot Learning模型分類

其中 Model Based 方法旨在通過模型結(jié)構(gòu)的設(shè)計(jì)快速在少量樣本上更新參數(shù)，直接建立輸入 x 和預(yù)測值 P 的映射函數(shù)；Metric Based 方法通過度量 batch 集中的樣本和 support 集中樣本的距離，借助最近鄰的思想完成分類；Optimization Based 方法認(rèn)為普通的梯度下降方法難以在 few-shot 場景下擬合，因此通過調(diào)整優(yōu)化方法來完成小樣本分類的任務(wù)。

Model Based方法

Santoro 等人 [3] 提出使用記憶增強(qiáng)的方法來解決 Few-shot Learning 任務(wù)。基于記憶的神經(jīng)網(wǎng)絡(luò)方法早在 2001 年被證明可以用于 meta-learning。他們通過權(quán)重更新來調(diào)節(jié) bias，并且通過學(xué)習(xí)將表達(dá)快速緩存到記憶中來調(diào)節(jié)輸出。

然而，利用循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部記憶單元無法擴(kuò)展到需要對大量新信息進(jìn)行編碼的新任務(wù)上。因此，需要讓存儲在記憶中的表達(dá)既要穩(wěn)定又要是元素粒度訪問的，前者是說當(dāng)需要時(shí)就能可靠地訪問，后者是說可選擇性地訪問相關(guān)的信息；另外，參數(shù)數(shù)量不能被內(nèi)存的大小束縛。神經(jīng)圖靈機(jī)（NTMs）和記憶網(wǎng)絡(luò)就符合這種必要條件。?

文章基于神經(jīng)網(wǎng)絡(luò)圖靈機(jī)（NTMs）的思想，因?yàn)?NTMs 能通過外部存儲（external memory）進(jìn)行短時(shí)記憶，并能通過緩慢權(quán)值更新來進(jìn)行長時(shí)記憶，NTMs 可以學(xué)習(xí)將表達(dá)存入記憶的策略，并如何用這些表達(dá)來進(jìn)行預(yù)測。由此，文章方法可以快速準(zhǔn)確地預(yù)測那些只出現(xiàn)過一次的數(shù)據(jù)。

文章基于 LSTM 等 RNN 的模型，將數(shù)據(jù)看成序列來訓(xùn)練，在測試時(shí)輸入新的類的樣本進(jìn)行分類。

具體地，在 t 時(shí)刻，模型輸入，也就是在當(dāng)前時(shí)刻預(yù)測輸入樣本的類別，并在下一時(shí)刻給出真實(shí)的 label，并且添加了 external memory 存儲上一次的 x 輸入，這使得下一次輸入后進(jìn)行反向傳播時(shí)，可以讓 y (label) 和 x 建立聯(lián)系，使得之后的 x 能夠通過外部記憶獲取相關(guān)圖像進(jìn)行比對來實(shí)現(xiàn)更好的預(yù)測。

▲?圖3：Memory Augmented Model

Meta Network?[12] 的快速泛化能力源自其“快速權(quán)重”的機(jī)制，在訓(xùn)練過程中產(chǎn)生的梯度被用來作為快速權(quán)重的生成。模型包含一個 meta learner 和一個 base learner，meta learner 用于學(xué)習(xí) meta task 之間的泛化信息，并使用 memory 機(jī)制保存這種信息，base learner 用于快速適應(yīng)新的 task，并和 meta learner 交互產(chǎn)生預(yù)測輸出。

Metric Based方法?

如果在?Few-shot Learning?的任務(wù)中去訓(xùn)練普通的基于 cross-entropy 的神經(jīng)網(wǎng)絡(luò)分類器，那么幾乎肯定是會過擬合，因?yàn)樯窠?jīng)網(wǎng)絡(luò)分類器中有數(shù)以萬計(jì)的參數(shù)需要優(yōu)化。

相反，很多非參數(shù)化的方法（最近鄰、K-近鄰、Kmeans）是不需要優(yōu)化參數(shù)的，因此可以在 meta-learning 的框架下構(gòu)造一種可以端到端訓(xùn)練的 few-shot 分類器。該方法是對樣本間距離分布進(jìn)行建模，使得同類樣本靠近，異類樣本遠(yuǎn)離。下面介紹相關(guān)的方法。?

如圖 4 所示，孿生網(wǎng)絡(luò)（Siamese Network）[4] 通過有監(jiān)督的方式訓(xùn)練孿生網(wǎng)絡(luò)來學(xué)習(xí)，然后重用網(wǎng)絡(luò)所提取的特征進(jìn)行 one/few-shot 學(xué)習(xí)。

▲?圖4：Siamese Network

具體的網(wǎng)絡(luò)是一個雙路的神經(jīng)網(wǎng)絡(luò)，訓(xùn)練時(shí)，通過組合的方式構(gòu)造不同的成對樣本，輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練，在最上層通過樣本對的距離判斷他們是否屬于同一個類，并產(chǎn)生對應(yīng)的概率分布。在預(yù)測階段，孿生網(wǎng)絡(luò)處理測試樣本和支撐集之間每一個樣本對，最終預(yù)測結(jié)果為支撐集上概率最高的類別。

相比孿生網(wǎng)絡(luò)，匹配網(wǎng)絡(luò)（Match Network）[2] 為支撐集和 Batch 集構(gòu)建不同的編碼器，最終分類器的輸出是支撐集樣本和 query 之間預(yù)測值的加權(quán)求和。

如圖 5 所示，該文章也是在不改變網(wǎng)絡(luò)模型的前提下能對未知類別生成標(biāo)簽，其主要創(chuàng)新體現(xiàn)在建模過程和訓(xùn)練過程上。對于建模過程的創(chuàng)新，文章提出了基于 memory 和 attention 的 matching nets，使得可以快速學(xué)習(xí)。

對于訓(xùn)練過程的創(chuàng)新，文章基于傳統(tǒng)機(jī)器學(xué)習(xí)的一個原則，即訓(xùn)練和測試是要在同樣條件下進(jìn)行的，提出在訓(xùn)練的時(shí)候不斷地讓網(wǎng)絡(luò)只看每一類的少量樣本，這將和測試的過程是一致的。

具體地，它顯式的定義一個基于支撐集的分類器，對于一個新的數(shù)據(jù)，其分類概率由與支撐集 S 之間的距離度量得出：

其中 a 是基于距離度量的 attention score：

進(jìn)一步，支撐集樣本 embedding 模型 g 能繼續(xù)優(yōu)化，并且支撐集樣本應(yīng)該可以用來修改測試樣本的 embedding 模型 f。

這個可以通過如下兩個方面來解決，即：1）基于雙向 LSTM 學(xué)習(xí)訓(xùn)練集的 embedding，使得每個支撐樣本的 embedding 是其它訓(xùn)練樣本的函數(shù)；2）基于 attention-LSTM 來對測試樣本 embedding，使得每個 Query 樣本的 embedding 是支撐集 embedding 的函數(shù)。文章稱其為 FCE (fully-conditional embedding)。

▲?圖5：Match Network

原型網(wǎng)絡(luò)（Prototype Network）[5] 基于這樣的想法：每個類別都存在一個原型表達(dá)，該類的原型是 support set 在 embedding 空間中的均值。然后，分類問題變成在 embedding 空間中的最近鄰。

如圖 6 所示，c1、c2、c3 分別是三個類別的均值中心（稱 Prototype），將測試樣本 x 進(jìn)行 embedding 后，與這 3 個中心進(jìn)行距離計(jì)算，從而獲得 x 的類別。

▲?圖6：Prototype Network

文章采用在 Bregman 散度下的指數(shù)族分布的混合密度估計(jì)，文章在訓(xùn)練時(shí)采用相對測試時(shí)更多的類別數(shù)，即訓(xùn)練時(shí)每個 episodes 采用 20 個類（20 way），而測試對在 5 個類（5 way）中進(jìn)行，其效果相對訓(xùn)練時(shí)也采用 5 way 的提升了 2.5 個百分點(diǎn)。

前面介紹的幾個網(wǎng)絡(luò)結(jié)構(gòu)在最終的距離度量上都使用了固定的度量方式，如 cosine，歐式距離等，這種模型結(jié)構(gòu)下所有的學(xué)習(xí)過程都發(fā)生在樣本的 embedding 階段。

而 Relation Network [6] 認(rèn)為度量方式也是網(wǎng)絡(luò)中非常重要的一環(huán)，需要對其進(jìn)行建模，所以該網(wǎng)絡(luò)不滿足單一且固定的距離度量方式，而是訓(xùn)練一個網(wǎng)絡(luò)來學(xué)習(xí)（例如 CNN）距離的度量方式，在 loss 方面也有所改變，考慮到 relation network 更多的關(guān)注 relation score，更像一種回歸，而非 0/1 分類，所以使用了 MSE 取代了 cross-entropy。

▲?圖7：Relation Networks

Optimization Based方法

Ravi 等人 [7] 研究了在少量數(shù)據(jù)下，基于梯度的優(yōu)化算法失敗的原因，即無法直接用于 meta learning。

首先，這些梯度優(yōu)化算法包括 momentum, adagrad, adadelta, ADAM 等，無法在幾步內(nèi)完成優(yōu)化，特別是在非凸的問題上，多種超參的選取無法保證收斂的速度。

其次，不同任務(wù)分別隨機(jī)初始化會影響任務(wù)收斂到好的解上。雖然 finetune 這種遷移學(xué)習(xí)能緩解這個問題，但當(dāng)新數(shù)據(jù)相對原始數(shù)據(jù)偏差比較大時(shí)，遷移學(xué)習(xí)的性能會大大下降。我們需要一個系統(tǒng)的學(xué)習(xí)通用初始化，使得訓(xùn)練從一個好的點(diǎn)開始，它和遷移學(xué)習(xí)不同的是，它能保證該初始化能讓 finetune 從一個好的點(diǎn)開始。?

文章學(xué)習(xí)的是一個模型參數(shù)的更新函數(shù)或更新規(guī)則。它不是在多輪的 episodes 學(xué)習(xí)一個單模型，而是在每個 episode 學(xué)習(xí)特定的模型。

具體地，學(xué)習(xí)基于梯度下降的參數(shù)更新算法，采用 LSTM 表達(dá) meta learner，用其狀態(tài)表達(dá)目標(biāo)分類器的參數(shù)的更新，最終學(xué)會如何在新的分類任務(wù)上，對分類器網(wǎng)絡(luò)（learner）進(jìn)行初始化和參數(shù)更新。這個優(yōu)化算法同時(shí)考慮一個任務(wù)的短時(shí)知識和跨多個任務(wù)的長時(shí)知識。

文章設(shè)定目標(biāo)為通過少量的迭代步驟捕獲優(yōu)化算法的泛化能力，由此 meta learner 可以訓(xùn)練讓 learner 在每個任務(wù)上收斂到一個好的解。另外，通過捕獲所有任務(wù)之前共享的基礎(chǔ)知識，進(jìn)而更好地初始化 learner。?

以訓(xùn)練 miniImage 數(shù)據(jù)集為例，訓(xùn)練過程中，從訓(xùn)練集（64 個類，每類 600 個樣本）中隨機(jī)采樣 5 個類，每個類 5 個樣本，構(gòu)成支撐集，去學(xué)習(xí) learner；然后從訓(xùn)練集的樣本（采出的 5 個類，每類剩下的樣本）中采樣構(gòu)成 Batch 集，集合中每類有 15 個樣本，用來獲得 learner 的 loss，去學(xué)習(xí) meta leaner。

測試時(shí)的流程一樣，從測試集（16 個類，每類 600 個樣本）中隨機(jī)采樣 5 個類，每個類 5 個樣本，構(gòu)成支撐集 Support Set，去學(xué)習(xí) learner；然后從測試集剩余的樣本（采出的 5 個類，每類剩下的樣本）中采樣構(gòu)成 Batch 集，集合中每類有 15 個樣本，用來獲得 learner 的參數(shù)，進(jìn)而得到預(yù)測的類別概率。這兩個過程分別如圖 8 中虛線左側(cè)和右側(cè)。

▲?圖8：Optimization as a model

meta learner 的目標(biāo)是在各種不同的學(xué)習(xí)任務(wù)上學(xué)出一個模型，使得可以僅用少量的樣本就能解決一些新的學(xué)習(xí)任務(wù)。這種任務(wù)的挑戰(zhàn)是模型需要結(jié)合之前的經(jīng)驗(yàn)和當(dāng)前新任務(wù)的少量樣本信息，并避免在新數(shù)據(jù)上過擬合。?

Finn?[8] 提出的方法使得可以在小量樣本上，用少量的迭代步驟就可以獲得較好的泛化性能，而且模型是容易 fine-tine 的。而且這個方法無需關(guān)心模型的形式，也不需要為 meta learning 增加新的參數(shù)，直接用梯度下降來訓(xùn)練 learner。

文章的核心思想是學(xué)習(xí)模型的初始化參數(shù)使得在一步或幾步迭代后在新任務(wù)上的精度最大化。它學(xué)的不是模型參數(shù)的更新函數(shù)或是規(guī)則，它不局限于參數(shù)的規(guī)模和模型架構(gòu)（比如用 RNN 或 siamese）。它本質(zhì)上也是學(xué)習(xí)一個好的特征使得可以適合很多任務(wù)（包括分類、回歸、增強(qiáng)學(xué)習(xí)），并通過 fine-tune 來獲得好的效果。

文章提出的方法，可以學(xué)習(xí)任意標(biāo)準(zhǔn)模型的參數(shù)，并讓該模型能快速適配。他們認(rèn)為，一些中間表達(dá)更加適合遷移，比如神經(jīng)網(wǎng)絡(luò)的內(nèi)部特征。因此面向泛化性的表達(dá)是有益的。因?yàn)槲覀儠谔荻认陆挡呗栽谛碌娜蝿?wù)上進(jìn)行 finetune，所以目標(biāo)是學(xué)習(xí)這樣一個模型，它能對新的任務(wù)從之前任務(wù)上快速地進(jìn)行梯度下降，而不會過擬合。事實(shí)上，是要找到一些對任務(wù)變化敏感的參數(shù)，使得當(dāng)改變梯度方向，小的參數(shù)改動也會產(chǎn)生較大的 loss。

在自然語言處理的研究現(xiàn)狀

早期的 Few-shot Learning 算法研究主要集中在小樣本圖像識別的任務(wù)上，以 MiniImage 和 Omnigraffle 兩個數(shù)據(jù)集為代表。

近年來，在自然語言處理領(lǐng)域也開始出現(xiàn) Few-shot Learning 的數(shù)據(jù)集和模型，相比于圖像，文本的語義中包含更多的變化和噪聲，我們將在本節(jié)從數(shù)據(jù)集和模型兩個方面介紹 Few-shot Learning?在自然語言處理領(lǐng)域的進(jìn)展，以及我們團(tuán)隊(duì)基于對話工廠平臺所做的探索。

數(shù)據(jù)集

1. FewRel 數(shù)據(jù)集 [11]?由Han等人在EMNLP 2018提出，是一個小樣本關(guān)系分類數(shù)據(jù)集，包含64種關(guān)系用于訓(xùn)練，16種關(guān)系用于驗(yàn)證和20種關(guān)系用于測試，每種關(guān)系下包含700個樣本。?

2. ARSC 數(shù)據(jù)集?[10]?由 Yu 等人在 NAACL 2018 提出，取自亞馬遜多領(lǐng)域情感分類數(shù)據(jù)，該數(shù)據(jù)集包含 23 種亞馬遜商品的評論數(shù)據(jù)，對于每一種商品，構(gòu)建三個二分類任務(wù)，將其評論按分?jǐn)?shù)分為 5、4、 2 三檔，每一檔視為一個二分類任務(wù)，則產(chǎn)生 23*3=69 個 task，然后取其中 12 個 task（4*3）作為測試集，其余 57 個 task 作為訓(xùn)練集。?

3. ODIC 數(shù)據(jù)集來自阿里巴巴對話工廠平臺的線上日志，用戶會向平臺提交多種不同的對話任務(wù)，和多種不同的意圖，但是每種意圖只有極少數(shù)的標(biāo)注數(shù)據(jù)，這形成了一個典型的 Few-shot Learning?任務(wù)，該數(shù)據(jù)集包含 216 個意圖，其中 159 個用于訓(xùn)練，57 個用于測試。

主要模型

Gao?[9] 等人提出文本與圖像的一大區(qū)別在于其多樣性和噪音更大，因此提出一種基于混合注意力的原型網(wǎng)絡(luò)結(jié)構(gòu)，如圖 9 所示，首先使用 instance-level 的 attention 從支撐集中選出和 query 更為貼近的實(shí)例，同時(shí)降低噪聲實(shí)例所帶來的影響。

然后 feature-level 的實(shí)例能夠衡量特征空間中的哪些維度對分類更為重要，從而為每種不同的關(guān)系都生成相適應(yīng)的距離度量函數(shù)，從而使模型能夠有效處理特征稀疏的問題。

▲?圖9：基于混合注意力的原型網(wǎng)絡(luò)

Yu?[10] 等人指出在圖像領(lǐng)域的 Few-shot Learning 任務(wù)中，比如 Omniglot 和 miniImage 數(shù)據(jù)集，所有的數(shù)據(jù)都是從同一個大的數(shù)據(jù)集采樣而來，也就是說所有的 meta-task 都是來自同一個領(lǐng)域，所以相關(guān)性是很強(qiáng)的。

所以之前的 Few-shot Learning?方法只需使用一個 meta model 即可解決剩余的 few-shot 任務(wù)。但是在現(xiàn)實(shí)場景當(dāng)中，不同的 meta task 可能來自完全不同的領(lǐng)域，因此使用單獨(dú)的度量方式不足以衡量所有的 meta task。?

在這種場景下，Yu 提出使用多種度量方式融合來解跨領(lǐng)域的 Few-shot Learning 問題。在訓(xùn)練階段，meta learner 通過任務(wù)聚類選擇和結(jié)合多種度量方式來學(xué)習(xí)目標(biāo)任務(wù)，不同領(lǐng)域的 meta task 首先通過聚類來劃分，因此同一個簇內(nèi)的 task 可以認(rèn)為是相關(guān)的，然后在該簇中訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)作為度量函數(shù)，這種機(jī)制保證了只有在同一個簇中的 task 才會共享度量函數(shù)。

在測試階段，為每個 test task 使用所有度量函數(shù)的線性組合作為任務(wù)適應(yīng)的度量方式。

在對話工廠平臺的研究和應(yīng)用

我們團(tuán)隊(duì)基于目前 Metric Based 方法，提出了 Encoder-Induction-Relation 的三級框架，如圖 10 所示，Encoder 模塊用于獲取每個樣本的語義表示，可以使用典型的 CNN、LSTM、Transformer 等結(jié)構(gòu)，Induction 模塊用于從支撐集的樣本語義中歸納出類別特征，Relation 模塊用于度量 query 和類別之間的語義關(guān)系，進(jìn)而完成分類。

▲?圖10：Encoder-Induction-Relation三級框架

如表 1 所示，之前的工作往往致力于學(xué)習(xí)不同的距離度量方式，而忽視了從樣本表示到類表示的建模。而在自然語言當(dāng)中，由于每個人的語言習(xí)慣不同，同一個類別的不同表述往往有很多種，如果僅僅是簡單加和或取平均來作為類別的表示，這些與分類無關(guān)的干擾信息就會累加，影響最終的效果。

因此我們的工作顯式的建模了從樣本表示到類表示這一能力，在 ODIC 和 ARSC 兩個數(shù)據(jù)集上，超過了之前的 state-of-the-art 的模型，實(shí)驗(yàn)結(jié)果如表 2 所示。

▲?表1：Metric Based方法對比

▲?表2：ODIC數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

此外，我們在 ODIC 數(shù)據(jù)集上逐漸增加訓(xùn)練數(shù)據(jù)的類別數(shù)，如圖 11，在測試集上得到的效果會逐漸提升，這滿足了平臺級的語言理解所需要的可泛化、可持續(xù)學(xué)習(xí)的需求。

▲?圖11：ODIC數(shù)據(jù)集變化趨勢

總結(jié)

本文從對話工廠平臺的實(shí)際問題出發(fā)，對小樣本學(xué)習(xí)方法進(jìn)行了系統(tǒng)梳理和研究，給出了 Few-shot Learning 的定義，綜述了其在圖像和 NLP 領(lǐng)域的研究現(xiàn)狀。

針對 Metric Based 系列方法，我們提出了統(tǒng)一的 Encode-Induction-Relation 描述框架，介紹了我們團(tuán)隊(duì)在使用 Few-shot Learning?解決平臺級自然語言理解所做的工作，即顯式建模從樣本表示到類表示的歸納能力。

參考文獻(xiàn)

[1] Brenden M. Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua B. Tenenbaum. One shot learning of simple visual concepts. In CogSci, 2011.?

[2] Oriol Vinyals, Charles Blundell, Tim Lillicrap, Daan Wierstra, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pages 3630–3638, 2016.?

[3] Santoro A, Bartunov S, Botvinick M, et al. One-shot learning with memory-augmented neural networks[J]. arXiv preprint arXiv:1605.06065, 2016.?

[4] Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. "Siamese neural networks for one-shot image recognition." ICML Deep Learning Workshop. Vol. 2. 2015.?

[5] Snell, Jake, Kevin Swersky, and Richard Zemel. "Prototypical networks for few-shot learning." Advances in Neural Information Processing Systems. 2017.?

[6] Sung, Flood, et al. "Learning to compare: Relation network for few-shot learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.?

[7] Ravi, Sachin, and Hugo Larochelle. "Optimization as a model for few-shot learning." (2016).?

[8] Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?

[9] Gao, Tianyu, et al. "Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification." (2019).?

[10] Yu, Mo, et al. "Diverse few-shot text classification with multiple metrics." arXiv preprint arXiv:1805.07513 (2018).?

[11] Han, Xu, et al. "FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation." arXiv preprint arXiv:1810.10147 (2018).?

[12] Munkhdalai, Tsendsuren, and Hong Yu. "Meta networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?

[13] Geng R, Li B, Li Y, et al. Few-Shot Text Classification with Induction Network[J]. arXiv preprint arXiv:1902.10482, 2019.?

[14] https://blog.csdn.net/qq_16234613/article/details/79902085?

[15] https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html#learner-and-meta-learner

點(diǎn)擊以下標(biāo)題查看往期內(nèi)容推薦：?

近期必讀的12篇「推薦系統(tǒng)」相關(guān)論文
圖神經(jīng)網(wǎng)絡(luò)綜述：模型與應(yīng)用
后ResNet時(shí)代：SENet與SKNet
F-Principle：初探理解深度學(xué)習(xí)不能做什么
萬字綜述之生成對抗網(wǎng)絡(luò)（GAN）
讓Keras更酷一些：分層的學(xué)習(xí)率和自由的梯度
小米拍照黑科技：基于NAS的圖像超分辨率算法
AAAI 2019 | 基于區(qū)域分解集成的目標(biāo)檢測
AAAI 2019 | 基于分層強(qiáng)化學(xué)習(xí)的關(guān)系抽取

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？?答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

??來稿標(biāo)準(zhǔn)：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨(dú)在附件中發(fā)送?

? 請留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們在編輯發(fā)布時(shí)和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦

總結(jié)

以上是生活随笔為你收集整理的小样本学习（Few-shot Learning）综述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CVPR2019接收结果公布了，但CVP
下一篇： CVPR 2019 | 基于骨架表达的单