當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

无监督领域迁移及文本表示学习的相关进展

發(fā)布時(shí)間：2024/10/8 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了无监督领域迁移及文本表示学习的相关进展小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者｜邴立東、何瑞丹、張琰、李俊濤、葉海

單位｜阿里巴巴達(dá)摩院、新加坡國(guó)立大學(xué)等

摘要

隨著基于 transformer 的預(yù)訓(xùn)練語(yǔ)言模型的廣泛應(yīng)用，多種自然語(yǔ)言處理任務(wù)在近一兩年來(lái)都取得了顯著突破。然而，高質(zhì)量的模型仍然很大程度上依賴于充足的下游任務(wù)訓(xùn)練數(shù)據(jù)，當(dāng)面對(duì)新的領(lǐng)域、問(wèn)題場(chǎng)景時(shí)，預(yù)訓(xùn)練模型的效果仍然有待提高。

在現(xiàn)實(shí)應(yīng)用場(chǎng)景中，很多領(lǐng)域及語(yǔ)言的高質(zhì)量標(biāo)注數(shù)據(jù)十分稀缺且昂貴，因此，如何讓模型在低資源的場(chǎng)景下更高效地學(xué)習(xí)是一個(gè) NLP 社群非常關(guān)注的問(wèn)題。

本文總結(jié)了我們最近在低資源 NLP 上的三個(gè)工作，分別被 IJCAI 2020 和 EMNLP 2020 高分錄用。這三個(gè)工作重點(diǎn)探索了兩個(gè)方向，第一個(gè)方向是文本粒度的無(wú)監(jiān)督領(lǐng)域遷移（下文介紹的第一個(gè)和第二個(gè)工作），我們提出了兩種從不同角度出發(fā)的領(lǐng)域遷移模型。第二個(gè)方向是無(wú)監(jiān)督文本表示，我們提出了一種基于 BERT 的無(wú)監(jiān)督方式來(lái)學(xué)習(xí)句子向量，使之不受數(shù)據(jù)標(biāo)注和領(lǐng)域的限制。

本文介紹的工作來(lái)自于阿里巴巴達(dá)摩院新加坡 NLP 團(tuán)隊(duì)，其中前兩篇是同新加坡國(guó)立大學(xué) Prof Ng Hwee Tou（ACL Fellow）的 AIR 合作項(xiàng)目產(chǎn)出。本文由達(dá)摩院邴立東、何瑞丹、張琰，蘇州大學(xué)李俊濤，新加坡國(guó)立大學(xué)葉海共同整理而成。由 PaperWeekly 編輯進(jìn)行了校對(duì)和格式調(diào)整。

無(wú)監(jiān)督領(lǐng)域遷移

2.1 IJCAI 2020

論文標(biāo)題：

Unsupervised Domain Adaptation of a Pretrained Cross-lingual Language Model

論文鏈接：

https://www.ijcai.org/Proceedings/2020/0508.pdf

論文分?jǐn)?shù)：

5, 6, 4, 5, 5, 滿分為6分

2.1.1 問(wèn)題設(shè)置

本篇論文考慮跨語(yǔ)言跨領(lǐng)域遷移，其設(shè)置是利用源語(yǔ)言和源領(lǐng)域的有標(biāo)簽訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)有監(jiān)督模型，在源語(yǔ)言的無(wú)標(biāo)簽數(shù)據(jù)集的幫助下遷移到目標(biāo)語(yǔ)言和目標(biāo)領(lǐng)域，并在測(cè)試數(shù)據(jù)集上進(jìn)行效果驗(yàn)證。鑒于我們沒(méi)有使用目標(biāo)語(yǔ)言和目標(biāo)領(lǐng)域的有標(biāo)簽數(shù)據(jù)集，該設(shè)置可以被認(rèn)為是一種無(wú)監(jiān)督的領(lǐng)域遷移形式。

2.1.2 模型架構(gòu)

本論文的總體思路是將預(yù)訓(xùn)練模型輸出的特征進(jìn)行分解，分別得到領(lǐng)域共享（domain-invariant）特征和領(lǐng)域特有（domain-specific）特征。我們發(fā)現(xiàn)，相較于直接使用預(yù)訓(xùn)練模型輸出的特征，在分解后的特征上訓(xùn)練的文本分類器具有更強(qiáng)的領(lǐng)域遷移能力。

為了不破壞預(yù)訓(xùn)練模型的泛化能力，我們采用了無(wú)監(jiān)督的設(shè)置和輕量級(jí)的遷移模塊設(shè)計(jì)。如上圖所示，我們提出的模型包括三個(gè)組成部分：

一個(gè)預(yù)訓(xùn)練好的多語(yǔ)言編碼模塊（XLMR），主要用于將輸入的文本編碼成多語(yǔ)言共享空間（language-invariant）的表示；

一個(gè)非監(jiān)督的特征分解模塊 – unsupervised feature decomposition (UFD)，用于從多語(yǔ)言共享表示空間（language-invariant）抽取領(lǐng)域共享（domain-invariant）和領(lǐng)域特有（domain-specific）的特征；

任務(wù)特有的分類器, 在這里我們使用簡(jiǎn)單的 softmax 分類器。

2.1.3 特征分解

整個(gè)模型的核心單元是特征分解模塊（UFD），用于分別抽取領(lǐng)域共享和領(lǐng)域特有特征。具體地，該模塊包含一個(gè)領(lǐng)域共享特征提取器（上圖左）和一個(gè)領(lǐng)域特有特征提取器（上圖右）。

的作用是從預(yù)訓(xùn)練模型輸出的特征中提取到領(lǐng)域共享（domain-invariant）的特征。我們提出通過(guò)最大化輸入和輸出的互信息（mutual information (MI)）這一自學(xué)習(xí)方式來(lái)訓(xùn)練的參數(shù)，其損失函數(shù) 如下，這里我們用到了 Jensen-Shannon MI estimator 來(lái)估算互信息 [1]?：

當(dāng) 在多個(gè)領(lǐng)域數(shù)據(jù)上訓(xùn)練時(shí)，最大化其輸入輸出的互信息可以使提取到這些領(lǐng)域上共有的特征。為了促進(jìn)領(lǐng)域共享特征的學(xué)習(xí)，我們還額外引入了另一個(gè)互信息極大化的訓(xùn)練損失信號(hào) – 最大化中間層和輸出層的互信息，其損失函數(shù) 如下：

的作用是從預(yù)訓(xùn)練模型輸出的特征中提取到領(lǐng)域特有（domain-specific）的特征。我們提出通過(guò)極小化和輸出之間的互信息這一自學(xué)習(xí)方式來(lái)訓(xùn)練，通過(guò)極小化互信息，抽取到的是完全獨(dú)立于的特征。由于抽取的是領(lǐng)域共享特征，抽取的可以被視為領(lǐng)域特有的特征。其損失函數(shù)如下：

因此整個(gè) UDF 模塊的訓(xùn)練目標(biāo)為：

2.1.4 模型訓(xùn)練

整個(gè)訓(xùn)練過(guò)程分為兩步。我們首先用源語(yǔ)言多個(gè)領(lǐng)域上的無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練 UDF。待 UDF 訓(xùn)練完畢后，我們固定其參數(shù)，在源語(yǔ)言源領(lǐng)域標(biāo)注樣本上訓(xùn)練最上層的分類器（注：預(yù)訓(xùn)練模型 XLMR 的參數(shù)在整個(gè)過(guò)程中是凍結(jié)的）。

2.1.5 主要實(shí)驗(yàn)結(jié)果

我們?cè)谖谋厩楦蟹诸惾蝿?wù)上進(jìn)行了實(shí)驗(yàn)。在實(shí)驗(yàn)中，我們首先使用了源語(yǔ)言(英語(yǔ))的無(wú)標(biāo)注數(shù)據(jù)（unlabeled data）[3]，包括三個(gè)不同的目標(biāo)領(lǐng)域，即 Book、Dvd、Music。該數(shù)據(jù)集用來(lái)訓(xùn)練 UDF，其具體的統(tǒng)計(jì)信息如上表所示。

除了無(wú)標(biāo)注數(shù)據(jù)以外，我們還引入了標(biāo)注數(shù)據(jù)集。該數(shù)據(jù)集 [2] 涉及到 4 個(gè)不同的語(yǔ)言，其中英語(yǔ)作為高資源的源語(yǔ)言，法語(yǔ)，德語(yǔ)，日語(yǔ)作為目標(biāo)語(yǔ)言。每個(gè)語(yǔ)言包含三個(gè)不同的領(lǐng)域，即 Book、Dvd、Music。在每個(gè)源語(yǔ)言和源領(lǐng)域有 2000 條帶標(biāo)簽的訓(xùn)練樣本，每個(gè)目標(biāo)語(yǔ)言和目標(biāo)領(lǐng)域有 2000 條帶標(biāo)簽的測(cè)試樣本。

上表給出了各個(gè)模型的對(duì)比實(shí)驗(yàn)結(jié)果（accuracy），從中我們可以看到 XLM 是一個(gè)非常強(qiáng)的基礎(chǔ)模型，在最近提出的非預(yù)訓(xùn)練模型 MAN-MOE-D 上取得了明顯的效果提升（法語(yǔ)和日語(yǔ)）。我們還觀察到預(yù)訓(xùn)練的領(lǐng)域語(yǔ)言模型 DLM 遠(yuǎn)遠(yuǎn)弱于 XLM，這說(shuō)明以語(yǔ)言模型為基礎(chǔ)的表示學(xué)習(xí)手段對(duì)訓(xùn)練數(shù)據(jù)量級(jí)的要求很高。

此外，本文提出的特征抽取模塊（UFD）極大地提升原有大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的效果。由于該模型和設(shè)置只使用了高資源源語(yǔ)言的少量無(wú)標(biāo)注數(shù)據(jù)，因此不會(huì)犧牲大規(guī)模預(yù)訓(xùn)練模型的泛化能力。

上表進(jìn)一步給出了模型消融實(shí)驗(yàn)的結(jié)果和源語(yǔ)言無(wú)標(biāo)注數(shù)據(jù)的數(shù)量對(duì)最終模型效果的影響（accuracy）。

比較有意思的結(jié)果是，只利用互信息極大化訓(xùn)練目標(biāo)函數(shù)，Max 模型并沒(méi)有像 CV 領(lǐng)域一樣促進(jìn)預(yù)訓(xùn)練模型和下游任務(wù)的融合。只有在互信息極大化和互信息極小化損失函數(shù)共同作用下，預(yù)訓(xùn)練模型的表示才能和具體領(lǐng)域的任務(wù)進(jìn)行更好的結(jié)合。

通過(guò)分析源語(yǔ)言無(wú)標(biāo)注數(shù)據(jù)的量級(jí)對(duì)領(lǐng)域遷移效果的影響，我們發(fā)現(xiàn) 3-6K 無(wú)監(jiān)督樣本已經(jīng)可以非常有效地提升預(yù)訓(xùn)練模型在特定領(lǐng)域任務(wù)上的表現(xiàn)。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ??

2.2 EMNLP 2020

論文標(biāo)題：

Feature Adaptation of Pre-Trained Language Models?across Languages and Domains with Robust Self-training

論文鏈接：

https://arxiv.org/abs/2009.11538

論文分?jǐn)?shù)：

4.5, 4, 4

2.2.1 問(wèn)題設(shè)置

本篇論文的問(wèn)題設(shè)置是典型的無(wú)監(jiān)督領(lǐng)域遷移。給定源領(lǐng)域的標(biāo)注數(shù)據(jù) 和目標(biāo)領(lǐng)域無(wú)標(biāo)注數(shù)據(jù) ，訓(xùn)練一個(gè)模型，測(cè)試其在目標(biāo)領(lǐng)域數(shù)據(jù)集上的效果。我們依然專注文本分類的問(wèn)題，而且也同時(shí)考慮跨領(lǐng)域和跨語(yǔ)言的設(shè)定。為了做到跨語(yǔ)言，同樣地，我們采用了多語(yǔ)言預(yù)訓(xùn)練模型（XLMR）作為下層的特征編碼器。

2.2.2 ?模型架構(gòu)

自訓(xùn)練 (self-training) 是領(lǐng)域適應(yīng)場(chǎng)景中常見(jiàn)的一種方法。這種方法大多以bootstrapping 的方式對(duì)目標(biāo)領(lǐng)域無(wú)標(biāo)注樣本進(jìn)行標(biāo)注得到偽標(biāo)簽（pseudo labels），然后將高確定性的樣本加入訓(xùn)練集用于下一輪模型學(xué)習(xí)。

雖然自訓(xùn)練在一些情況下很有效，但是此方法極易受到噪聲的影響。主要問(wèn)題是，在源領(lǐng)域標(biāo)注數(shù)據(jù)上訓(xùn)練后的編碼器由于其參數(shù)只針對(duì)源領(lǐng)域進(jìn)行了優(yōu)化，其對(duì)目標(biāo)領(lǐng)域編碼后得到的特征可能變得不可識(shí)別（non-discriminative）。分類器在這樣的特征上預(yù)測(cè)的偽標(biāo)簽是非常不準(zhǔn)確的，進(jìn)一步給下一輪的自訓(xùn)練帶去了諸多噪音。

我們提出的方法基于自訓(xùn)練，為了減少噪聲對(duì)算法的影響，提高算法的魯棒性，我們提出了 CFd ?(class-aware feature self-distillation) 算法，通過(guò)在目標(biāo)領(lǐng)域?qū)W習(xí)可識(shí)別（discriminative）特征來(lái)提高偽標(biāo)簽的準(zhǔn)確度，緩解偽標(biāo)簽帶來(lái)的噪聲問(wèn)題。

上圖展示了我們模型的網(wǎng)絡(luò)架構(gòu)，其自下而上分為預(yù)訓(xùn)練語(yǔ)言模型（pretrained language model, PrLM for short），用于對(duì)輸入文本進(jìn)行初步編碼；編碼器又叫特征映射器（feature adaptation module, FAM for short），用于將預(yù)訓(xùn)練模型輸出的特征映射到低維空間；以及分類器（classifier）。

由于預(yù)訓(xùn)練模型不同層的特征具有的遷移能力不同 [6,7]，為了能夠達(dá)到更好的遷移效果，我們把多層的特征融合到一起。在 FAM 中，我們通過(guò)注意力機(jī)制來(lái)學(xué)習(xí)各層特征的權(quán)重，然后將乘上權(quán)重后的特征相加，作為 FAM 的輸出。

2.2.3 自訓(xùn)練算法

自訓(xùn)練是整體算法的基礎(chǔ)。一開(kāi)始訓(xùn)練集只包含源領(lǐng)域的所有標(biāo)注數(shù)據(jù)，在每輪訓(xùn)練后，模型會(huì)對(duì)所有目標(biāo)領(lǐng)域的無(wú)標(biāo)簽樣本進(jìn)行預(yù)測(cè)，生成偽標(biāo)簽，然后選擇部分目標(biāo)領(lǐng)域的樣本進(jìn)入訓(xùn)練集用于下一輪模型訓(xùn)練。

我們首先用熵?fù)p失（entropy loss）對(duì)所有無(wú)標(biāo)簽樣本排序，熵?fù)p失越小，排序越靠前，代表分類器對(duì)此樣本的偽標(biāo)簽確定性越高。然后將所有樣本根據(jù)其偽標(biāo)簽分類，平均地從每類選擇熵?fù)p失最小的 K 個(gè)樣本。

2.2.4 CFd算法

CFd 是本篇論文的主要貢獻(xiàn)。其主要通過(guò)兩個(gè)部分來(lái)學(xué)習(xí)目標(biāo)領(lǐng)域可識(shí)別特征。第一部分是特征自蒸餾算法，第二部分是學(xué)習(xí)標(biāo)簽的聚類信息。

特征自蒸餾：當(dāng)模型僅通過(guò)有監(jiān)督的方式在源領(lǐng)域數(shù)據(jù)上學(xué)習(xí)時(shí)，經(jīng) FAM 輸出的目標(biāo)領(lǐng)域樣本特征可能變得不可識(shí)別（non-discriminative）。

由于預(yù)訓(xùn)練模型自身就能生成優(yōu)異的可識(shí)別特征（訓(xùn)練過(guò)程中預(yù)訓(xùn)練模型參數(shù)固定），因此在對(duì) FAM 進(jìn)行有監(jiān)督訓(xùn)練時(shí)，我們可以通過(guò)構(gòu)造自學(xué)習(xí) （self-learning）任務(wù)的方式同時(shí)在目標(biāo)領(lǐng)域無(wú)標(biāo)注樣本上對(duì)其進(jìn)行訓(xùn)練，目的是使其輸出特征保留原預(yù)訓(xùn)練模型特征的可識(shí)別性。

我們把這個(gè)過(guò)程叫做自蒸餾。上圖展示了自蒸餾的過(guò)程，這里的目標(biāo)函數(shù)是最大化預(yù)訓(xùn)練模型 average pooling 后的特征和 FAM 輸出的特征之間的互信息（mutual information）。其損失函數(shù)記為。?

聚類信息：對(duì)于訓(xùn)練集中來(lái)自源領(lǐng)域和目標(biāo)領(lǐng)域帶有偽標(biāo)簽的樣本，我們首先將它們按照標(biāo)簽分組，然后計(jì)算每組特征的中心點(diǎn)。接著我們構(gòu)造一個(gè)損失函數(shù) 去最小化每個(gè)數(shù)據(jù)點(diǎn)到其所在組中心點(diǎn)的距離，這樣能近一步讓所有樣本的特征變得可以識(shí)別（discriminative）。

CFd 損失函數(shù)：因此 CFd 的損失函數(shù)為。CFd 部分的損失函數(shù)是無(wú)監(jiān)督的，其會(huì)被加到源領(lǐng)域上的有監(jiān)督損失中一起引導(dǎo)模型進(jìn)行訓(xùn)練。

2.2.5 主要實(shí)驗(yàn)結(jié)果

我們?cè)谖谋厩楦蟹诸惾蝿?wù)上實(shí)驗(yàn)了提出的算法，使用到了單語(yǔ)言（MonoAmazon [4]）和多語(yǔ)言（MultiAmazon [5]）兩個(gè)數(shù)據(jù)集。其中，單語(yǔ)言有 4 個(gè) domain，包括 Book, Electronics, Beauty 以及 Music；多語(yǔ)言包括了英語(yǔ)、德語(yǔ)、法語(yǔ)和日語(yǔ)，每個(gè)語(yǔ)言包括了 Book, Dvd 和 Music 3 個(gè) domain。

在單語(yǔ)言上，我們只考慮了 cross-domain 的設(shè)定，而在多語(yǔ)言上，我們不僅考慮了 cross-domain，而且考慮了 cross-language，cross-domain&cross-language。

以下是我們的實(shí)驗(yàn)結(jié)果（accuracy），從實(shí)驗(yàn)結(jié)果中我們可以發(fā)現(xiàn)，對(duì)比自訓(xùn)練的基準(zhǔn)模型 (p)，我們的算法（p+CFd）無(wú)論在跨 domain 還是跨 language 的設(shè)定上都有穩(wěn)定且顯著的效果提升。

同時(shí)我們也發(fā)現(xiàn)在固定 XLMR 參數(shù)的情況下，用最上面 10 層特征的融合（xlmr-10）會(huì)大幅好于只用最后一層的特征（xlmr-1），甚至好于對(duì) XLMR 進(jìn)行 finetune (xlmr-tuning)。

???

無(wú)監(jiān)督文本表示

論文標(biāo)題：

An Unsupervised Sentence Embedding Method by Mutual Information Maximization

論文鏈接：

https://arxiv.org/abs/2009.12061

論文分?jǐn)?shù)：

3, 4, 5

文本匹配技術(shù)如文本相似度、文本相關(guān)性計(jì)算，是很多應(yīng)用系統(tǒng)中的核心 NLP 模塊，包括搜索引擎、智能問(wèn)答、知識(shí)檢索、信息流推薦等。例如，智能問(wèn)答系統(tǒng)一般是從大量存儲(chǔ)的 Doc 中，選取與用戶輸入 Query 最匹配的那個(gè) Doc。

盡管 BERT 已經(jīng)在文本匹配任務(wù)如句子對(duì)回歸（Sentence Pair Regression）等取得了很好的效果，但 BERT 使用了交叉編碼器，這需要將兩個(gè)句子都輸入到 transformer 網(wǎng)絡(luò)對(duì)目標(biāo)值進(jìn)行預(yù)測(cè)，從而帶來(lái)大量計(jì)算。

例如，從 1 萬(wàn)個(gè)句子中找相似對(duì)，就需要用 BERT 進(jìn)行約 5 千萬(wàn)次計(jì)算（單塊 v100 GPU 耗時(shí)約 65 小時(shí)）。為解決這個(gè)問(wèn)題，可以先將所有句子映射到固定大小的向量空間，使得語(yǔ)義相似的句子位置相近，再用余弦距離對(duì)句子對(duì)回歸任務(wù)進(jìn)行評(píng)估，這可以極大提高計(jì)算效率。

例如，可以將 BERT 的輸出層平均化或使用第一個(gè) token（[CLS]）的 embedding 作為句向量，但這樣的句子表征效果很差，之前的研究發(fā)現(xiàn)此方法甚至不如用 GloVe 向量取平均來(lái)作為句子表示的效果好 [8]。

BERT 的改進(jìn)版 Sentence-BERT（SBERT）[8] 使用二元和三元網(wǎng)絡(luò)結(jié)構(gòu)來(lái)獲得包含語(yǔ)義的句向量。該向量可用于相似度計(jì)算，使尋找相似對(duì)的工作從 BERT 的 65 小時(shí)減少到 SBERT 的 5 秒，同時(shí)保證了 BERT 的正確率。

但是，此類改進(jìn)依賴于高質(zhì)量的監(jiān)督學(xué)習(xí)數(shù)據(jù)。我們發(fā)現(xiàn)，當(dāng)目標(biāo)任務(wù)的標(biāo)記數(shù)據(jù)極為匱乏，或測(cè)試集與訓(xùn)練集的數(shù)據(jù)分布明顯不同時(shí)，SBERT 的性能會(huì)顯著下降。為此，我們提出了一種無(wú)監(jiān)督訓(xùn)練方式來(lái)學(xué)習(xí)句向量，使之能不受數(shù)據(jù)標(biāo)注和數(shù)據(jù)領(lǐng)域的限制，并同時(shí)保證 BERT 在語(yǔ)義文本匹配等任務(wù)上的準(zhǔn)確率和效率。

3.1 模型架構(gòu)

受無(wú)監(jiān)督圖片表示學(xué)習(xí)的啟發(fā) [9]，本篇論文提出了一種思路類似的但可用于文本的自學(xué)習(xí)（self-learning）方法來(lái)進(jìn)行無(wú)監(jiān)督句子表示學(xué)習(xí)。如上圖所示，我們提出的模型主要包括三個(gè)組成部分：

1）一個(gè)預(yù)訓(xùn)練好的編碼模塊（BERT）模型，主要用于將輸入的文本進(jìn)行編碼；

2）多個(gè)卷積神經(jīng)網(wǎng)絡(luò) （CNN），用于提取不同的文本局部信息（n-gram）。

3）基于互信息最大化（Mutual Information (MI) maximization）的句向量學(xué)習(xí)模塊。

模型工作流程如下。句子輸入到 BERT 后被編碼，其輸出的 token embeddings 通過(guò)多個(gè)不同 kernel size 的一維卷積神經(jīng)網(wǎng)絡(luò) （CNN）得到多個(gè) n-gram 特征。我們把每一個(gè) n-gram 特征當(dāng)成局部表征（Local representation），將平均池化（Mean Pooling）后的局部表征稱為全局表征（Global representation）。

最后，我們用一個(gè)基于互信息的損失函數(shù)來(lái)學(xué)習(xí)最終的句向量。該損失函數(shù)的出發(fā)點(diǎn)是最大化句子的全局表征（句向量）與局部表征之間的平均互信息值，因?yàn)閷?duì)于一個(gè)好的全局句向量，它與所對(duì)應(yīng)的局部表征之間的 MI 應(yīng)該是很高的，相反，它與其他句子的局部表征間的 MI 應(yīng)該是很低的。

在實(shí)現(xiàn)上，我們用鑒別器（Discriminator）接受所有的特征表示對(duì)（局部表征，全局表征），并對(duì)每一對(duì)輸入進(jìn)行打分。在上圖這個(gè)例子中，對(duì)于句子 A 的句向量，我們將其與句子 A 的局部特征向量配對(duì)作為正樣本，和 B 的局部特征向量配對(duì)作為負(fù)樣本。

整個(gè)自學(xué)習(xí)任務(wù)的優(yōu)化目標(biāo)是最大化鑒別器對(duì)正樣本的打分以及最小化對(duì)負(fù)樣本的打分，以此來(lái)訓(xùn)練編碼器（BERT+CNN）進(jìn)行句子表征學(xué)習(xí)。這樣的任務(wù)類似? contrastive learning，可以鼓勵(lì)編碼器更好地捕捉句子的局部表征，并且更好地區(qū)分不同句子之間的表征。

3.2 主要實(shí)驗(yàn)結(jié)果

為了方便，我們的模型命名為 IS-BERT。我們?cè)诓煌?STS（semantic textual similarity）數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。上面表 1 展示了 STS 基準(zhǔn)數(shù)據(jù)集上的結(jié)果（spearman’s rank correlation）。

這組數(shù)據(jù)集的文本來(lái)自開(kāi)放領(lǐng)域，所以在實(shí)驗(yàn)中我們和 SBERT 一樣，在 SNLI 和 MultiNLI 數(shù)據(jù)集上進(jìn)行訓(xùn)練。注意 SBERT 學(xué)習(xí)用到了這兩個(gè)數(shù)據(jù)集的標(biāo)簽信息，但 IS-BERT 只用到了文本信息（raw text）進(jìn)行學(xué)習(xí)。

從表 1 中我們可以看到所有的有監(jiān)督方法（SBERT, USE, InferSent）都優(yōu)于其他的無(wú)監(jiān)督模型。這很大程度上是因?yàn)?NLI 數(shù)據(jù)集和 STS 數(shù)據(jù)集比較相關(guān)，通過(guò)在 NLI 數(shù)據(jù)上進(jìn)行有監(jiān)督訓(xùn)練得到句子表征信息比較適用于這組 STS 任務(wù)。

但看無(wú)監(jiān)督模型，我們的 IS-BERT 模型遠(yuǎn)遠(yuǎn)強(qiáng)于其他的無(wú)監(jiān)督學(xué)習(xí)方法，甚至在許多任務(wù)（5/7）上優(yōu)于 InferSent 等監(jiān)督訓(xùn)練的模型。IS-BERT 雖然明顯弱于 USE 和? SBERT 這兩種有監(jiān)督訓(xùn)練的方法，但我們的模型不受數(shù)據(jù)標(biāo)注的限制并且在部分任務(wù)上（STS13 and STS15）與有監(jiān)督的學(xué)習(xí)方法效果相當(dāng)。

表 2 展示了在模型在另一個(gè) argument 相關(guān)的數(shù)據(jù)集上的效果（pearson correlation and spearman’s rank correlation）。這個(gè)數(shù)據(jù)集更 task-specific 且更有挑戰(zhàn)性。我們的實(shí)驗(yàn)設(shè)置是所有模型都不能用 task-specific 的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，這是一個(gè)非常貼合現(xiàn)實(shí)的設(shè)置。

在這種情況下 SBERT 只能先在 NLI 上學(xué)習(xí)句子編碼，然后在這個(gè)數(shù)據(jù)集上測(cè)試。由于 NLI 和這個(gè) argument 數(shù)據(jù)集語(yǔ)義差距很大， SBERT 在這種情況下的表現(xiàn)很差。我們提出的 IS-BERT 由于是無(wú)監(jiān)督的，可以直接在 task-specific 的無(wú)標(biāo)簽文本上進(jìn)行訓(xùn)練，固而在這種場(chǎng)景下表現(xiàn)顯著優(yōu)于其他方法。

? ? ? ? ? ? ? ??

總結(jié)

如何在低資源場(chǎng)景下進(jìn)行模型訓(xùn)練是自然語(yǔ)言處理中最重要也是最有挑戰(zhàn)性的問(wèn)題之一，其中包含諸多研究方向，本文呈現(xiàn)的工作僅就其中兩個(gè)方向進(jìn)行了探索。就文本領(lǐng)域遷移，我們分別從特征分解和強(qiáng)化自訓(xùn)練兩個(gè)不同角度提出了更高效的方法。

就文本表示，我們提出了基于預(yù)訓(xùn)練模型的簡(jiǎn)單高效的無(wú)監(jiān)督方法。這兩個(gè)方向都有很大的進(jìn)一步研究空間。針對(duì)領(lǐng)域遷移，我們后續(xù)會(huì)探索將文本粒度的方法拓展到其它如序列標(biāo)注，seq2seq 一類的任務(wù)上。針對(duì)無(wú)監(jiān)督文本表示，進(jìn)一步探索其在跨語(yǔ)言場(chǎng)景中的潛力將是一個(gè)比較有意義的方向。

參考文獻(xiàn)

[1] Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Philip Bachman, Adam Trischler, and Yoshua Bengio. 2019. Learning deep representations by mutual information estimation and maximization. In ICLR.

[2] Peter Prettenhofer and Benno Stein. 2010. Cross-language text classification using structural corre- spondence learning. In ACL.

[3] Ruining He and Julian McAuley. 2016. Ups and downs: Modeling the visual evolution of fash- ion trends with one-class collaborative filtering. In WWW

[4] Ruidan He, Wee Sun Lee, Hwee Tou Ng, and Daniel Dahlmeier. 2018. Adaptive semi-supervised learning for cross-domain sentiment classification. In EMNLP.

[5] Peter Prettenhofer and Benno Stein. 2010. Cross-language text classification using structural corre- spondence learning. In ACL.

[6] Yaru Hao, Li Dong, Furu Wei, and Ke Xu. 2019.? Visualizing and understanding the effectiveness of BERT. In EMNLP-IJCNLP.

[7] Nelson F. Liu,?? Matt Gardner,?? Yonatan Belinkov, Matthew E. Peters, and Noah A. Smith. 2019b. ?Lin-

guistic knowledge and transferability of contextual representations. In NAACL-HLT.

[8] Nils Reimers and Iryna Gurevych. 2019. Sentence- BERT: Sentence embeddings using Siamese BERT- networks. In EMNLP-IJCNLP.?

[9] Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, Karan Grewal, Philip Bachman, Adam Trischler, and Yoshua Bengio. 2019. Learning deep representations by mutual information estimation and maximization. In ICLR.

[10] Amita Misra, Brian Ecker, and Marilyn Walker. 2016. Measuring the similarity of sentential arguments in dialogue. In Proc. of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue.? ??

關(guān)于作者

邴立東，現(xiàn)任阿里巴巴達(dá)摩院?NLP Lab 新加坡團(tuán)隊(duì)負(fù)責(zé)人，香港中文大學(xué)博士，卡內(nèi)基梅隆大學(xué)博士后，曾任騰訊人工智能實(shí)驗(yàn)室高級(jí)研究員。從事自然語(yǔ)言處理領(lǐng)域的研發(fā)工作近 10 年，目前研究興趣集中于低資源NLP問(wèn)題、情感分析、文本生成、表示學(xué)習(xí)、論辯挖掘等。近年來(lái)在頂級(jí)人工智能會(huì)議及期刊上，發(fā)表論文近 100 篇。以副主編、領(lǐng)域主席、高級(jí)程序委員等身份，多次參與頂級(jí)自然語(yǔ)言和機(jī)器學(xué)習(xí)期刊、會(huì)議的組織和審稿工作。其帶領(lǐng)的新加坡 NLP 團(tuán)隊(duì)開(kāi)發(fā)的多語(yǔ)言 NLP 技術(shù)，全面賦能 Lazada、Daraz 等國(guó)際化電商平臺(tái)，打造云上 NLP 能力的優(yōu)勢(shì)項(xiàng)并助力阿里云出海業(yè)務(wù)拓展；東南亞語(yǔ)言翻譯能力賦能釘釘國(guó)際化和 Lazada 跨境電商。團(tuán)隊(duì)同新加坡高校多名教授開(kāi)展項(xiàng)目合作，并聯(lián)合培養(yǎng)近 10 名博士生。

何瑞丹，現(xiàn)任阿里巴巴達(dá)摩院 NLP Lab?新加坡團(tuán)隊(duì)?Scientist，新加坡國(guó)立大學(xué)博士。目前研究興趣包括遷移學(xué)習(xí)，無(wú)監(jiān)督/半監(jiān)督學(xué)習(xí)，低資源 NLP 等。

張琰，新加坡國(guó)立大學(xué)博士后，博士畢業(yè)于新加坡科技與設(shè)計(jì)大學(xué)，研究方向?yàn)閳D與文本表示學(xué)習(xí)。

李俊濤，蘇州大學(xué)特聘副教授，2020 年從北京大學(xué)王選計(jì)算機(jī)研究所&大數(shù)據(jù)中心獲得博士學(xué)位。研究方向?yàn)樽匀徽Z(yǔ)言生成，對(duì)話系統(tǒng)，跨語(yǔ)言&領(lǐng)域遷移。截止到 2020 年，在 ACL/EMNLP/AAAI/IJCAI 上發(fā)表 10 余篇論文，兩次 CCF A 會(huì)議 tutorial 報(bào)告。擔(dān)任 ACL/EMNLP/AAAI/IJCAI/CL/TKDE 等會(huì)議和期刊審稿人。

葉海，新加坡國(guó)立大學(xué)研究助理，目前研究興趣：CQA、低資源 NLP 等。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來(lái)稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的无监督领域迁移及文本表示学习的相关进展的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：普通轮式和全方位式移动机器人的区别是什么
下一篇：采样算法哪家强？一个针对主流采样算法的比