【NLP】人大团队研究:面向文本生成,预训练模型进展梳理
文本生成是?NLP 中最重要且頗具挑戰(zhàn)性的任務(wù)之一。近年來,預(yù)訓(xùn)練語言模型 (Pretrained Language Models ,下文簡稱 “PLM”) 的范式,極大地推動(dòng)了該領(lǐng)域的發(fā)展。例如,我們曾介紹過 AI 在古詩生成上的突破《清華團(tuán)隊(duì)最新成果:可致特朗普能詠比特幣,AI 寫古詩 “更上一層樓”》。
最近,一項(xiàng)由中國人民大學(xué)團(tuán)隊(duì)完成的預(yù)印本論文 Pretrained Language Models for Text Generation: A Survey,概述了在用于文本生成的 PLM 主題中取得的主要進(jìn)展,旨在為文本生成研究人員提供相關(guān)研究的綜述與指導(dǎo)。
Transformer 與 PLM 的興起
文本生成,旨在將輸入數(shù)據(jù)(例如,序列和關(guān)鍵字)以人類語言模式生成合理且可讀的文本。
PLM 的思路,則是首先在大規(guī)模語料庫中預(yù)訓(xùn)練模型,然后在各種下游任務(wù)中對這些模型進(jìn)行微調(diào),以達(dá)到最先進(jìn)的結(jié)果。
PLM 可以從語料庫中編碼大量語言知識(shí),并促使生成語言的通用表示。因此,PLM 通常有利于下游任務(wù),并且可以避免從頭開始訓(xùn)練新模型。
此外,隨著算力的增強(qiáng)和 Transformer 架構(gòu)的出現(xiàn),PLM 由淺入深,在許多任務(wù)中取得了出色的性能,例如 BERT 和 GPT。因此,研究人員提出了各種方法來解決基于 PLM 的文本生成任務(wù)。
文本生成的核心是生成一系列離散標(biāo)記序列 y=〈y1, . . . , yj, . . . , yn〉,其中每個(gè) yj 是從單詞詞匯表 V 中提取的。在大多數(shù)情況下,文本生成以輸入數(shù)據(jù)為條件,例如屬性、文本和結(jié)構(gòu)化數(shù)據(jù),記為??。形式上,文本生成任務(wù)可以描述為:
?χχ?? ??
輸入?? | 任務(wù) |
隨機(jī)噪聲(Random noise) | 無條件文本生成(Unconditional text generation) |
離散屬性(Discrete attributes) | 主題到文本的生成(Topic-to-text generation) |
基于屬性的文本生成(Attribute-based generation) | |
結(jié)構(gòu)化數(shù)據(jù)(Structured data) | 數(shù)據(jù)到文本的生成(Data-to-text generatio) |
多媒體(Multimedia) | 圖像文本描述(Image Caption) |
語音識(shí)別(Speech recognition) | |
文本序列(Text sequence) | 機(jī)器翻譯(Machine translation) |
總結(jié)(Summarization) | |
對話系統(tǒng)(Dialogue system) |
表 1 文本生成的主要任務(wù)及其對應(yīng)輸入
PLM ?使用大量未標(biāo)記的文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并且可以在下游生成任務(wù)上進(jìn)行微調(diào)。
在大規(guī)模語料庫上預(yù)訓(xùn)練的 PLM 將海量的語言和世界知識(shí)編碼為大量參數(shù),可以增強(qiáng)對語言的理解并提高生成質(zhì)量。預(yù)訓(xùn)練的思想受到人類思維的啟發(fā),比如人類會(huì)轉(zhuǎn)移和重用過去所學(xué)的舊知識(shí),以理解新知識(shí)并處理各種新任務(wù)。受此啟發(fā),PLM 可以利用舊經(jīng)驗(yàn)和知識(shí)成功地執(zhí)行新任務(wù)。
由于 Transformer 取得的巨大成就,幾乎所有的 PLM 都采用了 Transformer 的骨干網(wǎng)絡(luò)。對于文本生成任務(wù),一些 PLM 使用遵循基本編碼器 - 解碼器框架的標(biāo)準(zhǔn) Transformer 架構(gòu),而其他 PLM 使用僅解碼器的 Transformer。
不同的數(shù)據(jù)類型
從輸入來看,文本生成可以分為三種主要輸入,即非結(jié)構(gòu)化輸入、結(jié)構(gòu)化輸入和多媒體輸入。PLM 將對這些輸入數(shù)據(jù)進(jìn)行建模。
丨非結(jié)構(gòu)輸入
在 NLP 研究中,大多數(shù)研究側(cè)重于對非結(jié)構(gòu)化文本輸入(例如,句子、段落和文檔)進(jìn)行建模。要生成令人滿意的輸出文本,需要具備出色語言理解能力,即超越輸入文本中單個(gè)單詞表面含義。
在某些情況下,輸入文本可能是由多個(gè)句子和段落組成的長文檔。對于受句子或短段落約束的 PLM,它們不太能夠準(zhǔn)確地對文檔中的長期依賴項(xiàng)進(jìn)行建模。考慮到這一挑戰(zhàn),分層 BERT 被提出用來學(xué)習(xí)具有自注意力的句子之間的交互以進(jìn)行文檔編碼。此外,為了捕獲句間關(guān)系,DiscoBERT 在 BERT 之上堆疊圖卷積網(wǎng)絡(luò) (GCN) 以對結(jié)構(gòu)性話語圖進(jìn)行建模。通過直接對話語單元進(jìn)行操作,DiscoBERT 保留了包含更多概念或上下文的能力,從而產(chǎn)生更簡潔和信息量更大的輸出文本。
該研究觀察到大多數(shù)最新的 PLM 都是針對英文文本進(jìn)行預(yù)訓(xùn)練的。然而,許多多語言生成任務(wù)(例如機(jī)器翻譯)涉及多種語言,某些語言資源不足,這一挑戰(zhàn)阻礙了單語 PLM 在多語文本生成任務(wù)中的廣泛應(yīng)用。因此,Conneau 等人提出學(xué)習(xí)跨語言模型(XLMs)以進(jìn)行多語言理解。基于跨語言 PLM,文本生成模型即使在資源匱乏的語言中仍可獲得有效的輸入詞嵌入。
丨結(jié)構(gòu)化輸入
結(jié)構(gòu)化數(shù)據(jù)(例如圖形和表格)也是許多實(shí)際應(yīng)用(例如天氣報(bào)告生成)中文本生成的關(guān)鍵輸入類型。然而,在現(xiàn)實(shí)世界的場景中,很難收集大量帶有真實(shí)文本的標(biāo)記結(jié)構(gòu)化數(shù)據(jù)進(jìn)行訓(xùn)練。由于在大規(guī)模語料庫上進(jìn)行了預(yù)訓(xùn)練,PLM 編碼了大量的語言知識(shí),并在許多任務(wù)中表現(xiàn)出出色的小樣本能力。
在將 PLM 應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)時(shí),一個(gè)主要挑戰(zhàn)是如何將結(jié)構(gòu)化數(shù)據(jù)輸入到 PLM 中,PLM 最初是為序列文本設(shè)計(jì)的。為了適應(yīng) PLM 的順序性質(zhì),Ribeiro 等人將輸入知識(shí)圖(KG)和抽象意義表示(AMR)圖線性化為三元組序列,Li 等人引入了一個(gè)額外的圖編碼器來對輸入 KG 進(jìn)行編碼,Gogo 采用基于模板的方法將輸入表序列化為文本序列。例如,屬性 - 值對 “name: jackreynolds” 將被序列化為句子 “name is jackreynolds”。然而,直接線性化會(huì)丟失原始數(shù)據(jù)的結(jié)構(gòu)信息,這可能導(dǎo)致生成關(guān)于數(shù)據(jù)的不忠實(shí)原文本。因此,為了生成忠實(shí)文本,Gong 等人提出了一個(gè)輔助重建任務(wù)來恢復(fù)輸入數(shù)據(jù)的結(jié)構(gòu)信息,這可以增強(qiáng)建模結(jié)構(gòu)信息的能力。
通常,輸出文本應(yīng)盡可能多地保留結(jié)構(gòu)化數(shù)據(jù)中的重要信息。因此,為了生成符合輸入的高保真文本,采用指針生成器機(jī)制從輸入知識(shí)數(shù)據(jù)中復(fù)制單詞。通過將 PLM 以外部知識(shí)為基礎(chǔ),很可能賦予生成模型兼具豐富的知識(shí)和良好的泛化能力。
丨多媒體輸入
除了上述文本數(shù)據(jù)之外,還進(jìn)行了一些嘗試將多媒體數(shù)據(jù)(例如圖像、視頻和語音)作為輸入,例如圖像、視頻文本描述和語音識(shí)別等。VideoBERT 和 CBT 都對視頻文本描述任務(wù)進(jìn)行了預(yù)訓(xùn)練。
然而,它們僅對基于 BERT 的編碼器進(jìn)行了預(yù)訓(xùn)練,以學(xué)習(xí)視覺和語言標(biāo)記序列的雙向聯(lián)合分布。所以必須再訓(xùn)練一個(gè)單獨(dú)的視頻到文本解碼器,但這往往會(huì)導(dǎo)致預(yù)訓(xùn)練 - 微調(diào)的差異。相比之下,Unified VLP 使用共享的多層 Trans-former 網(wǎng)絡(luò)進(jìn)行編碼和解碼。
受 GPT 中生成預(yù)訓(xùn)練目標(biāo)的啟發(fā),跨模態(tài)預(yù)訓(xùn)練模型(XGPT)被提出,以圖像為輸入,在預(yù)訓(xùn)練階段使用圖像標(biāo)題任務(wù)作為基本生成任務(wù)。
除了圖像和視頻,語音識(shí)別還需要人工轉(zhuǎn)錄的監(jiān)督數(shù)據(jù)。因此,開發(fā)了許多無監(jiān)督和半監(jiān)督方法來集成 PLM 以進(jìn)行弱監(jiān)督學(xué)習(xí)。例如,還有團(tuán)隊(duì)提出了一種無監(jiān)督的方法來預(yù)訓(xùn)練編碼器 - 解碼器模型,其中包含不成對的語音和書面文本。兩個(gè)預(yù)訓(xùn)練階段用于分別提取帶有語音和書面文本的聲學(xué)和語言信息,這對于下游的語音識(shí)別任務(wù)很有用。
3 大關(guān)鍵要求
在不同的文本生成任務(wù)中,生成的文本應(yīng)該滿足幾個(gè)關(guān)鍵屬性,即相關(guān)性、忠于原文和順序一致。
根據(jù)語言學(xué)文獻(xiàn),在文本生成中,相關(guān)性是指輸出文本中的主題與輸入文本高度相關(guān)。一個(gè)代表性的例子是對話系統(tǒng)的任務(wù),它需要生成的響應(yīng)與輸入對話歷史相關(guān)。除了對話歷史之外,還可以提供與響應(yīng)類型相對應(yīng)的條件作為外部輸入,例如響應(yīng)的主題和說話者的角色。生成的響應(yīng)也應(yīng)該與條件相關(guān)。
同樣,忠于原文也是文本生成的一個(gè)關(guān)鍵指標(biāo),它要求生成文本中的內(nèi)容不應(yīng)與輸入文本中的事實(shí)相矛盾。有時(shí),它進(jìn)一步意味著生成的文本符合世界事實(shí)。一個(gè)代表性的例子是文本摘要任務(wù),其目的是生成代表原始內(nèi)容中最重要信息的忠實(shí)文本。在大量文本集合上進(jìn)行預(yù)訓(xùn)練,PLM 可能有利于利用背景知識(shí)生成忠實(shí)的文本。
另外,在 NLP 領(lǐng)域,順序保持表示輸入和輸出文本中語義單元(詞、短語等)的順序是一致的。
最有代表性的例子是機(jī)器翻譯任務(wù)。從源語言翻譯成目標(biāo)語言時(shí),保持源語言和目標(biāo)語言的短語順序一致,會(huì)在一定程度上保證翻譯結(jié)果的準(zhǔn)確性。
幾種常用的微調(diào)策略
對于使用 PLM 生成文本,一個(gè)關(guān)鍵因素是如何設(shè)計(jì)合適的微調(diào)策略。在這一部分,該研究從數(shù)據(jù)、任務(wù)和模型 3 大角度回顧了幾種常用的微調(diào)策略。
丨數(shù)據(jù)角度
在將 PLMs 應(yīng)用于文本生成任務(wù)尤其是在新領(lǐng)域的文本生成任務(wù)時(shí),如何設(shè)計(jì)適合新領(lǐng)域特點(diǎn)的合適有效的微調(diào)策略是一個(gè)重要的考慮因素。
小樣本學(xué)習(xí):通常采用的方法是使用預(yù)訓(xùn)練參數(shù)插入現(xiàn)有模塊。然后該研究用幾個(gè)、一個(gè)甚至沒有研究任務(wù)的例子對它進(jìn)行微調(diào),分別是所謂的少樣本、單樣本和零樣本。
例如在多語言翻譯中,一些低資源語言缺乏足夠的平行語料庫。XLM 提出學(xué)習(xí)跨語言模型,可以將在高資源語言中學(xué)到的知識(shí)用于低資源語言。使用第 4 節(jié)中提出的方法,小樣本學(xué)習(xí)也可以應(yīng)用于數(shù)據(jù)到文本的任務(wù)。
領(lǐng)域轉(zhuǎn)移:在微調(diào)目標(biāo)任務(wù)之前,繼續(xù)在具有預(yù)訓(xùn)練目標(biāo)的特定數(shù)據(jù)上訓(xùn)練 PLM。掩碼預(yù)測是一種廣泛使用的方法,試圖使用剩余的令牌來預(yù)測被掩碼的令牌。領(lǐng)域轉(zhuǎn)移中存在多種掩蔽方式的變體。
丨任務(wù)角度
除了新領(lǐng)域的特征外,在微調(diào) PLM 時(shí)考慮特定生成任務(wù)中的語言連貫性和文本保真度等特殊問題也很有意義。
增強(qiáng)連貫性:為了增強(qiáng)語言連貫性,一個(gè)重要的方法是在微調(diào)期間更好地建模語言上下文。通過對比學(xué)習(xí)微調(diào)的模型擅長區(qū)分句子對是否相似。通過這種方法,PLM 被迫理解兩個(gè)句子之間的位置或語義關(guān)系,從而獲得更好的表示。
下一句預(yù)測(NSP)是判斷兩個(gè)輸入句子是否為連續(xù)句段的常用方法,可應(yīng)用于摘要和對話系統(tǒng)。
去噪自動(dòng)編碼 (DAE) 將損壞的文本作為輸入,旨在恢復(fù)原始文本。使用 DAE 微調(diào)的模型具有很強(qiáng)的理解整體句子和捕獲更遠(yuǎn)距離相關(guān)性的能力。
保真度:文本保真度是指生成的文本如何與原始輸入信息保持一致,這是許多文本生成任務(wù)中需要考慮的一個(gè)重要方面。PLMs 中的通用結(jié)構(gòu)無法在特定文本生成任務(wù)中保留文本保真度。對于表到文本生成任務(wù),需要對表的結(jié)構(gòu)信息進(jìn)行編碼。
數(shù)據(jù) | 種類 | 方法 |
輸入 | 非結(jié)構(gòu)化 | BERT 充當(dāng)文本編碼器;用于文檔建模的分層;以及用于多語言輸入文本的跨語言 PLM。 |
結(jié)構(gòu)化 | 將 KG 和 AMR 圖線性化為三重序列;用于編碼 KG 的圖編碼器;以及將表序列化為基于模板的文本序列。 | |
多媒體 | 視頻文本描述;圖像文本描述;以及語音識(shí)別。 | |
輸出 | 相關(guān)性 | 微調(diào)對話系統(tǒng)中的 PLM 以生成更相關(guān)和上下文相關(guān)的響應(yīng);以及基于 BERT 推廣到任何類型的輸入條件。 |
忠于原文 | 使用多個(gè) PLM 提高忠實(shí)度;從輸入中檢索相關(guān)部分并結(jié)合 PLM 的先驗(yàn)知識(shí);以及通過主題建模損失在不同目標(biāo)域中生成忠實(shí)文本。 | |
順序一致性 | 詞對對齊;通用多語言機(jī)器翻譯模型和詞表示對齊。 |
表 2 文本生成的輸入類型和輸出屬性的類別
丨模型角度
為了提高生成文本的質(zhì)量,關(guān)鍵是根據(jù)特定任務(wù)的數(shù)據(jù)很好地訓(xùn)練 PLMs 的參數(shù),以便 PLMs 可以捕獲專門針對生成任務(wù)的語義特征。然而,如上所述,特定于任務(wù)的數(shù)據(jù)不足,因此在對有限數(shù)據(jù)進(jìn)行微調(diào)時(shí)很可能會(huì)出現(xiàn)過擬合的情況。這一部分將介紹幾種針對模型的微調(diào)方法。
首先是使用固定的教師 GPT 來保存在另一個(gè)微調(diào) GPT 中編碼的知識(shí)。包括利用 BERT 模型(教師)作為監(jiān)督來指導(dǎo) Seq2Seq 模型(學(xué)生)以獲得更好的生成性能。此外,還可以利用兩個(gè)優(yōu)化器分別更新 PLM 和初始模塊的參數(shù),以解決兩個(gè)模塊之間的差異。
還有其他方法可以指導(dǎo)微調(diào)過程。例如,強(qiáng)化學(xué)習(xí)可用于通過不可微的度量直接指導(dǎo)模型,例如 ROUGE。
未來的幾大重要方向
本文概述了用于文本生成的預(yù)訓(xùn)練語言模型的最新進(jìn)展。為了推進(jìn)這一領(lǐng)域,將 PLM 應(yīng)用于文本生成有幾個(gè)有希望的未來方向。
丨模型擴(kuò)展
這個(gè)方向的必要性在于,預(yù)訓(xùn)練和下游生成任務(wù)之間仍然存在差異。因此,為文本生成設(shè)計(jì)合適的預(yù)訓(xùn)練范式仍十分必要。此外,在預(yù)訓(xùn)練期間將外部知識(shí)納入 PLM 已被證明是有效的,研究如何為文本生成注入更多的相關(guān)知識(shí)是一個(gè)重要趨勢。
丨可控生成
使用 PLM 生成可控文本是一個(gè)有趣的方向,但仍處于早期的階段。控制生成文本的某些屬性有許多有用的應(yīng)用,例如在對話系統(tǒng)中對抑郁癥患者產(chǎn)生積極響應(yīng)。
然而,PLM 通常在通用語料庫中進(jìn)行預(yù)訓(xùn)練,難以控制生成文本的多粒度屬性(例如,情感、主題和連貫性)。同時(shí),這些控制代碼是預(yù)設(shè)的和粗粒度的。未來的工作可以探索多粒度控制并開發(fā)足夠可控的 PLM。
丨模型壓縮
盡管具有大規(guī)模參數(shù)的 PLM 在文本生成方面取得了成功,但這些模型在資源受限的環(huán)境中部署具有挑戰(zhàn)性。因此,研究如何以少量參數(shù)實(shí)現(xiàn)競爭性能是有意義的。
丨微調(diào)探索
預(yù)訓(xùn)練的直接目的是將 PLM 中學(xué)到的語言知識(shí)提煉到下游生成任務(wù)中。并且,微調(diào)是目前主要的傳輸方法。可以通過多種方式將知識(shí)從 PLM 轉(zhuǎn)移到下游模型。
丨與語言無關(guān)的 PLM
如今,幾乎所有用于文本生成的 PLM 都主要基于英語。這些 PLM 在處理非英語生成任務(wù)時(shí)會(huì)遇到挑戰(zhàn)。因此,與語言無關(guān)的 PLM 值得研究,它需要捕獲跨不同語言的通用語言和語義特征。
丨道德問題
目前,PLM 是在從網(wǎng)絡(luò)爬取的大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練的,沒有進(jìn)行細(xì)粒度過濾,可能會(huì)導(dǎo)致道德問題,例如生成有關(guān)用戶的私人內(nèi)容。因此,研究人員應(yīng)盡最大努力防止濫用 PLM。此外,PLM 生成的文本可能存在偏見,這與訓(xùn)練數(shù)據(jù)在性別、種族和宗教維度上的偏見一致。因此,該研究應(yīng)該干預(yù) PLM 以防止此類偏差。
Refrence:
https://arxiv.org/pdf/2105.10311v2.pdf
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【NLP】人大团队研究:面向文本生成,预训练模型进展梳理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7系统怎么打开屏幕键盘
- 下一篇: Win11关机后自动开机怎么办 Win1