當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】人大团队研究：面向文本生成，预训练模型进展梳理

發(fā)布時(shí)間：2025/3/12 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】人大团队研究：面向文本生成，预训练模型进展梳理小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文本生成是?NLP 中最重要且頗具挑戰(zhàn)性的任務(wù)之一。近年來，預(yù)訓(xùn)練語言模型 (Pretrained Language Models ，下文簡稱 “PLM”) 的范式，極大地推動(dòng)了該領(lǐng)域的發(fā)展。例如，我們曾介紹過 AI 在古詩生成上的突破《清華團(tuán)隊(duì)最新成果：可致特朗普能詠比特幣，AI 寫古詩 “更上一層樓”》。

最近，一項(xiàng)由中國人民大學(xué)團(tuán)隊(duì)完成的預(yù)印本論文 Pretrained Language Models for Text Generation: A Survey，概述了在用于文本生成的 PLM 主題中取得的主要進(jìn)展，旨在為文本生成研究人員提供相關(guān)研究的綜述與指導(dǎo)。

Transformer 與 PLM 的興起

文本生成，旨在將輸入數(shù)據(jù)（例如，序列和關(guān)鍵字）以人類語言模式生成合理且可讀的文本。

PLM 的思路，則是首先在大規(guī)模語料庫中預(yù)訓(xùn)練模型，然后在各種下游任務(wù)中對這些模型進(jìn)行微調(diào)，以達(dá)到最先進(jìn)的結(jié)果。

PLM 可以從語料庫中編碼大量語言知識(shí)，并促使生成語言的通用表示。因此，PLM 通常有利于下游任務(wù)，并且可以避免從頭開始訓(xùn)練新模型。

此外，隨著算力的增強(qiáng)和 Transformer 架構(gòu)的出現(xiàn)，PLM 由淺入深，在許多任務(wù)中取得了出色的性能，例如 BERT 和 GPT。因此，研究人員提出了各種方法來解決基于 PLM 的文本生成任務(wù)。

文本生成的核心是生成一系列離散標(biāo)記序列 y=〈y1, . . . , yj, . . . , yn〉，其中每個(gè) yj 是從單詞詞匯表 V 中提取的。在大多數(shù)情況下，文本生成以輸入數(shù)據(jù)為條件，例如屬性、文本和結(jié)構(gòu)化數(shù)據(jù)，記為??。形式上，文本生成任務(wù)可以描述為：

?χχ?? ??

輸入??	任務(wù)
隨機(jī)噪聲（Random noise）	無條件文本生成（Unconditional text generation）
離散屬性（Discrete attributes）	主題到文本的生成（Topic-to-text generation）
離散屬性（Discrete attributes）	基于屬性的文本生成（Attribute-based generation）
結(jié)構(gòu)化數(shù)據(jù)（Structured data）	數(shù)據(jù)到文本的生成（Data-to-text generatio）
多媒體（Multimedia）	圖像文本描述（Image Caption）
多媒體（Multimedia）	語音識(shí)別（Speech recognition）
文本序列（Text sequence）	機(jī)器翻譯（Machine translation）
	總結(jié)（Summarization）
	對話系統(tǒng)（Dialogue system）

表 1 文本生成的主要任務(wù)及其對應(yīng)輸入

PLM ?使用大量未標(biāo)記的文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，并且可以在下游生成任務(wù)上進(jìn)行微調(diào)。

在大規(guī)模語料庫上預(yù)訓(xùn)練的 PLM 將海量的語言和世界知識(shí)編碼為大量參數(shù)，可以增強(qiáng)對語言的理解并提高生成質(zhì)量。預(yù)訓(xùn)練的思想受到人類思維的啟發(fā)，比如人類會(huì)轉(zhuǎn)移和重用過去所學(xué)的舊知識(shí)，以理解新知識(shí)并處理各種新任務(wù)。受此啟發(fā)，PLM 可以利用舊經(jīng)驗(yàn)和知識(shí)成功地執(zhí)行新任務(wù)。

由于 Transformer 取得的巨大成就，幾乎所有的 PLM 都采用了 Transformer 的骨干網(wǎng)絡(luò)。對于文本生成任務(wù)，一些 PLM 使用遵循基本編碼器 - 解碼器框架的標(biāo)準(zhǔn) Transformer 架構(gòu)，而其他 PLM 使用僅解碼器的 Transformer。

不同的數(shù)據(jù)類型

從輸入來看，文本生成可以分為三種主要輸入，即非結(jié)構(gòu)化輸入、結(jié)構(gòu)化輸入和多媒體輸入。PLM 將對這些輸入數(shù)據(jù)進(jìn)行建模。

丨非結(jié)構(gòu)輸入

在 NLP 研究中，大多數(shù)研究側(cè)重于對非結(jié)構(gòu)化文本輸入（例如，句子、段落和文檔）進(jìn)行建模。要生成令人滿意的輸出文本，需要具備出色語言理解能力，即超越輸入文本中單個(gè)單詞表面含義。

在某些情況下，輸入文本可能是由多個(gè)句子和段落組成的長文檔。對于受句子或短段落約束的 PLM，它們不太能夠準(zhǔn)確地對文檔中的長期依賴項(xiàng)進(jìn)行建模。考慮到這一挑戰(zhàn)，分層 BERT 被提出用來學(xué)習(xí)具有自注意力的句子之間的交互以進(jìn)行文檔編碼。此外，為了捕獲句間關(guān)系，DiscoBERT 在 BERT 之上堆疊圖卷積網(wǎng)絡(luò) (GCN) 以對結(jié)構(gòu)性話語圖進(jìn)行建模。通過直接對話語單元進(jìn)行操作，DiscoBERT 保留了包含更多概念或上下文的能力，從而產(chǎn)生更簡潔和信息量更大的輸出文本。

該研究觀察到大多數(shù)最新的 PLM 都是針對英文文本進(jìn)行預(yù)訓(xùn)練的。然而，許多多語言生成任務(wù)（例如機(jī)器翻譯）涉及多種語言，某些語言資源不足，這一挑戰(zhàn)阻礙了單語 PLM 在多語文本生成任務(wù)中的廣泛應(yīng)用。因此，Conneau 等人提出學(xué)習(xí)跨語言模型（XLMs）以進(jìn)行多語言理解。基于跨語言 PLM，文本生成模型即使在資源匱乏的語言中仍可獲得有效的輸入詞嵌入。

丨結(jié)構(gòu)化輸入

結(jié)構(gòu)化數(shù)據(jù)（例如圖形和表格）也是許多實(shí)際應(yīng)用（例如天氣報(bào)告生成）中文本生成的關(guān)鍵輸入類型。然而，在現(xiàn)實(shí)世界的場景中，很難收集大量帶有真實(shí)文本的標(biāo)記結(jié)構(gòu)化數(shù)據(jù)進(jìn)行訓(xùn)練。由于在大規(guī)模語料庫上進(jìn)行了預(yù)訓(xùn)練，PLM 編碼了大量的語言知識(shí)，并在許多任務(wù)中表現(xiàn)出出色的小樣本能力。

在將 PLM 應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)時(shí)，一個(gè)主要挑戰(zhàn)是如何將結(jié)構(gòu)化數(shù)據(jù)輸入到 PLM 中，PLM 最初是為序列文本設(shè)計(jì)的。為了適應(yīng) PLM 的順序性質(zhì)，Ribeiro 等人將輸入知識(shí)圖（KG）和抽象意義表示（AMR）圖線性化為三元組序列，Li 等人引入了一個(gè)額外的圖編碼器來對輸入 KG 進(jìn)行編碼，Gogo 采用基于模板的方法將輸入表序列化為文本序列。例如，屬性 - 值對 “name: jackreynolds” 將被序列化為句子 “name is jackreynolds”。然而，直接線性化會(huì)丟失原始數(shù)據(jù)的結(jié)構(gòu)信息，這可能導(dǎo)致生成關(guān)于數(shù)據(jù)的不忠實(shí)原文本。因此，為了生成忠實(shí)文本，Gong 等人提出了一個(gè)輔助重建任務(wù)來恢復(fù)輸入數(shù)據(jù)的結(jié)構(gòu)信息，這可以增強(qiáng)建模結(jié)構(gòu)信息的能力。

通常，輸出文本應(yīng)盡可能多地保留結(jié)構(gòu)化數(shù)據(jù)中的重要信息。因此，為了生成符合輸入的高保真文本，采用指針生成器機(jī)制從輸入知識(shí)數(shù)據(jù)中復(fù)制單詞。通過將 PLM 以外部知識(shí)為基礎(chǔ)，很可能賦予生成模型兼具豐富的知識(shí)和良好的泛化能力。

丨多媒體輸入

除了上述文本數(shù)據(jù)之外，還進(jìn)行了一些嘗試將多媒體數(shù)據(jù)（例如圖像、視頻和語音）作為輸入，例如圖像、視頻文本描述和語音識(shí)別等。VideoBERT 和 CBT 都對視頻文本描述任務(wù)進(jìn)行了預(yù)訓(xùn)練。

然而，它們僅對基于 BERT 的編碼器進(jìn)行了預(yù)訓(xùn)練，以學(xué)習(xí)視覺和語言標(biāo)記序列的雙向聯(lián)合分布。所以必須再訓(xùn)練一個(gè)單獨(dú)的視頻到文本解碼器，但這往往會(huì)導(dǎo)致預(yù)訓(xùn)練 - 微調(diào)的差異。相比之下，Unified VLP 使用共享的多層 Trans-former 網(wǎng)絡(luò)進(jìn)行編碼和解碼。

受 GPT 中生成預(yù)訓(xùn)練目標(biāo)的啟發(fā)，跨模態(tài)預(yù)訓(xùn)練模型（XGPT）被提出，以圖像為輸入，在預(yù)訓(xùn)練階段使用圖像標(biāo)題任務(wù)作為基本生成任務(wù)。

除了圖像和視頻，語音識(shí)別還需要人工轉(zhuǎn)錄的監(jiān)督數(shù)據(jù)。因此，開發(fā)了許多無監(jiān)督和半監(jiān)督方法來集成 PLM 以進(jìn)行弱監(jiān)督學(xué)習(xí)。例如，還有團(tuán)隊(duì)提出了一種無監(jiān)督的方法來預(yù)訓(xùn)練編碼器 - 解碼器模型，其中包含不成對的語音和書面文本。兩個(gè)預(yù)訓(xùn)練階段用于分別提取帶有語音和書面文本的聲學(xué)和語言信息，這對于下游的語音識(shí)別任務(wù)很有用。

3 大關(guān)鍵要求

在不同的文本生成任務(wù)中，生成的文本應(yīng)該滿足幾個(gè)關(guān)鍵屬性，即相關(guān)性、忠于原文和順序一致。

根據(jù)語言學(xué)文獻(xiàn)，在文本生成中，相關(guān)性是指輸出文本中的主題與輸入文本高度相關(guān)。一個(gè)代表性的例子是對話系統(tǒng)的任務(wù)，它需要生成的響應(yīng)與輸入對話歷史相關(guān)。除了對話歷史之外，還可以提供與響應(yīng)類型相對應(yīng)的條件作為外部輸入，例如響應(yīng)的主題和說話者的角色。生成的響應(yīng)也應(yīng)該與條件相關(guān)。

同樣，忠于原文也是文本生成的一個(gè)關(guān)鍵指標(biāo)，它要求生成文本中的內(nèi)容不應(yīng)與輸入文本中的事實(shí)相矛盾。有時(shí)，它進(jìn)一步意味著生成的文本符合世界事實(shí)。一個(gè)代表性的例子是文本摘要任務(wù)，其目的是生成代表原始內(nèi)容中最重要信息的忠實(shí)文本。在大量文本集合上進(jìn)行預(yù)訓(xùn)練，PLM 可能有利于利用背景知識(shí)生成忠實(shí)的文本。

另外，在 NLP 領(lǐng)域，順序保持表示輸入和輸出文本中語義單元（詞、短語等）的順序是一致的。

最有代表性的例子是機(jī)器翻譯任務(wù)。從源語言翻譯成目標(biāo)語言時(shí)，保持源語言和目標(biāo)語言的短語順序一致，會(huì)在一定程度上保證翻譯結(jié)果的準(zhǔn)確性。

幾種常用的微調(diào)策略

對于使用 PLM 生成文本，一個(gè)關(guān)鍵因素是如何設(shè)計(jì)合適的微調(diào)策略。在這一部分，該研究從數(shù)據(jù)、任務(wù)和模型 3 大角度回顧了幾種常用的微調(diào)策略。

丨數(shù)據(jù)角度

在將 PLMs 應(yīng)用于文本生成任務(wù)尤其是在新領(lǐng)域的文本生成任務(wù)時(shí)，如何設(shè)計(jì)適合新領(lǐng)域特點(diǎn)的合適有效的微調(diào)策略是一個(gè)重要的考慮因素。

小樣本學(xué)習(xí)：通常采用的方法是使用預(yù)訓(xùn)練參數(shù)插入現(xiàn)有模塊。然后該研究用幾個(gè)、一個(gè)甚至沒有研究任務(wù)的例子對它進(jìn)行微調(diào)，分別是所謂的少樣本、單樣本和零樣本。

例如在多語言翻譯中，一些低資源語言缺乏足夠的平行語料庫。XLM 提出學(xué)習(xí)跨語言模型，可以將在高資源語言中學(xué)到的知識(shí)用于低資源語言。使用第 4 節(jié)中提出的方法，小樣本學(xué)習(xí)也可以應(yīng)用于數(shù)據(jù)到文本的任務(wù)。

領(lǐng)域轉(zhuǎn)移：在微調(diào)目標(biāo)任務(wù)之前，繼續(xù)在具有預(yù)訓(xùn)練目標(biāo)的特定數(shù)據(jù)上訓(xùn)練 PLM。掩碼預(yù)測是一種廣泛使用的方法，試圖使用剩余的令牌來預(yù)測被掩碼的令牌。領(lǐng)域轉(zhuǎn)移中存在多種掩蔽方式的變體。

丨任務(wù)角度

除了新領(lǐng)域的特征外，在微調(diào) PLM 時(shí)考慮特定生成任務(wù)中的語言連貫性和文本保真度等特殊問題也很有意義。

增強(qiáng)連貫性：為了增強(qiáng)語言連貫性，一個(gè)重要的方法是在微調(diào)期間更好地建模語言上下文。通過對比學(xué)習(xí)微調(diào)的模型擅長區(qū)分句子對是否相似。通過這種方法，PLM 被迫理解兩個(gè)句子之間的位置或語義關(guān)系，從而獲得更好的表示。

下一句預(yù)測（NSP）是判斷兩個(gè)輸入句子是否為連續(xù)句段的常用方法，可應(yīng)用于摘要和對話系統(tǒng)。

去噪自動(dòng)編碼 (DAE) 將損壞的文本作為輸入，旨在恢復(fù)原始文本。使用 DAE 微調(diào)的模型具有很強(qiáng)的理解整體句子和捕獲更遠(yuǎn)距離相關(guān)性的能力。

保真度：文本保真度是指生成的文本如何與原始輸入信息保持一致，這是許多文本生成任務(wù)中需要考慮的一個(gè)重要方面。PLMs 中的通用結(jié)構(gòu)無法在特定文本生成任務(wù)中保留文本保真度。對于表到文本生成任務(wù)，需要對表的結(jié)構(gòu)信息進(jìn)行編碼。

數(shù)據(jù)	種類	方法
輸入	非結(jié)構(gòu)化	BERT 充當(dāng)文本編碼器；用于文檔建模的分層；以及用于多語言輸入文本的跨語言 PLM。
	結(jié)構(gòu)化	將 KG 和 AMR 圖線性化為三重序列；用于編碼 KG 的圖編碼器；以及將表序列化為基于模板的文本序列。
	多媒體	視頻文本描述；圖像文本描述；以及語音識(shí)別。
輸出	相關(guān)性	微調(diào)對話系統(tǒng)中的 PLM 以生成更相關(guān)和上下文相關(guān)的響應(yīng)；以及基于 BERT 推廣到任何類型的輸入條件。
	忠于原文	使用多個(gè) PLM 提高忠實(shí)度；從輸入中檢索相關(guān)部分并結(jié)合 PLM 的先驗(yàn)知識(shí)；以及通過主題建模損失在不同目標(biāo)域中生成忠實(shí)文本。
	順序一致性	詞對對齊；通用多語言機(jī)器翻譯模型和詞表示對齊。

表 2 文本生成的輸入類型和輸出屬性的類別

丨模型角度

為了提高生成文本的質(zhì)量，關(guān)鍵是根據(jù)特定任務(wù)的數(shù)據(jù)很好地訓(xùn)練 PLMs 的參數(shù)，以便 PLMs 可以捕獲專門針對生成任務(wù)的語義特征。然而，如上所述，特定于任務(wù)的數(shù)據(jù)不足，因此在對有限數(shù)據(jù)進(jìn)行微調(diào)時(shí)很可能會(huì)出現(xiàn)過擬合的情況。這一部分將介紹幾種針對模型的微調(diào)方法。

首先是使用固定的教師 GPT 來保存在另一個(gè)微調(diào) GPT 中編碼的知識(shí)。包括利用 BERT 模型（教師）作為監(jiān)督來指導(dǎo) Seq2Seq 模型（學(xué)生）以獲得更好的生成性能。此外，還可以利用兩個(gè)優(yōu)化器分別更新 PLM 和初始模塊的參數(shù)，以解決兩個(gè)模塊之間的差異。

還有其他方法可以指導(dǎo)微調(diào)過程。例如，強(qiáng)化學(xué)習(xí)可用于通過不可微的度量直接指導(dǎo)模型，例如 ROUGE。

未來的幾大重要方向

本文概述了用于文本生成的預(yù)訓(xùn)練語言模型的最新進(jìn)展。為了推進(jìn)這一領(lǐng)域，將 PLM 應(yīng)用于文本生成有幾個(gè)有希望的未來方向。

丨模型擴(kuò)展

這個(gè)方向的必要性在于，預(yù)訓(xùn)練和下游生成任務(wù)之間仍然存在差異。因此，為文本生成設(shè)計(jì)合適的預(yù)訓(xùn)練范式仍十分必要。此外，在預(yù)訓(xùn)練期間將外部知識(shí)納入 PLM 已被證明是有效的，研究如何為文本生成注入更多的相關(guān)知識(shí)是一個(gè)重要趨勢。

丨可控生成

使用 PLM 生成可控文本是一個(gè)有趣的方向，但仍處于早期的階段。控制生成文本的某些屬性有許多有用的應(yīng)用，例如在對話系統(tǒng)中對抑郁癥患者產(chǎn)生積極響應(yīng)。

然而，PLM 通常在通用語料庫中進(jìn)行預(yù)訓(xùn)練，難以控制生成文本的多粒度屬性（例如，情感、主題和連貫性）。同時(shí)，這些控制代碼是預(yù)設(shè)的和粗粒度的。未來的工作可以探索多粒度控制并開發(fā)足夠可控的 PLM。

丨模型壓縮

盡管具有大規(guī)模參數(shù)的 PLM 在文本生成方面取得了成功，但這些模型在資源受限的環(huán)境中部署具有挑戰(zhàn)性。因此，研究如何以少量參數(shù)實(shí)現(xiàn)競爭性能是有意義的。

丨微調(diào)探索

預(yù)訓(xùn)練的直接目的是將 PLM 中學(xué)到的語言知識(shí)提煉到下游生成任務(wù)中。并且，微調(diào)是目前主要的傳輸方法。可以通過多種方式將知識(shí)從 PLM 轉(zhuǎn)移到下游模型。

丨與語言無關(guān)的 PLM

如今，幾乎所有用于文本生成的 PLM 都主要基于英語。這些 PLM 在處理非英語生成任務(wù)時(shí)會(huì)遇到挑戰(zhàn)。因此，與語言無關(guān)的 PLM 值得研究，它需要捕獲跨不同語言的通用語言和語義特征。

丨道德問題

目前，PLM 是在從網(wǎng)絡(luò)爬取的大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練的，沒有進(jìn)行細(xì)粒度過濾，可能會(huì)導(dǎo)致道德問題，例如生成有關(guān)用戶的私人內(nèi)容。因此，研究人員應(yīng)盡最大努力防止濫用 PLM。此外，PLM 生成的文本可能存在偏見，這與訓(xùn)練數(shù)據(jù)在性別、種族和宗教維度上的偏見一致。因此，該研究應(yīng)該干預(yù) PLM 以防止此類偏差。

Refrence：

https://arxiv.org/pdf/2105.10311v2.pdf

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻本站qq群851320808，加入微信群請掃碼：

總結(jié)

以上是生活随笔為你收集整理的【NLP】人大团队研究：面向文本生成，预训练模型进展梳理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： win7系统怎么打开屏幕键盘
下一篇： Win11关机后自动开机怎么办 Win1

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

【NLP】人大团队研究：面向文本生成，预训练模型进展梳理

總結(jié)