當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

ACL 2022 | 腾讯AI Lab入选20篇论文：写作助手和交互翻译背后的技术创新

發(fā)布時(shí)間：2023/12/29 ChatGpt 63 豆豆

生活随笔收集整理的這篇文章主要介紹了 ACL 2022 | 腾讯AI Lab入选20篇论文：写作助手和交互翻译背后的技术创新小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

感謝閱讀騰訊AI Lab微信號(hào)第146篇文章。本文介紹騰訊 AI Lab 被 ACL 2022 收錄的研究成果。

國(guó)際最受關(guān)注的自然語言處理自然語言處理（NLP）頂級(jí)會(huì)議 ACL 2022 于今年 5 月 22 日至 27 日舉行，包括愛爾蘭都柏林的線下會(huì)議及線上會(huì)議兩部分。

騰訊 AI Lab 共有 20 篇論文被收錄（含 5 篇 findings），涵蓋對(duì)話與文本生成、機(jī)器翻譯、文本理解、語言模型等方向。本文為部分入選論文解讀。

騰訊 AI Lab 自然語言處理團(tuán)隊(duì)的研究?jī)?nèi)容囊括從自然語言理解到生成的整個(gè)鏈條，及對(duì) AI 系統(tǒng)可解釋性以及算法底層機(jī)制等理論研究，并持續(xù)向 NLP 及 AI 社區(qū)分享其領(lǐng)先研究成果。此前已發(fā)布多項(xiàng)系統(tǒng)及數(shù)據(jù)：

●?文本理解系統(tǒng) TexSmart

https://texsmart.qq.com/?

●?交互翻譯系統(tǒng) TranSmart

https://transmart.qq.com/?

●?智能創(chuàng)作助手 Effidit

https://effidit.qq.com/?

●?騰訊中文詞向量數(shù)據(jù)

https://ai.tencent.com/ailab/nlp/zh/embedding.html

對(duì)話與文本生成

1. 一種獨(dú)立于模型的個(gè)性化對(duì)話生成數(shù)據(jù)處理方法

A Model-Agnostic Data Manipulation Method for Persona-based Dialogue Generation

本文由騰訊AI Lab主導(dǎo)，與悉尼大學(xué)合作完成。為了更好地構(gòu)建智能對(duì)話機(jī)器人，越來越多的研究開始考慮把顯式的人物個(gè)性信息包含到生成模型中。但是這類人物個(gè)性化對(duì)話的數(shù)據(jù)大小通常受限，進(jìn)而限制了直接使用現(xiàn)有數(shù)據(jù)所訓(xùn)練出的對(duì)話生成模型的性能。本文作者認(rèn)為，此類任務(wù)中數(shù)據(jù)上的挑戰(zhàn)主要來源于兩個(gè)方面：首先，收集此類數(shù)據(jù)來擴(kuò)充現(xiàn)有數(shù)據(jù)集的代價(jià)很大；其次，該數(shù)據(jù)集中每一個(gè)樣本的學(xué)習(xí)難度都要比傳統(tǒng)對(duì)話數(shù)據(jù)更高。

因此，本文針對(duì)以上兩點(diǎn)問題，提出了一種新的個(gè)性化對(duì)話數(shù)據(jù)處理方法，該方法獨(dú)立于模型因此可以和任意一種個(gè)性化對(duì)話生成模型結(jié)合進(jìn)而提升其性能。本文首先對(duì)原始數(shù)據(jù)樣本進(jìn)行蒸餾，剔除難以學(xué)習(xí)的樣本進(jìn)而讓模型可以更容易地?cái)M合蒸餾后的樣本分布。之后，使用多種不同的方法來有效地增強(qiáng)蒸餾后的樣本，使其變得更多樣進(jìn)而緩解其數(shù)量不足的問題。最后，目標(biāo)模型會(huì)使用我們構(gòu)建的數(shù)據(jù)課程進(jìn)行訓(xùn)練，即先在增強(qiáng)后的蒸餾數(shù)據(jù)上進(jìn)行訓(xùn)練，之后再在原始樣本上進(jìn)行訓(xùn)練。

實(shí)驗(yàn)表明，該方法可以有效地提升兩種對(duì)話生成模型（Transformer和GPT2）在此類任務(wù)上的性能。

2. 基于詞匯知識(shí)內(nèi)化的神經(jīng)網(wǎng)絡(luò)對(duì)話生成

Lexical Knowledge Internalization for Neural Dialog Generation

本文由騰訊AI Lab主導(dǎo)，與香港大學(xué)，華東師范大學(xué)，上海人工智能研究院合作完成。本文提出使用知識(shí)內(nèi)化的方法來把詞匯知識(shí)嵌入補(bǔ)充到神經(jīng)對(duì)話模型當(dāng)中。相較于基于知識(shí)的對(duì)話模型直接依賴于一個(gè)外部檢索到的知識(shí)，該方法嘗試將關(guān)于每個(gè)輸入單詞的詞匯知識(shí)嵌入到對(duì)話模型的參數(shù)當(dāng)中。為了應(yīng)對(duì)規(guī)模巨大的詞匯知識(shí)，本文采用了對(duì)比學(xué)習(xí)的方法，并利用維基百科的弱監(jiān)督信息構(gòu)建了一個(gè)詞級(jí)別的詞匯知識(shí)檢索器。該方法在多個(gè)數(shù)據(jù)集和模型架構(gòu)上驗(yàn)證了有效性。

3. 邁向抽象而接地的播客轉(zhuǎn)錄文本摘要

Towards Abstractive Grounded Summarization of Podcast Transcripts

本文由騰訊AI Lab主導(dǎo)，與中佛羅里達(dá)大學(xué)合作完成。播客最近迅速普及，播客轉(zhuǎn)錄文本的摘要對(duì)內(nèi)容提供者和消費(fèi)者都有實(shí)際好處，可以幫助消費(fèi)者快速?zèng)Q定是否會(huì)收聽播客，并減少內(nèi)容提供者編寫摘要的認(rèn)知負(fù)擔(dān)。然而，播客摘要面臨重大挑戰(zhàn)，包括與輸入相關(guān)的事實(shí)不一致。口語記錄中的語音不流暢和識(shí)別錯(cuò)誤加劇了這個(gè)問題。

本文探索了一種新穎的抽象摘要方法來緩解這些挑戰(zhàn)。具體來說，我們的方法學(xué)習(xí)生成一個(gè)抽象的摘要，同時(shí)將摘要段對(duì)應(yīng)轉(zhuǎn)錄的特定部分，以允許對(duì)摘要細(xì)節(jié)進(jìn)行全面檢查。我們?cè)诖笮筒タ蛿?shù)據(jù)集上對(duì)所提出的方法進(jìn)行了一系列分析，并表明該方法可以取得了可觀的結(jié)果。接地的摘要在定位包含不一致信息的摘要和轉(zhuǎn)錄片段方面帶來了明顯的好處，從而顯著地在自動(dòng)和人工評(píng)估指標(biāo)，都提高了摘要質(zhì)量。

4. 邊講邊學(xué)：基于敘事預(yù)訓(xùn)練的零樣本對(duì)話理解

Learning-by-Narrating: Narrative Pre-training for Zero-Shot Dialogue Comprehension?

本文由騰訊AI Lab與俄亥俄州立大學(xué)合作完成。對(duì)話理解需要捕獲話語中的各種關(guān)鍵信息，這些信息有可能分散于多輪對(duì)話的不同位置或者隱含在話語中。因此，對(duì)話理解模型需要綜合多種自然語言理解能力，例如復(fù)述、總結(jié)、常識(shí)推理、隱含知識(shí)推理等。

本文提出了一個(gè)“邊講邊學(xué)”（leaning-by-narrating）的預(yù)訓(xùn)練策略。該策略通過在預(yù)訓(xùn)練過程中引導(dǎo)模型對(duì)輸入對(duì)話的內(nèi)容進(jìn)行敘述，從而使模型學(xué)習(xí)并理解對(duì)話中的關(guān)鍵信息。然而，目前還沒有公開的大規(guī)模對(duì)話-敘述平行語料庫能夠支持這種預(yù)訓(xùn)練策略。為此，我們首先收集了大量電影字幕及情節(jié)摘要數(shù)據(jù)，通過將二者進(jìn)行自動(dòng)切分和對(duì)齊，從而構(gòu)建了一個(gè)對(duì)話-敘述平行語料庫-DIANA。然后，在該語料庫上對(duì)模型進(jìn)行生成式預(yù)訓(xùn)練，并在四個(gè)對(duì)話理解的下游任務(wù)中對(duì)模型性能進(jìn)行評(píng)估。

實(shí)驗(yàn)結(jié)果表明，該模型在零試學(xué)習(xí)的場(chǎng)景下性能顯著優(yōu)于先前的模型。同時(shí)發(fā)現(xiàn)DIANA中蘊(yùn)含著多種類型的知識(shí)，可以提高模型在多種細(xì)粒度對(duì)話理解層面的能力。

5. 開放式文本生成的事件轉(zhuǎn)換路徑規(guī)劃

Event Transition Planning for Open-ended Text Generation

本文由騰訊AI Lab主導(dǎo)，與香港大學(xué)、山東大學(xué)、上海人工智能研究院合作完成，被會(huì)議接收為Findings長(zhǎng)論文。開放式文本生成任務(wù)，例如對(duì)話生成和故事完成，需要模型在有限的先前上下文中生成連貫的延續(xù)，給當(dāng)今的神經(jīng)自回歸文本生成器帶來了新的挑戰(zhàn)。盡管這些神經(jīng)模型擅長(zhǎng)生成流暢的文本，但它們很難建模給定上下文中的事件與可能發(fā)生的事件之間的因果關(guān)系。

為了彌合這一差距，本文提出了一種新穎的兩階段方法，可明確地建模開放式文本生成中的事件轉(zhuǎn)移規(guī)劃。該方法可以理解為一種經(jīng)過特殊訓(xùn)練的從粗到細(xì)的算法，其中事件轉(zhuǎn)換規(guī)劃器提供“粗略”的事件骨架，而第二階段的文本生成器會(huì)細(xì)化骨架。在兩個(gè)開放式文本生成任務(wù)上的實(shí)驗(yàn)表明，該方法在連貫性和多樣性方面有效地提高了生成文本的質(zhì)量。

機(jī)器翻譯

1. 彌合無監(jiān)督神經(jīng)機(jī)器翻譯訓(xùn)練和推理之間的數(shù)據(jù)差距

Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation

本文由騰訊AI Lab主導(dǎo)，與上海交通大學(xué)合作完成。作為無監(jiān)督神經(jīng)機(jī)器翻譯的重要組成部分，回譯利用目標(biāo)語言的單語數(shù)據(jù)生成偽平行數(shù)據(jù)。無監(jiān)督神經(jīng)機(jī)器翻譯模型在這些源端是翻譯句子的偽平行數(shù)據(jù)上進(jìn)行訓(xùn)練，但往往對(duì)自然書寫的源端文本進(jìn)行翻譯推理。源端數(shù)據(jù)在訓(xùn)練和推理之間的差異阻礙了無監(jiān)督神經(jīng)機(jī)器翻譯模型的翻譯性能。

通過精心設(shè)計(jì)的實(shí)驗(yàn)，我們確定了源端數(shù)據(jù)差異性的兩個(gè)代表性特征：(1）風(fēng)格差異（即翻譯與自然文本風(fēng)格）導(dǎo)致較差的泛化能力；（2）內(nèi)容差異誘使模型產(chǎn)生偏向目標(biāo)語言的幻覺內(nèi)容。

為了縮小這種數(shù)據(jù)差異，我們提出了一種在線的自訓(xùn)練方法，它同時(shí)使用{自然的源端句子，翻譯的目標(biāo)端句子}的偽平行數(shù)據(jù)來模擬推理的場(chǎng)景。在多個(gè)廣泛使用語言對(duì)上的實(shí)驗(yàn)結(jié)果表明，我們的方法通過彌補(bǔ)風(fēng)格和內(nèi)容上的差距，超過了兩個(gè)強(qiáng)基線模型（XLM和MASS）。

2. 理解和提高針對(duì)機(jī)器翻譯的序列到序列預(yù)訓(xùn)練模型

Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation

本文由騰訊AI Lab主導(dǎo)，與香港中文大學(xué)和阿爾伯塔大學(xué)合作完成。本研究旨在理解和改進(jìn)針對(duì)機(jī)器翻譯系統(tǒng)的序列到序列的預(yù)訓(xùn)練研究，特別是針對(duì)預(yù)訓(xùn)練解碼器。我們發(fā)現(xiàn)序列到序列的預(yù)訓(xùn)練是一個(gè)雙刃劍：一方面這個(gè)模塊可以提高翻譯模型的譯文的準(zhǔn)確性和多樣性；另一方面，由于預(yù)訓(xùn)練和下游翻譯任務(wù)的不同，預(yù)訓(xùn)練解碼器會(huì)引入生成風(fēng)格的偏移以及過度自信的問題，從而限制模型性能。

基于以上的發(fā)現(xiàn)，我們提出了兩種簡(jiǎn)潔而有效的方法來提高預(yù)訓(xùn)練模型在下游翻譯任務(wù)上的表現(xiàn)，包括領(lǐng)域內(nèi)預(yù)訓(xùn)練和輸入自適應(yīng)。前者將預(yù)訓(xùn)練模型在領(lǐng)域內(nèi)單語數(shù)據(jù)上繼續(xù)訓(xùn)練，從而縮小預(yù)訓(xùn)練模型與下游翻譯任務(wù)數(shù)據(jù)分布上的差異。后者對(duì)下游翻譯任務(wù)的輸入數(shù)據(jù)進(jìn)行加噪，并將加噪數(shù)據(jù)與原始數(shù)據(jù)混合訓(xùn)練翻譯任務(wù)模型，從而更好的將預(yù)訓(xùn)練模型的知識(shí)遷移到下游翻譯任務(wù)模型。我們?cè)诙鄠€(gè)翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn)，驗(yàn)證了我們的方法可以有效地提高模型翻譯效果和魯棒性。

3. BiTIIMT：一種基于雙語文本填充的交互式機(jī)器翻譯方法

BiTIIMT: A Bilingual Text-infilling Method for Interactive Machine Translation

本文由騰訊AI Lab主導(dǎo)，與南京大學(xué)合作完成。交互式機(jī)器翻譯（INMT）通過人工干預(yù)，可以保證高質(zhì)量的譯文輸出。現(xiàn)有的交互式系統(tǒng)通常采用約束解碼算法（LCD）：它可以采用一種靈活的方式進(jìn)行翻譯，從而避免了自左向右翻譯范式的約束。然而，由于約束解碼的原因，這種交互系統(tǒng)在翻譯效率和翻譯質(zhì)量上存在明顯的不足。

本文提出了一種新穎的交互翻譯系統(tǒng)，即基于雙語文本填充的交互翻譯模型。它的基本思想是一個(gè)雙語文本填充（BiTI）任務(wù)：對(duì)于給定的源語言和人工校對(duì)的翻譯譯文片段，自動(dòng)地進(jìn)行句子填充從而獲得更好的譯文。通過將這個(gè)任務(wù)轉(zhuǎn)化為序列到序列的任務(wù)，本文提出了一種簡(jiǎn)單有效的方法來進(jìn)行實(shí)現(xiàn)。這種實(shí)現(xiàn)方法的優(yōu)勢(shì)是，它的解碼效率與標(biāo)準(zhǔn)NMT的效率相同，而且它可以充分地利用人工校對(duì)的信息進(jìn)行準(zhǔn)確的詞預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果表明，該方法在翻譯質(zhì)量、效率和一致性上都優(yōu)于詞約束解碼方法。

4. 低頻詞重分布：充分利用單語數(shù)據(jù)增強(qiáng)非自回歸翻譯

Redistributing Low-Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation

本文由騰訊AI Lab主導(dǎo)，悉尼大學(xué)合作完成。知識(shí)蒸餾（KD）是訓(xùn)練非自回歸翻譯（NAT）模型的首要步驟。它可以簡(jiǎn)化NAT的模型訓(xùn)練，但代價(jià)是丟失翻譯低頻詞的重要信息。本文提出了一個(gè)有吸引力的替代方案：單語KD。該方案利用從原始平行數(shù)據(jù)訓(xùn)練的AT老師來蒸餾額外的單語數(shù)據(jù)，從而訓(xùn)練AT學(xué)生。單語KD能夠?qū)⒃茧p語數(shù)據(jù)的知識(shí)（隱式編碼在AT教師模型中）和新的單語數(shù)據(jù)知識(shí)傳遞到NAT學(xué)生模型。在8個(gè)WMT基準(zhǔn)數(shù)據(jù)集上對(duì)2個(gè)先進(jìn)的NAT模型進(jìn)行的大量實(shí)驗(yàn)表明，單語KD通過改善低頻詞翻譯而始終優(yōu)于標(biāo)準(zhǔn)KD方法，且不引入任何計(jì)算開銷。

同時(shí)，單語KD具有良好的可擴(kuò)展性，當(dāng)給定更多計(jì)算開銷，其可以通過與標(biāo)準(zhǔn)KD融合、反向單語KD融合或擴(kuò)大單語數(shù)據(jù)規(guī)模來進(jìn)一步增強(qiáng)。大量的分析表明，這些技術(shù)可以有效地融合，從而進(jìn)一步召回在標(biāo)準(zhǔn)KD中丟失的有用信息。令人鼓舞的是，我們的方法融合標(biāo)準(zhǔn)KD后，在WMT14英-德和德-英數(shù)據(jù)集上分別獲得了30.4和34.1 BLEU值。

該項(xiàng)工作的代碼和模型已開源：

https://github.com/alphadl/RLFW-NAT.mono

5. 可視化模型學(xué)習(xí)到的語言學(xué)信息和任務(wù)性能之間的關(guān)系

Visualizing the Relationship Between Encoded Linguistic Information and Task Performance

本文由騰訊AI Lab主導(dǎo)，與中國(guó)科學(xué)技術(shù)大學(xué)和日本奈良先端科學(xué)技術(shù)大學(xué)合作完成，被會(huì)議接收為Findings長(zhǎng)論文。Probing是一種很流行的方法，它可以分析一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型是否學(xué)習(xí)到語言學(xué)信息，但是，它無法回答改變模型學(xué)習(xí)到的語言學(xué)信息是否會(huì)影響任務(wù)的性能。為此，本文從帕累托最優(yōu)的角度出發(fā)，研究語言學(xué)信息與任務(wù)性能之間的動(dòng)態(tài)關(guān)系。它的基本思想是嘗試解決這樣一個(gè)優(yōu)化問題：優(yōu)化出一個(gè)模型參數(shù)的子集使得它的每個(gè)元素都滿足語言學(xué)信息和任務(wù)性能兩方面的近似最優(yōu)性。據(jù)此，本文將這個(gè)問題轉(zhuǎn)化為一個(gè)多目標(biāo)優(yōu)化問題，并提出了一個(gè)方法來優(yōu)化帕累托最優(yōu)的模型參數(shù)子集。

本文在兩個(gè)自然語言處理的主流任務(wù)上（機(jī)器翻譯和語言模型）進(jìn)行了實(shí)驗(yàn)，并展示了多種不同語言學(xué)信息與任務(wù)性能之間的關(guān)系。實(shí)驗(yàn)結(jié)果表明，本文提出的方法優(yōu)于一個(gè)基線方法。同時(shí)，經(jīng)驗(yàn)結(jié)果表明適量的句法信息有利于兩個(gè)任務(wù)，但是更多的信息未必導(dǎo)致更好的任務(wù)性能，因?yàn)槟Ｐ偷慕Y(jié)構(gòu)也是一個(gè)重要的因素。

6. 機(jī)器翻譯自動(dòng)度量評(píng)價(jià)中的數(shù)據(jù)變化性問題

Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics

本文由騰訊AI Lab主導(dǎo)，與中國(guó)科學(xué)技術(shù)大學(xué)，日本奈良先端科學(xué)技術(shù)大學(xué)和意大利特倫托大學(xué)合作完成，被會(huì)議接收為Findings短論文。在度量評(píng)價(jià)時(shí)，往往關(guān)注一個(gè)領(lǐng)域的單個(gè)數(shù)據(jù)集；比如，每年WMT度量評(píng)價(jià)任務(wù)上，新聞?lì)I(lǐng)域通常只給出了一個(gè)數(shù)據(jù)集。本文進(jìn)行了定性和定量的分析實(shí)驗(yàn)，結(jié)果表明度量的表現(xiàn)對(duì)所采用的數(shù)據(jù)具有敏感性，即度量的排序隨著所采用的數(shù)據(jù)變化而變化，即使這些數(shù)據(jù)都來源于相同的領(lǐng)域。隨后本文進(jìn)一步分析了導(dǎo)致這個(gè)問題的兩個(gè)可能原因，即，非顯著的樣本點(diǎn)和獨(dú)立同分布假設(shè)的違背。最后，本文建議，在評(píng)價(jià)度量時(shí)需要注意數(shù)據(jù)變化的問題并避免采用一個(gè)數(shù)據(jù)進(jìn)行比較，否則得出的結(jié)論可能會(huì)有數(shù)據(jù)變化的問題。

文本理解

1. 重新思考負(fù)采樣-一種處理實(shí)體漏標(biāo)注問題的方法

Rethinking Negative Sampling for Handling Missing Entity Annotations

本文由騰訊AI Lab獨(dú)立完成。負(fù)采樣可以有效地處理命名實(shí)體識(shí)別中的漏標(biāo)注問題。本文的一個(gè)貢獻(xiàn)是，從抽樣錯(cuò)誤和不確定性兩個(gè)角度出發(fā)，分析了負(fù)采樣方法的有效性。實(shí)驗(yàn)表明，較低的抽樣錯(cuò)誤率和較高的不確定性是負(fù)采樣有效的關(guān)鍵。基于命名實(shí)體稀疏性的特點(diǎn)，本文研究了抽樣錯(cuò)誤率為0的概率，推導(dǎo)出了這個(gè)概率的一個(gè)下界，它與句子的長(zhǎng)度相關(guān)。

根據(jù)上述分析，本文還提出了一種自適應(yīng)的加權(quán)抽樣方法，它可以進(jìn)一步提升負(fù)采樣的性能；這是本文的另外一個(gè)貢獻(xiàn)。在模擬數(shù)據(jù)和標(biāo)注完整的數(shù)據(jù)集（CoNLL-2003）上, 本文提出的負(fù)采樣方法取得了更好的F1值以及更快的收斂；另外，在真實(shí)的漏標(biāo)注數(shù)據(jù)（EC）上，該負(fù)采樣方法獲得了最好的效果。

2. 利用情境常識(shí)提高機(jī)器閱讀理解

Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge

本文由騰訊AI Lab主導(dǎo)，與康奈爾大學(xué)合作完成。為了在機(jī)器閱讀理解 (MRC) 任務(wù)中表現(xiàn)出色，機(jī)器閱讀理解模型通常需要具備給定文檔中未明確提及的常識(shí)知識(shí)。本文旨在劇本中提取一種新的結(jié)構(gòu)化知識(shí)，并將其用于改進(jìn) MRC。我們專注于劇本，因?yàn)樗鼈儼S富的語言和非語言信息，并且在短時(shí)間內(nèi)由不同形式傳達(dá)的兩條相關(guān)信息可能可以作為一條常識(shí)知識(shí)的元素(argument)對(duì)，因?yàn)槠湓谌粘＝涣髦泄餐l(fā)揮作用。

為了減少人工命名關(guān)系帶來的成本，我們建議通過將這樣的元素對(duì)置于上下文中來隱式表示它們之間的關(guān)系，并將其稱為情境知識(shí)。? 為了使用提取的知識(shí)來改進(jìn) MRC，我們比較了幾種微調(diào)策略來使用基于情境知識(shí)構(gòu)建的弱標(biāo)記 MRC 數(shù)據(jù)，并進(jìn)一步設(shè)計(jì)了具有多個(gè)teachers的teacher-student范式，以促進(jìn)弱標(biāo)記MRC 數(shù)據(jù)中的知識(shí)轉(zhuǎn)移。

實(shí)驗(yàn)結(jié)果表明，我們的范式優(yōu)于其他使用弱標(biāo)記數(shù)據(jù)的方法，并且在中文多選 MRC 數(shù)據(jù)集 C3 上將最先進(jìn)的基線模型準(zhǔn)確率提高了 4.3%，其中大多數(shù)問題需要未在文中明說的先驗(yàn)知識(shí)。我們還試圖通過簡(jiǎn)單地微調(diào)生成的student模型來將知識(shí)轉(zhuǎn)移到其他任務(wù)，在關(guān)系抽取數(shù)據(jù)集 DialogRE 上帶來 2.9% 的 F1提升，體現(xiàn)了情境知識(shí)對(duì)于需要的文檔理解的非 MRC 任務(wù)的潛在的價(jià)值。

3. 作為廉價(jià)監(jiān)督信息的變分自動(dòng)編碼在AMR指代消解的應(yīng)用

Variational Graph Autoencoding as Cheap Supervision for AMR Coreference Resolution

本文由騰訊AI Lab主導(dǎo)，與耶魯大學(xué)合作完成。對(duì) AMR 之類的語義圖的共指解析旨在對(duì)表示同一實(shí)體的圖節(jié)點(diǎn)進(jìn)行分組，這是構(gòu)造文檔級(jí)形式語義表示的關(guān)鍵步驟。借助關(guān)于 AMR 共指解析的注釋數(shù)據(jù)，深度學(xué)習(xí)方法最近在這項(xiàng)任務(wù)中顯示出巨大的潛力，但它們通常需要大量訓(xùn)練數(shù)據(jù)并且注釋數(shù)據(jù)的成本很高。

本文提出了一種基于變分圖自動(dòng)編碼器（VGAE）進(jìn)行 AMR 共指解析的通用預(yù)訓(xùn)練的方法，該方法可以利用任何通用 AMR 語料庫，甚至可以AMR模型自動(dòng)生成的 AMR 數(shù)據(jù)。在標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)表明，預(yù)訓(xùn)練方法實(shí)現(xiàn)了高達(dá) 6% 的絕對(duì) F1 點(diǎn)的性能提升。此外，我們的模型比之前的最先進(jìn)模型顯著地提高了 11% F1 點(diǎn)。

4. 基于 Zipf's law 的少樣本語義消歧

Rare and Zero-shot Word Sense Disambiguation using Z-Reweighting

本文由騰訊AI Lab與香港科技大學(xué)合作完成。語義消歧（WSD）一直是自然語言里面最核心的問題之一。現(xiàn)有模型通常依賴于大型的預(yù)訓(xùn)練模型和大量的標(biāo)注數(shù)據(jù)來取得效果的提升。但是這類監(jiān)督學(xué)習(xí)的方法通常會(huì)面臨數(shù)據(jù)不平衡分布的問題，以至于這些模型在比較常見的詞上面效果很好，但是在一些低頻詞上面效果卻很差。

本文提出了一個(gè)基于 Zipf's law 的數(shù)據(jù)采樣策略，來幫助模型更地平衡高頻詞與低頻詞上訓(xùn)練的效果問題。實(shí)驗(yàn)結(jié)果表明，在不損害高頻詞WSD效果的同時(shí)，該方法能夠大大提升模型在低頻詞和zero-shot詞上面的表現(xiàn)。

語言模型

1. 從中文GPT的預(yù)訓(xùn)練模型到拼音輸入法的適配探究

Exploring and Adapting Chinese GPT to Pinyin Input Method

本文由騰訊AI Lab主導(dǎo)，與新加坡管理大學(xué)、浙江大學(xué)合作完成。本文主要研究了將中文GPT的預(yù)訓(xùn)練模型適配到拼音輸入法的問題。我們發(fā)現(xiàn)，在GPT的廣泛使用中，仍然缺少對(duì)拼音輸入法的探索。經(jīng)過對(duì)生成過程加上拼音的限制，全拼場(chǎng)景下的GPT的效果十分突出，在傳統(tǒng)的數(shù)據(jù)集上就能達(dá)到SOTA。然而，對(duì)于首字母的情形，GPT的效果出現(xiàn)大幅下滑，這與同聲母字的候選大幅增加相關(guān)。

本文采取兩種策略來解決這個(gè)問題，一方面讓模型充分使用上下文信息和拼音信息，另一方面增強(qiáng)訓(xùn)練過程中對(duì)同聲母字的辨析。為了助力拼音輸入法的評(píng)測(cè)，團(tuán)隊(duì)基于最新的語料，構(gòu)建了跨15個(gè)領(lǐng)域的270k的測(cè)試集合，集合的樣本覆蓋多種上文的長(zhǎng)度和預(yù)測(cè)長(zhǎng)度組合。對(duì)模型的分析和消融顯示，模型的兩個(gè)策略都對(duì)最后的效果有促進(jìn)作用。實(shí)驗(yàn)結(jié)果對(duì)輸入法的研究具有參考意義。

2. CoCoLM：復(fù)雜常識(shí)知識(shí)強(qiáng)化的語言模型

CoCoLM: Complex Commonsense Enhanced Language Model

本文由騰訊AI Lab與香港科技大學(xué)合作完成，被會(huì)議接收為Findings長(zhǎng)論文。大規(guī)模預(yù)訓(xùn)練模型展示出了很強(qiáng)的知識(shí)表征能力，但是現(xiàn)有研究仍然表明即便這些模型展示出了非常強(qiáng)的低階常識(shí)知識(shí)的能力，他們表征更復(fù)雜的高階常識(shí)的能力仍然有所欠缺。

為了解決這個(gè)問題，本文提出將利用有的常識(shí)知識(shí)來增強(qiáng)語言模型對(duì)于常識(shí)的理解能力。具體來說，我們?cè)O(shè)計(jì)了一個(gè)三階段的模型。第一階段為general purpose的預(yù)訓(xùn)練，第二階段為針對(duì)常識(shí)知識(shí)的預(yù)訓(xùn)練，第三階段為fine-tuning。實(shí)驗(yàn)結(jié)果表明這樣的一個(gè)結(jié)構(gòu)能夠幫助我們獲得一個(gè)常識(shí)知識(shí)增強(qiáng)的語言模型CoCoLM，并在多個(gè)下游常識(shí)理解任務(wù)上取得顯著的提升。

3. 全字掩蔽一直是中文BERT更好的掩蔽策略嗎：在中文語法糾錯(cuò)任務(wù)上的探查

“Is Whole Word Masking Always Better for Chinese BERT?”: Probing on Chinese Grammatical Error Correction

本文由騰訊 AI Lab主導(dǎo)，與復(fù)旦大學(xué)合作完成，被會(huì)議接收為Findings短論文。全字掩蔽(WWM)是一次性地把一個(gè)字所對(duì)應(yīng)的所有子詞全部進(jìn)行掩蔽，這種策略能夠得到更好的英文BERT模型。但是對(duì)于中文來講，每一個(gè)字都是無法分割的最小字符，它沒有子詞的概念。中文的詞和英文的詞區(qū)別在于，中文的詞是由不同的字組合而成。這樣的區(qū)別促使我們?nèi)パ芯渴欠馱WM能夠使得中文BERT具有更好的內(nèi)容理解能力。

為此，該項(xiàng)工作引入了兩個(gè)跟中文語法糾錯(cuò)相關(guān)的探針任務(wù)，它們利用預(yù)訓(xùn)練模型本身的方式去修正或者插入一些中文字或詞。我們構(gòu)建了一個(gè)數(shù)據(jù)集用來完成這兩個(gè)任務(wù)，它具有10,448個(gè)句子和19,075個(gè)字的標(biāo)簽。我們訓(xùn)練了三個(gè)模型，它們分別采用了字掩蔽(CLM)，WWM, 以及同時(shí)采用CLM和WWM。

本文的主要發(fā)現(xiàn)包括：第一，當(dāng)只有一個(gè)字需要被修正或插入，采用CLM訓(xùn)練的預(yù)訓(xùn)練模型表現(xiàn)更好。第二，當(dāng)連續(xù)的兩個(gè)字及更多字需要被處理時(shí)，WWM起到了關(guān)鍵性的作用。第三，當(dāng)對(duì)句子級(jí)別的下游任務(wù)進(jìn)行微調(diào)時(shí)，幾種掩蔽策略表現(xiàn)相當(dāng)。

4. 通過查詢百萬參考文獻(xiàn)回答開放領(lǐng)域問題的預(yù)訓(xùn)練

C-MORE: Pretraining to Answer Open-Domain Questions by Consulting Millions of References

本文由騰訊AI Lab主導(dǎo)，與俄亥俄州立大學(xué)合作完成。本文研究了如何預(yù)訓(xùn)練兩階段開放式問答系統(tǒng)（retriever+reader）。關(guān)鍵的挑戰(zhàn)是如何在沒有特定任務(wù)標(biāo)注的情況下構(gòu)建大量高質(zhì)量的上下文問答三元組（question-answer-context triplet）。

具體來說，三元組應(yīng)該通過以下方式與下游任務(wù)保持一致：（i）覆蓋廣泛的領(lǐng)域（對(duì)于開放領(lǐng)域應(yīng)用），（ii）將問題與其語義相關(guān)的上下文聯(lián)系起來，并提供支持證據(jù)（用于訓(xùn)練retriever），以及（iii）在上下文中識(shí)別正確答案（用于訓(xùn)練reader）。已有的預(yù)訓(xùn)練方法通常達(dá)不到其中一項(xiàng)或多項(xiàng)要求。

在這項(xiàng)工作中，我們通過查閱維基百科（Wikipedia）中引用的數(shù)以百萬計(jì)的參考文獻(xiàn)，自動(dòng)構(gòu)建了一個(gè)滿足所有三個(gè)標(biāo)準(zhǔn)的大規(guī)模語料庫。構(gòu)建的語料庫對(duì)retriever和reader都有顯著的好處。相較于已有方法，我們經(jīng)過訓(xùn)練的retriver在top-20 accuracy上提高了2%-10%，整個(gè)系統(tǒng)的accuracy最高提高了4%。

* 歡迎轉(zhuǎn)載，請(qǐng)注明來自騰訊AI Lab微信（tencent_ailab）

總結(jié)

以上是生活随笔為你收集整理的ACL 2022 | 腾讯AI Lab入选20篇论文：写作助手和交互翻译背后的技术创新的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：客服聊天系统源码
下一篇： cad图纸导入ai尺寸变了_AI公司导入