ACL 2022 | 腾讯AI Lab入选20篇论文:写作助手和交互翻译背后的技术创新
感謝閱讀騰訊AI Lab微信號(hào)第146篇文章。本文介紹騰訊 AI Lab 被 ACL 2022 收錄的研究成果。
國(guó)際最受關(guān)注的自然語言處理自然語言處理(NLP)頂級(jí)會(huì)議 ACL 2022 于今年 5 月 22 日至 27 日舉行,包括愛爾蘭都柏林的線下會(huì)議及線上會(huì)議兩部分。
騰訊 AI Lab 共有 20 篇論文被收錄(含 5 篇 findings),涵蓋對(duì)話與文本生成、機(jī)器翻譯、文本理解、語言模型等方向。本文為部分入選論文解讀。
騰訊 AI Lab 自然語言處理團(tuán)隊(duì)的研究?jī)?nèi)容囊括從自然語言理解到生成的整個(gè)鏈條,及對(duì) AI 系統(tǒng)可解釋性以及算法底層機(jī)制等理論研究,并持續(xù)向 NLP 及 AI 社區(qū)分享其領(lǐng)先研究成果。此前已發(fā)布多項(xiàng)系統(tǒng)及數(shù)據(jù):
●?文本理解系統(tǒng) TexSmart
https://texsmart.qq.com/?
●?交互翻譯系統(tǒng) TranSmart
https://transmart.qq.com/?
●?智能創(chuàng)作助手 Effidit
https://effidit.qq.com/?
●?騰訊中文詞向量數(shù)據(jù)
https://ai.tencent.com/ailab/nlp/zh/embedding.html
對(duì)話與文本生成
1. 一種獨(dú)立于模型的個(gè)性化對(duì)話生成數(shù)據(jù)處理方法
A Model-Agnostic Data Manipulation Method for Persona-based Dialogue Generation
本文由騰訊AI Lab主導(dǎo),與悉尼大學(xué)合作完成。為了更好地構(gòu)建智能對(duì)話機(jī)器人,越來越多的研究開始考慮把顯式的人物個(gè)性信息包含到生成模型中。但是這類人物個(gè)性化對(duì)話的數(shù)據(jù)大小通常受限,進(jìn)而限制了直接使用現(xiàn)有數(shù)據(jù)所訓(xùn)練出的對(duì)話生成模型的性能。本文作者認(rèn)為,此類任務(wù)中數(shù)據(jù)上的挑戰(zhàn)主要來源于兩個(gè)方面:首先,收集此類數(shù)據(jù)來擴(kuò)充現(xiàn)有數(shù)據(jù)集的代價(jià)很大;其次,該數(shù)據(jù)集中每一個(gè)樣本的學(xué)習(xí)難度都要比傳統(tǒng)對(duì)話數(shù)據(jù)更高。
因此,本文針對(duì)以上兩點(diǎn)問題,提出了一種新的個(gè)性化對(duì)話數(shù)據(jù)處理方法,該方法獨(dú)立于模型因此可以和任意一種個(gè)性化對(duì)話生成模型結(jié)合進(jìn)而提升其性能。本文首先對(duì)原始數(shù)據(jù)樣本進(jìn)行蒸餾,剔除難以學(xué)習(xí)的樣本進(jìn)而讓模型可以更容易地?cái)M合蒸餾后的樣本分布。之后,使用多種不同的方法來有效地增強(qiáng)蒸餾后的樣本,使其變得更多樣進(jìn)而緩解其數(shù)量不足的問題。最后,目標(biāo)模型會(huì)使用我們構(gòu)建的數(shù)據(jù)課程進(jìn)行訓(xùn)練,即先在增強(qiáng)后的蒸餾數(shù)據(jù)上進(jìn)行訓(xùn)練,之后再在原始樣本上進(jìn)行訓(xùn)練。
實(shí)驗(yàn)表明,該方法可以有效地提升兩種對(duì)話生成模型(Transformer和GPT2)在此類任務(wù)上的性能。
2. 基于詞匯知識(shí)內(nèi)化的神經(jīng)網(wǎng)絡(luò)對(duì)話生成
Lexical Knowledge Internalization for Neural Dialog Generation
本文由騰訊AI Lab主導(dǎo),與香港大學(xué),華東師范大學(xué),上海人工智能研究院合作完成。本文提出使用知識(shí)內(nèi)化的方法來把詞匯知識(shí)嵌入補(bǔ)充到神經(jīng)對(duì)話模型當(dāng)中。相較于基于知識(shí)的對(duì)話模型直接依賴于一個(gè)外部檢索到的知識(shí),該方法嘗試將關(guān)于每個(gè)輸入單詞的詞匯知識(shí)嵌入到對(duì)話模型的參數(shù)當(dāng)中。為了應(yīng)對(duì)規(guī)模巨大的詞匯知識(shí),本文采用了對(duì)比學(xué)習(xí)的方法,并利用維基百科的弱監(jiān)督信息構(gòu)建了一個(gè)詞級(jí)別的詞匯知識(shí)檢索器。該方法在多個(gè)數(shù)據(jù)集和模型架構(gòu)上驗(yàn)證了有效性。
3. 邁向抽象而接地的播客轉(zhuǎn)錄文本摘要
Towards Abstractive Grounded Summarization of Podcast Transcripts
本文由騰訊AI Lab主導(dǎo),與中佛羅里達(dá)大學(xué)合作完成。播客最近迅速普及,播客轉(zhuǎn)錄文本的摘要對(duì)內(nèi)容提供者和消費(fèi)者都有實(shí)際好處,可以幫助消費(fèi)者快速?zèng)Q定是否會(huì)收聽播客,并減少內(nèi)容提供者編寫摘要的認(rèn)知負(fù)擔(dān)。然而,播客摘要面臨重大挑戰(zhàn),包括與輸入相關(guān)的事實(shí)不一致。口語記錄中的語音不流暢和識(shí)別錯(cuò)誤加劇了這個(gè)問題。
本文探索了一種新穎的抽象摘要方法來緩解這些挑戰(zhàn)。具體來說,我們的方法學(xué)習(xí)生成一個(gè)抽象的摘要,同時(shí)將摘要段對(duì)應(yīng)轉(zhuǎn)錄的特定部分,以允許對(duì)摘要細(xì)節(jié)進(jìn)行全面檢查。我們?cè)诖笮筒タ蛿?shù)據(jù)集上對(duì)所提出的方法進(jìn)行了一系列分析,并表明該方法可以取得了可觀的結(jié)果。接地的摘要在定位包含不一致信息的摘要和轉(zhuǎn)錄片段方面帶來了明顯的好處,從而顯著地在自動(dòng)和人工評(píng)估指標(biāo),都提高了摘要質(zhì)量。
4. 邊講邊學(xué):基于敘事預(yù)訓(xùn)練的零樣本對(duì)話理解
Learning-by-Narrating: Narrative Pre-training for Zero-Shot Dialogue Comprehension?
本文由騰訊AI Lab與俄亥俄州立大學(xué)合作完成。對(duì)話理解需要捕獲話語中的各種關(guān)鍵信息,這些信息有可能分散于多輪對(duì)話的不同位置或者隱含在話語中。因此,對(duì)話理解模型需要綜合多種自然語言理解能力,例如復(fù)述、總結(jié)、常識(shí)推理、隱含知識(shí)推理等。
本文提出了一個(gè)“邊講邊學(xué)”(leaning-by-narrating)的預(yù)訓(xùn)練策略。該策略通過在預(yù)訓(xùn)練過程中引導(dǎo)模型對(duì)輸入對(duì)話的內(nèi)容進(jìn)行敘述,從而使模型學(xué)習(xí)并理解對(duì)話中的關(guān)鍵信息。然而,目前還沒有公開的大規(guī)模對(duì)話-敘述平行語料庫能夠支持這種預(yù)訓(xùn)練策略。為此,我們首先收集了大量電影字幕及情節(jié)摘要數(shù)據(jù),通過將二者進(jìn)行自動(dòng)切分和對(duì)齊,從而構(gòu)建了一個(gè)對(duì)話-敘述平行語料庫-DIANA。然后,在該語料庫上對(duì)模型進(jìn)行生成式預(yù)訓(xùn)練,并在四個(gè)對(duì)話理解的下游任務(wù)中對(duì)模型性能進(jìn)行評(píng)估。
實(shí)驗(yàn)結(jié)果表明,該模型在零試學(xué)習(xí)的場(chǎng)景下性能顯著優(yōu)于先前的模型。同時(shí)發(fā)現(xiàn)DIANA中蘊(yùn)含著多種類型的知識(shí),可以提高模型在多種細(xì)粒度對(duì)話理解層面的能力。
5. 開放式文本生成的事件轉(zhuǎn)換路徑規(guī)劃
Event Transition Planning for Open-ended Text Generation
本文由騰訊AI Lab主導(dǎo),與香港大學(xué)、山東大學(xué)、上海人工智能研究院合作完成,被會(huì)議接收為Findings長(zhǎng)論文。開放式文本生成任務(wù),例如對(duì)話生成和故事完成,需要模型在有限的先前上下文中生成連貫的延續(xù),給當(dāng)今的神經(jīng)自回歸文本生成器帶來了新的挑戰(zhàn)。盡管這些神經(jīng)模型擅長(zhǎng)生成流暢的文本,但它們很難建模給定上下文中的事件與可能發(fā)生的事件之間的因果關(guān)系。
為了彌合這一差距,本文提出了一種新穎的兩階段方法,可明確地建模開放式文本生成中的事件轉(zhuǎn)移規(guī)劃。該方法可以理解為一種經(jīng)過特殊訓(xùn)練的從粗到細(xì)的算法,其中事件轉(zhuǎn)換規(guī)劃器提供“粗略”的事件骨架,而第二階段的文本生成器會(huì)細(xì)化骨架。在兩個(gè)開放式文本生成任務(wù)上的實(shí)驗(yàn)表明,該方法在連貫性和多樣性方面有效地提高了生成文本的質(zhì)量。
機(jī)器翻譯
1. 彌合無監(jiān)督神經(jīng)機(jī)器翻譯訓(xùn)練和推理之間的數(shù)據(jù)差距
Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation
本文由騰訊AI Lab主導(dǎo),與上海交通大學(xué)合作完成。作為無監(jiān)督神經(jīng)機(jī)器翻譯的重要組成部分,回譯利用目標(biāo)語言的單語數(shù)據(jù)生成偽平行數(shù)據(jù)。無監(jiān)督神經(jīng)機(jī)器翻譯模型在這些源端是翻譯句子的偽平行數(shù)據(jù)上進(jìn)行訓(xùn)練,但往往對(duì)自然書寫的源端文本進(jìn)行翻譯推理。源端數(shù)據(jù)在訓(xùn)練和推理之間的差異阻礙了無監(jiān)督神經(jīng)機(jī)器翻譯模型的翻譯性能。
通過精心設(shè)計(jì)的實(shí)驗(yàn),我們確定了源端數(shù)據(jù)差異性的兩個(gè)代表性特征:(1)風(fēng)格差異(即翻譯與自然文本風(fēng)格)導(dǎo)致較差的泛化能力;(2)內(nèi)容差異誘使模型產(chǎn)生偏向目標(biāo)語言的幻覺內(nèi)容。
為了縮小這種數(shù)據(jù)差異,我們提出了一種在線的自訓(xùn)練方法,它同時(shí)使用{自然的源端句子,翻譯的目標(biāo)端句子}的偽平行數(shù)據(jù)來模擬推理的場(chǎng)景。在多個(gè)廣泛使用語言對(duì)上的實(shí)驗(yàn)結(jié)果表明,我們的方法通過彌補(bǔ)風(fēng)格和內(nèi)容上的差距,超過了兩個(gè)強(qiáng)基線模型(XLM和MASS)。
2. 理解和提高針對(duì)機(jī)器翻譯的序列到序列預(yù)訓(xùn)練模型
Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation
本文由騰訊AI Lab主導(dǎo),與香港中文大學(xué)和阿爾伯塔大學(xué)合作完成。本研究旨在理解和改進(jìn)針對(duì)機(jī)器翻譯系統(tǒng)的序列到序列的預(yù)訓(xùn)練研究,特別是針對(duì)預(yù)訓(xùn)練解碼器。我們發(fā)現(xiàn)序列到序列的預(yù)訓(xùn)練是一個(gè)雙刃劍:一方面這個(gè)模塊可以提高翻譯模型的譯文的準(zhǔn)確性和多樣性;另一方面,由于預(yù)訓(xùn)練和下游翻譯任務(wù)的不同,預(yù)訓(xùn)練解碼器會(huì)引入生成風(fēng)格的偏移以及過度自信的問題,從而限制模型性能。
基于以上的發(fā)現(xiàn),我們提出了兩種簡(jiǎn)潔而有效的方法來提高預(yù)訓(xùn)練模型在下游翻譯任務(wù)上的表現(xiàn),包括領(lǐng)域內(nèi)預(yù)訓(xùn)練和輸入自適應(yīng)。前者將預(yù)訓(xùn)練模型在領(lǐng)域內(nèi)單語數(shù)據(jù)上繼續(xù)訓(xùn)練,從而縮小預(yù)訓(xùn)練模型與下游翻譯任務(wù)數(shù)據(jù)分布上的差異。后者對(duì)下游翻譯任務(wù)的輸入數(shù)據(jù)進(jìn)行加噪,并將加噪數(shù)據(jù)與原始數(shù)據(jù)混合訓(xùn)練翻譯任務(wù)模型,從而更好的將預(yù)訓(xùn)練模型的知識(shí)遷移到下游翻譯任務(wù)模型。我們?cè)诙鄠€(gè)翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了我們的方法可以有效地提高模型翻譯效果和魯棒性。
3. BiTIIMT:一種基于雙語文本填充的交互式機(jī)器翻譯方法
BiTIIMT: A Bilingual Text-infilling Method for Interactive Machine Translation
本文由騰訊AI Lab主導(dǎo),與南京大學(xué)合作完成。交互式機(jī)器翻譯(INMT)通過人工干預(yù),可以保證高質(zhì)量的譯文輸出。現(xiàn)有的交互式系統(tǒng)通常采用約束解碼算法(LCD):它可以采用一種靈活的方式進(jìn)行翻譯,從而避免了自左向右翻譯范式的約束。然而,由于約束解碼的原因,這種交互系統(tǒng)在翻譯效率和翻譯質(zhì)量上存在明顯的不足。
本文提出了一種新穎的交互翻譯系統(tǒng),即基于雙語文本填充的交互翻譯模型。它的基本思想是一個(gè)雙語文本填充(BiTI)任務(wù):對(duì)于給定的源語言和人工校對(duì)的翻譯譯文片段,自動(dòng)地進(jìn)行句子填充從而獲得更好的譯文。通過將這個(gè)任務(wù)轉(zhuǎn)化為序列到序列的任務(wù),本文提出了一種簡(jiǎn)單有效的方法來進(jìn)行實(shí)現(xiàn)。這種實(shí)現(xiàn)方法的優(yōu)勢(shì)是,它的解碼效率與標(biāo)準(zhǔn)NMT的效率相同,而且它可以充分地利用人工校對(duì)的信息進(jìn)行準(zhǔn)確的詞預(yù)測(cè)。
實(shí)驗(yàn)結(jié)果表明,該方法在翻譯質(zhì)量、效率和一致性上都優(yōu)于詞約束解碼方法。
4. 低頻詞重分布:充分利用單語數(shù)據(jù)增強(qiáng)非自回歸翻譯
Redistributing Low-Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation
本文由騰訊AI Lab主導(dǎo),悉尼大學(xué)合作完成。知識(shí)蒸餾(KD)是訓(xùn)練非自回歸翻譯(NAT)模型的首要步驟。它可以簡(jiǎn)化NAT的模型訓(xùn)練,但代價(jià)是丟失翻譯低頻詞的重要信息。本文提出了一個(gè)有吸引力的替代方案:單語KD。該方案利用從原始平行數(shù)據(jù)訓(xùn)練的AT老師來蒸餾額外的單語數(shù)據(jù),從而訓(xùn)練AT學(xué)生。單語KD能夠?qū)⒃茧p語數(shù)據(jù)的知識(shí)(隱式編碼在AT教師模型中)和新的單語數(shù)據(jù)知識(shí)傳遞到NAT學(xué)生模型。在8個(gè)WMT基準(zhǔn)數(shù)據(jù)集上對(duì)2個(gè)先進(jìn)的NAT模型進(jìn)行的大量實(shí)驗(yàn)表明,單語KD通過改善低頻詞翻譯而始終優(yōu)于標(biāo)準(zhǔn)KD方法,且不引入任何計(jì)算開銷。
同時(shí),單語KD具有良好的可擴(kuò)展性,當(dāng)給定更多計(jì)算開銷,其可以通過與標(biāo)準(zhǔn)KD融合、反向單語KD融合或擴(kuò)大單語數(shù)據(jù)規(guī)模來進(jìn)一步增強(qiáng)。大量的分析表明,這些技術(shù)可以有效地融合,從而進(jìn)一步召回在標(biāo)準(zhǔn)KD中丟失的有用信息。令人鼓舞的是,我們的方法融合標(biāo)準(zhǔn)KD后,在WMT14英-德和德-英數(shù)據(jù)集上分別獲得了30.4和34.1 BLEU值。
該項(xiàng)工作的代碼和模型已開源:
https://github.com/alphadl/RLFW-NAT.mono
5. 可視化模型學(xué)習(xí)到的語言學(xué)信息和任務(wù)性能之間的關(guān)系
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance
本文由騰訊AI Lab主導(dǎo),與中國(guó)科學(xué)技術(shù)大學(xué)和日本奈良先端科學(xué)技術(shù)大學(xué)合作完成,被會(huì)議接收為Findings長(zhǎng)論文。Probing是一種很流行的方法,它可以分析一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型是否學(xué)習(xí)到語言學(xué)信息,但是,它無法回答改變模型學(xué)習(xí)到的語言學(xué)信息是否會(huì)影響任務(wù)的性能。為此,本文從帕累托最優(yōu)的角度出發(fā),研究語言學(xué)信息與任務(wù)性能之間的動(dòng)態(tài)關(guān)系。它的基本思想是嘗試解決這樣一個(gè)優(yōu)化問題:優(yōu)化出一個(gè)模型參數(shù)的子集使得它的每個(gè)元素都滿足語言學(xué)信息和任務(wù)性能兩方面的近似最優(yōu)性。據(jù)此,本文將這個(gè)問題轉(zhuǎn)化為一個(gè)多目標(biāo)優(yōu)化問題,并提出了一個(gè)方法來優(yōu)化帕累托最優(yōu)的模型參數(shù)子集。
本文在兩個(gè)自然語言處理的主流任務(wù)上(機(jī)器翻譯和語言模型)進(jìn)行了實(shí)驗(yàn),并展示了多種不同語言學(xué)信息與任務(wù)性能之間的關(guān)系。實(shí)驗(yàn)結(jié)果表明,本文提出的方法優(yōu)于一個(gè)基線方法。同時(shí),經(jīng)驗(yàn)結(jié)果表明適量的句法信息有利于兩個(gè)任務(wù),但是更多的信息未必導(dǎo)致更好的任務(wù)性能,因?yàn)槟P偷慕Y(jié)構(gòu)也是一個(gè)重要的因素。
6. 機(jī)器翻譯自動(dòng)度量評(píng)價(jià)中的數(shù)據(jù)變化性問題
Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics
本文由騰訊AI Lab主導(dǎo),與中國(guó)科學(xué)技術(shù)大學(xué),日本奈良先端科學(xué)技術(shù)大學(xué)和意大利特倫托大學(xué)合作完成,被會(huì)議接收為Findings短論文。在度量評(píng)價(jià)時(shí),往往關(guān)注一個(gè)領(lǐng)域的單個(gè)數(shù)據(jù)集;比如,每年WMT度量評(píng)價(jià)任務(wù)上,新聞?lì)I(lǐng)域通常只給出了一個(gè)數(shù)據(jù)集。本文進(jìn)行了定性和定量的分析實(shí)驗(yàn),結(jié)果表明度量的表現(xiàn)對(duì)所采用的數(shù)據(jù)具有敏感性,即度量的排序隨著所采用的數(shù)據(jù)變化而變化,即使這些數(shù)據(jù)都來源于相同的領(lǐng)域。隨后本文進(jìn)一步分析了導(dǎo)致這個(gè)問題的兩個(gè)可能原因,即,非顯著的樣本點(diǎn)和獨(dú)立同分布假設(shè)的違背。最后,本文建議,在評(píng)價(jià)度量時(shí)需要注意數(shù)據(jù)變化的問題并避免采用一個(gè)數(shù)據(jù)進(jìn)行比較,否則得出的結(jié)論可能會(huì)有數(shù)據(jù)變化的問題。
文本理解
1. 重新思考負(fù)采樣-一種處理實(shí)體漏標(biāo)注問題的方法
Rethinking Negative Sampling for Handling Missing Entity Annotations
本文由騰訊AI Lab獨(dú)立完成。負(fù)采樣可以有效地處理命名實(shí)體識(shí)別中的漏標(biāo)注問題。本文的一個(gè)貢獻(xiàn)是,從抽樣錯(cuò)誤和不確定性兩個(gè)角度出發(fā),分析了負(fù)采樣方法的有效性。實(shí)驗(yàn)表明,較低的抽樣錯(cuò)誤率和較高的不確定性是負(fù)采樣有效的關(guān)鍵。基于命名實(shí)體稀疏性的特點(diǎn),本文研究了抽樣錯(cuò)誤率為0的概率,推導(dǎo)出了這個(gè)概率的一個(gè)下界,它與句子的長(zhǎng)度相關(guān)。
根據(jù)上述分析,本文還提出了一種自適應(yīng)的加權(quán)抽樣方法,它可以進(jìn)一步提升負(fù)采樣的性能;這是本文的另外一個(gè)貢獻(xiàn)。在模擬數(shù)據(jù)和標(biāo)注完整的數(shù)據(jù)集(CoNLL-2003)上, 本文提出的負(fù)采樣方法取得了更好的F1值以及更快的收斂;另外,在真實(shí)的漏標(biāo)注數(shù)據(jù)(EC)上,該負(fù)采樣方法獲得了最好的效果。
2. 利用情境常識(shí)提高機(jī)器閱讀理解
Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge
本文由騰訊AI Lab主導(dǎo),與康奈爾大學(xué)合作完成。為了在機(jī)器閱讀理解 (MRC) 任務(wù)中表現(xiàn)出色,機(jī)器閱讀理解模型通常需要具備給定文檔中未明確提及的常識(shí)知識(shí)。本文旨在劇本中提取一種新的結(jié)構(gòu)化知識(shí),并將其用于改進(jìn) MRC。我們專注于劇本,因?yàn)樗鼈儼S富的語言和非語言信息,并且在短時(shí)間內(nèi)由不同形式傳達(dá)的兩條相關(guān)信息可能可以作為一條常識(shí)知識(shí)的元素(argument)對(duì),因?yàn)槠湓谌粘=涣髦泄餐l(fā)揮作用。
為了減少人工命名關(guān)系帶來的成本,我們建議通過將這樣的元素對(duì)置于上下文中來隱式表示它們之間的關(guān)系,并將其稱為情境知識(shí)。? 為了使用提取的知識(shí)來改進(jìn) MRC,我們比較了幾種微調(diào)策略來使用基于情境知識(shí)構(gòu)建的弱標(biāo)記 MRC 數(shù)據(jù),并進(jìn)一步設(shè)計(jì)了具有多個(gè)teachers的teacher-student范式,以促進(jìn)弱標(biāo)記MRC 數(shù)據(jù)中的知識(shí)轉(zhuǎn)移。
實(shí)驗(yàn)結(jié)果表明,我們的范式優(yōu)于其他使用弱標(biāo)記數(shù)據(jù)的方法,并且在中文多選 MRC 數(shù)據(jù)集 C3 上將最先進(jìn)的基線模型準(zhǔn)確率提高了 4.3%,其中大多數(shù)問題需要未在文中明說的先驗(yàn)知識(shí)。我們還試圖通過簡(jiǎn)單地微調(diào)生成的student模型來將知識(shí)轉(zhuǎn)移到其他任務(wù),在關(guān)系抽取數(shù)據(jù)集 DialogRE 上帶來 2.9% 的 F1提升,體現(xiàn)了情境知識(shí)對(duì)于需要的文檔理解的非 MRC 任務(wù)的潛在的價(jià)值。
3. 作為廉價(jià)監(jiān)督信息的變分自動(dòng)編碼在AMR指代消解的應(yīng)用
Variational Graph Autoencoding as Cheap Supervision for AMR Coreference Resolution
本文由騰訊AI Lab主導(dǎo),與耶魯大學(xué)合作完成。對(duì) AMR 之類的語義圖的共指解析旨在對(duì)表示同一實(shí)體的圖節(jié)點(diǎn)進(jìn)行分組, 這是構(gòu)造文檔級(jí)形式語義表示的關(guān)鍵步驟。借助關(guān)于 AMR 共指解析的注釋數(shù)據(jù),深度學(xué)習(xí)方法最近在這項(xiàng)任務(wù)中顯示出巨大的潛力,但它們通常需要大量訓(xùn)練數(shù)據(jù)并且注釋數(shù)據(jù)的成本很高。
本文提出了一種基于變分圖自動(dòng)編碼器(VGAE)進(jìn)行 AMR 共指解析的通用預(yù)訓(xùn)練的方法,該方法可以利用任何通用 AMR 語料庫,甚至可以AMR模型自動(dòng)生成的 AMR 數(shù)據(jù)。在標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)表明,預(yù)訓(xùn)練方法實(shí)現(xiàn)了高達(dá) 6% 的絕對(duì) F1 點(diǎn)的性能提升。此外,我們的模型比之前的最先進(jìn)模型顯著地提高了 11% F1 點(diǎn)。
4. 基于 Zipf's law 的少樣本語義消歧
Rare and Zero-shot Word Sense Disambiguation using Z-Reweighting
本文由騰訊AI Lab與香港科技大學(xué)合作完成。語義消歧(WSD)一直是自然語言里面最核心的問題之一。現(xiàn)有模型通常依賴于大型的預(yù)訓(xùn)練模型和大量的標(biāo)注數(shù)據(jù)來取得效果的提升。但是這類監(jiān)督學(xué)習(xí)的方法通常會(huì)面臨數(shù)據(jù)不平衡分布的問題,以至于這些模型在比較常見的詞上面效果很好,但是在一些低頻詞上面效果卻很差。
本文提出了一個(gè)基于 Zipf's law 的數(shù)據(jù)采樣策略,來幫助模型更地平衡高頻詞與低頻詞上訓(xùn)練的效果問題。實(shí)驗(yàn)結(jié)果表明,在不損害高頻詞WSD效果的同時(shí),該方法能夠大大提升模型在低頻詞和zero-shot詞上面的表現(xiàn)。
語言模型
1. 從中文GPT的預(yù)訓(xùn)練模型到拼音輸入法的適配探究
Exploring and Adapting Chinese GPT to Pinyin Input Method
本文由騰訊AI Lab主導(dǎo),與新加坡管理大學(xué)、浙江大學(xué)合作完成。本文主要研究了將中文GPT的預(yù)訓(xùn)練模型適配到拼音輸入法的問題。我們發(fā)現(xiàn),在GPT的廣泛使用中,仍然缺少對(duì)拼音輸入法的探索。經(jīng)過對(duì)生成過程加上拼音的限制,全拼場(chǎng)景下的GPT的效果十分突出,在傳統(tǒng)的數(shù)據(jù)集上就能達(dá)到SOTA。然而,對(duì)于首字母的情形,GPT的效果出現(xiàn)大幅下滑,這與同聲母字的候選大幅增加相關(guān)。
本文采取兩種策略來解決這個(gè)問題,一方面讓模型充分使用上下文信息和拼音信息,另一方面增強(qiáng)訓(xùn)練過程中對(duì)同聲母字的辨析。為了助力拼音輸入法的評(píng)測(cè),團(tuán)隊(duì)基于最新的語料,構(gòu)建了跨15個(gè)領(lǐng)域的270k的測(cè)試集合,集合的樣本覆蓋多種上文的長(zhǎng)度和預(yù)測(cè)長(zhǎng)度組合。對(duì)模型的分析和消融顯示,模型的兩個(gè)策略都對(duì)最后的效果有促進(jìn)作用。實(shí)驗(yàn)結(jié)果對(duì)輸入法的研究具有參考意義。
2. CoCoLM:復(fù)雜常識(shí)知識(shí)強(qiáng)化的語言模型
CoCoLM: Complex Commonsense Enhanced Language Model
本文由騰訊AI Lab與香港科技大學(xué)合作完成,被會(huì)議接收為Findings長(zhǎng)論文。大規(guī)模預(yù)訓(xùn)練模型展示出了很強(qiáng)的知識(shí)表征能力,但是現(xiàn)有研究仍然表明即便這些模型展示出了非常強(qiáng)的低階常識(shí)知識(shí)的能力,他們表征更復(fù)雜的高階常識(shí)的能力仍然有所欠缺。
為了解決這個(gè)問題,本文提出將利用有的常識(shí)知識(shí)來增強(qiáng)語言模型對(duì)于常識(shí)的理解能力。具體來說,我們?cè)O(shè)計(jì)了一個(gè)三階段的模型。第一階段為general purpose的預(yù)訓(xùn)練,第二階段為針對(duì)常識(shí)知識(shí)的預(yù)訓(xùn)練,第三階段為fine-tuning。實(shí)驗(yàn)結(jié)果表明這樣的一個(gè)結(jié)構(gòu)能夠幫助我們獲得一個(gè)常識(shí)知識(shí)增強(qiáng)的語言模型CoCoLM,并在多個(gè)下游常識(shí)理解任務(wù)上取得顯著的提升。
3. 全字掩蔽一直是中文BERT更好的掩蔽策略嗎:在中文語法糾錯(cuò)任務(wù)上的探查
“Is Whole Word Masking Always Better for Chinese BERT?”: Probing on Chinese Grammatical Error Correction
本文由騰訊 AI Lab主導(dǎo),與復(fù)旦大學(xué)合作完成,被會(huì)議接收為Findings短論文。全字掩蔽(WWM)是一次性地把一個(gè)字所對(duì)應(yīng)的所有子詞全部進(jìn)行掩蔽,這種策略能夠得到更好的英文BERT模型。但是對(duì)于中文來講,每一個(gè)字都是無法分割的最小字符,它沒有子詞的概念。中文的詞和英文的詞區(qū)別在于,中文的詞是由不同的字組合而成。這樣的區(qū)別促使我們?nèi)パ芯渴欠馱WM能夠使得中文BERT具有更好的內(nèi)容理解能力。
為此,該項(xiàng)工作引入了兩個(gè)跟中文語法糾錯(cuò)相關(guān)的探針任務(wù),它們利用預(yù)訓(xùn)練模型本身的方式去修正或者插入一些中文字或詞。我們構(gòu)建了一個(gè)數(shù)據(jù)集用來完成這兩個(gè)任務(wù),它具有10,448個(gè)句子和19,075個(gè)字的標(biāo)簽。我們訓(xùn)練了三個(gè)模型,它們分別采用了字掩蔽(CLM),WWM, 以及同時(shí)采用CLM和WWM。
本文的主要發(fā)現(xiàn)包括:第一,當(dāng)只有一個(gè)字需要被修正或插入,采用CLM訓(xùn)練的預(yù)訓(xùn)練模型表現(xiàn)更好。第二,當(dāng)連續(xù)的兩個(gè)字及更多字需要被處理時(shí),WWM起到了關(guān)鍵性的作用。第三,當(dāng)對(duì)句子級(jí)別的下游任務(wù)進(jìn)行微調(diào)時(shí),幾種掩蔽策略表現(xiàn)相當(dāng)。
4. 通過查詢百萬參考文獻(xiàn)回答開放領(lǐng)域問題的預(yù)訓(xùn)練
C-MORE: Pretraining to Answer Open-Domain Questions by Consulting Millions of References
本文由騰訊AI Lab主導(dǎo),與俄亥俄州立大學(xué)合作完成。本文研究了如何預(yù)訓(xùn)練兩階段開放式問答系統(tǒng)(retriever+reader)。關(guān)鍵的挑戰(zhàn)是如何在沒有特定任務(wù)標(biāo)注的情況下構(gòu)建大量高質(zhì)量的上下文問答三元組(question-answer-context triplet)。
具體來說,三元組應(yīng)該通過以下方式與下游任務(wù)保持一致:(i)覆蓋廣泛的領(lǐng)域(對(duì)于開放領(lǐng)域應(yīng)用),(ii)將問題與其語義相關(guān)的上下文聯(lián)系起來,并提供支持證據(jù)(用于訓(xùn)練retriever),以及(iii)在上下文中識(shí)別正確答案(用于訓(xùn)練reader)。已有的預(yù)訓(xùn)練方法通常達(dá)不到其中一項(xiàng)或多項(xiàng)要求。
在這項(xiàng)工作中,我們通過查閱維基百科(Wikipedia)中引用的數(shù)以百萬計(jì)的參考文獻(xiàn),自動(dòng)構(gòu)建了一個(gè)滿足所有三個(gè)標(biāo)準(zhǔn)的大規(guī)模語料庫。構(gòu)建的語料庫對(duì)retriever和reader都有顯著的好處。相較于已有方法,我們經(jīng)過訓(xùn)練的retriver在top-20 accuracy上提高了2%-10%,整個(gè)系統(tǒng)的accuracy最高提高了4%。
* 歡迎轉(zhuǎn)載,請(qǐng)注明來自騰訊AI Lab微信(tencent_ailab)
總結(jié)
以上是生活随笔為你收集整理的ACL 2022 | 腾讯AI Lab入选20篇论文:写作助手和交互翻译背后的技术创新的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 客服聊天系统源码
- 下一篇: cad图纸导入ai尺寸变了_AI公司导入