AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文
美國人工智能年會(the Association for the Advance of Artificial Intelligence),簡稱AAAI,是人工智能領域的頂級國際會議。會議由AAAI協會主辦,今年是第33屆,于1月27日-2月1日在美國夏威夷舉行。騰訊AI Lab第2次參與會議,共27篇文章入選,涵蓋自然語言處理、計算機視覺、機器學習等領域。
其中,騰訊AI Lab在自然語言處理領域,主要關注知識庫與文本理解、對話和文本生成、和機器翻譯這三大方向。以下為詳細解讀。
知識庫與文本理解
在自然語言處理研究中,各種類型的知識(Knowledge,包括語義知識、實體關系知識、常識知識)已成為文本理解和下游任務中不可或缺的數據資源。騰訊AI Lab的多篇AAAI 2019論文關注了知識庫的建模,及其在文本理解上的應用。
知識庫與短文本理解
1.基于Lattice CNN的中文問答匹配方法
Lattice CNNs for Matching Based Chinese Question Answering
問答系統是普通用戶使用知識庫最直接的渠道。匹配用戶問題這種短文本,通常面臨相同語義的單詞和表達方式不唯一的挑戰。 中文這種還需要額外分詞的語言中,這種現象尤為嚴重。在論文《基于Lattice CNN的中文問答匹配方法(Lattice CNNs for Matching Based Chinese Question Answering)》中,研究者提出一個基于Lattice CNN的模型,利用在單詞語義中多粒度的信息來更好地處理中文問答的匹配。在基于文本問答和知識庫問答的實驗中,實驗結果表明提出的模型可以顯著超過目前最好的匹配模型。
基于Lattice CNN模型理解短文本的框架
涉及新實體的知識庫嵌入
2.基于邏輯注意力鄰域聚集的歸納知識圖譜嵌入方法
Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding
知識庫嵌入的目的是用低維向量建模實體和關系,用于下游任務。已有方法大多要求所有實體在訓練時可見,這在每天更新的知識庫中是不切實際的。在論文《基于邏輯注意力鄰域聚集的歸納知識圖譜嵌入方法(Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding)》中,研究者使用同時訓練鄰域聚集模型的方式來去除這種限制,并提出一種基于規則和注意力機制的聚集模型,即邏輯注意力網絡(LAN)。在兩個知識圖譜補全任務上,LAN被證明優于傳統聚集模型。
涉及新實體(Emerging Entity)的鏈接預測任務
常識知識庫與故事補全
3.結構化常識在故事補全中的應用
Incorporating Structured Commonsense Knowledge in Story Completion
為故事選擇恰當的結尾可以視作通往敘述型文本理解的第一步。這不僅需要顯式的線索,還需要常識知識,而絕大多數已有工作都沒有顯式的使用常識。在論文《結構化常識在故事補全中的應用(Incorporating Structured Commonsense Knowledge in Story Completion)》中,研究者提出一個整合了敘述線索、情感演變以及常識知識的神經網絡模型。這個模型在公共數據集ROCStory Cloze Task上取得了最好的性能。實驗結果同時顯示,引入常識知識帶來了顯著的性能增益。
故事和結尾中的關鍵詞在常識知識庫中的聯系
對話和文本生成
近年來,隨著端到端的深度神經網絡的流行,對話生成及更多場景的文本生成逐漸成為自然語言處理中一個熱點研究領域。其中,對話生成技術正逐漸廣泛地應用于智能對話系統,幫助實現更為智能的人機交互,也可以通過自動生成新聞、財報及其它類型的文本,提高撰文者的工作效率。
在對話生成問題上,通過遷移神經機器翻譯的序列到序列模型等,對話生成的效果取得了顯著的進展。然而,現有的對話生成模型仍存在較多問題。首先,目前的模型大多模擬的是輸入到回復一對一的映射,而實際對話數據經常是一對多的關系的訓練方式,因此模型容易輸出通用回復,欠缺回復多樣性。其次,目前的回復生成模型缺乏對于用戶背景、通用常識等知識的理解,因此如何挖掘更多有用的知識來指引回復生成是一個重要的研究問題。再次,目前多數的研究工作重點在提升單輪回復的生成之類,而缺乏對多輪對話生成的改進,多輪回復生成的質量仍較差。
在文本生成問題中,根據不同的輸入類型,現有的研究任務大致劃分為三大類:文本到文本的生成,數據到文本的生成以及圖像、視頻、音頻到文本的生成。每一類的文本生成技術都極具挑戰性,在近年來的自然語言處理及人工智能領域的頂級會議中均有相當多的研究工作。
騰訊AI Lab在對話生成及文本生成技術均有相關的論文被AAAI2019接收。
短文本中生成回復
4.短文本對話中的多樣性回復
Generating Multiple Diverse Responses for Short-Text Conversation
短文本生成任務之前的工作,主要聚焦在如何學習一個模型為輸入及其回復建立一個一對一的映射關系。但在實際場景中,一個輸入往往有多種回復。因此,研究者提出了一種新的回復生成模型,在訓練過程中考慮了一個提問同時具有多個回復的情況。具體來說,假設每個輸入可以推斷出多個潛在詞,不同的回復是圍繞著不同的潛在詞而產生的。研究者設計了一個基于強化學習算法的對話生成模型。如下圖所示,所提出的框架主要有兩個核心部分:(1)潛在詞推斷網絡:其根據輸入的提問來選擇合適的潛在詞作為生成網絡輸入的一部分;(2)生成網絡,根據潛在詞推斷網絡選擇的潛在詞以及輸入的提問來生成回復?;趶娀瘜W習的訓練過程中,使用F1值來計算潛在詞推斷網絡的獎賞并更新推斷網絡參數,并選取這多個回復中損失最小的一項來更新生成網絡參數。
模型框架圖
微博(左)和Twitter(右)數據集人工評測結果
研究者分別在微博和Twitter兩個數據集上進行大量實驗,人工評測的結果表明所提出的模型相比多個之前的模型,在提升回復信息量的同時保證了回復的多樣性。以下是基線模型MultiMech和我們所提出的模型在微博數據集上的生成樣例。方括號內為潛在詞推斷網絡選擇的潛在詞。
微博數據集生成樣例
多選干擾項生成
5.閱讀理解問題的干擾選項生成
Generating Distractors for Reading Comprehension Questions from Real Examinations
本文探究了考試中為多選閱讀理解題型生成干擾項的任務。和之前工作不同,研究者不以生成單詞或短語類型的干擾項為目的,趨向生成更長并含有豐富語義信息的干擾項,從而生成的干擾項和真實考試中閱讀理解題目的干擾項盡可能接近。
模型框架概覽
如圖所示,以閱讀理解文章,問題和正確的答案選項作為輸入,目標是生成多個與答案有關聯,和問題語義上連貫并能在文章中找到蛛絲馬跡的干擾項。研究者提出了一個層次編碼器-解碼器模型,輔之以靜態與動態注意力機制來解決這個任務。具體來說,動態注意力機制可以融合句子級別和詞級別的注意力信息,并在解碼的每一個步驟會有所變化,從而生成一個可讀性更強的序列。靜態注意力機制可以調制動態注意力機制,打壓與當前問題無關的句子或者包含正確答案的句子。
通過第一個閱讀理解問題干擾項生成數據集上的實驗,本文提出的模型超過了多個基線模型。人工評測中與一些基線模型生成的干擾項相比,其模型生成的干擾項更加容易迷惑標注者。
實驗結果
新聞摘要生成
6.考慮讀者評論的生成式文本摘要
Abstractive Text Summarization by Incorporating Reader Comments
在基于神經網絡的生成式文本摘要研究領域中,傳統的基于序列到序列的模型對文檔主題的建模經常出錯。為解決這個問題,研究者提出了讀者感知的摘要生成任務,它利用讀者的評論來幫助生成符合文檔主題的更好的摘要。與傳統的生成式摘要任務不同,讀者感知型摘要面臨兩個主要挑戰:(1)評論是非正式的,有噪音的; (2)聯合建模新聞文檔和讀者評論具有一定挑戰性。
為解決上述問題,本文設計了一個基于對抗學習的讀者感知型摘要生成模型(RASG),它由四個部分組成:(1)基于序列到序列的摘要生成模塊; (2)讀者注意力建模模塊來捕捉讀者關注的主題; (3)督導建模模塊來描述生成的摘要和讀者關注主題之間的語義差距; (4)目標跟蹤模塊來產生每個生成步驟的目標。督導和目標定位模塊以對抗學習的方式來指導我們框架的訓練。
模型框架概覽
研究者在自行收集的文摘數據集進行大量實驗,結果表明RASG在自動評測和人工評測方面都取得了最好的效果。實驗結果還證明了該框架中每個模塊的有效性,同時研究人員發布了一個大規模數據集供進一步研究。
自動評測結果(左)和人工評測結果
機器翻譯
機器翻譯是人工智能的終極目標之一,其核心語言理解和語言生成是自然語言處理的兩大基本問題,極具挑戰性。近幾年來,隨著深度學習技術的發展,神經網絡機器翻譯取得了巨大進展,其生成的譯文接近自然句子,成為了主流模型。但是由于當前神經網絡的不可解釋性,無法保證原文內容完整傳遞到譯文,使得神經網絡翻譯模型存在譯文忠實度問題(即“達而不信”)。騰訊AI Lab專注于解決該核心問題,在AAAI2019會議上發表的多篇論文通過改進模型架構和訓練框架,提升模型對源句理解和目標句生成的能力,從而改善神經網絡翻譯模型忠實度低的問題。
自注意力模型
7.上下文增強的自注意力神經網絡
Context-Aware Self-Attention Networks
自注意力模型通過直接計算任意兩個詞的向量表示,得到它們的關聯性強弱(圖(a))。由于其極佳的并行性運算及捕獲長距離依賴的能力,自注意力模型成為當前主流翻譯模型(如Transformer)的核心組件。在本工作中,通過改進自注意力模型的全局上下文建模能力,從而更好地計算詞間的關聯性。研究者使用不同策略來建模全局上下文信息,如頂層全局信息(圖(b))、深層信息(圖(c))及深層全局信息(圖(d))。為保持自注意力模型的并行性及簡易性,研究者將上下文信息引入注意力模型輸入(如Query和Key)的轉化函數中。該論文是改進自注意力模型的第二個工作,前續工作(Modeling Localness for Self-Attention Networks, EMNLP2018)改進了自注意力模型的局部建模能力 。
深層模型
8.基于動態層融合的神經網絡機器翻譯
Dynamic Layer Aggregation for Neural Machine Translation
主流的翻譯模型都是深層網絡結構,比如Transformer模型的編碼器和解碼器都是由多層自注意力網絡組成。近期多個工作表明不同層表示可以捕獲輸入句子不同級別的語言學信息,但主流模型只利用了編碼器和解碼器的最上層表示信息,而忽視了其余層包含的有用信息。本研究使用膠囊網絡中的迭代路徑 (iterative routing)算法融合所有層的表示,從而更好地利用不同層捕獲的不同語言學信息。該論文為利用深層表示的第二個工作,前續工作(Exploiting Deep Representations for Neural Machine Translation, EMNLP2018)使用深層連接改進深層網絡中信息和梯度的傳遞路徑(Information and Gradient Flow),而本工作更關注于直接融合不同層表示(Representation Composition)。
忠實度導向的訓練框架
9.基于譯文忠實度訓練的神經網絡機器翻譯
Neural Machine Translation with Adequacy-Oriented Learning
當前翻譯模型的訓練通常是基于最大化詞的似然概率的框架。該框架有三個缺陷:(1)訓練/測試不一致,訓練時是基于正確的目標序列而測試時是由于包含錯誤的生成序列;(2)基于詞級別的目標函數,而在實際場景中評判譯文質量的指標通常是基于句子級別的;(3)最大似然估計更多是關注譯文的流利度而不是忠實度,這也是導致模型偏好短譯文的重要原因。
本研究嘗試在統一框架中同時解決上述三個缺陷。如圖1所示,將翻譯建模成強化學習中的隨機策略(Stochastic Policy)問題,而學習獎勵則是基于模型生成的完整序列評估的。為了更好地評估譯文的忠實度,本文提出了一種新的標準 – 覆蓋差異率(Coverage Difference Ratio, CDR),通過比較生成譯文和人工譯文對源端詞的覆蓋程序,以評估有多少源端詞被遺漏翻譯。在圖2展示的例子中,譯文的 CDR=4/7,其中4和7分別是生成譯文和人工譯文中覆蓋的源端詞個數。 該論文中的覆蓋率思想也是延續作者的前續工作(Modeling Coverage for Neural Machine Translation),在訓練框架中驗證該策略的普適性,實驗同時證明兩種方法具有一定互補性,同時使用可進一步提升翻譯效果。
圖 1 訓練框架
圖 2 CDR示例
除了改進基本的翻譯模型,研究者同時探索輔助翻譯,從而使當前神經網絡機器翻譯系統更好地為真實用戶服務。圍繞最近推出的輔助翻譯產品TranSmart, 騰訊AI Lab發表在AAAI2019的論文(Graph Based Translation Memory for Neural Machine Translation) 將用戶提供的或者自動檢索的翻譯記憶融入神經翻譯模型,從而改善翻譯質量。不同于現有的翻譯記憶方法,本文將翻譯記憶組織成一個壓縮圖并采用基于圖的注意力機制來構建翻譯的上下文。其優勢是,既可以保證計算的有效性,又可以充分地建模翻譯記憶中全局信息比如長距離的調序,因而獲得了更好的翻譯質量。
入選論文
精彩一覽
10. MOBA游戲AI的多層次宏觀策略模型
Hierarchical Macro Strategy Model for MOBA Game AI
該論文由騰訊AI Lab獨立完成,在通用AI研究中,可解決部分可觀測、團隊協作、博弈等復雜AI問題。即時戰略游戲是游戲AI的下一個挑戰。即時戰略游戲給AI研究提供了一個部分可觀測的游戲環境,智能體在這樣的環境中基于比圍棋大的多的操作空間產生交互。攻克即時戰略游戲需要同時具備強大的宏觀策略及精準的微觀執行。最近,研究人員在微觀執行層面取得了巨大突破,然而宏觀策略層面仍然缺乏完整有效的解決方案。該論文創新提出了基于機器學習的多層宏觀策略模型以提升智能體在多人在線格斗游戲(MOBA)游戲 - 即時戰略游戲的一個子類 - 中的宏觀策略能力。經過多層次宏觀策略模型訓練的智能體顯示的進行宏觀策略決策以指導微觀操作。更進一步的,每一個智能體在做決策的同時,通過本文創新設計的模仿跨智能體通信機制與其他智能體進行配合。研究者在一款風靡的5v5 MOBA游戲(王者榮耀)上充分驗證了多層次宏觀策略模型的效果。研究團隊的5 AI戰隊在與前1%的人類戰隊的對戰測試中,取得了48%的勝率。
11. 意見目標抽取以及目標情感預測的統一模型
A Unified Model for Opinion Target Extraction and Target Sentiment Prediction
該論文由騰訊AI Lab主導,與香港中文大學合作完成,該研究通過改進基本的序列標注模型來提升端到端抽取用戶評論中的意見目標和相應的情感傾向的性能?;谝庖娔繕说那楦蟹治?TBSA)涉及到了意見目標抽取和目標情感預測兩個子任務。目前的工作主要是將他們作為兩個單獨的任務來研究,對于實際應用的貢獻是非常有限的。這篇文章的目標在于以一種端到端的方式來解決完整的TBSA任務。為了實現這個目標,本文提出了一個新的統一模型并在模型中采用了一種聯合的標注方案。整個模型用到了兩層循環神經網絡(RNN):上層的RNN用來預測聯合的標簽,這些標簽會作為主要任務TBSA的輸出;為了引導上層的RNN更好的完成TBSA任務,本文引入了下層的RNN來同時解決輔助任務--意見目標實體的邊界檢測。RNN產生的邊界特征表示可以直接用于提升目標情感預測的質量。為了探索任務之間的依賴,本文提出顯式地對目標邊界到目標情感極性的轉換進行約束。本文也設計了一個組件對同一個意見目標內的情感一致性進行維持,這個組件主要基于門控制機制來對上一個時刻的特征和當前時刻的特征之間的關系進行建模。本文在三個標準數據集上進行了大量實驗,結果表明本文的方法都比現有的方法更好。
12.?通過樣本加權進行更好地微調文本分類模型
Better Fine-tuning via Instance Weighting for Text Classification
該論文由騰訊AI Lab主導,與南京大學合作完成。深度神經網絡中使用遷移學習在許多文本分類應用中取得了巨大成功。一種簡單而有效的遷移學習方法是對預訓練的模型參數進行微調。之前的微調工作主要集中在預訓練階段,并且研究如何預訓練一組對目標任務最有幫助的參數。本文提出了一種基于樣本加權的微調(IW-Fit)方法,對于微調階段進行了改進以提高分類器在目標域的最終性能。 IW-Fit動態調整每個微調時期的樣本權重,以實現兩個目標:1)有效地識別和學習目標域的特定知識; 2)很好地保留源域和目標域之間的共享知識。 IW-Fit中使用的樣本加權計算指標與模型無關,對于基于DNN的通用分類器而言易于實現。實驗結果表明,IW-Fit可以持續提高模型在目標域的分類精度。
13. 深層特征結構學習方法
Learning (from) Deep Hierarchical Structure among Features
該論文由香港科技大學與騰訊 AI Lab合作完成,提出了多種層次結構特征學習方法。數據中的特征通常存在著復雜的層次結構。大多數現有的研究側重于利用已知的層次結構來幫助監督學習提高學習的精度,而且通常僅能夠處理層次深度為2的簡單結構。本文提出了一種深度層次特征學習方法(DHS),用于學習任意深度的特征層次結構,并且學習目標是凸函數。DHS方法依賴于結構中邊上的權重的指數系數,然而這些指數系數需要提前人為給定,這會導致學習出的特征表達是次優的。基于DHS方法,本文又提出了可以自動學習這些指數系數的方法。進一步的,本文考慮層次結構未知的情況,并且在DHS的基礎上又提出一種深度特征層次結構學習方法(LDHS)。不同于以往的方法,LDHS不需要知道關于層次結構的先驗知識,而是通過fused-lasso技術和一種特定的序列約束條件直接從數據中學習出特征的層次結構。上述所有提出的模型的優化方法都可以通過近似梯度的方式求解,并且本文給出了求解過程中每個子問題的高效解答算法。本文在多種人工和真實數據集上進行了實驗,結果表明了本文提出方法的有效性。
14.?DDFlow:通過無監督數據蒸餾學習光流
DDFlow:Learning Optical Flow with Unlabeled Data Distillation
這項研究由騰訊AI Lab主導,與香港中文大學合作完成,提出一種無監督的數據蒸餾方法學習光流——DDFlow。該方法由一個教師模型中提取出預測結果,并用這些結果來指導學生模型學習光流。以往的無監督學習方法是通過一些人工設定的能量函數來處理被遮擋的區域,這篇論文的不同之處是通過數據來自動學習和預測被遮擋區域的光流。通過該方法,模型只需使用一個非常簡單的目標函數,就能取得更高的準確率。本文在Flying Chairs, MPI Sintel, KITTI 2012 和 KITTI 2015四個數據集上做了詳盡的實驗。實驗表明,本文提出的方法超過所有無監督的光流預測方法,并且可以實時運行。
15.?類間角度損失用于卷積神經網絡
Inter-Class Angular Loss for Convolutional Neural Networks
這項研究由南京理工大學與騰訊AI Lab合作完成。卷積神經網絡在各種分類任務中表現出強大的力量,并且在實際應用中取得了顯著的成果。然而,現有網絡在很大程度上忽略了不同類別對的區分學習難題。例如,在CIFAR-10數據集中,區分貓和狗通常比區分馬和船更難。通過仔細研究卷積神經網絡模型在訓練過程中的行為,研究者觀察到兩類的混淆程度與它們在特征空間中的角度可分性密切相關。也就是說,類間角度越大,混淆度越低。基于這一觀察,研究者提出了一種新的損失函數,稱為“類間角度損失”(ICAL)。它明確地模擬了類相關性,可以直接應用于許多現有的深度網絡。通過最小化ICAL,網絡可以通過擴大它們對應的類向量之間的角度來有效地區分相似類別中的示例。對一系列視覺和非視覺數據集的全面實驗結果證實,ICAL極大地提高了各種代表性深度神經網絡的辨別能力,并為傳統的softmax損失產生了優于原始網絡的性能。
16.?基于最大化后驗估計的詞嵌入模型
Word Embedding as Maximum A Posteriori Estimation
這項研究由肯特大學與騰訊AI Lab合作完成。詞嵌入模型GloVe可以被重構成一個最大似然估計問題,再通過優化的方式進行求解。該論文通過考慮基于GloVe的參數化方法,同時結合先驗分布來對GloVe詞嵌入模型進行泛化。本文提出了一個新的詞嵌入模型,該模型對每個上下文詞的變化進行建模,來表示這個詞的信息重要性。論文中提出的框架可以統一學習詞向量和每個詞的變化。實驗表明本文提出詞向量模型優于GloVe和它的其他變種。
17.可控的圖像到視頻轉換:關于人臉表情生成的案例分析
Controllable Image-to-Video Translation: A Case Study on Facial Expression Generation
這項研究由騰訊AI lab主導,與麻省理工學院(MIT)合作完成。深度學習的最新進展使得利用神經網絡生成如照片般逼真的圖像成為可能,甚至可以從視頻過去幾幀推斷出未來幾幀——某種意義上,實現了從過去視頻到未來視頻的生成。為了進一步深化這種探索,同時也出于對實際應用的興趣,我們研究了圖像到視頻的轉換,特別關注面部表情的視頻。與圖像到圖像的轉換相比,該問題通過一個額外的時間維度來挑戰深度神經網絡;此外,這里的單張輸入圖像使大多數視頻到視頻轉換的方法無法應用。為了解決這個新問題,研究者提出了一種用戶可控制的方法,以便從單個人臉圖像生成各種長度的表情視頻剪輯,用戶可控制視頻的長度和表情的類型。因此,我們設計了一種新穎的神經網絡架構,可將用戶輸入作用到網絡的跳層連接上;同時,提出對神經網絡的對抗訓練方法的若干改進。通過實驗和用戶研究驗證了該方法的有效性。尤其值得強調的是,即使隨機的網絡圖像和作者自己的圖像相對于訓練數據有較大的差異,本文的模型也可以生成高質量的面部表情視頻,其中約50%被用戶認為是真實采集的視頻。
18. 利用考慮偏好的損失學習實現任務遷移
Task Transfer by Preference-Based Cost Learning
這項研究由清華大學與騰訊AI Lab合作完成。強化學習中的任務遷移旨在把智能體在源任務中的策略遷移到目標任務。盡管當前方法取得了一定成功,但是他們依賴于兩個很強的假設:1)專家演示和目標任務精確相關 以及 2)目標任務中的損失函數需要顯式定義。在實際中這兩個假設都是難以滿足。該論文提出了一個新穎的遷移框架減少對這兩個假設的依賴,為此,研究者使用了專家偏好作為遷移的指導。具體而言,研究者交替進行以下兩個步驟:首先,研究者通過預定義的專家偏好從源任務鴻挑選與目標任務相關的演示;然后,基于這些挑選的演示,研究者通過利用增強版的對抗最大熵模型來同時學習目標損失函數以及狀態-操作的軌跡分布。該論文的理論分析證明了方法的收斂性。大量的仿真實驗也驗證了該論文方法的有效性。
19.?超越RNN:面向視頻問答的具有位置特性的自注意力和交互注意力模型
Beyond RNNs: Positional Self-Attention with Co-Attention for Video Question Answering
這項研究由電子科技大學與騰訊AI Lab合作完成。當前,大部分實現視頻問答的方法都是基于考慮注意力的遞歸神經網絡(RNN)。雖然取得一些進展,但是RNN的局限性導致了這些方法往往需要花費大量訓練時間卻難以捕捉長時間關聯。該論文提出了一種新的架構,具有位置屬性的自注意力和交互注意力結合(PSAC),這個框架不再需要RNN來實現視頻問答。具體而言,研究者從機器翻譯中自注意力的成功得到啟發,提出了一種具有位置屬性的自主力模型來計算同一個序列中每個位置自身的激活以及其與其他位置的相關激活。因此,PASC能利用問題與視頻的全局依賴,并且使得問題和視頻編碼能并行進行。除了利用視頻自注意力,研究者更進一步查詢問題中“哪些單詞需要注意”來設置交互注意力機制。據研究者所知,這是視頻問答領域中首次嘗試去拋開RNN而只用注意力模型。在三個公開的數據集上,本文的方法顯著優于當前最好,并且在另外一個數據集上取得了接近當前最好的結果。與RNN模型相比,本文的方法在更短的運算時間取得了更高的精度。此外,本文還進行了若干對比實驗來驗證方法每個組件的有效性。
20.?置信加權多任務學習
Confidence Weighted Multitask Learning
這項研究由阿卜杜拉國王科技大學與騰訊AI Lab合作完成。為了緩解傳統在線多任務學習僅利用了數據流的一階信息的問題,我們提出置信加權多任務學習的算法。對于每個任務,它都維護了一個高斯分布來引導在線學習過程。高斯分布的均值向量(協方差矩陣)是一個局部成分和全局成分的和,其中全局成分是在所有任務間共享的。此外,本文也解決了在線多任務學習場景下主動學習的挑戰。不同于索要所有樣本的標簽,所提算法可以基于相關任務的預測置信度來決定是否索要相應的標簽。理論結果顯示,后悔上界可以被顯著的減小。經驗結果表明,所提算法可以獲得很高的學習性能,且同時可以減小標注成本。
21.?旨在提升asepct-level情感分類的、從粗粒度到細粒度的遷移學習
Exploiting Coarse-to-Fine Task Transfer for Aspect-level Sentiment Classification
這項研究由香港科技大學與騰訊AI Lab合作完成。Aspect-level的情感分類旨在找出句子里針對具體aspect的情感傾向,其中aspect可以是一個泛類(AC-level),比如食品、服務,也可以是一個具體的項(AT-level),比如三文魚、時速。然而,由于極其耗時耗力的標注成本,當前AT-level的公開數據集都相對較小。受限于這些小規模的數據集,當前大多數方法依賴于復雜的結構,從而限制了神經網絡模型的有效性。該論文提出了一個新的解決方案,即從數據相對充足的粗粒度任務(AC-level)到數據稀疏的細粒度任務(AT-level)進行遷移學習。為了解決兩個領域在aspect粒度以及特征上的不一致,本文提出了一個多粒度對齊網絡(MGAN)。在MGAN中,一個全新的Coarse2Fine注意力機制可以幫助AC-level的任務也可以建模同AT-level相似的細粒度。同時,一個對比的特征對齊方法用來語義對齊兩個領域的特征表示。另外,本文提供了一個AC-level的大規模多領域情感分類數據集。大規模的實驗證明了MGAN的有效性。
22. 基于屬性倉庫的表親網絡引導的素描圖識別
Cousin Network Guided Sketch Recognition via Latent Attribute Warehouse
這項研究由騰訊AI Lab主導,與澳洲國立大學合作完成,本論文對掃描圖片識別的問題進行研究。由于兩個原因導致該問題難度較高:1)素描圖片相對自然圖片比較稀缺,2)素描圖片與自然圖片之間存在較大的鴻溝。為了克服這些困難,研究者提出了利用自然圖像訓練好的網絡(表親網絡)來引導素描圖片識別網絡的學習過程。表親網絡將引導素描圖片識別網絡學習更多與自然圖像相關的特征(通過對抗學習)。為加強分類模型的可遷移能力,一個連接自然圖像和素描圖像的屬性倉庫建立起來,以逼近自然圖像和素描圖像的域間差。實驗證明本文提出的方法取得了當前最優的識別性能。
23. 層級化的照片場景編碼器用于相冊故事生成
Hierarchical Photo-Scene Encoder for Album Storytelling
這項研究由騰訊AI Lab主導,與山東大學合作完成。本文提出了一種用于相冊故事生成的新型模型,該新型模型使用了層級相片-場景編碼器和重構器。其中,相片-場景編碼器包含兩個子模塊,分別是相片編碼器和場景編碼器,它們重疊在一起,以分層的形式充分利用相冊中照片的結構信息。具體來說,相片編碼器利用相冊中相片的時序關系的同時,為每一張照片生成語義表示。場景編碼器依賴于生成的相片語義表示,負責檢測相冊的場景變化并生成場景特征。接著,解碼器動態地、有選擇性地總結這些編碼的相片和場景語義表示,用以生成相冊表示序列?;诖?#xff0c;一個含有多個一致性句子的故事就產生了。為了充分提取和利用相冊中有效的語義信息,重構器被引入到該模型中,來重構那些基于解碼器的隱藏狀態而被動態總結了的相冊表示。本文提出的模型以一種端到端的形式進行訓練,在公開的visual storytelling數據集(VIST)上得到了更好的性能。對比研究實驗進一步論證了本文所提出的層級相片-場景編碼器和解碼器的有效性。
24.?結構化常識在故事補全中的應用
Incorporating Structured Commonsense Knowledge in Story Completion
這項研究由加州大學戴維斯分校與騰訊AI Lab合作完成。為一個給定的故事選擇恰當的結尾,被認為是通往敘述型文本理解的第一步。故事結尾預測不僅需要顯式的線索,還得需要一些隱式的知識(如常識)。之前絕大多數方法都沒有明顯地使用各種背景常識。該論文提出一個基于神經網絡的故事結尾預測模型,這個模型整合了三種不同類型的信息來源:敘述線索、情感演變以及常識知識。實驗結果表明本文的模型在一個公共數據機ROCStory Cloze Taks上取得了最好的性能。同時,實驗結果表明引入常識知識帶來了顯著的性能增益。
25. 一種針對多模態數據的高效特征提取方法?
An Efficient Approach to Informative Feature Extraction from Multimodal Data
這項研究由騰訊AI Lab主導,與清華大學、清華-伯克利深圳學院、麻省理工學院(MIT)合作完成。多模態特征提取的一個研究重點在于如何找到每個模態中相關度最大的特征表達。作為一種常用的相關度度量方式,HGR最大相關度因較好的理論性質,經常被作為優化的目標函數。然而,HGR最大相關度中對于白化的嚴格約束,部分限制了其應用。為解決這一問題,本文提出了Soft-HGR的新框架,以解決從多個數據模態中提取有效特征的問題。具體來說,本方法在優化HGR最大相關度的過程中,避免了嚴格白化約束,同時也能保持特征的集合特性。Soft-HGR的優化目標僅包含兩個內積項,可以保證優化過程的求解效率和穩定性。研究者進一步將該方法泛化,用于解決超過兩個數據模態以及部分模態缺失的問題。對于數據中僅有部分標注信息的情況,研究者可以通過半監督適應的方法,使得所提取的特征更具有判別力。實驗結果表明,本文的方法可以學習到更有信息量的特征映射,同時優化過程也更為高效。
26.?Plan-And-Write: 更好的自動故事寫作
Plan-And-Write: Towards Better Automatic Storytelling
這項研究由北京大學、南加州大學與騰訊AI Lab合作完成。自動故事生成的目標是用更長、更流暢的語句來描述一個有意義的事件序列,這是一個極具挑戰的任務。盡管已有許多工作在研究自動故事生成,但是先前的研究要么局限于plot planning,要么只能生成特定領域的故事。該論文探索了開放領域的基于給定故事題目的故事生成任務。研究者提出了plan-and-write的層級生成框架,先生成故事線,再基于此生成整個故事。研究者對比了兩種planning的策略:動態模式是將故事線的planning和故事的文本生成交替進行,而靜態模式是先確定好故事線再生成故事。實驗結果表明,在顯式的故事線planning作用下,系統能生成更多樣、更連貫、更切題的故事,在自動指標和人工評測結果中,都優于沒有planning的對比方法。
27.?翻譯記憶圖的神經機器翻譯
Graph based translation memory for neural machine translation
該論文由騰訊AI Lab主導,與卡內基梅隆大學合作完成,可有效地利用翻譯記憶構建翻譯模型。翻譯記憶對提高統計機器翻譯很有幫助,隨著統計機器翻譯向神經機器翻譯的進化,將翻譯記憶融入到神經翻譯框架已經引起了很多關注?,F有的工作中,有的為了保證效率,僅利用了翻譯記憶中的局部信息;也有工作利用了翻譯記憶中的全局信息,但是降低了效率。該論文提出了一個有效的方法,它可以充分利用翻譯記憶的全局信息。它的基本思想是,將包括冗余詞的序列化翻譯記憶壓縮成一個結構緊湊的圖,然后計算一個基于圖的注意力模型。在6個翻譯任務上的實驗表明,本文提出的方法是有效的:它獲得了比基線系統Transformer更好的效果,而且也比現有的基于翻譯記憶的模型更好。
總結
以上是生活随笔為你收集整理的AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯与 TTN 宣布战略合作,共同推进全
- 下一篇: AI繁荣下的隐忧——Google Ten