當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2019 | 图表示解决长文本关系匹配问题：腾讯提出概念交互图算法

發(fā)布時(shí)間：2024/2/28 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 ACL 2019 | 图表示解决长文本关系匹配问题：腾讯提出概念交互图算法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文作者：Bang Liu、Di Niu等

文章之間關(guān)系匹配是自然語言處理領(lǐng)域的重要問題。傳統(tǒng)算法忽略了文本內(nèi)部語義結(jié)構(gòu)，而深度神經(jīng)網(wǎng)絡(luò)目前主要用于句子對之間的匹配。同時(shí)由于長文本對計(jì)算量需求較大，且目前缺乏訓(xùn)練數(shù)據(jù)集，因此長文本的匹配問題一直難以解決。對此，來自阿爾伯塔大學(xué)和騰訊 PCG 移動瀏覽器產(chǎn)品部的研究者提出了概念交互圖（Concept Interaction Graph）算法，對比現(xiàn)有的文章關(guān)系匹配算法有明顯的效果提升。該論文已被自然語言處理頂會 ACL 2019 接收，項(xiàng)目代碼和數(shù)據(jù)集已開源。

引言

判斷兩篇文章之間的語義關(guān)系對于新聞系統(tǒng)等應(yīng)用有著重要的意義。例如，通過對新聞文章之間的關(guān)系判斷，一個新聞應(yīng)用可以將講述同樣的事件的文章聚類在一起，去除冗余，并形成事件發(fā)展的脈絡(luò)。在圖 1 中，「2016 美國總統(tǒng)大選」這一故事的主要信息被組織成一條故事樹。其中的每個節(jié)點(diǎn)，代表了講述該故事中同樣的一個子事件的文章集。這種文本組織方式，在信息爆炸的時(shí)代，能給人們帶來極大的便利。

圖 1. 2016 美國總統(tǒng)大選故事脈絡(luò)。（圖源自：Growing Story Forest Online from Massive Breaking News）

過去的研究工作，包括傳統(tǒng)的 TF-IDF，BM25，LDA 等等，以及基于神經(jīng)網(wǎng)絡(luò)的 DSSM，C-DSSM，ARC-I，ARC-II 等等，不能很好地解決長文本的關(guān)系匹配問題。一方面，傳統(tǒng)算法忽略了長文章內(nèi)部的語義結(jié)構(gòu)。另一方面，基于深度神經(jīng)網(wǎng)絡(luò)的模型目前主要用于句子對之間的匹配，難以處理文章長度的文本。因?yàn)殡S著長度的增加，模型計(jì)算量大大增加，并且缺乏訓(xùn)練數(shù)據(jù)。

針對長文本的匹配問題，我們利用「化整為零，分而治之」的思想，提出了一種文本表示形式。這種表示利用圖結(jié)構(gòu)來分解長文章的內(nèi)容，將長文章的匹配變成圖中每個節(jié)點(diǎn)上的短文本匹配，并利用絡(luò)綜合各個節(jié)點(diǎn)的匹配結(jié)果，得到最終的整體匹配結(jié)果。我們把這種圖叫做概念交互圖（Concept Interaction Graph），圖中每個節(jié)點(diǎn)稱為一個概念，每個概念是一個關(guān)鍵字集合，集合中的關(guān)鍵字在文章中緊密相關(guān)。而所有的節(jié)點(diǎn)則把文章中所有的關(guān)鍵字劃分成了多個子集，代表文章的多個子話題。在得到節(jié)點(diǎn)之后，我們按照相似度將文章中的每一個句子，分配到不同的節(jié)點(diǎn)上。因此，每個節(jié)點(diǎn)上會包含兩篇文章的的一部分句子。節(jié)點(diǎn)之間的邊則代表節(jié)點(diǎn)間的聯(lián)系的緊密度。在這里，我們將兩個節(jié)點(diǎn)的文本相似度作為邊權(quán)重。如圖 2 所示，該例子中包含的關(guān)鍵字被組織成三個節(jié)點(diǎn)，每個節(jié)點(diǎn)上有一部分句子集。

圖 2. 概念交互圖示例

在將長文本利用圖分解之后，每個節(jié)點(diǎn)上的匹配可以利用句子匹配模型計(jì)算匹配特征，或者手動設(shè)計(jì)提取特征。為了充分利用文章內(nèi)的語義結(jié)構(gòu)，我們進(jìn)一步利用圖卷積神經(jīng)網(wǎng)絡(luò)（Graph Convolutional Network）來綜合各個節(jié)點(diǎn)的匹配特征，以得到最終的結(jié)果。

最后，目前的工作缺乏針對「長文本對關(guān)系」這個問題的實(shí)驗(yàn)數(shù)據(jù)。為了評估實(shí)驗(yàn)效果，我們構(gòu)建了兩個分別包含三萬對新聞文章的二分類數(shù)據(jù)集。第一個數(shù)據(jù)集用于判斷兩個新聞是否講述同一個子事件，第二個數(shù)據(jù)集用于判斷兩個新聞是否講述同一個故事。例如，在圖 1 中，任意兩個文章都是講述同一個故事「2016 美國總統(tǒng)大選」的，但是只有屬于同一個節(jié)點(diǎn)的文章，才是講述同一個事件的。

我們的主要貢獻(xiàn)點(diǎn)包括：

我們提出了概念交互圖（Concept Interaction Graph）用于表示長文本或者文本對；
結(jié)合概念交互圖和圖卷積神經(jīng)網(wǎng)絡(luò)，我們提出了針對長文本匹配的模型。實(shí)驗(yàn)證明該方法對比一系列已有的算法有明顯的效果提升；
我們構(gòu)建并開源了兩個分別包含三萬對文章的長文本對關(guān)系分類數(shù)據(jù)集，用于后續(xù)研究。實(shí)驗(yàn)代碼也已開源。

值得注意的是，我們的算法并不局限于判斷兩篇新聞文章是否講述同一個子事件或者同一個故事。只要有相應(yīng)的訓(xùn)練集，它可應(yīng)用于不同的長文本關(guān)系判斷任務(wù)。同時(shí)，它也可以應(yīng)用于英語等其他語言。

方法

圖 3. 利用概念交互圖表示文本以及利用 GCN 匹配的算法流程

圖 3 展示了長文本對關(guān)系匹配的流程，包括以下步驟:

文本圖構(gòu)建。在這一步中，我們利用關(guān)鍵字在句子中的共現(xiàn)構(gòu)建 KeyGraph。之后，我們利用社區(qū)檢測（community detection）算法將關(guān)鍵字聚類（注意，這一步是可選項(xiàng)），每個聚類是一個概念節(jié)點(diǎn)。在得到概念節(jié)點(diǎn)之后，將句子分配到各個節(jié)點(diǎn)上。同時(shí)，用節(jié)點(diǎn)文本的 TF-IDF 相似度表示邊權(quán)重。
節(jié)點(diǎn)匹配特征編碼。在這里，我們對每個節(jié)點(diǎn)上的文本對（來自兩篇文章的句子集合分別拼接成一個文本）進(jìn)行匹配，得到匹配特征。我們分別嘗試了 Siamese Encoder 自動學(xué)習(xí)匹配特征，和計(jì)算各種 term-based 特征來作為節(jié)點(diǎn)特征向量。
節(jié)點(diǎn)特征轉(zhuǎn)化。在得到每個節(jié)點(diǎn)的匹配特征向量之后，我們利用多層 GCN 進(jìn)行特征轉(zhuǎn)換。最后一層中，我們將所有節(jié)點(diǎn)的特征向量綜合成一個向量（這里采用了 mean aggregation）。
綜合匹配。最后，我們將得到的綜合匹配向量，輸入到一個多層神經(jīng)網(wǎng)絡(luò)分類器中進(jìn)行關(guān)系分類。這里，我們可以拼接來自不同的編碼器的匹配向量，以利用不同的特征。

實(shí)驗(yàn)結(jié)果

我們對比了本文的算法和一系列已有的文本匹配算法。同時(shí)，我們也對比了一系列本文算法的變種以分析不同部分的影響。表 1 展示了我們的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)所用的兩個數(shù)據(jù)集，Chinese News Same Event Dataset (CNSE), Chinese News Same Story Dataset (CNSS) 均已開源。

表 1. 不同算法在 CNSE，CNSS 數(shù)據(jù)集上的分類效果對比

從表 1 中，我們可以得到以下主要結(jié)論：

利用圖分解，將文章化整為零，能明顯提高匹配效果；
利用圖卷積，將局部匹配綜合，能明顯提高匹配效果；

論文：A User-Centered Concept Mining System for Query and Document Understanding at Tencent

論文地址：

https://arxiv.org/abs/1802.07459

相關(guān)數(shù)據(jù)資源：

https://github.com/BangLiu/ArticlePairMatching

摘要：判斷兩個文章之間的關(guān)系，例如兩個文章是否在討論同一個事件，對于很多文本理解任務(wù)有重要意義。目前的算法較少處理長文本匹配的問題，也缺乏對長文本語義結(jié)構(gòu)的充分利用。我們針對長文本匹配問題，提出了概念交互圖文本表示。結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)，我們提出了有效地處理長文本匹配問題的算法，將長文本化整為零，從局部匹配結(jié)果得到整體匹配關(guān)系的判斷。同時(shí)，我們也構(gòu)建了新的長文本匹配任務(wù)的數(shù)據(jù)集并開源。實(shí)驗(yàn)證明，我們的算法對比一系列現(xiàn)存的算法，在長文本匹配任務(wù)中效果提升明顯。

本文為機(jī)器之心發(fā)布，轉(zhuǎn)載已獲得授權(quán)。

超強(qiáng)干貨來襲云風(fēng)專訪：近40年碼齡，通宵達(dá)旦的技術(shù)人生

總結(jié)

以上是生活随笔為你收集整理的ACL 2019 | 图表示解决长文本关系匹配问题：腾讯提出概念交互图算法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：云开发数据库又增新技能！
下一篇：腾讯数平精准推荐 | 横扫ICDAR 2