當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 面向多语言语义解析的神经网络框架

發(fā)布時間：2024/7/5 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 面向多语言语义解析的神经网络框架小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記整理：杜昕昱，東南大學(xué)本科生。

來源：ACL2017

鏈接：https://aclweb.org/anthology/P17-2007

論文訓(xùn)練了一個多語言模型，將現(xiàn)有的Seq2Tree模型擴(kuò)展到一個多任務(wù)學(xué)習(xí)框架，該框架共享用于生成語義表示的解碼器。該模型能夠?qū)碜远喾N不同語言的自然語言句子解析為它們相應(yīng)的形式語義表示。論文中報告了多語言查詢語料庫的評估結(jié)果，并介紹了一個新的ATIS語料庫的多語言版本。

Introduction

多語言語義解析——將來自多種不同語言的自然語言句子映射到它們相應(yīng)的形式語義表示的任務(wù)。多語言場景有如下兩種：

1.? 單源類型，輸入的一句話由同一種語言組成。

2.? 多源類型，輸入的一句話由多種語言的并列語句組成。

針對第二種類型的探索，只有過將多種單語言模型組合在一起的工作，單對于每種語言的單獨(dú)訓(xùn)練會忽視源語言之間的共享信息，而且對每種語言去訓(xùn)練，調(diào)整，構(gòu)建一個新的模型也是不方便的。

本論文提出一個接受輸入多語言組成的句子的解析體系，將現(xiàn)有的Sequence-to-Tree模型擴(kuò)展到一個多任務(wù)學(xué)習(xí)框架（神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯）。論文模型由多個編碼器組成，一個用于每種語言，另一個解碼器跨源語言共享，用于生成? 語義表示。通過這種方式，模型可能受益于擁有一個能夠很好地跨語言工作的通用解碼器。這樣模型可以受益于一個? 在跨語言方面有良好表現(xiàn)的解碼器。直觀來說，該模型鼓勵每種源語言編碼器為解碼器找到一個通用的結(jié)構(gòu)化表示形式，論文還進(jìn)一步修改了注意力機(jī)制，整合多源信息。

論文貢獻(xiàn)：

1.???? 研究了兩種多語言場景中的語義解析

2.???? 在Sequence-to-Tree的結(jié)構(gòu)中加入新穎的拓展使得可以模型在語義解析中可以結(jié)合多語言的信息

3.????? 發(fā)布了一個新的ATIS語義數(shù)據(jù)集，它用兩種新語言進(jìn)行了注釋

Model

與傳統(tǒng)語義分析模型（為每個語言單獨(dú)訓(xùn)練語言解析器）不同，論文中提出將N個編碼器結(jié)合到一個模型中。這個模型將n種語言的句子編碼為一個向量,之后用一個共享的解碼器把已編碼的向量解碼到它相應(yīng)的邏輯形式。輸入句子有兩種形式（單語言和并列多語言）。編碼器被實(shí)現(xiàn)為具有長短時記憶(LSTM)單元的單向RNN，以自然語言序列作為輸入。

同之前的多任務(wù)框架（neural MT),論文中為每個語言都構(gòu)建了編碼器（）,對于第n種語言，他在第時間第t步更新隱藏向量：

公式(1) 是LSTM函數(shù) 是嵌入矩陣行向量包含令牌在第n個語言的來源。

如果像傳統(tǒng)方式（Seq2Seqmodel）一樣，線性生成每一個目標(biāo)令牌，會忽略邏輯形式上的層次結(jié)構(gòu)，Sqe2Tree模型采用了自頂向下生成邏輯形式的解碼器,定義了一個“non-terminal”令牌來表示子樹。在樹的每個深度，邏輯? 形式都是按順序生成的，直到輸出序列結(jié)束標(biāo)記。

與單語情況不同，論文定義了一個共享解碼，在計(jì)算解碼器狀態(tài)時加入父非終端信息，其中是LSTM方程）：

注意力機(jī)制：

其中U,V,W是權(quán)重矩陣。最終，模型被訓(xùn)練到使下面的條件似然函數(shù)最大：

其中（X，Y）表示訓(xùn)練集D中訓(xùn)練數(shù)據(jù)中的標(biāo)注的句子-語義對。在這兩種多語言設(shè)置（Single-Source Setting&Multi-Source Setting，下面介紹）中，我們對編碼器和解碼器使用上述相同的公式。每個設(shè)置的不同之處在于:(1)編碼器狀態(tài)的初始化，(2)上下文向量的計(jì)算，(3)訓(xùn)練過程。

Single-Source Setting

這種設(shè)置的輸入為來自第n種語言的語句，如（a）所示，其中模型正在解析印度尼西亞輸入，而英語和漢語處于非活躍狀態(tài)。

先要把解碼向量投影到一個適合解碼的維度，，其可以是一個仿射變換，類似的，可以在計(jì)算注意力分?jǐn)?shù)之前做：，然后計(jì)算上下文向量為第n個編碼器中隱藏向量的加權(quán)和。

把作為等式3中的計(jì)算，在這個設(shè)置中論文提出了兩種變體

為每種語言定義獨(dú)立的權(quán)值矩陣

三個權(quán)重矩陣為跨語言共享的，本質(zhì)上減少了N倍的參數(shù)數(shù)量

訓(xùn)練數(shù)據(jù)是由N種語言的句子-語義對的組合組成的，其中源語句不一定是平行的。論文中實(shí)現(xiàn)一種調(diào)度機(jī)制，在訓(xùn)練? 期間循環(huán)所有語言，但每次都只選擇一種語言。模型參數(shù)在從一種語言進(jìn)行批處理后更新，然后再轉(zhuǎn)移到下一種語言。這種機(jī)制可以防止特定語言的過度更新。

Multi-Source Setting

在這個情況下，輸入是N種語言中語義等價的句子。圖(b)描述了模型同時解析英語、印度尼西亞語和漢語的場景。灰? 色模塊是一個組合模塊。

解碼器初始狀態(tài)由N個編碼器的最終狀態(tài)來確定，，這里通過最大池來實(shí)現(xiàn) \phi。論文中給出兩種計(jì)算 c_t 的方式，集成多個編碼器源端信息，首先考慮單詞級組合，可以在每個一步時間步長對N進(jìn)行編碼，如下所示：

或者在句級組合中，首先用與等式（6）和（7）相同的方法計(jì)算每種語言的上下文向量。然后，我們對N個上下文向量進(jìn)行簡單的串聯(lián)：

與單源情況不同，訓(xùn)練模型由路并行句子-語義組成。即每個訓(xùn)練實(shí)例由N個語義等價的句子及其對應(yīng)的邏輯形式組成。

Experiment&Result

論文中在兩個多語言基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，數(shù)據(jù)集GEO是語義分析的標(biāo)準(zhǔn)基準(zhǔn)評估，該多語言版本包含880個自? 然語言查詢實(shí)例，涉及四種語言(英語、德語、希臘語和泰國語)的美國地理事實(shí)( Jonesetal.，2012)。文中使用的標(biāo)準(zhǔn)分割包括600個訓(xùn)練示例和280個測試示例。ATIS數(shù)據(jù)集包含對飛行數(shù)據(jù)庫的自然語言查詢。

Result：

Table1比較了單語言Seq2Tree模型（SINGLE）和論文中的多語言模型(MULTI)在single-source? setting下獨(dú)立與共享參數(shù)（single-setting中的兩種模型變體）的表現(xiàn)：

平均而言，多語言模型（論文中）的兩種變體在GEO上的準(zhǔn)確率比單語模型平均準(zhǔn)確率高出1.34%，其中共享參數(shù)（第二種變體）表現(xiàn)得對GEO有幫助。結(jié)果發(fā)現(xiàn)在ATIS上的平均表現(xiàn)主要提升在中文和印尼語。還發(fā)現(xiàn)雖然包含進(jìn)英語通常會對其他語言有幫助，但可能會影響他自身的表現(xiàn)。

Table2展示了通過對GEO結(jié)合3到4種語言，針對ATIS結(jié)合2到3種語言的多源解析器的平均表現(xiàn)。對于排名（Ranking）實(shí)現(xiàn)，通過選擇最高概率的值的方法來聯(lián)合每個語言的預(yù)測結(jié)果。觀察到模型級的系統(tǒng)組合能夠比輸出? 級的平均性能更好(GEO上的平均性能高達(dá)4.29%)。在單詞級和句子級組合在兩個數(shù)據(jù)集上顯示了相當(dāng)?shù)男阅堋？梢?/span>? 看出，當(dāng)在系統(tǒng)組合中加入英語時，這種優(yōu)勢更加明顯。

Analysis

對多語言模型的定性分析。Table3顯示了使用ATIS中的三種語言訓(xùn)練單語模型（SINGLE）和使用句子級組合的多語模型（MULTI）的例子。例子展示了多語言模型成功解析3個輸入句子到正確的邏輯形式，然而單個的模型無法做到。

Figure2顯示了在解析多源設(shè)置(MULTI)的ATIS時生成的對齊。對齊矩陣中的每一個單元對應(yīng)?（由等式6計(jì)算得到）。語義相關(guān)的詞被對齊如： ground (en), darat (id), 地面 (zh) 和 ground transport。這說明該模型可以共同學(xué)習(xí)這些對應(yīng)關(guān)系。

Table4總結(jié)了基線和多語言模型中的參數(shù)數(shù)量，單語(SINGLE)和排序(RANKING)中的參數(shù)個數(shù)等于單語成分中參數(shù)個數(shù)的和。可以看出，多語言模型的參數(shù)比基線小50-60%左右。

Conclusion

論文提出了一種多語言語義分析器，將Seq2Tree模型拓展到一個多任務(wù)學(xué)習(xí)框架。通過實(shí)驗(yàn)發(fā)現(xiàn)多語言模型在平均?表現(xiàn)上優(yōu)于1.單語模型在單源設(shè)置（single-source setting）下的表現(xiàn)2. 綜合排名（Ranking）在多源設(shè)置（multi- source）下的表現(xiàn)。

?OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 面向多语言语义解析的神经网络框架的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - ISWC2021 | 当知
下一篇：会议交流 - CNCC 技术论坛 | N