论文浅尝 | 面向多语言语义解析的神经网络框架
論文筆記整理:杜昕昱,東南大學(xué)本科生。
來源:ACL2017
鏈接:https://aclweb.org/anthology/P17-2007
?
論文訓(xùn)練了一個多語言模型,將現(xiàn)有的Seq2Tree模型擴(kuò)展到一個多任務(wù)學(xué)習(xí)框架,該框架共享用于生成語義表示的解碼器。該模型能夠?qū)碜远喾N不同語言的自然語言句子解析為它們相應(yīng)的形式語義表示。論文中報告了多語言查詢語料庫的評估結(jié)果,并介紹了一個新的ATIS語料庫的多語言版本。
?
Introduction
多語言語義解析——將來自多種不同語言的自然語言句子映射到它們相應(yīng)的形式語義表示的任務(wù)。多語言場景有如下兩種:
1.? 單源類型,輸入的一句話由同一種語言組成。
2.? 多源類型,輸入的一句話由多種語言的并列語句組成。
針對第二種類型的探索,只有過將多種單語言模型組合在一起的工作,單對于每種語言的單獨(dú)訓(xùn)練會忽視源語言之間的共享信息,而且對每種語言去訓(xùn)練,調(diào)整,構(gòu)建一個新的模型也是不方便的。
本論文提出一個接受輸入多語言組成的句子的解析體系,將現(xiàn)有的Sequence-to-Tree模型擴(kuò)展到一個多任務(wù)學(xué)習(xí)框架(神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯)。論文模型由多個編碼器組成,一個用于每種語言,另一個解碼器跨源語言共享,用于生成? 語義表示。通過這種方式,模型可能受益于擁有一個能夠很好地跨語言工作的通用解碼器。這樣模型可以受益于一個? 在跨語言方面有良好表現(xiàn)的解碼器。直觀來說,該模型鼓勵每種源語言編碼器為解碼器找到一個通用的結(jié)構(gòu)化表示形式,論文還進(jìn)一步修改了注意力機(jī)制,整合多源信息。
論文貢獻(xiàn):
1.???? 研究了兩種多語言場景中的語義解析
2.???? 在Sequence-to-Tree的結(jié)構(gòu)中加入新穎的拓展使得可以模型在語義解析中可以結(jié)合多語言的信息
3.????? 發(fā)布了一個新的ATIS語義數(shù)據(jù)集,它用兩種新語言進(jìn)行了注釋
?
Model
與傳統(tǒng)語義分析模型(為每個語言單獨(dú)訓(xùn)練語言解析器)不同,論文中提出將N個編碼器結(jié)合到一個模型中。這個模型將n種語言的句子編碼為一個向量,之后用一個共享的解碼器把已編碼的向量解碼到它相應(yīng)的邏輯形式。輸入句子有兩種形式(單語言和并列多語言)。編碼器被實(shí)現(xiàn)為具有長短時記憶(LSTM)單元的單向RNN,以自然語言序列作為輸入。
同之前的多任務(wù)框架(neural MT),論文中為每個語言都構(gòu)建了編碼器(),對于第n種語言,他在第時間第t步更新隱藏向量:
公式(1) 是LSTM函數(shù) 是嵌入矩陣行向量包含令牌在第n個語言的來源。
如果像傳統(tǒng)方式(Seq2Seqmodel)一樣,線性生成每一個目標(biāo)令牌,會忽略邏輯形式上的層次結(jié)構(gòu),Sqe2Tree模型采用了自頂向下生成邏輯形式的解碼器,定義了一個“non-terminal”令牌來表示子樹。在樹的每個深度,邏輯? 形式都是按順序生成的,直到輸出序列結(jié)束標(biāo)記。
與單語情況不同,論文定義了一個共享解碼,在計(jì)算解碼器狀態(tài)時加入父非終端信息,其中是LSTM方程):
注意力機(jī)制:
其中U,V,W是權(quán)重矩陣。最終,模型被訓(xùn)練到使下面的條件似然函數(shù)最大:
其中(X,Y)表示訓(xùn)練集D中訓(xùn)練數(shù)據(jù)中的標(biāo)注的句子-語義對。在這兩種多語言設(shè)置(Single-Source Setting&Multi-Source Setting,下面介紹)中,我們對編碼器和解碼器使用上述相同的公式。每個設(shè)置的不同之處在于:(1)編碼器狀態(tài)的初始化,(2)上下文向量的計(jì)算,(3)訓(xùn)練過程。
?
Single-Source Setting
這種設(shè)置的輸入為來自第n種語言的語句,如(a)所示,其中模型正在解析印度尼西亞輸入,而英語和漢語處于非活躍狀態(tài)。
先要把解碼向量投影到一個適合解碼的維度,,其可以是一個仿射變換,類似的,可以在計(jì)算注意力分?jǐn)?shù)之前做:,然后計(jì)算上下文向量為第n個編碼器中隱藏向量的加權(quán)和。
把作為等式3中的計(jì)算,在這個設(shè)置中論文提出了兩種變體
為每種語言定義獨(dú)立的權(quán)值矩陣
三個權(quán)重矩陣為跨語言共享的,本質(zhì)上減少了N倍的參數(shù)數(shù)量
訓(xùn)練數(shù)據(jù)是由N種語言的句子-語義對的組合組成的,其中源語句不一定是平行的。論文中實(shí)現(xiàn)一種調(diào)度機(jī)制,在訓(xùn)練? 期間循環(huán)所有語言,但每次都只選擇一種語言。模型參數(shù)在從一種語言進(jìn)行批處理后更新,然后再轉(zhuǎn)移到下一種語言。這種機(jī)制可以防止特定語言的過度更新。
?
Multi-Source Setting
在這個情況下,輸入是N種語言中語義等價的句子。圖(b)描述了模型同時解析英語、印度尼西亞語和漢語的場景。灰? 色模塊是一個組合模塊。
解碼器初始狀態(tài)由N個編碼器的最終狀態(tài)來確定,,這里通過最大池來實(shí)現(xiàn) \phi。論文中給出兩種計(jì)算 c_t 的方式,集成多個編碼器源端信息,首先考慮單詞級組合,可以在每個一步時間步長對N進(jìn)行編碼,如下所示:
或者在句級組合中,首先用與等式(6)和(7)相同的方法計(jì)算每種語言的上下文向量。然后,我們對N個上下文向量進(jìn)行簡單的串聯(lián):
與單源情況不同,訓(xùn)練模型由路并行句子-語義組成。即每個訓(xùn)練實(shí)例由N個語義等價的句子及其對應(yīng)的邏輯形式組成。
?
Experiment&Result
論文中在兩個多語言基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集GEO是語義分析的標(biāo)準(zhǔn)基準(zhǔn)評估,該多語言版本包含880個自? 然語言查詢實(shí)例,涉及四種語言(英語、德語、希臘語和泰國語)的美國地理事實(shí)( Jonesetal.,2012)。文中使用的標(biāo)準(zhǔn)分割包括600個訓(xùn)練示例和280個測試示例。ATIS數(shù)據(jù)集包含對飛行數(shù)據(jù)庫的自然語言查詢。
Result:
Table1比較了單語言Seq2Tree模型(SINGLE)和論文中的多語言模型(MULTI)在single-source? setting下獨(dú)立與共享參數(shù)(single-setting中的兩種模型變體)的表現(xiàn):
平均而言,多語言模型(論文中)的兩種變體在GEO上的準(zhǔn)確率比單語模型平均準(zhǔn)確率高出1.34%,其中共享參數(shù)(第二種變體)表現(xiàn)得對GEO有幫助。結(jié)果發(fā)現(xiàn)在ATIS上的平均表現(xiàn)主要提升在中文和印尼語。還發(fā)現(xiàn)雖然包含進(jìn)英語通常會對其他語言有幫助,但可能會影響他自身的表現(xiàn)。
Table2展示了通過對GEO結(jié)合3到4種語言,針對ATIS結(jié)合2到3種語言的多源解析器的平均表現(xiàn)。對于排名(Ranking)實(shí)現(xiàn),通過選擇最高概率的值的方法來聯(lián)合每個語言的預(yù)測結(jié)果。觀察到模型級的系統(tǒng)組合能夠比輸出? 級的平均性能更好(GEO上的平均性能高達(dá)4.29%)。在單詞級和句子級組合在兩個數(shù)據(jù)集上顯示了相當(dāng)?shù)男阅堋?梢?/span>? 看出,當(dāng)在系統(tǒng)組合中加入英語時,這種優(yōu)勢更加明顯。
?
Analysis
對多語言模型的定性分析。Table3顯示了使用ATIS中的三種語言訓(xùn)練單語模型(SINGLE)和使用句子級組合的多語模型(MULTI)的例子。例子展示了多語言模型成功解析3個輸入句子到正確的邏輯形式,然而單個的模型無法做到。
Figure2顯示了在解析多源設(shè)置(MULTI)的ATIS時生成的對齊。對齊矩陣中的每一個單元對應(yīng)?(由等式6計(jì)算得到)。語義相關(guān)的詞被對齊如: ground (en), darat (id), 地面 (zh) 和 ground transport。這說明該模型可以共同學(xué)習(xí)這些對應(yīng)關(guān)系。
Table4總結(jié)了基線和多語言模型中的參數(shù)數(shù)量,單語(SINGLE)和排序(RANKING)中的參數(shù)個數(shù)等于單語成分中參數(shù)個數(shù)的和。可以看出,多語言模型的參數(shù)比基線小50-60%左右。
Conclusion
論文提出了一種多語言語義分析器,將Seq2Tree模型拓展到一個多任務(wù)學(xué)習(xí)框架。通過實(shí)驗(yàn)發(fā)現(xiàn)多語言模型在平均?表現(xiàn)上優(yōu)于1.單語模型在單源設(shè)置(single-source setting)下的表現(xiàn)2. 綜合排名(Ranking)在多源設(shè)置(multi- source)下的表現(xiàn)。
?
?OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 面向多语言语义解析的神经网络框架的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ISWC2021 | 当知
- 下一篇: 会议交流 - CNCC 技术论坛 | N