论文浅尝 - EMNLP2020 | 通过词重排序跨语言解析
筆記整理 | 吳林娟,天津大學碩士
來源:EMNLP2020
鏈接:https://www.aclweb.org/anthology/2020.findings-emnlp.265.pdf
動機
依賴解析研究快速發展,然而依賴解析的性能在很大程度上依賴于語料庫的大小。獲取足夠的訓練數據成本大且困難,基于機器學習的方法不能簡單地應用于低資源語言的依賴解析。跨語言遷移的方法以及在POS、依賴解析、命名實體識別、實體鏈接、問答等低資源語言任務上獲得了成功的應用。但是跨語言遷移的一個關鍵挑戰是難以處理源語言和目標語言之間的詞序差異,于是作者針對這個問題提出了通過詞重排序跨語言解析(Cross lingUal paRSing by wOrd Reordering,CURSOR)的方法。
亮點
CURSOR的亮點主要是:將詞的重新排序形式化為一個組合優化問題,并開發了一個基于種群的優化算法來尋找接近最優的重新排序結果。
概念及模型
問題定義
在源數據集S里,給定一個句子,目標是對句子中的單詞進行排列,模仿目標語言中的順序。為了測量排列的優劣,使用多層LSTM在目標語料庫上訓練一個基于POS任務的語言模型。句子可以表示為:
目標是可以找到一個排列,這個重新排序的句子是由語言模型估計獲得最高概率的:
其中R(x)是x中單詞的所有可能排列的集合。理論上,候選者的總個數是n!,而大多數的排列可能與原句意思不同。為了避免這種情況,作者在生成R(x)時應用了一個語法約束:在原句子中構成成分的子序列在重新排序后仍然是子序列,而子序列中單詞的內部順序可能會發生變化。
基于種群的優化
式(2)中最優的可以歸結為一個著名的旅行推銷員問題,是NP-hard的。因此,最優排序在計算上是困難的,作者設計了一個遺傳算法來尋找接近最優的結果。
遺傳算法是一種來自于自然選擇過程的啟發式搜索方法,它通過迭代的方式將候選解群體進化為更好的解。每一次迭代的總體稱為一代。該算法首先執行初始化操作符來創建初始生成。在每一代中,對種群中每一個個體的適應度進行評估,通過應用選擇算子,使適應度得分較高的個體有更多的機會繁殖下一代。下一代是通過兩種遺傳操作符的結合產生的:交叉和變異。交叉算子將雙親的遺傳信息結合在一起產生新的后代,而突變算子將多樣性引入到抽樣群體中。遺傳算法在解決組合優化問題方面表現得很好,適用于單詞重排問題。
為了滿足語法約束,作者在子樹層次上設計了交叉和變異操作符,即當一個單詞被移動到其他地方時,它的子樹也被移動。
整體算法
實驗
作者通過將在英語語料庫上訓練的四種不同的解析模型轉移到30種目標語言來評估CURSOR,并提出了一種結合的方法來進一步提高性能。實驗結果如下:
從表1中可以看出,與基線相比,在詞匯重排后的語料庫上訓練了四種不同的解析模型,跨語言遷移性能都得到了提高。使用RNN編碼器的模型比使用SelfAtt編碼器的模型受益更多,可能是因為它們對詞序更敏感。通過treebank重新排序增強的RNN-Graph模型獲得了最佳的平均UAS(66.6%),比基線高出2.5%。對于那些詞序與英語截然不同的語言,如印地語(hi)和拉丁語(la),這些改進是非常重要的。
作者研究了跨語言遷移的性能與源語言和目標語言的相似性之間的關系,以及遷移方向和遷移解析距離的差異對遷移性能的影響。證明了目標語言和源語言越相似,遷移性能越好。而且CURSOR方法可以很好地消除遷移方向的影響,模型在預測長距離依賴時,對語序的正確性更加敏感。
總結
作者提出了一種用于跨語言依賴分析的樹庫重新排序方法,不需要任何并行語料庫,并且可以應用于任何一對源語言和目標語言,但是條件為POS標記可用。在30種語言的不同網絡架構中進行的大量實驗表明,論文提出的方法可以顯著提高跨語言解析的性能。但是面向POS標記數據為低資源的語言,該方法不太適用,這一點可以留給我們讀者繼續思考的空間。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | 通过词重排序跨语言解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 融合多粒度信息和外部语言知
- 下一篇: 征稿 | 2019年全国知识图谱与语义计