论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别
論文筆記整理:譚亦鳴,東南大學(xué)博士生,研究方向?yàn)榭缯Z(yǔ)言知識(shí)圖譜問答。
來(lái)源:EMNLP 2018
鏈接:https://www.aclweb.org/anthology/D18-1034
?
問題背景與動(dòng)機(jī)
本文關(guān)注小語(yǔ)種/資源匱乏語(yǔ)言的跨語(yǔ)言命名實(shí)體識(shí)別問題,首先作者肯定了現(xiàn)有無(wú)監(jiān)督/弱監(jiān)督方法在單語(yǔ)資源豐富的情況下能夠取得不錯(cuò)的性能。但是對(duì)于單語(yǔ)資源不足的情況下,這些方法卻無(wú)法適用,原因在于:無(wú)監(jiān)督方法需要構(gòu)建單語(yǔ)embedding并投影到共享空間中,但是單語(yǔ)資源不足的情況下,無(wú)法構(gòu)建有質(zhì)量的embedding;弱監(jiān)督方法則需要使用一定規(guī)模(10K~1M)的雙語(yǔ)詞典作為語(yǔ)言對(duì)齊的seed,顯然這個(gè)要求對(duì)于小資源語(yǔ)言(如維吾爾語(yǔ))也是相對(duì)苛刻了。
為了解決這一問題,作者提出結(jié)合詞典方法與embedding方法,利用微量平行數(shù)據(jù)(<10K)構(gòu)建embedding,將豐富資源的英語(yǔ)數(shù)據(jù)與微量資源的小語(yǔ)種詞匯投影到共享空間中,而后利用近鄰方式構(gòu)建規(guī)模更大的雙語(yǔ)詞典,再利用雙語(yǔ)詞典將英語(yǔ)數(shù)據(jù)word-by-word譯為小語(yǔ)種數(shù)據(jù),用于NER模型的訓(xùn)練。同時(shí),考慮到這種方法產(chǎn)生的語(yǔ)言距離真實(shí)的自然語(yǔ)言表達(dá)存在差異,作者在NER模型中引入self-attention試圖減緩這種影響
?
貢獻(xiàn)
1.? 提出了一種通過語(yǔ)言遷移實(shí)現(xiàn)的跨語(yǔ)言NER策略
2. 提出一種 order-invariant self-attention 機(jī)制用于緩解語(yǔ)言遷移以及數(shù)據(jù)量不足對(duì) NER 模型產(chǎn)生的影響
?
方法說(shuō)明
本文的方法過程描述如下:
1.? 使用單語(yǔ)語(yǔ)料獨(dú)立訓(xùn)練兩種語(yǔ)言的 embedding 單語(yǔ)嵌入使用的方法類似 (Mikolovetal., 2013b; Pennington et al., 2014; Bojanowskiet al., 2017)等人的工作,利用單語(yǔ)文本訓(xùn)練嵌入矩陣。
2.? 利用給定的微量雙語(yǔ)字典,將上述兩種語(yǔ)言的embedding投影到一個(gè)共享空間中投影方法,采用的是 (Zhang et al., 2016; Artetxe et al., 2016; Smithet al., 2017) 等類似的方式,通過訓(xùn)練投影矩陣,實(shí)現(xiàn)將兩種語(yǔ)言的 embedding 投影
3.? 對(duì)于單語(yǔ)資源豐富的英語(yǔ)embedding,利用最近鄰策略,挑選另一語(yǔ)言的詞語(yǔ)的embedding作為其翻譯結(jié)果,從而構(gòu)建較大規(guī)模的雙語(yǔ)字典在計(jì)算embedding相似度方面,采用cross-domain similarity local scaling (CSLS) metric(Lample et al., 2018)實(shí)現(xiàn)。
4.? 利用3中的翻譯將英語(yǔ)命名實(shí)體識(shí)別語(yǔ)料譯為另一語(yǔ)言,同時(shí)保留命名實(shí)體標(biāo)簽,用于NER模型的訓(xùn)練
下圖是上述過程的一個(gè)示意,語(yǔ)言對(duì)為英語(yǔ)-西班牙語(yǔ):
模型
NER模型方面,作者采用了一個(gè)分層神經(jīng)網(wǎng)絡(luò)+self-attention+CRF的序列標(biāo)注方案:其中輸入粒度被細(xì)化到了char級(jí),每個(gè)單詞的字母都通過雙向RNN融合得到,此基礎(chǔ)上再通過一層雙向RNN做詞級(jí)別的embedding,之后使用self-attention對(duì)得到的每個(gè)詞的embedding做一步轉(zhuǎn)換得到embedding_a,而后將embedding與embedding_a進(jìn)行組合,得到用于訓(xùn)練CRF序列標(biāo)注過程的單詞表示。
?
實(shí)驗(yàn)
數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)方面,作者采用了CoNLL 2002以及2003 NER公開數(shù)據(jù)集,其中包含英德荷及西班牙語(yǔ)共四種語(yǔ)言,通過將英語(yǔ)與其他三種語(yǔ)言組合為“資源豐富-資源缺乏”的語(yǔ)言組合,構(gòu)建出上述方法所需的數(shù)據(jù)形式。
?
實(shí)驗(yàn)結(jié)果
表1 反映了本文方法在公開數(shù)據(jù)集上的實(shí)驗(yàn),采用F1值作為評(píng)價(jià)指標(biāo),結(jié)果上看,相對(duì)其他同類模型,本方法的性能提升較為顯著。
同時(shí)作者也針對(duì)embedding過程的效果進(jìn)行統(tǒng)計(jì)評(píng)判,這種使用近鄰進(jìn)行翻譯的方法,在雙語(yǔ)性能上表現(xiàn)出了一定提升。
同時(shí)作者也對(duì)小語(yǔ)種維吾爾語(yǔ)進(jìn)行了NER實(shí)驗(yàn)對(duì)比,在無(wú)額外知識(shí)補(bǔ)充的且使用微量平行數(shù)據(jù)的情況下,本文增量模型的性能提升還是比較明顯。但是整體結(jié)果上,相對(duì)目前最好的模型差距還是是否明顯,作者認(rèn)為產(chǎn)生這一情況的原因在于維吾爾語(yǔ)極低的單語(yǔ)質(zhì)量,且英語(yǔ)和維吾爾語(yǔ)之間的天然差異本身就非常的大。
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ACL2020 | 用于链
- 下一篇: 领域应用 | HiTA知识图谱 “药品-