當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

發(fā)布時(shí)間：2024/7/5 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：譚亦鳴，東南大學(xué)博士生，研究方向?yàn)榭缯Z(yǔ)言知識(shí)圖譜問答。

來(lái)源：EMNLP 2018

鏈接：https://www.aclweb.org/anthology/D18-1034

問題背景與動(dòng)機(jī)

本文關(guān)注小語(yǔ)種/資源匱乏語(yǔ)言的跨語(yǔ)言命名實(shí)體識(shí)別問題，首先作者肯定了現(xiàn)有無(wú)監(jiān)督/弱監(jiān)督方法在單語(yǔ)資源豐富的情況下能夠取得不錯(cuò)的性能。但是對(duì)于單語(yǔ)資源不足的情況下，這些方法卻無(wú)法適用，原因在于：無(wú)監(jiān)督方法需要構(gòu)建單語(yǔ)embedding并投影到共享空間中，但是單語(yǔ)資源不足的情況下，無(wú)法構(gòu)建有質(zhì)量的embedding；弱監(jiān)督方法則需要使用一定規(guī)模（10K~1M）的雙語(yǔ)詞典作為語(yǔ)言對(duì)齊的seed，顯然這個(gè)要求對(duì)于小資源語(yǔ)言（如維吾爾語(yǔ)）也是相對(duì)苛刻了。

為了解決這一問題，作者提出結(jié)合詞典方法與embedding方法，利用微量平行數(shù)據(jù)（<10K）構(gòu)建embedding，將豐富資源的英語(yǔ)數(shù)據(jù)與微量資源的小語(yǔ)種詞匯投影到共享空間中，而后利用近鄰方式構(gòu)建規(guī)模更大的雙語(yǔ)詞典，再利用雙語(yǔ)詞典將英語(yǔ)數(shù)據(jù)word-by-word譯為小語(yǔ)種數(shù)據(jù)，用于NER模型的訓(xùn)練。同時(shí)，考慮到這種方法產(chǎn)生的語(yǔ)言距離真實(shí)的自然語(yǔ)言表達(dá)存在差異，作者在NER模型中引入self-attention試圖減緩這種影響

貢獻(xiàn)

1.? 提出了一種通過語(yǔ)言遷移實(shí)現(xiàn)的跨語(yǔ)言NER策略

2. 提出一種 order-invariant self-attention 機(jī)制用于緩解語(yǔ)言遷移以及數(shù)據(jù)量不足對(duì) NER 模型產(chǎn)生的影響

方法說(shuō)明

本文的方法過程描述如下：

1.? 使用單語(yǔ)語(yǔ)料獨(dú)立訓(xùn)練兩種語(yǔ)言的 embedding 單語(yǔ)嵌入使用的方法類似 (Mikolovetal., 2013b; Pennington et al., 2014; Bojanowskiet al., 2017)等人的工作，利用單語(yǔ)文本訓(xùn)練嵌入矩陣。

2.? 利用給定的微量雙語(yǔ)字典，將上述兩種語(yǔ)言的embedding投影到一個(gè)共享空間中投影方法，采用的是 (Zhang et al., 2016; Artetxe et al., 2016; Smithet al., 2017) 等類似的方式，通過訓(xùn)練投影矩陣，實(shí)現(xiàn)將兩種語(yǔ)言的 embedding 投影

3.? 對(duì)于單語(yǔ)資源豐富的英語(yǔ)embedding，利用最近鄰策略，挑選另一語(yǔ)言的詞語(yǔ)的embedding作為其翻譯結(jié)果，從而構(gòu)建較大規(guī)模的雙語(yǔ)字典在計(jì)算embedding相似度方面，采用cross-domain similarity local scaling (CSLS) metric(Lample et al., 2018)實(shí)現(xiàn)。

4.? 利用3中的翻譯將英語(yǔ)命名實(shí)體識(shí)別語(yǔ)料譯為另一語(yǔ)言，同時(shí)保留命名實(shí)體標(biāo)簽，用于NER模型的訓(xùn)練

下圖是上述過程的一個(gè)示意，語(yǔ)言對(duì)為英語(yǔ)-西班牙語(yǔ)：

模型

NER模型方面，作者采用了一個(gè)分層神經(jīng)網(wǎng)絡(luò)+self-attention+CRF的序列標(biāo)注方案：其中輸入粒度被細(xì)化到了char級(jí)，每個(gè)單詞的字母都通過雙向RNN融合得到，此基礎(chǔ)上再通過一層雙向RNN做詞級(jí)別的embedding，之后使用self-attention對(duì)得到的每個(gè)詞的embedding做一步轉(zhuǎn)換得到embedding_a，而后將embedding與embedding_a進(jìn)行組合，得到用于訓(xùn)練CRF序列標(biāo)注過程的單詞表示。

實(shí)驗(yàn)

數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)方面，作者采用了CoNLL 2002以及2003 NER公開數(shù)據(jù)集，其中包含英德荷及西班牙語(yǔ)共四種語(yǔ)言，通過將英語(yǔ)與其他三種語(yǔ)言組合為“資源豐富-資源缺乏”的語(yǔ)言組合，構(gòu)建出上述方法所需的數(shù)據(jù)形式。

實(shí)驗(yàn)結(jié)果

表1 反映了本文方法在公開數(shù)據(jù)集上的實(shí)驗(yàn)，采用F1值作為評(píng)價(jià)指標(biāo)，結(jié)果上看，相對(duì)其他同類模型，本方法的性能提升較為顯著。

同時(shí)作者也針對(duì)embedding過程的效果進(jìn)行統(tǒng)計(jì)評(píng)判，這種使用近鄰進(jìn)行翻譯的方法，在雙語(yǔ)性能上表現(xiàn)出了一定提升。

同時(shí)作者也對(duì)小語(yǔ)種維吾爾語(yǔ)進(jìn)行了NER實(shí)驗(yàn)對(duì)比，在無(wú)額外知識(shí)補(bǔ)充的且使用微量平行數(shù)據(jù)的情況下，本文增量模型的性能提升還是比較明顯。但是整體結(jié)果上，相對(duì)目前最好的模型差距還是是否明顯，作者認(rèn)為產(chǎn)生這一情況的原因在于維吾爾語(yǔ)極低的單語(yǔ)質(zhì)量，且英語(yǔ)和維吾爾語(yǔ)之間的天然差異本身就非常的大。

OpenKG

開放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - ACL2020 | 用于链
下一篇：领域应用 | HiTA知识图谱 “药品-

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

總結(jié)