日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

A New Approach for English-Chinese Named Entity Alignment(跨语言实体对齐)

發(fā)布時(shí)間:2023/12/8 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 A New Approach for English-Chinese Named Entity Alignment(跨语言实体对齐) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

A New Approach for English-Chinese Named Entity Alignment(英漢實(shí)體對齊新方法)

  • 0 Abstract
  • 1 Introduction
  • 2 相關(guān)工作
  • 3 最大熵模型的NE對齊
    • 3.1 功能函數(shù)
      • 3.1.1 翻譯得分
      • 3.1.2 音譯得分
      • 3.1.3 共現(xiàn)分?jǐn)?shù)
      • 3.1.4 變形分?jǐn)?shù)
    • 3.2 使用最大熵模型進(jìn)行bootstrapping訓(xùn)練
      • 3.2.1 NE候選者選擇
      • 3.2.2 最大熵模型參數(shù)訓(xùn)練

0 Abstract

傳統(tǒng)的詞對齊方法不能為實(shí)體提供令人滿意的結(jié)果。在本文中,我們提出了一種使用最大熵模型進(jìn)行命名實(shí)體對齊的新方法。為了簡化最大熵模型的訓(xùn)練,使用bootstrapping法來幫助監(jiān)督學(xué)習(xí)。與以往文獻(xiàn)報(bào)道的工作不同,我們的工作對中文進(jìn)行了無分詞的雙語命名實(shí)體對齊,其性能比有分詞的好得多。實(shí)驗(yàn)結(jié)果表明,與IBM模型和HMM對齊模型相比,我們的方法顯著優(yōu)于IBM模型4和HMM。

1 Introduction

本文討論了雙語語料庫的命名實(shí)體對齊問題,即在目標(biāo)語言中建立每個(gè)源語言NE與其翻譯NE之間的對齊。研究表明,命名實(shí)體(NE)在人類語言中攜帶了必要的信息。對齊雙語命名實(shí)體是提取實(shí)體翻譯列表和翻譯模板的有效方法。例如,在下面的句子對中,對齊NE,[Zhi Chun road]和[知春路] 能夠正確生成翻譯模板。

  • Can I get to [LN Zhi Chun road] by eight o’clock?
  • 八點(diǎn)我能到 [LN 知春路]嗎?

此外,NE對齊對于統(tǒng)計(jì)機(jī)器翻譯(SMT)和跨語言信息檢索(CLIR)非常有用。

但是,命名實(shí)體對齊不容易獲得。它要求正確處理命名實(shí)體識(shí)別(NER)和對齊。NE可能無法很好地識(shí)別,或者在NER期間只能識(shí)別其中的一部分。在用不同語言對齊雙語NE時(shí),我們需要處理多對多對齊。不同語言的NE翻譯和NER的不一致也是一個(gè)大問題。具體而言,在中文NE處理中,由于中文不是標(biāo)記化語言,以前的工作通常進(jìn)行分詞并依次識(shí)別命名實(shí)體。這涉及到中文NE的幾個(gè)問題,例如分詞錯(cuò)誤、中文NE邊界的識(shí)別以及中文NE的錯(cuò)誤標(biāo)記。例如,”國防部長” 在中文里,它實(shí)際上是一個(gè)單位,不應(yīng)該被分割成[ON 國防部]/長。分詞和NER產(chǎn)生的錯(cuò)誤將傳播到NE對齊。

本文提出了一種利用最大熵模型進(jìn)行英漢命名實(shí)體對齊的新方法。NER工具首先識(shí)別英語中的NE。然后,我們研究NE翻譯特征以識(shí)別中文中的NE,并確定最可能的對齊方式。為了簡化最大熵模型的訓(xùn)練,使用 bootstrapping 技術(shù)來幫助監(jiān)督學(xué)習(xí)。

另一方面,為了避免分詞和NER的錯(cuò)誤傳播,我們直接提取中文NE,并在沒有分詞的情況下對純文本進(jìn)行對齊。這與文獻(xiàn)中以前報(bào)道的工作不同。雖然這使任務(wù)變得更加困難,但它大大減少了前面步驟引入錯(cuò)誤的機(jī)會(huì),從而在任務(wù)中產(chǎn)生更好的性能。

為了證明我們的方法的合理性,我們采用了傳統(tǒng)的對齊方法,特別是IBM Model 4和HMM,以執(zhí)行NE對齊作為我們的基線系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,在這個(gè)任務(wù)中,我們的方法明顯優(yōu)于IBM Model 4和HMM。此外,不使用分詞的性能要比使用分詞的性能好得多。

本文的其余部分組織如下:在第2節(jié)中,我們討論了NE對齊的相關(guān)工作。第3節(jié)給出了NE校準(zhǔn)的總體框架和我們的最大熵模型。本節(jié)還介紹了功能部件功能和引導(dǎo)過程。我們在第4節(jié)展示了實(shí)驗(yàn)結(jié)果,并將其與基線系統(tǒng)進(jìn)行了比較。第5節(jié)總結(jié)了本文,并討論了正在進(jìn)行的未來工作。

2 相關(guān)工作

通過單詞和短語對齊可以獲得翻譯知識(shí)。迄今為止,在機(jī)器翻譯和知識(shí)獲取領(lǐng)域進(jìn)行了大量研究,包括統(tǒng)計(jì)方法和符號方法。

然而,這些方法不能很好地用于NE對齊任務(wù)。遵循IBM模型的傳統(tǒng)方法無法產(chǎn)生令人滿意的結(jié)果,因?yàn)樗鼈儽旧頍o法處理多對多對齊。他們只執(zhí)行單詞之間的對齊,不考慮復(fù)雜詞組的情況,比如一些多詞NE。另一方面,IBM模型允許源語言中最多有一個(gè)單詞對應(yīng)目標(biāo)語言中的一個(gè)單詞。因此,它們不能很好地處理NE中的多對多單詞對齊。另一種眾所周知的單詞對齊方法HMM使得對齊概率取決于前一個(gè)單詞的對齊位置。它也沒有明確地考慮多對多的對齊方式。

Huang等人提出了基于線性組合多特征代價(jià)最小化的命名實(shí)體跨語言等價(jià)性提取方法。但是,它們需要在源端和目標(biāo)端識(shí)別命名實(shí)體。Moore的方法基于一系列成本模型,然而,這種方法在很大程度上依賴于語言信息,例如兩側(cè)重復(fù)的字符串,以及來自大寫字母的線索,這些線索不適用于不具備同一屬性的語言對。此外,目標(biāo)端已經(jīng)確定了完整的詞匯復(fù)合詞,它們代表了最終結(jié)果的很大一部分。在對齊過程中,Moore沒有假設(shè)短語的翻譯需要在目標(biāo)集上拆分預(yù)定的詞匯復(fù)合詞。

這些方法不適合我們的任務(wù),因?yàn)槲覀冎辉谠炊俗R(shí)別了NE,而目標(biāo)端沒有額外的知識(shí)。考慮到NE翻譯的固有特征,我們可以找到幾個(gè)有助于NE對齊的特征;因此,我們使用最大熵模型來整合這些特征并進(jìn)行NE對齊。

3 最大熵模型的NE對齊

在不依賴英文或中文的語法知識(shí)的情況下,我們發(fā)現(xiàn)有幾個(gè)有價(jià)值的特性可以用于命名實(shí)體對齊。考慮到最大熵模型在整合不同類型特征方面的優(yōu)勢,我們使用該框架來處理我們的問題。

假設(shè)源英語NE neene_enee?nee={e1,e2,?,en}ne_e = \{ e_1, e_2, \cdots, e_n\}nee?={e1?,e2?,?,en?},包含 nnn 個(gè)英文單詞,候選中文NE necne_cnec?nec={c1,c2,?,cn}ne_c = \{ c_1, c_2, \cdots, c_n \}nec?={c1?,c2?,?,cn?}mmm 個(gè)漢字組成。假設(shè)我們有 MMM 個(gè)特征函數(shù) hm(nee,nec),m=1,?,Mh_m(ne_e, ne_c), m = 1, \cdots, Mhm?(nee?,nec?),m=1,?,M,對于每個(gè)特征函數(shù),我們有一個(gè)模型參數(shù) λm,m=1,?,M\lambda_m, m = 1, \cdots, Mλm?,m=1,?,M,對齊概率定義如下:

選擇英文NE中最可能對齊的目標(biāo)NE的決策規(guī)則為:

在我們的方法中,考慮到NE翻譯的特點(diǎn),我們采用4個(gè)特征:翻譯得分、音譯分?jǐn)?shù)、源NE和目標(biāo)NE的共現(xiàn)分?jǐn)?shù)、區(qū)分同一句子中相同NE的失真分?jǐn)?shù)。接下來,我們將詳細(xì)討論這四個(gè)特性。

3.1 功能函數(shù)

3.1.1 翻譯得分

考慮英語NE中單詞與漢語NE中字符之間的翻譯概率是很重要的。在處理無分割的漢語句子時(shí),這里的詞是指單個(gè)漢字。

此處的翻譯分?jǐn)?shù)用于表示基于翻譯概率的實(shí)體對的接近程度。假設(shè)源英語NE neene_enee?nnn 個(gè)英語單詞組成:nee={e1,e2,?,en}ne_e = \{ e_1, e_2, \cdots, e_n\}nee?={e1?,e2?,?,en?},候選中文NE necne_cnec?nec={c1,c2,?,cn}ne_c = \{ c_1, c_2, \cdots, c_n \}nec?={c1?,c2?,?,cn?}mmm個(gè)漢字組成,我們可以根據(jù) eie_iei?cjc_jcj? 之間的翻譯概率得到這兩個(gè)雙語NE的翻譯分?jǐn)?shù):

給定一個(gè)在句子層面對齊的平行語料庫,我們可以獲得每個(gè)英語單詞和每個(gè)漢字之間的翻譯概率 p(cj∣ei)p(c_j | e_i )p(cj?ei?)(通過與IBM Model 1的單詞對齊)。在沒有分詞的情況下,我們必須計(jì)算每個(gè)可能的候選詞來確定最可能的對齊,這將使搜索空間非常大。因此,我們對整個(gè)搜索空間進(jìn)行修剪。如果在兩個(gè)相鄰字符之間有一個(gè)分?jǐn)?shù)跳變,候選字符將被丟棄。通過該公式計(jì)算候選中文NE與源英文NE之間的分?jǐn)?shù),作為該特征的值。

3.1.2 音譯得分

雖然在理論上,翻譯分?jǐn)?shù)可以在正確的NE對齊中建立關(guān)系,但在實(shí)踐中并非總是如此,這是由于語料庫的特點(diǎn)。當(dāng)我們有稀疏的數(shù)據(jù)時(shí),這一點(diǎn)更加明顯。例如,“命名實(shí)體”中的大多數(shù)人名在語料庫中分布很稀疏,沒有規(guī)律地重復(fù)。除此之外,一些英文NE也通過音譯翻譯而不是語義翻譯。因此,建立音譯模型是非常重要的。

給定一個(gè)英文實(shí)體 eeee={e1,e2,?,en}e = \{ e_1, e_2, \cdots, e_n\}e={e1?,e2?,?,en?},將 eee 音譯為中文命名實(shí)體 cccc={c1,c2,?,cn}c = \{ c_1, c_2, \cdots, c_n \}c={c1?,c2?,?,cn?} 的過程,可以用式(3.4)來描述(為便于表示,這里用 eeeccc 代替 neene_enee?necne_cnec? 來表示英文NE和中文NE)。

根據(jù)貝葉斯規(guī)則,可將其轉(zhuǎn)換為:

由于有超過6k個(gè)常用漢字,我們需要一個(gè)非常大的訓(xùn)練語料庫來直接建立英語單詞和漢字之間的映射。我們采用了古羅馬化系統(tǒng),漢語拼音,以便于轉(zhuǎn)換。每個(gè)漢字對應(yīng)一個(gè)漢語拼音字符串。從漢字到拼音字符串的概率為 P(r∣c)≈1P(r | c) ≈ 1P(rc)1,除了多音字。因此,我們:

我們的問題是:給定英文NE和候選中文NE,找到最可能的對齊,而不是找到最可能的英文NE的中文翻譯。因此,與以前的英漢音譯模型工作不同,我們將每個(gè)候選的中文NE轉(zhuǎn)換為漢語拼音串,并直接訓(xùn)練一個(gè)基于拼音的語言模型,該語言模型包含由1258個(gè)名字對組成的獨(dú)立英漢名單,從英文NE中解碼出最可能的拼音串。

為了從英文NE中找到最可能的拼音串,我們將公式(3.5)改寫如下:

其中r表示羅馬拼音(拼音字符串),r={r1,r2,?,rm}r = \{ r_1, r_2, \cdots, r_m\}r={r1?,r2?,?,rm?}。對于每一個(gè)因子,有:

其中 eie_iei? 是一個(gè)英語音節(jié),rir_iri? 是一個(gè)漢語拼音子串。

例如,我們有英文NE “Richard” 和其候選中文NE ”理查德” 。由于通道模型和語言模型都是基于拼音的,維特比解碼的結(jié)果是從“Ri char d”到“Li Cha De”。我們將“理查德” 轉(zhuǎn)換為拼音串“Li Cha De”。然后,我們基于拼音字符串而不是直接與漢字進(jìn)行相似度比較。這是因?yàn)樵趯⒂⒄ZNE音譯為漢語時(shí),可以非常靈活地選擇哪個(gè)字符來模擬發(fā)音,但拼音字符串相對固定。

對于每個(gè)英語單詞,有幾種方法可以將其劃分為音節(jié),因此本文采用動(dòng)態(tài)規(guī)劃算法將英語單詞解碼為漢語拼音序列。基于英文NE的音譯字符串和原始候選中文NE的拼音字符串,我們可以計(jì)算它們與XDice系數(shù)的相似性。這是Dice系數(shù)的一個(gè)變體,它允許“擴(kuò)展的二元圖”。擴(kuò)展雙字元(xbig)是在原有雙字元的基礎(chǔ)上,從單詞的任何三個(gè)字母子串中刪除中間字母而形成的。

假設(shè)英語NE的音譯字符串和候選漢語NE的拼音字符串分別為 etle_{tl}etl?cpyc_{py}cpy?。XDice系數(shù)通過以下公式計(jì)算:

另一點(diǎn)需要注意的是,外國人名和中國人名有不同的翻譯策略。上述音譯框架僅適用于外國名稱。對于中文人名翻譯,表面的英文字符串就是中文人名的拼音字符串。為了處理這兩種情況,請確保表示表層英語字符串,通過取兩個(gè)XDice系數(shù)的最大值來定義最終的音譯分?jǐn)?shù):

此公式不區(qū)分外國人姓名和中國人姓名,外國人姓名的音譯字符串或中國人姓名的拼音字符串可以適當(dāng)處理。此外,由于英文字符串和拼音字符串共享同一個(gè)字符集,如果音譯解碼失敗,我們的方法也可以作為替代方法。

例如,對于英文名稱“Cuba”,與中文NE的對齊應(yīng)為“古巴”。如果音譯解碼失敗,其拼音串“Guba”仍然通過XDice系數(shù)與表面串“Cuba”有很強(qiáng)的關(guān)系。這可以使系統(tǒng)更強(qiáng)大。

3.1.3 共現(xiàn)分?jǐn)?shù)

另一種方法是在整個(gè)語料庫中找到源和目標(biāo)NE的共現(xiàn)。如果兩個(gè)NE經(jīng)常同時(shí)出現(xiàn),那么它們很有可能相互對齊。從整個(gè)語料庫中獲取的知識(shí)對于NE對齊來說是一個(gè)額外且有價(jià)值的特征。我們使用以下公式計(jì)算源英語NE和候選漢語NE的共現(xiàn)分?jǐn)?shù):


式中,count(nec,nee)count(ne_c, ne_e)count(nec?,nee?)necne_cnec?neene_enee? 同時(shí)出現(xiàn)的次數(shù),count(?,nee)count(*,ne_e)count(?,nee?),是 neene_enee? 出現(xiàn)的次數(shù)。這一概率是一個(gè)很好的指示,用于確定是否對齊。

3.1.4 變形分?jǐn)?shù)

當(dāng)跨語言翻譯NE時(shí),我們注意到它們位置的差異也是確定它們關(guān)系的一個(gè)很好的指示,當(dāng)目標(biāo)語言中有相同的候選者時(shí),這是必須的。差異越大,它們相互翻譯的可能性就越小。因此,我們將源英語NE和候選漢語NE之間的變形分?jǐn)?shù)定義為另一個(gè)特征。

假設(shè)英語NE的起始位置的索引為 iii,英語句子的長度為 mmm。然后我們得到了源英語NE 的相對位置 pose=impos_e=\dfrac{i}{m}pose?=mi? ,以及候選中文NE的相對位置 poscpos_cposc?0≤posc,posc≤10≤pos_c,pos_c ≤10posc?,posc?1。變形分?jǐn)?shù)由以下公式定義:

式中,ABSABSABS 表示絕對值。如果目標(biāo)語言中的不同位置有多個(gè)相同的候選中文NE,則變形分?jǐn)?shù)最大的將獲勝。

3.2 使用最大熵模型進(jìn)行bootstrapping訓(xùn)練

為了將最大熵模型應(yīng)用于NE對齊,我們分兩步進(jìn)行:選擇NE候選對象和訓(xùn)練最大熵模型參數(shù)。

3.2.1 NE候選者選擇

為了與我們的最大熵模型保持一致,我們首先使用NLPWIN識(shí)別英語中的命名實(shí)體。對于識(shí)別出的NE中的每個(gè)單詞,我們通過從IBM Model 1獲取的翻譯表找到所有可能的中文翻譯字符。最后,我們將所有選擇的字符作為“種子”數(shù)據(jù)。由于每個(gè)種子都有一個(gè)開放的窗口,因此窗口內(nèi)的所有可能序列都被視為NE比對的可能候選序列。它們的長度范圍從1到根據(jù)經(jīng)驗(yàn)確定的窗口長度。在候選選擇過程中,采用上述剪枝策略來減少搜索空間。

例如,在圖1中,如果“China”的翻譯概率僅超過閾值,則為“中”, 這兩個(gè)種子數(shù)據(jù)位于索引為0和4的位置。假設(shè)窗口長度為3,則種子數(shù)據(jù)周圍的所有長度范圍為1到3的候選項(xiàng),包括“中國”,將被選擇為候選項(xiàng)。

3.2.2 最大熵模型參數(shù)訓(xùn)練

利用第3.1節(jié)中定義的四個(gè)特征函數(shù),我們計(jì)算了所有選定的中文NE候選者的特征分?jǐn)?shù)。

為了獲得最可能對齊的漢語NE,我們使用已發(fā)布的包YASMET對所有NE候選進(jìn)行參數(shù)訓(xùn)練和重新排序。YASMET需要監(jiān)督學(xué)習(xí)來訓(xùn)練最大熵模型。然而,獲得一個(gè)大的帶注釋的訓(xùn)練集并不容易。在這里,bootstrapping 用于幫助該過程。圖2給出了參數(shù)訓(xùn)練的整個(gè)過程。

  • 將系數(shù) λi\lambda_iλi? 設(shè)置為均勻分布;
  • 計(jì)算所有特征得分,得到漢語NE候選的N-best列表;
  • 認(rèn)為得分超過給定閾值的候選詞是正確的,并將其放入重新排序的訓(xùn)練集中;
  • 使用YASMET重新訓(xùn)練參數(shù) λi\lambda_iλi?
  • 重復(fù)步驟2,直到 λi\lambda_iλi? 收斂,并將當(dāng)前排名作為最終結(jié)果。
  • 總結(jié)

    以上是生活随笔為你收集整理的A New Approach for English-Chinese Named Entity Alignment(跨语言实体对齐)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。