字子序列中英翻译模型(五笔特征)
文章:Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding
主要思想:將五筆作為中文字模型特征用于翻譯模型
背景:有人使用了詞子序列(sub-word)作為基本單位,用以規避典外詞匯(Out Of Vocabulary, OOV)帶來的問題,縮小了詞表,并取得了良好的效果。五筆曾在其他文章中作為特征加入到翻譯模型中,取得了優于字模型(character-level models)的效果。將二者思想結合起來,就有了這篇文章。
特征提取:在五筆輸入法中,每個字或詞映射為不超過5個(一般是4個)符號編碼,比如“毫無理由”,逐字鍵入,應當映射為毫ypt無fq理gj由mh,如下圖
ypt
fq
gj
mh
五筆的鍵位分布參考
https://www.52wubi.com/wbbmcx/search.php
但文章并沒有將字的五筆輸入序列直接作為特征,而是采用了基于共現符號對的壓縮編碼方式BPE(Byte-pair encoding)將之再編碼。
BPE的基本思想是這樣的,對于一些序列,比如字母序列-詞,將最高頻的連續共現對用新符號替代。比如對具有4個序列的語料:low, lowest, newer, wider進行替代合并的規則衍變過程為:
r * -> r*
l o -> lo
lo w -> low
e r * -> er*
其中*表示詞尾,這樣,合并的結果就是:
low(low, *)
lowest(low, e, s, t, *)
newer(n, e, w, er *)
wider(w, i, d, er *)
用該算法對“毫無理由”的五筆特征(ypt, fq, gj, mh)進行處理,得到:y@@,pt,fq,gj,mh,四個序列變成了5個序列,嗯,文章沒有解釋這兩個@是怎么來的。
翻譯模型的結構是經典的RNN+Attention:
評估指標采用了機器翻譯普遍采用的BLEU。文章的方法(wubi)在測試集上取得了優于其他方法的結果,盡管在驗證集(開發集dev)上的結果有時差于其他模型。
wubi右邊的數字代表這次結果用的BPE次數。
文章選取了不同BPE處理次數的結果進行比較,當處理次數(也即圖中的詞表大小)在2000-3000時,結果是比較好的:
其他:
比較了不同切詞算法對結果的影響,總的來說,以詞為單位的模型,切詞質量影響較大,質量越高,效果越好。
從訓練時間上來看,全字模型時間最長,其次是字子序列(文章的模型),最快的是基于詞的模型。
總結
以上是生活随笔為你收集整理的字子序列中英翻译模型(五笔特征)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Fisco Bcos如何通过合约地址找到
- 下一篇: 【网络攻防原理与技术】第6章:特洛伊木马