當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

字子序列中英翻译模型（五笔特征）

發布時間：2024/8/1 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了字子序列中英翻译模型（五笔特征）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章：Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding

主要思想：將五筆作為中文字模型特征用于翻譯模型

背景：有人使用了詞子序列（sub-word）作為基本單位，用以規避典外詞匯（Out Of Vocabulary, OOV）帶來的問題，縮小了詞表，并取得了良好的效果。五筆曾在其他文章中作為特征加入到翻譯模型中，取得了優于字模型（character-level models）的效果。將二者思想結合起來，就有了這篇文章。

特征提取：在五筆輸入法中，每個字或詞映射為不超過5個（一般是4個）符號編碼，比如“毫無理由”，逐字鍵入，應當映射為毫ypt無fq理gj由mh，如下圖

ypt

fq
gj
mh
五筆的鍵位分布參考
https://www.52wubi.com/wbbmcx/search.php

但文章并沒有將字的五筆輸入序列直接作為特征，而是采用了基于共現符號對的壓縮編碼方式BPE（Byte-pair encoding）將之再編碼。

BPE的基本思想是這樣的，對于一些序列，比如字母序列-詞，將最高頻的連續共現對用新符號替代。比如對具有4個序列的語料：low, lowest, newer, wider進行替代合并的規則衍變過程為：
r * -> r*
l o -> lo
lo w -> low
e r * -> er*
其中*表示詞尾，這樣，合并的結果就是：
low(low, *)
lowest(low, e, s, t, *)
newer(n, e, w, er *)
wider(w, i, d, er *)

用該算法對“毫無理由”的五筆特征（ypt, fq, gj, mh）進行處理，得到：y@@，pt，fq，gj，mh，四個序列變成了5個序列，嗯，文章沒有解釋這兩個@是怎么來的。

翻譯模型的結構是經典的RNN+Attention：

評估指標采用了機器翻譯普遍采用的BLEU。文章的方法（wubi）在測試集上取得了優于其他方法的結果，盡管在驗證集（開發集dev）上的結果有時差于其他模型。

wubi右邊的數字代表這次結果用的BPE次數。

文章選取了不同BPE處理次數的結果進行比較，當處理次數（也即圖中的詞表大小）在2000-3000時，結果是比較好的：

其他：
比較了不同切詞算法對結果的影響，總的來說，以詞為單位的模型，切詞質量影響較大，質量越高，效果越好。

從訓練時間上來看，全字模型時間最長，其次是字子序列（文章的模型），最快的是基于詞的模型。

總結

以上是生活随笔為你收集整理的字子序列中英翻译模型（五笔特征）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Fisco Bcos如何通过合约地址找到
下一篇：【网络攻防原理与技术】第6章：特洛伊木马

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

字子序列中英翻译模型（五笔特征）

總結