日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

输入法之核心词典构建

發(fā)布時(shí)間:2025/5/22 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 输入法之核心词典构建 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


拼音輸入法輸出的候選分成兩個(gè)部分,系統(tǒng)詞以及短句(智能組詞),智能組詞是通過model以及解碼弄出來的,興許再說。

系統(tǒng)詞就是那些經(jīng)常使用的詞(詞組)收錄到詞典中,用戶的輸入和詞典中的詞match時(shí),直接吐出來,而不須要解碼獲得。
系統(tǒng)詞以及相應(yīng)的rank(score)對(duì)輸入法的體驗(yàn)非常大,畢竟大多數(shù)用戶還是繼續(xù)短詞輸入。
系統(tǒng)詞包括幾個(gè)部分: 1.基礎(chǔ)詞 2.高頻短串 3.細(xì)胞詞庫
當(dāng)中基礎(chǔ)詞的比較復(fù)雜,也沒有統(tǒng)一的方法。

一般的做法是:

1.對(duì)訓(xùn)練語料進(jìn)行分詞,然后取top 20-50w的詞作為基礎(chǔ)詞,假設(shè)有知識(shí)庫等分類的詞典,能夠依照類別。比方電商等能夠引入一些詞 2.獲取第三方的核心詞典。將大家都有的,或者基于一定的規(guī)范。選擇出來。作為核心詞典。
這個(gè)非常重要,可是基本上高頻的都能被cover住,而中低頻的就看產(chǎn)品需求了。
針對(duì)高頻短串。比方“去哪里”等等,沒有必要通過智能組詞來解決。智能組詞畢竟是有錯(cuò)誤率的。 同一時(shí)候。加到核心詞庫里面后。在展現(xiàn)上比較方便控制。

畢竟智能組詞一版智能選一個(gè)最好的。而系統(tǒng)詞能夠有多個(gè)。“去哪里”去那里“

轉(zhuǎn)載于:https://www.cnblogs.com/brucemengbm/p/6920989.html

總結(jié)

以上是生活随笔為你收集整理的输入法之核心词典构建的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。