日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

imewlconverter 制作Rime词库

發(fā)布時(shí)間:2023/12/31 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 imewlconverter 制作Rime词库 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

RIME是一款開(kāi)源跨平臺(tái)的輸入法引擎,提供高度的定制化,每個(gè)人都能配制自己獨(dú)屬的輸入法(當(dāng)然這也意味著門(mén)檻很高)。在國(guó)內(nèi)凈是些竊取上傳用戶隱私的輸入法的環(huán)境下,各平臺(tái)Rime的前端實(shí)現(xiàn)為我們這些注重個(gè)人隱私的用戶提供了最后的港灣

但不可否認(rèn)的是搜狗百度之類(lèi)的大廠通過(guò)收錄用戶輸入,建立了較好的詞庫(kù)系統(tǒng),而Rime初期需要自己養(yǎng)詞庫(kù),而導(dǎo)入個(gè)人需要的詞庫(kù)后便能大大提高用戶體驗(yàn)。不同輸入法的詞庫(kù)格式顯然是不同的,有人開(kāi)源了一個(gè)詞庫(kù)轉(zhuǎn)換工具imewlconverter,能方便的轉(zhuǎn)換需要的格式

https://github.com/studyzy/imewlconverter

Windows下有GUI實(shí)現(xiàn),操作簡(jiǎn)單,不在解釋,*unix平臺(tái)也可以在終端中執(zhí)行相關(guān)命令,官方也給出了Wiki https://github.com/studyzy/imewlconverter/wiki/CommandLine

參數(shù)

可以運(yùn)行dotnet ImeWlConverterCmd.dll "-?"命令查看幫助,我這需要指定dll絕對(duì)路徑

? dotnet /usr/share/imewlconverter/ImeWlConverterCmd.dll "-?" 當(dāng)前版本:V2.8.0.0 -i:輸入的詞庫(kù)類(lèi)型 詞庫(kù)路徑1 詞庫(kù)路徑2 詞庫(kù)路徑3 -o:輸出的詞庫(kù)類(lèi)型 輸出詞庫(kù)路徑 -c:編碼文件路徑 輸入和輸出的詞庫(kù)類(lèi)型如下: sgpy 搜狗拼音txt scel 搜狗細(xì)胞詞庫(kù)scel sgpybin 搜狗拼音備份詞庫(kù)bin qqpy QQ拼音 qpyd QQ分類(lèi)詞庫(kù)qpyd qcel QQ分類(lèi)詞庫(kù)qcel qqwb QQ五筆 qqpye QQ拼音英文 bdpy 百度拼音 xiaoxiao 小小輸入法 bdict 百度分類(lèi)詞庫(kù)bdict ggpy 谷歌拼音 gboard Gboard pyjj 拼音加加 win10mspy Win10微軟拼音(自定義短語(yǔ)) win10mswb Win10微軟五筆(自定義短語(yǔ)) win10mspyss Win10微軟拼音(自學(xué)習(xí)詞庫(kù)) mspy 微軟拼音 bing 必應(yīng)輸入法 fit FIT輸入法 plist Mac簡(jiǎn)體拼音 rime Rime中州韻 zgpy 華宇紫光拼音 uwl 紫光拼音詞庫(kù)uwl libpy libpinyin pyim Chinese-pyim sxpy 手心輸入法 xlpy 新浪拼音 jd 極點(diǎn)五筆 jdzm 極點(diǎn)鄭碼 xywb 小鴨五筆 yahoo 雅虎奇摩 ld2 靈格斯ld2 wb86 五筆86版 wb98 五筆98版 cjpt 倉(cāng)頡平臺(tái) emoji Emoji bdsj 百度手機(jī)或Mac版百度拼音 bdsje 百度手機(jī)英文 bcd 百度手機(jī)詞庫(kù)bcd qqsj QQ手機(jī) ifly 訊飛輸入法 self 自定義 word 無(wú)拼音純漢字例如要將./test.scel和./a.scel的搜狗細(xì)胞詞庫(kù)轉(zhuǎn)換為./gg.txt的谷歌拼音詞庫(kù),命令為: dotnet ImeWlConverterCmd.dll -i:scel ./test.scel ./a.scel -o:ggpy ./gg.txt 例如要將./test.scel和./a.scel的搜狗細(xì)胞詞庫(kù)轉(zhuǎn)換為./temp文件夾下的谷歌拼音詞庫(kù)test.txt和a.txt,命令為: dotnet ImeWlConverterCmd.dll -i:scel ./test.scel ./a.scel -o:ggpy ./temp/* 例如要將./test/*.scel的搜狗細(xì)胞詞庫(kù)轉(zhuǎn)換為./temp文件夾下的谷歌拼音詞庫(kù),命令為: dotnet ImeWlConverterCmd.dll -i:scel ./test/*.scel -o:ggpy ./temp/*對(duì)于導(dǎo)入詞庫(kù)不包含詞頻,而導(dǎo)出時(shí)需要指定詞頻,可以通過(guò)-r:命令指定詞頻的生成方式,支持的有: -r:baidu 根據(jù)該詞語(yǔ)在百度搜索的結(jié)果數(shù)量決定詞頻 -r:google 根據(jù)該詞語(yǔ)在Google搜索的結(jié)果數(shù)量決定詞頻(需翻墻) -r:數(shù)字 指定一個(gè)固定數(shù)字的詞頻對(duì)于導(dǎo)出詞庫(kù)為Rime輸入法的,可以通過(guò)-ct:pinyin/wubi/zhengma設(shè)置編碼,也可通過(guò)-os:windows/macos/linux設(shè)置適用的操作系統(tǒng)使用-ft:可以設(shè)置詞條的過(guò)濾條件,如果不設(shè)置則不過(guò)濾任何詞條。-ft:后面可以設(shè)置的過(guò)濾條件包括: len:1-100 保留字?jǐn)?shù)為1到100的詞條 rank:2-9999 保留詞頻在2到9999的詞條 rm:eng 移除包含英文字母的詞條 rm:num 移除包含數(shù)字的詞條 rm:space 移除包含空格的詞條 rm:pun 移除包含標(biāo)點(diǎn)符號(hào)的詞條 以上過(guò)濾條件可以組合,同時(shí)起作用,用豎線分開(kāi)即可: -ft:"len:1-100|rank:2-9999|rm:eng|rm:num|rm:space|rm:pun"自定義格式的參數(shù)如下: -f:213,|byyn 213 這里是設(shè)置拼音、漢字和詞頻的順序,213表示1漢字2拼音3詞頻,必須要有3個(gè) , 這里是設(shè)置拼音之間的分隔符,用逗號(hào)分割 | 這里是設(shè)置漢字拼音詞頻之間的分隔符,用|分割 b 這里是設(shè)置拼音分隔符的位置,有l(wèi)rbn四個(gè)選項(xiàng),l表示左包含,r表示右包含,b表示兩邊都包含,n表示兩邊都不包含 yyn 這里是設(shè)置拼音漢字詞頻這3個(gè)是否顯示,y表示顯示,b表示不顯示,這里yyn表示顯示拼音和漢字,不顯示詞頻 例如要將一個(gè)qpyd詞庫(kù)轉(zhuǎn)換為自定義格式的文本詞庫(kù),拼音之間逗號(hào)分割,拼音和詞之間空格分割,不顯示詞頻,同時(shí)使用自定義的編碼文件code.txt命令如下: dotnet ImeWlConverterCmd.dll -i:qpyd ./a.qpyd -o:self ./zy.txt "-f:213, nyyn" -c:./code.txt 其中-c:./code.txt指定的編碼文件格式為:“漢字<Tab鍵>編碼”每行一個(gè)。最后,如果這款軟件幫助到了您,您可以通過(guò)捐贈(zèng)表示感謝,捐贈(zèng)作者支付寶地址:studyzy@163.com 曾毅 輸入 -? 可獲取幫助

舉例:

1、搜狗 => Rime

下載搜狗詞庫(kù)https://pinyin.sogou.com/dict/

dotnet /usr/share/imewlconverter/ImeWlConverterCmd.dll \-i:scel ~/Downloads/sogou-dict/計(jì)算機(jī)詞匯大全【官方推薦】.scel \-os:linux \-o:rime \~/Downloads/sogou-dict/rime/計(jì)算機(jī)詞匯大全【官方推薦】.txt

改個(gè)后綴名

mv 計(jì)算機(jī)詞匯大全【官方推薦】.txt sogou_ComputerGlossary.dict.yaml

然后將以下代碼加到文件開(kāi)頭詞庫(kù)就做好了

# Rime dictionary # encoding: utf-8--- name: sogou_ComputerGlossary version: "2021.06.12" sort: by_weight use_preset_vocabulary: true ...

其他方案大同小異,不再展示,列舉幾個(gè)常見(jiàn)的詞庫(kù)

清華大學(xué)開(kāi)放中文詞庫(kù):http://thuocl.thunlp.org/
搜狗細(xì)胞詞庫(kù):https://pinyin.sogou.com/dict/
百度輸入法詞庫(kù):https://shurufa.baidu.com/dict
Lingoes 2 詞典庫(kù):http://www.lingoes.cn/zh/dictionary/index.html
維基媒體:https://dumps.wikimedia.org/

總結(jié)

以上是生活随笔為你收集整理的imewlconverter 制作Rime词库的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。