imewlconverter 制作Rime词库
前言
RIME是一款開源跨平臺的輸入法引擎,提供高度的定制化,每個人都能配制自己獨屬的輸入法(當然這也意味著門檻很高)。在國內凈是些竊取上傳用戶隱私的輸入法的環境下,各平臺Rime的前端實現為我們這些注重個人隱私的用戶提供了最后的港灣
但不可否認的是搜狗百度之類的大廠通過收錄用戶輸入,建立了較好的詞庫系統,而Rime初期需要自己養詞庫,而導入個人需要的詞庫后便能大大提高用戶體驗。不同輸入法的詞庫格式顯然是不同的,有人開源了一個詞庫轉換工具imewlconverter,能方便的轉換需要的格式
https://github.com/studyzy/imewlconverter
Windows下有GUI實現,操作簡單,不在解釋,*unix平臺也可以在終端中執行相關命令,官方也給出了Wiki https://github.com/studyzy/imewlconverter/wiki/CommandLine
參數
可以運行dotnet ImeWlConverterCmd.dll "-?"命令查看幫助,我這需要指定dll絕對路徑
? dotnet /usr/share/imewlconverter/ImeWlConverterCmd.dll "-?" 當前版本:V2.8.0.0 -i:輸入的詞庫類型 詞庫路徑1 詞庫路徑2 詞庫路徑3 -o:輸出的詞庫類型 輸出詞庫路徑 -c:編碼文件路徑 輸入和輸出的詞庫類型如下: sgpy 搜狗拼音txt scel 搜狗細胞詞庫scel sgpybin 搜狗拼音備份詞庫bin qqpy QQ拼音 qpyd QQ分類詞庫qpyd qcel QQ分類詞庫qcel qqwb QQ五筆 qqpye QQ拼音英文 bdpy 百度拼音 xiaoxiao 小小輸入法 bdict 百度分類詞庫bdict ggpy 谷歌拼音 gboard Gboard pyjj 拼音加加 win10mspy Win10微軟拼音(自定義短語) win10mswb Win10微軟五筆(自定義短語) win10mspyss Win10微軟拼音(自學習詞庫) mspy 微軟拼音 bing 必應輸入法 fit FIT輸入法 plist Mac簡體拼音 rime Rime中州韻 zgpy 華宇紫光拼音 uwl 紫光拼音詞庫uwl libpy libpinyin pyim Chinese-pyim sxpy 手心輸入法 xlpy 新浪拼音 jd 極點五筆 jdzm 極點鄭碼 xywb 小鴨五筆 yahoo 雅虎奇摩 ld2 靈格斯ld2 wb86 五筆86版 wb98 五筆98版 cjpt 倉頡平臺 emoji Emoji bdsj 百度手機或Mac版百度拼音 bdsje 百度手機英文 bcd 百度手機詞庫bcd qqsj QQ手機 ifly 訊飛輸入法 self 自定義 word 無拼音純漢字例如要將./test.scel和./a.scel的搜狗細胞詞庫轉換為./gg.txt的谷歌拼音詞庫,命令為: dotnet ImeWlConverterCmd.dll -i:scel ./test.scel ./a.scel -o:ggpy ./gg.txt 例如要將./test.scel和./a.scel的搜狗細胞詞庫轉換為./temp文件夾下的谷歌拼音詞庫test.txt和a.txt,命令為: dotnet ImeWlConverterCmd.dll -i:scel ./test.scel ./a.scel -o:ggpy ./temp/* 例如要將./test/*.scel的搜狗細胞詞庫轉換為./temp文件夾下的谷歌拼音詞庫,命令為: dotnet ImeWlConverterCmd.dll -i:scel ./test/*.scel -o:ggpy ./temp/*對于導入詞庫不包含詞頻,而導出時需要指定詞頻,可以通過-r:命令指定詞頻的生成方式,支持的有: -r:baidu 根據該詞語在百度搜索的結果數量決定詞頻 -r:google 根據該詞語在Google搜索的結果數量決定詞頻(需翻墻) -r:數字 指定一個固定數字的詞頻對于導出詞庫為Rime輸入法的,可以通過-ct:pinyin/wubi/zhengma設置編碼,也可通過-os:windows/macos/linux設置適用的操作系統使用-ft:可以設置詞條的過濾條件,如果不設置則不過濾任何詞條。-ft:后面可以設置的過濾條件包括: len:1-100 保留字數為1到100的詞條 rank:2-9999 保留詞頻在2到9999的詞條 rm:eng 移除包含英文字母的詞條 rm:num 移除包含數字的詞條 rm:space 移除包含空格的詞條 rm:pun 移除包含標點符號的詞條 以上過濾條件可以組合,同時起作用,用豎線分開即可: -ft:"len:1-100|rank:2-9999|rm:eng|rm:num|rm:space|rm:pun"自定義格式的參數如下: -f:213,|byyn 213 這里是設置拼音、漢字和詞頻的順序,213表示1漢字2拼音3詞頻,必須要有3個 , 這里是設置拼音之間的分隔符,用逗號分割 | 這里是設置漢字拼音詞頻之間的分隔符,用|分割 b 這里是設置拼音分隔符的位置,有lrbn四個選項,l表示左包含,r表示右包含,b表示兩邊都包含,n表示兩邊都不包含 yyn 這里是設置拼音漢字詞頻這3個是否顯示,y表示顯示,b表示不顯示,這里yyn表示顯示拼音和漢字,不顯示詞頻 例如要將一個qpyd詞庫轉換為自定義格式的文本詞庫,拼音之間逗號分割,拼音和詞之間空格分割,不顯示詞頻,同時使用自定義的編碼文件code.txt命令如下: dotnet ImeWlConverterCmd.dll -i:qpyd ./a.qpyd -o:self ./zy.txt "-f:213, nyyn" -c:./code.txt 其中-c:./code.txt指定的編碼文件格式為:“漢字<Tab鍵>編碼”每行一個。最后,如果這款軟件幫助到了您,您可以通過捐贈表示感謝,捐贈作者支付寶地址:studyzy@163.com 曾毅 輸入 -? 可獲取幫助舉例:
1、搜狗 => Rime
下載搜狗詞庫https://pinyin.sogou.com/dict/
dotnet /usr/share/imewlconverter/ImeWlConverterCmd.dll \-i:scel ~/Downloads/sogou-dict/計算機詞匯大全【官方推薦】.scel \-os:linux \-o:rime \~/Downloads/sogou-dict/rime/計算機詞匯大全【官方推薦】.txt改個后綴名
mv 計算機詞匯大全【官方推薦】.txt sogou_ComputerGlossary.dict.yaml然后將以下代碼加到文件開頭詞庫就做好了
# Rime dictionary # encoding: utf-8--- name: sogou_ComputerGlossary version: "2021.06.12" sort: by_weight use_preset_vocabulary: true ...其他方案大同小異,不再展示,列舉幾個常見的詞庫
清華大學開放中文詞庫:http://thuocl.thunlp.org/
搜狗細胞詞庫:https://pinyin.sogou.com/dict/
百度輸入法詞庫:https://shurufa.baidu.com/dict
Lingoes 2 詞典庫:http://www.lingoes.cn/zh/dictionary/index.html
維基媒體:https://dumps.wikimedia.org/
總結
以上是生活随笔為你收集整理的imewlconverter 制作Rime词库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: processon画图软件
- 下一篇: Nxlog研究