日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

深蓝词库转换2.0发布——支持仓颉、注音、五笔、郑码、二笔等

發布時間:2023/12/10 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深蓝词库转换2.0发布——支持仓颉、注音、五笔、郑码、二笔等 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

經過了2個多月的改進,終于深藍詞庫轉換2.0版正式與大家見面了。在1.9版本中增加了對Rime拼音輸入法的支持,也得到了網友的反饋,所以在2.0版本中增加了幾個新功能:

一、支持多種編碼的Rime輸入法。

Rime輸入法是一款跨平臺的輸入法框架,在Windows下叫小狼毫,Linux下叫中州韻,Mac下叫鼠須管。這個輸入法框架異常強大,支持各種常用的輸入法,而且還可以通過簡單的配置自定義輸入法。深藍詞庫轉換在1.9版本中增加了對Rime拼音輸入法的支持,現在在2.0中進行了增強,除了拼音外,還能夠導入導出五筆、注音、倉頡和其他輸入法編碼。

例如要將一個QQ拼音的分類詞庫轉換成Rime的五筆詞庫,那么在深藍詞庫轉換中選擇qpyd格式的詞庫源,目標輸入法選擇“Rime中州韻”,系統彈出輸入法類型選擇窗口,在下拉框中選擇“五筆”并確定:

然后單擊“轉換按鈕”即可完成詞庫的轉換,將轉換結果保存到硬盤上。

接下來到Rime輸入法中(以小狼毫為例),選擇“用戶詞典管理”選項,打開詞典管理窗口,選中左側的wubi86,然后單擊“導入文本碼表”即可完成詞庫的導入。

用同樣的方法,可以導入注音(與地球拼音使用同一個詞庫,terra_pinyin),倉頡(cangjie5)。當然還有明月拼音(luna_pinyin)。

特別要感謝Rime輸入法的作者佛振的指點,才能完成對倉頡輸入法詞庫的生成,在倉頡輸入法中對一個詞進行編碼相當特別,不像鄭碼、五筆的編碼那么簡單。

二、支持多種編碼的小小輸入法。

小小輸入法也是Rime輸入法一樣是一個通用的輸入法框架,可以支持多個平臺(Windows、Linux等),多個輸入法編碼。之前1.9版已經支持小小輸入法的拼音,在2.0版中進行了增強,能夠支持:五筆、鄭碼、二筆、拼音和其他編碼。

比如要將一個搜狗細胞詞庫轉換為小小輸入法的鄭碼詞庫,那么可以在深藍詞庫轉換中選擇該scel細胞詞庫作為源,目標詞庫選擇“小小輸入法”,系統會彈出一個編碼類型選擇窗口,在下拉列表中選擇“鄭碼”,然后單擊確定按鈕:

單擊“轉換”按鈕即可將詞庫轉換為鄭碼格式,然后保存到硬盤上。

接下來將保存的詞庫文件復制到小小輸入法的安裝目錄mb文件夾下。然后在小小輸入法的屬性設置窗口中,左側選擇“鄭碼”,右側分詞庫中輸入該詞庫的路徑。

單擊“確定”按鈕,回到小小輸入法,在鄭碼模式下,我們輸入鄭碼便能夠匹配我們導入的詞庫,如圖所示:

同樣的方法,可以將五筆、二筆、拼音導入到小小輸入法中。

三、增加了對靈格斯ld2詞典格式的支持和英語詞庫支持。

關于英語詞庫,在很久很久以前就有人提出過該需求,但是由于沒有辦法解析英語詞庫,所以一直擱淺,直到最近終于參考了網友的ld2解析辦法(http://code.google.com/p/dict4cn/),終于在深藍詞庫轉換中實現了對靈格斯ld2詞典格式的解析,能夠以此為源,導出其詞條作為能夠支持英文輸入法的詞庫。這個功能對于需要輸入專業英文的用戶很有用,比如醫學、金融、化工、法律等等都有專業的英文詞典,這些詞在輸入法中很難自動聯想出來,現在只需要下載一本專業的英語詞典,然后通過深藍詞庫轉換導入到能夠支持英語詞庫的輸入法中,便可在該輸入法中快速錄入英文。調查了下英文輸入法的支持,結果如下:

  • 搜狗拼音輸入法雖然在打2次英文詞后會記錄下來,但是在導出的用戶詞庫中沒有英文詞庫。
  • 百度PC輸入法支持英文詞庫的導出,在詞庫最下面,使用“英語單詞Tab詞頻”的格式。
  • 百度手機輸入法支持獨立的英文詞庫導入導出,命名為en2.txt,使用“英語單詞Tab詞頻”的格式。
  • QQ拼音輸入法支持單獨對英文詞庫的導出,使用“英文單詞,詞頻”的格式。
  • 谷歌輸入法不支持英文詞庫導出。

我們以QQ拼音輸入法為例,在靈格斯官方網站下載一個英漢醫學大詞典,然后運行深藍詞庫轉換,將詞庫源選擇“靈格斯ld2”,系統將會彈出ld2編碼設置窗口,選擇該詞典的編碼,對于一般英漢詞典,估計是UTF-8格式,如果接下來導出的是亂碼,那么說明編碼格式不對,需要重新選擇,重新導一次,還是不對的話就再換一種編碼。

單擊“確定”按鈕,然后選擇目標詞庫為“QQ拼音英文”。然后點擊“高級設置”的“詞條過濾設置”選項,在設置窗口中去掉“過濾包含英文的詞”,如果想導出詞組的話,那么還要取消“過濾包含空格的詞”,然后單擊確定。

然后單擊“轉換”按鈕即可將靈格斯詞庫轉換為QQ拼音的英文詞庫格式,保存到硬盤上。

然后到QQ拼音輸入法的詞庫設置界面,單擊英文用戶詞庫下的“導入”按鈕,選擇我們轉換而來的詞庫文件,即可將靈格斯詞庫導入到QQ拼音中。

四、增加了簡繁體轉換功能。

這個功能主要是為使用繁體中文輸入法的用戶(臺灣、香港等)而準備的。比如在Rime輸入法中,默認是繁體中文的詞庫,如果導入的詞庫是簡體中文,那么Rime會認為這是2條不同的詞條。所以在導入時需要將簡體轉換為繁體。另外還有就是倉頡、五筆等字型輸入法,繁體和簡體是完全不同的編碼,不能等同。

以Rime為例,要導入一個繁體版的倉頡編碼。那么選中源詞庫和目標詞庫,然后在高級設置的“簡繁體轉換設置”選項中,選擇“轉為繁體”。轉換組件分為系統默認組件和Office組件。

設置后單擊確定按鈕,回到主界面,單擊“轉換”按鈕,即可將源詞庫轉換為繁體中文的倉頡碼。

而如果沒有設置轉換為繁體,系統將會以源詞庫的字生成倉頡碼,可以看到,簡體和繁體倉頡碼是不同的:

雖然深藍詞庫轉換能夠支持簡繁體轉換,但是這不是其強項,而且也只是調用外部接口而已,所以術業有專攻,如果需要更精確的簡繁體轉換,可以使用

TextPro?OpenCC?

這些工具進行專業的轉換。

五、增加了對雅虎奇摩輸入法的支持。

雅虎奇摩輸入法是一款繁體中文輸入中比較常用的輸入法軟件。雅虎開發,現在已經開源。網站:http://tw.media.yahoo.com/keykey/

這款輸入法支持多種輸入編碼,比如:注音、倉頡、簡易等。但是其詞庫管理中,只支持注音詞庫的導入導出。深藍詞庫轉換可以將各種輸入法詞庫轉換為雅虎輸入法的格式,導入到其中。

以搜狗細胞詞庫導入雅虎奇摩輸入法為例,下載一個搜狗細胞詞庫scel文件,在深藍詞庫轉換中選擇該scel文件作為源,目標詞庫設置為雅虎奇摩。單擊轉換按鈕,將詞庫轉換為注音格式的詞庫,并保存到硬盤上。

?

打開雅虎奇摩輸入法的偏好設置窗口,在詞匯選項卡中單擊“導入自訂詞數據庫”按鈕即可將我們的詞庫導入其中。我們也可以單擊“啟動詞匯編輯程式”按鈕,進入詞匯編輯工具,再單擊文件菜單的數據庫導入選項,導入我們保存的詞庫文件。

導入成功后,便可在雅虎奇摩輸入法中輸入我們導入的詞匯。

六、增加了對倉頡平臺輸入法的支持。

倉頡平臺輸入法是一款基于小小輸入法進行開發的輸入法。在倉頡之友可以下載,也提供詳細的幫助。深藍詞庫轉換支持倉頡五的編碼。使用其他詞庫可以轉換為倉頡平臺的詞庫。對于倉頡平臺的詞庫設置方法與小小輸入法非常類似,首先需要將詞庫轉換為倉頡平臺的詞庫保存到硬盤。

接下來將轉換的詞庫文件復制到C:\cjsys\yong\mb,然后在倉頡輸入法的設置窗口中,切換到五倉世紀選項卡,為分詞庫添加我們的分詞庫文件路徑。

添加后即可在倉頡平臺中輸入我們導入的詞匯。

七、增強了對各五筆和鄭碼輸入法的支持。

在之前的版本中,雖然名義上支持五筆輸入法和鄭碼輸入法,但是實際上是只取其中的漢字,直接忽略編碼,所以各種拼音輸入法不支持導出為帶編碼的五筆或鄭碼詞庫。在新版的深藍詞庫轉換中,可以為每個詞生成五筆編碼,鄭碼編碼。

所以在2.0版本中,可以選擇:極點五筆、極點鄭碼、小鴨五筆等作為目標數據庫,將各種源詞庫導入其中。

八、增強自定義規則的功能。

自定義規則功能允許用戶指定外部的編碼文件,指定詞語的編碼生成規則,詞語、編碼、詞頻的排序、分隔符等。

比如我們有一個自定義的編碼表,該表中給出了每個漢字的編碼,一字一碼,Tab分割。然后想對一堆詞語進行編碼,于是操作如下:

在深藍詞庫轉換中選擇源詞庫和其輸入法。在目標詞庫中選擇“自定義”,系統將彈出自定義詞庫編碼窗口,再單擊右上角匹配規則設置按鈕,設置匹配規則如下:

是說我們導出的詞庫文件,編碼不是拼音編碼,不包含詞頻,先顯示編碼,后顯示漢字,之間用空格隔開。對于2字詞,3字詞和4字及以上的詞,編碼規則為各個字取一部分。下面的文本框中給出了預覽效果。

然后回到自定義詞庫編碼窗口,選擇一個編碼文件,這里我們選中行列30輸入法的Mapping表作為編碼文件。單擊測試編碼按鈕可以看到在行列30輸入法下的編碼樣子。

單擊確定回到主窗口,單擊轉換按鈕便可實現將指定的源詞庫轉換為自定義詞庫。

?

九、詞庫列表增加百度拼音PC版

百度拼音PC版本身支持搜狗、谷歌等輸入法的詞庫格式,所以一直沒有將其添加到深藍詞庫轉換的輸入法列表中。這樣會讓用戶覺得是不是不支持百度PC輸入法,所以為了避免用戶誤會,在輸入法詞庫列表中增加了“百度拼音”。

十、重構代碼,增強基本功能與命令行功能。

在源詞庫列表中,去掉了觸寶輸入法的選項,因為觸寶修改了備份文件的格式,而且不支持文本文件詞庫的導入導出,所有現在暫時沒辦法支持觸寶輸入法。期待著觸寶對詞庫導入導出功能的增強。

本來主窗口有2個按鈕,一個負責“轉換”,轉換完成后詢問用戶是否保存轉換結果。另一個“導出”按鈕其實就是將下面文本框的內容保存到硬盤。由于支持的詞庫格式更多,各種格式不一,在文本框中進行編輯再保存就沒有那么必要了。所以取消了這個按鈕。使用一個更大的“轉換”按鈕代替,使得操作更簡單。

從一個只支持拼音詞庫的工具到能夠支持多種輸入編碼,多種格式解析的工具,其內部代碼也必須進行了大量的調整,使得整個工具能夠更易擴展,更強大。由于要支持倉頡、五筆、鄭碼、二筆等等輸入編碼的生成,所有必須在內部維護每個漢字與編碼的Mapping表,所有也就使得該軟件體積變大了不少。

另外,增加的輸入法也需要更多的設置窗口,更強大的自定義功能,使得其內部變得復雜了很多,最近幾天在寫自定義編碼的實現時,感覺腦子都要被攪糊了。所以必須要花更多的時間來維護代碼的結構,不斷重構代碼,保持代碼的清晰易讀。

還有一點在開發上的改變就是將源代碼從GoogleCode遷移到了GitHub。使用Git不是很熟悉,不過堅信這個會比原來SVN更好。

最后再重申一下,“深藍詞庫轉換”是一款完全免費的、開源的軟件(項目網站:http://code.google.com/p/imewlconverter/)。經過了2年堅持不懈的更新,終于發展到了2.0版本,希望能夠幫助更多的朋友,提高大家的打字效率,為生活帶來便利。另外還有一些高級用戶,解析大量的詞庫用于研究(分詞、輸入法等),制作更精確的詞庫等。如果大家覺得該工具給你帶來了便利,希望表示感謝,可以打開捐贈頁面(http://imewlconverter.googlecode.com/svn/wiki/donate.html )進行小額捐贈,也希望大家多提需求和建議,深藍詞庫轉換會繼續更新,變得更好。

【深藍詞庫轉換2.0下載地址】?

http://imewlconverter.googlecode.com/files/imewlconverter_2_0.zip

?

總結

以上是生活随笔為你收集整理的深蓝词库转换2.0发布——支持仓颉、注音、五笔、郑码、二笔等的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。