中文分词资源
在學習nlp自然語言處理的過程中,免不了要使用中文分詞資源作為分詞依據或前期調研。所以想研究中文分詞,第一步需要解決的就是資源問題。
? ? ? 作為中文信息處理的壁壘,中文分詞在國內的關注度似乎遠遠超過了自然語言處理的其他研究領域。在中文分詞中,資源的重要性又不言而喻,最大匹配法(正向、逆向)等需要一個好的詞表,而基于字標注的中文分詞方法又需要人工加工好的分詞語料庫,這里大概總結出入門級別的資源文件出處。
在學習過程中“LDC上免費的中文信息處理資源”,其中包括一個有頻率統計的詞表,共計4.5W+條,就可以作為一個不錯的中文分詞詞表使用。而一個好的人工分詞語料庫,需要很大的人力物力投入,所以無論研究還是商用往往需要一定的費用購買,好在SIGHAN Bakeoff為我們提供了一個非商業使用(non-commercial)的免費獲取途徑,以下將介紹SIGHAN Bakeoff及相關的中文分詞入門資源。
SIGHAN是國際計算語言學會(ACL)中文語言處理小組的簡稱,其英文全稱為“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解為“SIG漢“或“SIG漢“。而Bakeoff則是SIGHAN所主辦的國際中文語言處理競賽,第一屆于2003年在日本札幌舉行(Bakeoff 2003),第二屆于2005年在韓國濟州島舉行(Bakeoff 2005), 而2006年在悉尼舉行的第三屆(Bakeoff 2006)則在前兩屆的基礎上加入了中文命名實體識別評測。目前SIGHAN Bakeoff已成功舉辦了6屆,其中Bakeoff 2005的數據和結果在其主頁上是完全免費和公開的,但是請注意使用的前提是非商業使用(non-commercial):
在Bakeoff 2005的主頁上,我們可以找到如下一行:“The complete training, testing, and gold-standard data sets, as well as the scoring script, are available for research use”,在這一行下面提供了三個版本的icwb2-data。下載解壓后,通過README就可以很清楚的了解到它包含哪些中文分詞資源,特別需要說明的是這些中文分詞語料庫分別由臺灣中央研究院(Academia Sinica)、香港城市大學(City University of Hong Kong)、北京大學(Peking University)及微軟亞洲研究院(Microsoft Research)提供,其中前二者是繁體中文,后二者是簡體中文,以下按照README簡要介紹icwb2-data:
1) 介紹(Introduction):
本目錄包含了訓練集、測試集及測試集的(黃金)標準切分,同時也包括了一個用于評分的腳本和一個可以作為基線測試的簡單中文分詞器。(This dirzectory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitted by the bakeoff participants and the simple segmenter used to generate the baseline and topline data.)
2) 文件列表(File List)
在gold目錄里包含了測試集標準切分及從訓練集中抽取的詞表(Contains the gold standard segmentation of the test data along with the training data word lists.)
在scripts目錄里包含了評分腳本和簡單中文分詞器(Contains the scoring script and simple segmenter.)
在testing目錄里包含了未切分的測試數據(Contains the unsegmented test data.)
在training目錄里包含了已經切分好的標準訓練數據(Contains the segmented training data.)
在doc目錄里包括了bakeoff的一些指南(Contains the instructions used in the bakeoff.)
3) 編碼(Encoding Issues)
文件包括擴展名”.utf8”則其編碼為UTF-8(Files with the extension “.utf8” are encoded in UTF-8 Unicode.)
文件包括擴展名”.txt”則其編碼分別為(Files with the extension “.txt” are encoded as follows):
前綴為as_,代表的是臺灣中央研究院提供,編碼為Big Five (CP950);
前綴為hk_,代表的是香港城市大學提供,編碼為Big Five/HKSCS;
前綴為msr_,代表的是微軟亞洲研究院提供,編碼為 EUC-CN (CP936);
前綴為pku_,代表的北京大學提供,編碼為EUC-CN (CP936);
EUC-CN即是GB2312(EUC-CN is often called “GB” or “GB2312” encoding, though technically GB2312 is a character set, not a character encoding.)
4) 評分(Scoring)
評分腳本“score”是用來比較兩個分詞文件的,需要三個參數(The script ‘score’ is used to generate compare two segmentations. The script takes three arguments):
1. 訓練集詞表(The training set word list)
2. “黃金”標準分詞文件(The gold standard segmentation)
3. 測試集的切分文件(The segmented test file)
以下利用其自帶的中文分詞工具進行說明。在scripts目錄里包含一個基于最大匹配法的中文分詞器mwseg.pl,以北京大學提供的人民日報語料庫為例,用法如下:
./mwseg.pl ../gold/pku_training_words.txt < ../testing/pku_test.txt > pku_test_seg.txt
其中第一個參數需提供一個詞表文件pku_training_word.txt,輸入為pku_test.txt,輸出為pku_test_seg.txt。
利用score評分的命令如下:
./score ../gold/pku_training_words.txt ../gold/pku_test_gold.txt pku_test_seg.txt > score.txt
其中前三個參數已介紹,而score.txt則包含了詳細的評分結果,不僅有總的評分結果,還包括每一句的對比結果。這里只看最后的總評結果:
…
= SUMMARY:
=== TOTAL INSERTIONS: 9274
=== TOTAL DELETIONS: 1365
=== TOTAL SUBSTITUTIONS: 8377
=== TOTAL NCHANGE: 19016
=== TOTAL TRUE WORD COUNT: 104372
=== TOTAL TEST WORD COUNT: 112281
=== TOTAL TRUE WORDS RECALL: 0.907
=== TOTAL TEST WORDS PRECISION: 0.843
=== F MEASURE: 0.874
=== OOV Rate: 0.058
=== OOV Recall Rate: 0.069
=== IV Recall Rate: 0.958
### pku_test_seg.txt 9274 1365 8377 19016 104372 112281 0.907 0.843 0.874 0.058 0.069 0.958
說明這個中文分詞器在北大提供的語料庫上的測試結果是:召回率為90.7%,準確率為84.3%,F值為87.4%等。
SIGHAN Bakeoff公開資源的一個重要意義在于這里提供了一個完全公平的平臺,任何人都可以拿自己研究的中文分詞工具進行測評,并且可以和其公布的比賽結果對比,是驢子是馬也就一目了然了。
?
原文出處:www.52nlp.cn
轉載于:https://www.cnblogs.com/AngelaSunny/p/5836952.html
總結
- 上一篇: Hibernate 之单向多对一映射及其
- 下一篇: 1049. 数列的片段和