中文分词资源
在學(xué)習(xí)nlp自然語(yǔ)言處理的過(guò)程中,免不了要使用中文分詞資源作為分詞依據(jù)或前期調(diào)研。所以想研究中文分詞,第一步需要解決的就是資源問(wèn)題。
? ? ? 作為中文信息處理的壁壘,中文分詞在國(guó)內(nèi)的關(guān)注度似乎遠(yuǎn)遠(yuǎn)超過(guò)了自然語(yǔ)言處理的其他研究領(lǐng)域。在中文分詞中,資源的重要性又不言而喻,最大匹配法(正向、逆向)等需要一個(gè)好的詞表,而基于字標(biāo)注的中文分詞方法又需要人工加工好的分詞語(yǔ)料庫(kù),這里大概總結(jié)出入門級(jí)別的資源文件出處。
在學(xué)習(xí)過(guò)程中“LDC上免費(fèi)的中文信息處理資源”,其中包括一個(gè)有頻率統(tǒng)計(jì)的詞表,共計(jì)4.5W+條,就可以作為一個(gè)不錯(cuò)的中文分詞詞表使用。而一個(gè)好的人工分詞語(yǔ)料庫(kù),需要很大的人力物力投入,所以無(wú)論研究還是商用往往需要一定的費(fèi)用購(gòu)買,好在SIGHAN Bakeoff為我們提供了一個(gè)非商業(yè)使用(non-commercial)的免費(fèi)獲取途徑,以下將介紹SIGHAN Bakeoff及相關(guān)的中文分詞入門資源。
SIGHAN是國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)(ACL)中文語(yǔ)言處理小組的簡(jiǎn)稱,其英文全稱為“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解為“SIG漢“或“SIG漢“。而Bakeoff則是SIGHAN所主辦的國(guó)際中文語(yǔ)言處理競(jìng)賽,第一屆于2003年在日本札幌舉行(Bakeoff 2003),第二屆于2005年在韓國(guó)濟(jì)州島舉行(Bakeoff 2005), 而2006年在悉尼舉行的第三屆(Bakeoff 2006)則在前兩屆的基礎(chǔ)上加入了中文命名實(shí)體識(shí)別評(píng)測(cè)。目前SIGHAN Bakeoff已成功舉辦了6屆,其中Bakeoff 2005的數(shù)據(jù)和結(jié)果在其主頁(yè)上是完全免費(fèi)和公開的,但是請(qǐng)注意使用的前提是非商業(yè)使用(non-commercial):
在Bakeoff 2005的主頁(yè)上,我們可以找到如下一行:“The complete training, testing, and gold-standard data sets, as well as the scoring script, are available for research use”,在這一行下面提供了三個(gè)版本的icwb2-data。下載解壓后,通過(guò)README就可以很清楚的了解到它包含哪些中文分詞資源,特別需要說(shuō)明的是這些中文分詞語(yǔ)料庫(kù)分別由臺(tái)灣中央研究院(Academia Sinica)、香港城市大學(xué)(City University of Hong Kong)、北京大學(xué)(Peking University)及微軟亞洲研究院(Microsoft Research)提供,其中前二者是繁體中文,后二者是簡(jiǎn)體中文,以下按照README簡(jiǎn)要介紹icwb2-data:
1) 介紹(Introduction):
本目錄包含了訓(xùn)練集、測(cè)試集及測(cè)試集的(黃金)標(biāo)準(zhǔn)切分,同時(shí)也包括了一個(gè)用于評(píng)分的腳本和一個(gè)可以作為基線測(cè)試的簡(jiǎn)單中文分詞器。(This dirzectory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitted by the bakeoff participants and the simple segmenter used to generate the baseline and topline data.)
2) 文件列表(File List)
在gold目錄里包含了測(cè)試集標(biāo)準(zhǔn)切分及從訓(xùn)練集中抽取的詞表(Contains the gold standard segmentation of the test data along with the training data word lists.)
在scripts目錄里包含了評(píng)分腳本和簡(jiǎn)單中文分詞器(Contains the scoring script and simple segmenter.)
在testing目錄里包含了未切分的測(cè)試數(shù)據(jù)(Contains the unsegmented test data.)
在training目錄里包含了已經(jīng)切分好的標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)(Contains the segmented training data.)
在doc目錄里包括了bakeoff的一些指南(Contains the instructions used in the bakeoff.)
3) 編碼(Encoding Issues)
文件包括擴(kuò)展名”.utf8”則其編碼為UTF-8(Files with the extension “.utf8” are encoded in UTF-8 Unicode.)
文件包括擴(kuò)展名”.txt”則其編碼分別為(Files with the extension “.txt” are encoded as follows):
前綴為as_,代表的是臺(tái)灣中央研究院提供,編碼為Big Five (CP950);
前綴為hk_,代表的是香港城市大學(xué)提供,編碼為Big Five/HKSCS;
前綴為msr_,代表的是微軟亞洲研究院提供,編碼為 EUC-CN (CP936);
前綴為pku_,代表的北京大學(xué)提供,編碼為EUC-CN (CP936);
EUC-CN即是GB2312(EUC-CN is often called “GB” or “GB2312” encoding, though technically GB2312 is a character set, not a character encoding.)
4) 評(píng)分(Scoring)
評(píng)分腳本“score”是用來(lái)比較兩個(gè)分詞文件的,需要三個(gè)參數(shù)(The script ‘score’ is used to generate compare two segmentations. The script takes three arguments):
1. 訓(xùn)練集詞表(The training set word list)
2. “黃金”標(biāo)準(zhǔn)分詞文件(The gold standard segmentation)
3. 測(cè)試集的切分文件(The segmented test file)
以下利用其自帶的中文分詞工具進(jìn)行說(shuō)明。在scripts目錄里包含一個(gè)基于最大匹配法的中文分詞器mwseg.pl,以北京大學(xué)提供的人民日?qǐng)?bào)語(yǔ)料庫(kù)為例,用法如下:
./mwseg.pl ../gold/pku_training_words.txt < ../testing/pku_test.txt > pku_test_seg.txt
其中第一個(gè)參數(shù)需提供一個(gè)詞表文件pku_training_word.txt,輸入為pku_test.txt,輸出為pku_test_seg.txt。
利用score評(píng)分的命令如下:
./score ../gold/pku_training_words.txt ../gold/pku_test_gold.txt pku_test_seg.txt > score.txt
其中前三個(gè)參數(shù)已介紹,而score.txt則包含了詳細(xì)的評(píng)分結(jié)果,不僅有總的評(píng)分結(jié)果,還包括每一句的對(duì)比結(jié)果。這里只看最后的總評(píng)結(jié)果:
…
= SUMMARY:
=== TOTAL INSERTIONS: 9274
=== TOTAL DELETIONS: 1365
=== TOTAL SUBSTITUTIONS: 8377
=== TOTAL NCHANGE: 19016
=== TOTAL TRUE WORD COUNT: 104372
=== TOTAL TEST WORD COUNT: 112281
=== TOTAL TRUE WORDS RECALL: 0.907
=== TOTAL TEST WORDS PRECISION: 0.843
=== F MEASURE: 0.874
=== OOV Rate: 0.058
=== OOV Recall Rate: 0.069
=== IV Recall Rate: 0.958
### pku_test_seg.txt 9274 1365 8377 19016 104372 112281 0.907 0.843 0.874 0.058 0.069 0.958
說(shuō)明這個(gè)中文分詞器在北大提供的語(yǔ)料庫(kù)上的測(cè)試結(jié)果是:召回率為90.7%,準(zhǔn)確率為84.3%,F值為87.4%等。
SIGHAN Bakeoff公開資源的一個(gè)重要意義在于這里提供了一個(gè)完全公平的平臺(tái),任何人都可以拿自己研究的中文分詞工具進(jìn)行測(cè)評(píng),并且可以和其公布的比賽結(jié)果對(duì)比,是驢子是馬也就一目了然了。
?
原文出處:www.52nlp.cn
轉(zhuǎn)載于:https://www.cnblogs.com/AngelaSunny/p/5836952.html
總結(jié)
- 上一篇: Hibernate 之单向多对一映射及其
- 下一篇: 1049. 数列的片段和