pyhanlp 词性标注(正篇)
生活随笔
收集整理的這篇文章主要介紹了
pyhanlp 词性标注(正篇)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
詞性標(biāo)注
在HanLP的readme中有這樣的一段話
- 詞性標(biāo)注
- HMM詞性標(biāo)注(速度快)
- 感知機(jī)詞性標(biāo)注、CRF詞性標(biāo)注(精度高)
在之前的分詞部分,我們已經(jīng)發(fā)現(xiàn)了,在分詞器中,默認(rèn)是開啟詞性標(biāo)注的,甚至想要獲得沒有詞性標(biāo)注的list還需要使用, HanLP.Config.ShowTermNature = False語句或者想辦法從term_list中獲取term.word。
但是在HanLP中正式的詞性標(biāo)注,確實(shí)需要詞法分析器來完成的,這里一共有三個(gè)詞法分析器。HMM詞法分析器,感知器詞性標(biāo)注,CRF詞性標(biāo)注。因?yàn)閮?nèi)部修改的問題哦,現(xiàn)在CRF分詞器現(xiàn)在默認(rèn)是使用CRF詞法分析器來完成的。當(dāng)然如果僅僅是想要獲取詞性,直接使用分詞器獲取也是可以的。
代碼實(shí)現(xiàn)
本篇內(nèi)容較少,接下來的內(nèi)容主要介紹詞法分析器的使用。使用方法非常簡單,使用JClass直接調(diào)用即可,之前我們已經(jīng)解除了這種方式,此處不再做過多介紹。唯一要注意的應(yīng)該是,訓(xùn)練語料已經(jīng)更新,現(xiàn)在默認(rèn)模型的訓(xùn)練效果確實(shí)要比之前好一些。
from pyhanlp import * tests = ["商品和服務(wù)", "上海華安工業(yè)(集團(tuán))公司董事長譚旭光和秘書胡花蕊來到美國紐約現(xiàn)代藝術(shù)博物館參觀", "微軟公司於1975年由比爾·蓋茲和保羅·艾倫創(chuàng)立,18年啟動以智慧雲(yún)端、前端為導(dǎo)向的大改組。"]# CRF 詞法分析器 CRFLexicalAnalyzer = JClass("com.hankcs.hanlp.model.crf.CRFLexicalAnalyzer") analyzer = CRFLexicalAnalyzer() for sentence in tests:print(analyzer.analyze(sentence)) 商品/n 和/c 服務(wù)/vn [上海/ns 華安/nz 工業(yè)/n (/w 集團(tuán)/n )/w 公司/n]/nt 董事長/n 譚旭光/nr 和/c 秘書/n 胡花蕊/nr 來到/v [美國/ns 紐約/ns 現(xiàn)代/t 藝術(shù)/n 博物館/n]/ns 參觀/v [微軟/nt 公司/n]/nt 於/p 1975年/t 由/p 比爾·蓋茲/n 和/c 保羅·艾倫/v 創(chuàng)立/v ,/w 18年/t 啟動/v 以/p 智慧/n 雲(yún)端/n 、/w 前端/n 為/v 導(dǎo)向/n 的/u 大/a 改組/vn 。/w """ 基于感知機(jī)序列標(biāo)注的詞法分析器,默認(rèn)模型訓(xùn)練自1998人民日報(bào)語料1月份。歡迎在更大的語料庫上訓(xùn)練,以得到更好的效果。 無論在何種語料上訓(xùn)練,都完全支持簡繁全半角和大小寫。( 現(xiàn)在已經(jīng)改了 ) """ PerceptronLexicalAnalyzer = JClass("com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer") analyzer = PerceptronLexicalAnalyzer()print(analyzer.analyze("上海華安工業(yè)(集團(tuán))公司董事長譚旭光和秘書胡花蕊來到美國紐約現(xiàn)代藝術(shù)博物館參觀")) print(analyzer.analyze("微軟公司於1975年由比爾·蓋茲和保羅·艾倫創(chuàng)立,18年啟動以智慧雲(yún)端、前端為導(dǎo)向的大改組。"))# 任何模型總會有失誤,特別是98年這種陳舊的語料庫 print(analyzer.analyze("總統(tǒng)普京與特朗普通電話討論太空探索技術(shù)公司")) # 支持在線學(xué)習(xí) analyzer.learn("與/c 特朗普/nr 通/v 電話/n 討論/v [太空/s 探索/vn 技術(shù)/n 公司/n]/nt") # 學(xué)習(xí)到新知識 print(analyzer.analyze("總統(tǒng)普京與特朗普通電話討論太空探索技術(shù)公司")) # 還可以舉一反三 print(analyzer.analyze("主席和特朗普通電話"))# 知識的泛化不是死板的規(guī)則,而是比較靈活的統(tǒng)計(jì)信息 print(analyzer.analyze("我在浙江金華出生")) analyzer.learn("在/p 浙江/ns 金華/ns 出生/v") print(analyzer.analyze("我在四川金華出生,我的名字叫金華"))# 請用戶按需執(zhí)行對空格制表符等的預(yù)處理,只有你最清楚自己的文本中都有些什么奇怪的東西 print(analyzer.analyze("空格 \t\n\r\f 統(tǒng)統(tǒng)都不要".replace("\\s+", "") # 去除所有空白符.replace(" ", "") # 如果一些文本中含有html控制符 )) [上海/ns 華安/nz 工業(yè)/n (/w 集團(tuán)/n )/w 公司/n]/nt 董事長/n 譚旭光/nr 和/c 秘書/n 胡花蕊/nr 來到/v [美國/ns 紐約/ns 現(xiàn)代/t 藝術(shù)/n 博物館/n]/ns 參觀/v [微軟/nt 公司/n]/nt 於/p 1975年/t 由/p 比爾·蓋茲/n 和/c 保羅·艾倫/nr 創(chuàng)立/v ,/w 18年/t 啟動/v 以/p 智慧/n 雲(yún)端/n 、/w 前端/f 為/v 導(dǎo)向/n 的/u 大/a 改組/vn 。/w 總統(tǒng)/n 普京/nr 與/c 特朗普/nr 通/vn 電話/n 討論/v 太空/s 探索/vn 技術(shù)/n 公司/n 總統(tǒng)/n 普京/nr 與/c 特朗普/nr 通/v 電話/n 討論/v [太空/s 探索/vn 技術(shù)/n 公司/n]/nt 主席/n 和/c 特朗/b 普通/a 電話/n 我/r 在/p 浙江/ns 金華/nr 出生/v 我/r 在/p 四川/ns 金華/ns 出生/v ,/w 我/r 的/u 名字/n 叫/v 金華/nr 空格 統(tǒng)統(tǒng)/n 都/d 不要/d ## HMM 詞法分析器 HMMLexicalAnalyzer = JClass("com.hankcs.hanlp.model.hmm.HMMLexicalAnalyzer") analyzer = PerceptronLexicalAnalyzer()print(analyzer.analyze("上海華安工業(yè)(集團(tuán))公司董事長譚旭光和秘書胡花蕊來到美國紐約現(xiàn)代藝術(shù)博物館參觀")) print(analyzer.analyze("微軟公司於1975年由比爾·蓋茲和保羅·艾倫創(chuàng)立,18年啟動以智慧雲(yún)端、前端為導(dǎo)向的大改組。")) [上海/ns 華安/nz 工業(yè)/n (/w 集團(tuán)/n )/w 公司/n]/nt 董事長/n 譚旭光/nr 和/c 秘書/n 胡花蕊/nr 來到/v [美國/ns 紐約/ns 現(xiàn)代/t 藝術(shù)/n 博物館/n]/ns 參觀/v [微軟/nt 公司/n]/nt 於/p 1975年/t 由/p 比爾·蓋茲/n 和/c 保羅·艾倫/nr 創(chuàng)立/v ,/w 18年/t 啟動/v 以/p 智慧/n 雲(yún)端/n 、/w 前端/f 為/v 導(dǎo)向/n 的/u 大/a 改組/vn 。/w 《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的pyhanlp 词性标注(正篇)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pyhanlp 共性分析与短语提取
- 下一篇: pyhanlp 两种依存句法分类器