spacy库的安装与使用_为 SpaCy 提供的中文数据模型
SpaCy 中文模型
為 SpaCy 提供的中文數(shù)據(jù)模型. 模型目前還處于 beta 公開(kāi)測(cè)試的狀態(tài) 。
在線演示
基于 Jupyter notebook 的在線演示在 。
特性
部分 王小明在北京的清華大學(xué)讀書(shū) 這個(gè) Doc 對(duì)象的屬性信息:
NER (New!)
部分 王小明在北京的清華大學(xué)讀書(shū) 這個(gè) Doc 對(duì)象的 NER 信息:
開(kāi)始使用
模型用二進(jìn)制文件的形式進(jìn)行分發(fā), 用戶應(yīng)該具備基礎(chǔ)的 SpaCy (version > 2) 的基礎(chǔ)知識(shí).
系統(tǒng)要求
Python 3 (也許支持 python2, 但未經(jīng)過(guò)良好測(cè)試)
安裝
下載模型
從 releases 頁(yè)面下載模型 (New! 為中國(guó)地區(qū)的用戶提供了加速下載的鏈接)。假設(shè)所下載的模型名為 zh_core_web_sm-2.x.x.tar.gz。
安裝模型
pip install zh_core_web_sm-2.x.x.tar.gz
為了方便后續(xù)在 Rasa NLU 等框架中使用,需要再為這個(gè)模型建立一個(gè)鏈接,by 執(zhí)行以下命令:
spacy link zh_core_web_sm zh
運(yùn)行完成后就可以使用 zh 這個(gè)別名來(lái)訪問(wèn)這個(gè)模型了。
運(yùn)行 Demo 代碼
Demo 代碼位于 test.py. 在安裝好模型后,用戶下載或者克隆本倉(cāng)庫(kù)的代碼,然后可以直接執(zhí)行
python3 ./test.py
打開(kāi)地址 http://127.0.0.1:5000, 將看到如下:
如何從零構(gòu)造這個(gè)模型
語(yǔ)料庫(kù)
本項(xiàng)目使用的語(yǔ)料庫(kù)是 OntoNotes 5.0。
由于 OntoNotes 5.0 是 LDC (Linguistic Data Consortium) 的版權(quán)材料,無(wú)法直接包含在本項(xiàng)目中。好消息是,OntoNotes 5.0 對(duì)于 團(tuán)體用戶(包含企業(yè)和學(xué)術(shù)組織)是完全免費(fèi)的。用戶可以建立一個(gè)企業(yè)或者學(xué)術(shù)組織賬號(hào),然后免費(fèi)獲取 OntoNotes 5.0。
TODO list
屬性 pos_ 不正確. 這個(gè)和 SpaCy 中中文語(yǔ)言 Class 相關(guān)。
屬性 shape_ and is_alpha 似乎對(duì)中文并無(wú)意義, 但需要權(quán)威信息確認(rèn)一下.
屬性 is_stop 不正確. 這個(gè)和 SpaCy 中中文語(yǔ)言 Class 相關(guān)。
屬性 vector 似乎沒(méi)有訓(xùn)練的很好。
屬性 is_oov 完全錯(cuò)誤. 第一優(yōu)先級(jí)修復(fù)。
NER 模型,因?yàn)槿鄙?LDC 語(yǔ)料庫(kù),目前不可用. 正在解決中正在訓(xùn)練中。
將訓(xùn)練中所用的中間結(jié)果 release 出來(lái), 方便用戶自行定制模型
使用的組件
TODO
如何貢獻(xiàn)
請(qǐng)閱讀 CONTRIBUTING.md , 然后提交 pull requests 給我們.
版本化控制
我們使用 SemVer 做版本化的標(biāo)準(zhǔn). 查看 tags 以了解所有的版本.
作者
Xiaoquan Kong - Initial work - howl-anderson
更多貢獻(xiàn)者信息,請(qǐng)參考 contributors.
版權(quán)
MIT License - 詳見(jiàn) LICENSE.md
致謝
TODO
總結(jié)
以上是生活随笔為你收集整理的spacy库的安装与使用_为 SpaCy 提供的中文数据模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: linux系统 qq安装教程,在Linu
- 下一篇: struts-config messag