日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

spacy库的安装与使用_为 SpaCy 提供的中文数据模型

發(fā)布時(shí)間:2023/12/10 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 spacy库的安装与使用_为 SpaCy 提供的中文数据模型 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

SpaCy 中文模型

為 SpaCy 提供的中文數(shù)據(jù)模型. 模型目前還處于 beta 公開(kāi)測(cè)試的狀態(tài) 。

在線演示

基于 Jupyter notebook 的在線演示在 。

特性

部分 王小明在北京的清華大學(xué)讀書(shū) 這個(gè) Doc 對(duì)象的屬性信息:

NER (New!)

部分 王小明在北京的清華大學(xué)讀書(shū) 這個(gè) Doc 對(duì)象的 NER 信息:

開(kāi)始使用

模型用二進(jìn)制文件的形式進(jìn)行分發(fā), 用戶應(yīng)該具備基礎(chǔ)的 SpaCy (version > 2) 的基礎(chǔ)知識(shí).

系統(tǒng)要求

Python 3 (也許支持 python2, 但未經(jīng)過(guò)良好測(cè)試)

安裝

下載模型

從 releases 頁(yè)面下載模型 (New! 為中國(guó)地區(qū)的用戶提供了加速下載的鏈接)。假設(shè)所下載的模型名為 zh_core_web_sm-2.x.x.tar.gz。

安裝模型

pip install zh_core_web_sm-2.x.x.tar.gz

為了方便后續(xù)在 Rasa NLU 等框架中使用,需要再為這個(gè)模型建立一個(gè)鏈接,by 執(zhí)行以下命令:

spacy link zh_core_web_sm zh

運(yùn)行完成后就可以使用 zh 這個(gè)別名來(lái)訪問(wèn)這個(gè)模型了。

運(yùn)行 Demo 代碼

Demo 代碼位于 test.py. 在安裝好模型后,用戶下載或者克隆本倉(cāng)庫(kù)的代碼,然后可以直接執(zhí)行

python3 ./test.py

打開(kāi)地址 http://127.0.0.1:5000, 將看到如下:

如何從零構(gòu)造這個(gè)模型

語(yǔ)料庫(kù)

本項(xiàng)目使用的語(yǔ)料庫(kù)是 OntoNotes 5.0。

由于 OntoNotes 5.0 是 LDC (Linguistic Data Consortium) 的版權(quán)材料,無(wú)法直接包含在本項(xiàng)目中。好消息是,OntoNotes 5.0 對(duì)于 團(tuán)體用戶(包含企業(yè)和學(xué)術(shù)組織)是完全免費(fèi)的。用戶可以建立一個(gè)企業(yè)或者學(xué)術(shù)組織賬號(hào),然后免費(fèi)獲取 OntoNotes 5.0。

TODO list

屬性 pos_ 不正確. 這個(gè)和 SpaCy 中中文語(yǔ)言 Class 相關(guān)。

屬性 shape_ and is_alpha 似乎對(duì)中文并無(wú)意義, 但需要權(quán)威信息確認(rèn)一下.

屬性 is_stop 不正確. 這個(gè)和 SpaCy 中中文語(yǔ)言 Class 相關(guān)。

屬性 vector 似乎沒(méi)有訓(xùn)練的很好。

屬性 is_oov 完全錯(cuò)誤. 第一優(yōu)先級(jí)修復(fù)。

NER 模型,因?yàn)槿鄙?LDC 語(yǔ)料庫(kù),目前不可用. 正在解決中正在訓(xùn)練中。

將訓(xùn)練中所用的中間結(jié)果 release 出來(lái), 方便用戶自行定制模型

使用的組件

TODO

如何貢獻(xiàn)

請(qǐng)閱讀 CONTRIBUTING.md , 然后提交 pull requests 給我們.

版本化控制

我們使用 SemVer 做版本化的標(biāo)準(zhǔn). 查看 tags 以了解所有的版本.

作者

Xiaoquan Kong - Initial work - howl-anderson

更多貢獻(xiàn)者信息,請(qǐng)參考 contributors.

版權(quán)

MIT License - 詳見(jiàn) LICENSE.md

致謝

TODO

總結(jié)

以上是生活随笔為你收集整理的spacy库的安装与使用_为 SpaCy 提供的中文数据模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。