ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存
ChineseSemanticKB
ChineseSemanticKB,chinese semantic knowledge base, 面向中文處理的12類、百萬規(guī)模的語義常用詞典,包括34萬抽象語義庫、34萬反義語義庫、43萬同義語義庫等,可支持句子擴(kuò)展、轉(zhuǎn)寫、事件抽象與泛化等多種應(yīng)用場景。
項目地址
https://github.com/liuhuanyong/ChineseSemanticKB
項目介紹
語義知識庫是自然語言處理中十分重要的一個基礎(chǔ)資源,與學(xué)術(shù)界追求算法模型不同,工業(yè)界的自然語言處理對于底層的詞匯知識庫、語義知識庫等多種資源依賴度很高,具體體現(xiàn)在:
1、具有落地場景的自然語言處理任務(wù)都是業(yè)務(wù)高度相關(guān),一個業(yè)務(wù)需求剛進(jìn)去,需要解決的是業(yè)務(wù)的詞匯問題,無基礎(chǔ)詞庫,無項目冷啟動;
2、規(guī)則和正則啟動下的工業(yè)級應(yīng)用,規(guī)則的擴(kuò)展、泛化都需要底層的詞匯網(wǎng)絡(luò)做支撐;
3、目前包括搜索、問答、輿情監(jiān)控、事件分析等應(yīng)用,與標(biāo)簽體系的運作關(guān)系密切,而這與先驗的底層詞匯庫依賴性很強;
4、自然語言場景越來越關(guān)注推理層面,即所謂的“認(rèn)知”層面,認(rèn)知背后的各種邏輯關(guān)系庫,是驅(qū)動這一決策的根本途徑;
5、當(dāng)前,面向中文開源詞庫的工作存在少量、分散的狀態(tài),無論從規(guī)模,還是質(zhì)量,都需要進(jìn)一步聚合;
因此,我從過往的開源工作中進(jìn)一步抽離和整理,形成了中文處理的12類、百萬規(guī)模的語義常用詞典,包括34萬抽象語義庫、34萬反義語義庫、43萬同義語義庫等,用于相關(guān)下游任務(wù)。
項目放于dict當(dāng)中,可直接下載,不建議二次建庫共享,尊重開源。
詞庫的類別
| 抽象關(guān)系庫 | 346,048 | 座椅,抽象,家具 | 事件抽象與泛化,人民幣貶值到貨幣貶值,再到美元貶值,可支持查詢擴(kuò)展、推薦等任務(wù) |
| 反義關(guān)系庫 | 34,380 | 開心@苦惱 | 可用于句子改寫,開心改苦惱,支持?jǐn)?shù)據(jù)增強,句子生成 |
| 同義關(guān)系庫 | 424,826 | 開心@高興 | 可用于查詢擴(kuò)展、數(shù)據(jù)增強,也可結(jié)合抽象關(guān)系庫完成推薦等任務(wù) |
| 簡稱關(guān)系庫 | 136,081 | 北京大學(xué)@北大 | 可用于句子標(biāo)準(zhǔn)化、句子改寫、實體消歧等任務(wù) |
| 程度副詞 | 222 | 極其,2.0 | 可用于情感強度計算,帶情感色彩的句子生成 |
| 否定詞 | 586 | 不,無,沒有 | 可用于情感計算等任務(wù) |
| 節(jié)日時間詞 | 54 | 春節(jié)、五四節(jié) | 可用于時間詞識別等任務(wù) |
| 量比詞 | 7 | 占比、環(huán)比、同比 | 可用于金融領(lǐng)域指標(biāo)類數(shù)據(jù)提取任務(wù) |
| 數(shù)量介詞 | 24 | 大約、達(dá)到、超過 | 可用于金融事件抽象或主干化的搭配詞處理任務(wù) |
| 停用詞 | 3,861 | ?、的、著 | 常規(guī)的文本特征提取等任務(wù) |
| 修飾副詞 | 222 | 所、有所 | 可結(jié)合程度副詞完成情感強度計算等任務(wù) |
| 情態(tài)詞 | 77 | 肯定、應(yīng)該、大概 | 可用于句子主觀性計算、輿情與可信度計算 |
總結(jié)
1、本項目開源了一個目前可用于事件處理以及工業(yè)輿情的12類語義詞庫,總規(guī)模數(shù)目一百余萬; https://github.com/liuhuanyong/ChineseSemanticKB
2、本項目開源的34萬抽象語義庫、34萬反義語義庫、43萬同義語義庫,在作者的實際工作中【事件處理、事理抽取、事件推理】等有重要用途;
3、中文常用語義常用詞典,均來源于公開文本+人工整理+機器抽取形成,其中若有質(zhì)量不高之處,可積極批評指正;
4、中文開源事業(yè)還是要堅持做下去,盡可能地縮短自然語言處理學(xué)術(shù)界和工業(yè)界之間的鴻溝。
If any question about the project or me ,see https://liuhuanyong.github.io/.
如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設(shè)等問題或合作,可聯(lián)系我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn技術(shù)博客:https://blog.csdn.net/lhy2014
3、我的聯(lián)系方式: 劉煥勇,中國科學(xué)院軟件研究所,lhy_in_blcu@126.com.
4、我的共享知識庫項目:劉煥勇,數(shù)據(jù)地平線,http://www.openkg.cn/organization/datahorizon.
5、我的工業(yè)項目:劉煥勇,數(shù)據(jù)地平線,大規(guī)模實時事理學(xué)習(xí)系統(tǒng):https://xueji.datahorizon.cn.
6、我的工業(yè)項目:劉煥勇,數(shù)據(jù)地平線,面向事件和語義的自然語言處理工具箱:https://nlp.datahorizon.cn
總結(jié)
以上是生活随笔為你收集整理的ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Redis持久化(RDB 和 AOF)
- 下一篇: (设计模式)简单工厂模式之通过配置文件动