當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

几乎最全的中文NLP资源库

發布時間：2023/12/10 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了几乎最全的中文NLP资源库小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NLP民工的樂園

The Most Powerful NLP-Weapon Arsenal

NLP民工的樂園: 幾乎最全的中文NLP資源庫

詞庫
工具包
學習資料

在入門到熟悉NLP的過程中，用到了很多github上的包，遂整理了一下，分享在這里。

很多包非常有趣，值得收藏，滿足大家的收集癖！如果覺得有用，請分享并star，謝謝！

長期不定時更新，歡迎watch和fork！

涉及內容包括但不限于：中英文敏感詞、語言檢測、中外手機/電話歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典、詞匯情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峰歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫、否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財經詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數據、百度中文問答數據集、句子相似度匹配算法集合、bert資源、文本生成&摘要相關工具、cocoNLP信息抽取工具、國內電話號碼正則匹配、清華大學XLORE:中英文跨語言百科知識圖譜、清華大學人工智能技術系列報告、自然語言生成、NLU太難了系列、自動對聯數據及機器人、用戶名黑名單列表、罪名法務名詞及分類模型、微信公眾號語料、cs224n深度學習自然語言處理課程、中文手寫漢字識別、中文自然語言處理語料/數據集、變量命名神器、分詞語料庫+代碼、任務型對話英文數據集、ASR 語音數據集 + 基于深度學習的中文語音識別系統、笑聲檢測器、Microsoft多語言數字/單位/如日期時間識別包、中華新華字典數據庫及api(包括常用歇后語、成語、詞語和漢字)、文檔圖譜自動生成、SpaCy 中文模型、Common Voice語音識別數據集新版、神經網絡關系抽取、基于bert的命名實體識別、關鍵詞(Keyphrase)抽取包pke、基于醫療領域知識圖譜的問答系統、基于依存句法與語義角色標注的事件三元組抽取、依存句法分析4萬句高質量標注數據、cnocr：用來做中文OCR的Python3包、中文人物關系知識圖譜項目、中文nlp競賽項目及代碼匯總、中文字符數據、speech-aligner: 從“人聲語音”及其“語言文本”產生音素級別時間對齊標注的工具、AmpliGraph: 知識圖譜表示學習(Python)庫：知識圖譜概念鏈接預測、Scattertext 文本可視化(python)、語言/知識表示工具：BERT & ERNIE、中文對比英文自然語言處理NLP的區別綜述、Synonyms中文近義詞工具包、HarvestText領域自適應文本挖掘工具（新詞發現-情感分析-實體鏈接等）、word2word：(Python)方便易用的多語言詞-詞對集：62種語言/3,564個多語言對、語音識別語料生成工具：從具有音頻/字幕的在線視頻創建自動語音識別(ASR)語料庫、構建醫療實體識別的模型（包含詞典和語料標注）、單文檔非監督的關鍵詞抽取、Kashgari中使用gpt-2語言模型、開源的金融投資數據提取工具、文本自動摘要庫TextTeaser: 僅支持英文、人民日報語料處理工具集、一些關于自然語言的基本模型、基于14W歌曲知識庫的問答嘗試--功能包括歌詞接龍and已知歌詞找歌曲以及歌曲歌手歌詞三角關系的問答、基于Siamese bilstm模型的相似句子判定模型并提供訓練數據集和測試數據集、用Transformer編解碼模型實現的根據Hacker News文章標題自動生成評論、用BERT進行序列標記和文本分類的模板代碼、LitBank：NLP數據集——支持自然語言處理和計算人文學科任務的100部帶標記英文小說語料、百度開源的基準信息抽取系統、虛假新聞數據集、Facebook: LAMA語言模型分析，提供Transformer-XL/BERT/ELMo/GPT預訓練語言模型的統一訪問接口、CommonsenseQA：面向常識的英文QA挑戰、中文知識圖譜資料、數據及工具、各大公司內部里大牛分享的技術文檔 PDF 或者 PPT、自然語言生成SQL語句（英文）、中文NLP數據增強（EDA）工具、英文NLP數據增強工具、基于醫藥知識圖譜的智能問答系統、京東商品知識圖譜、基于mongodb存儲的軍事領域知識圖譜問答項目、基于遠監督的中文關系抽取、語音情感分析、中文ULMFiT-情感分析-文本分類-語料及模型、一個拍照做題程序、世界各國大規模人名庫、一個利用有趣中文語料庫 qingyun 訓練出來的中文聊天機器人、中文聊天機器人seqGAN、省市區鎮行政區劃數據帶拼音標注、教育行業新聞語料庫包含自動文摘功能、開放了對話機器人-知識圖譜-語義理解-自然語言處理工具及數據、中文知識圖譜：基于百度百科中文頁面-抽取三元組信息-構建中文知識圖譜、masr: 中文語音識別-提供預訓練模型-高識別率、Python音頻數據增廣庫、中文全詞覆蓋BERT及兩份閱讀理解數據、ConvLab：開源多域端到端對話系統平臺、中文自然語言處理數據集、基于最新版本rasa搭建的對話系統、基于TensorFlow和BERT的管道式實體及關系抽取、一個小型的證券知識圖譜/知識庫、復盤所有NLP比賽的TOP方案、OpenCLaP：多領域開源中文預訓練語言模型倉庫、UER：基于不同語料+編碼器+目標任務的中文預訓練模型倉庫、中文自然語言處理向量合集、基于金融-司法領域(兼有閑聊性質)的聊天機器人、g2pC：基于上下文的漢語讀音自動標記模塊、Zincbase 知識圖譜構建工具包、詩歌質量評價/細粒度情感詩歌語料庫、快速轉化「中文數字」和「阿拉伯數字」、百度知道問答語料庫、基于知識圖譜的問答系統、jieba_fast 加速版的jieba、正則表達式教程、中文閱讀理解數據集、基于BERT等最新語言模型的抽取式摘要提取、Python利用深度學習進行文本摘要的綜合指南、知識圖譜深度學習相關資料整理、維基大規模平行文本語料、StanfordNLP 0.2.0：純Python版自然語言處理包、NeuralNLP-NeuralClassifier：騰訊開源深度學習文本分類工具、端到端的封閉域對話系統、中文命名實體識別：NeuroNER vs. BertNER、新聞事件線索抽取、2019年百度的三元組抽取比賽：“科學空間隊”源碼、基于依存句法的開放域文本知識三元組抽取和知識庫構建、中文的GPT2訓練代碼、ML-NLP - 機器學習(Machine Learning)NLP面試中常考到的知識點和代碼實現、nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查、XLM：Facebook的跨語言預訓練語言模型、用基于BERT的微調和特征提取方法來進行知識圖譜百度百科人物詞條屬性抽取、中文自然語言處理相關的開放任務-數據集-當前最佳結果、CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動對對聯系統、抽象知識圖譜、MiningZhiDaoQACorpus - 580萬百度知道問答數據挖掘項目、brat rapid annotation tool: 序列標注工具、大規模中文知識圖譜數據：1.4億實體、數據增強在機器翻譯及其他nlp任務中的應用及效果、allennlp閱讀理解:支持多種數據和模型、PDF表格數據提取工具、 Graphbrain：AI開源軟件庫和科研工具，目的是促進自動意義提取和文本理解以及知識的探索和推斷、簡歷自動篩選系統、基于命名實體識別的簡歷自動摘要、中文語言理解測評基準，包括代表性的數據集&基準模型&語料庫&排行榜、樹洞 OCR 文字識別、從包含表格的掃描圖片中識別表格和文字、語聲遷移、Python口語自然語言處理工具集(英文)、 similarity：相似度計算工具包，java編寫、海量中文預訓練ALBERT模型、Transformers 2.0 、基于大規模音頻數據集Audioset的音頻增強、Poplar：網頁版自然語言標注工具、圖片文字去除，可用于漫畫翻譯、186種語言的數字叫法庫、Amazon發布基于知識的人-人開放領域對話數據集、中文文本糾錯模塊代碼、繁簡體轉換、 Python實現的多種文本可讀性評價指標、類似于人名/地名/組織機構名的命名體識別數據集、東南大學《知識圖譜》研究生課程(資料)、. 英文拼寫檢查庫、 wwsearch是企業微信后臺自研的全文檢索引擎、CHAMELEON：深度學習新聞推薦系統元架構、 8篇論文梳理BERT相關模型進展與反思、DocSearch：免費文檔搜索引擎、 LIDA：輕量交互式對話標注工具、aili - the fastest in-memory index in the East 東半球最快并發索引、知識圖譜車音工作項目、自然語言生成資源大全、中日韓分詞庫mecab的Python接口庫、中文文本摘要/關鍵詞提取、漢字字符特征提取器 (featurizer)，提取漢字的特征（發音特征、字形特征）用做深度學習的特征、中文生成任務基準測評、中文縮寫數據集、中文任務基準測評 - 代表性的數據集-基準(預訓練)模型-語料庫-baseline-工具包-排行榜、PySS3：面向可解釋AI的SS3文本分類器機器可視化工具、中文NLP數據集列表、COPE - 格律詩編輯程序、doccano：基于網頁的開源協同多語言文本標注工具、PreNLP：自然語言預處理庫、簡單的簡歷解析器，用來從簡歷中提取關鍵信息、用于中文閑聊的GPT2模型：GPT2-chitchat、基于檢索聊天機器人多輪響應選擇相關資源列表(Leaderboards、Datasets、Papers)、(Colab)抽象文本摘要實現集錦(教程、詞語拼音數據、高效模糊搜索工具、NLP數據增廣資源集、微軟對話機器人框架、 GitHub Typo Corpus：大規模GitHub多語言拼寫錯誤/語法錯誤數據集、TextCluster：短文本聚類預處理模塊 Short text cluster、面向語音識別的中文文本規范化、BLINK：最先進的實體鏈接庫、BertPunc：基于BERT的最先進標點修復模型、Tokenizer：快速、可定制的文本詞條化庫、中文語言理解測評基準，包括代表性的數據集、基準(預訓練)模型、語料庫、排行榜、spaCy 醫學文本挖掘與信息提取、 NLP任務示例項目代碼集、 python拼寫檢查庫、chatbot-list - 行業內關于智能客服、聊天機器人的應用和架構、算法分享和介紹、語音質量評價指標(MOSNet, BSSEval, STOI, PESQ, SRMR)、用138GB語料訓練的法文RoBERTa預訓練語言模型、BERT-NER-Pytorch：三種不同模式的BERT中文NER實驗、無道詞典 - 有道詞典的命令行版本，支持英漢互查和在線查詢、2019年NLP亮點回顧、 Chinese medical dialogue data 中文醫療對話數據集、最好的漢字數字(中文數字)-阿拉伯數字轉換工具、基于百科知識庫的中文詞語多詞義/義項獲取與特定句子詞語語義消歧、awesome-nlp-sentiment-analysis - 情感分析、情緒原因識別、評價對象和評價詞抽取、LineFlow：面向所有深度學習框架的NLP數據高效加載器、中文醫學NLP公開資源整理、MedQuAD：(英文)醫學問答數據集、將自然語言數字串解析轉換為整數和浮點數、Transfer Learning in Natural Language Processing (NLP) 、面向語音識別的中文/英文發音辭典、Tokenizers：注重性能與多功能性的最先進分詞器、CLUENER 細粒度命名實體識別 Fine Grained Named Entity Recognition、基于BERT的中文命名實體識別、中文謠言數據庫、NLP數據集/基準任務大列表、nlp相關的一些論文及代碼, 包括主題模型、詞向量(Word Embedding)、命名實體識別(NER)、文本分類(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)計算等，涉及到各種與nlp相關的算法，基于keras和tensorflow 、Python文本挖掘/NLP實戰示例、 Blackstone：面向非結構化法律文本的spaCy pipeline和NLP模型通過同義詞替換實現文本“變臉” 、中文預訓練 ELECTREA 模型: 基于對抗學習 pretrain Chinese Model 、albert-chinese-ner - 用預訓練語言模型ALBERT做中文NER 、基于GPT2的特定主題文本生成/文本增廣、開源預訓練語言模型合集、多語言句向量包、編碼、標記和實現：一種可控高效的文本生成方法、英文臟話大列表、attnvis：GPT2、BERT等transformer語言模型注意力交互可視化、CoVoST：Facebook發布的多語種語音-文本翻譯語料庫，包括11種語言(法語、德語、荷蘭語、俄語、西班牙語、意大利語、土耳其語、波斯語、瑞典語、蒙古語和中文)的語音、文字轉錄及英文譯文、Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎，提供知識圖譜關系抽取中文分詞詞性標注命名實體識別情感分析新詞發現關鍵詞文本摘要文本聚類等功能、用unet實現對文檔表格的自動檢測，表格重建、NLP事件提取文獻資源列表、金融領域自然語言處理研究資源大列表、CLUEDatasetSearch - 中英文NLP數據集：搜索所有中文NLP數據集，附常用英文NLP數據集、medical_NER - 中文醫學知識圖譜命名實體識別、(哈佛)講因果推理的免費書、知識圖譜相關學習資料/數據集/工具資源大列表、Forte：靈活強大的自然語言處理pipeline工具集、Python字符串相似性算法庫、PyLaia：面向手寫文檔分析的深度學習工具包、TextFooler：針對文本分類/推理的對抗文本生成模塊、Haystack：靈活、強大的可擴展問答(QA)框架、中文關鍵短語抽取工具。

1. textfilter: 中英文敏感詞過濾?observerss/textfilter

>>> f = DFAFilter()>>> f.add("sexy")>>> f.filter("hello sexy baby")hello **** baby

敏感詞包括政治、臟話等話題詞匯。其原理主要是基于詞典的查找（項目中的keyword文件），內容很勁爆。。。

2. langid：97種語言檢測?https://github.com/saffsd/langid.py

pip install langid

>>> import langid >>> langid.classify("This is a test") ('en', -54.41310358047485)

3. langdetect：另一個語言檢測https://code.google.com/archive/p/language-detection/

pip install langdetect

from langdetect import detect from langdetect import detect_langss1 = "本篇博客主要介紹兩款語言探測工具，用于區分文本到底是什么語言，" s2 = 'We are pleased to introduce today a new technology' print(detect(s1)) print(detect(s2)) print(detect_langs(s3)) # detect_langs()輸出探測出的所有語言類型及其所占的比例

輸出結果如下：注：語言類型主要參考的是ISO 639-1語言編碼標準，詳見ISO 639-1百度百科

跟上一個語言檢測比較，準確率低，效率高。

4. phone 中國手機歸屬地查詢：?ls0f/phone

已集成到 python package?cocoNLP中，歡迎試用

from phone import Phone p = Phone() p.find(18100065143) #return {'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}

支持號段: 13*,15*,18*,14[5,7],17[0,6,7,8]

記錄條數: 360569 (updated:2017年4月)

作者提供了數據phone.dat?方便非python用戶Load數據。

5. phone國際手機、電話歸屬地查詢：AfterShip/phone

npm install phone

import phone from 'phone'; phone('+852 6569-8900'); // return ['+85265698900', 'HKG'] phone('(817) 569-8900'); // return ['+18175698900, 'USA']

6. ngender 根據名字判斷性別：observerss/ngender?基于樸素貝葉斯計算的概率

pip install ngender

>>> import ngender >>> ngender.guess('趙本山') ('male', 0.9836229687547046) >>> ngender.guess('宋丹丹') ('female', 0.9759486128949907)

7. 抽取email的正則表達式

已集成到 python package?cocoNLP中，歡迎試用

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$' emails = re.findall(email_pattern, text, flags=0)

8. 抽取phone_number的正則表達式

已集成到 python package?cocoNLP中，歡迎試用

cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$' phoneNumbers = re.findall(cellphone_pattern, text, flags=0)

9. 抽取身份證號的正則表達式

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$' IDs = re.findall(IDCards_pattern, text, flags=0)

10. 人名語料庫：?wainshine/Chinese-Names-Corpus

人名抽取功能 python package?cocoNLP，歡迎試用

中文（現代、古代）名字、日文名字、中文的姓和名、稱呼（大姨媽、小姨媽等）、英文->中文名字（李約翰）、成語詞典

（可用于中文分詞、姓名識別）

11. 中文縮寫庫：github

全國人大: 全國/n 人民/n 代表大會/n 中國: 中華人民共和國/ns 女網賽: 女子/n 網球/n 比賽/vn

12. 漢語拆字詞典：kfcd/chaizi

漢字拆法 (一) 拆法 (二) 拆法 (三) 拆手斥扌斥才斥

13. 詞匯情感值：rainarch/SentiBridge

山泉水充沛 0.400704566541 0.370067395878 視野寬廣 0.305762728932 0.325320747491 大峽谷驚險 0.312137906517 0.378594957281

14. 中文詞庫、停用詞、敏感詞?dongxiexidian/Chinese

此package的敏感詞庫分類更細：

反動詞庫，?敏感詞庫表統計，?暴恐詞庫，?民生詞庫，?色情詞庫

15. 漢字轉拼音：mozillazg/python-pinyin

文本糾錯會用到

16. 中文繁簡體互轉：skydark/nstools

17. 英文模擬中文發音引擎?funny chinese text to speech enginee：tinyfool/ChineseWithEnglish

say wo i ni #說：我愛你

相當于用英文音標，模擬中文發音。

18. 汪峰歌詞生成器：phunterlau/wangfeng-rnn

我在這里中的夜里就像一場是一種生命的意旪就像我的生活變得在我一樣可我們這是一個知道我只是一天你會怎嗎

19. 同義詞庫、反義詞庫、否定詞庫：guotong1988/chinese_dictionary

20. 無空格英文串分割、抽取單詞：wordninja

>>> import wordninja >>> wordninja.split('derekanderson') ['derek', 'anderson'] >>> wordninja.split('imateapot') ['im', 'a', 'teapot']

21. IP地址正則表達式：

(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)

22. 騰訊QQ號正則表達式：

[1-9]([0-9]{5,11})

23. 國內固話號碼正則表達式：

[0-9-()（）]{7,18}

24. 用戶名正則表達式：

[A-Za-z0-9_\-\u4e00-\u9fa5]+

25. 汽車品牌、汽車零件相關詞匯：

見本repo的data文件 [data](https://github.com/fighting41love/funNLP/tree/master/data)

26. 時間抽取：

已集成到 python package?cocoNLP中，歡迎試用

在2016年6月7日9:44執行測試，結果如下Hi，all。下周一下午三點開會>> 2016-06-13 15:00:00-false周一開會>> 2016-06-13 00:00:00-true下下周一開會>> 2016-06-20 00:00:00-true

java version

python version

27. 各種中文詞向量：?github repo

中文詞向量大全

28. 公司名字大全：?github repo

29. 古詩詞庫：?github repo?更全的古詩詞庫

30. THU整理的詞庫：?link

已整理到本repo的data文件夾中.

IT詞庫、財經詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫

31. 中文聊天語料?link

該庫搜集了包含:豆瓣多輪, PTT八卦語料, 青云語料, 電視劇對白語料, 貼吧論壇回帖語料,微博語料,小黃雞語料

32. 中文謠言數據:?github

該數據文件中，每一行為一條json格式的謠言數據，字段釋義如下：rumorCode: 該條謠言的唯一編碼，可以通過該編碼直接訪問該謠言舉報頁面。 title: 該條謠言被舉報的標題內容 informerName: 舉報者微博名稱 informerUrl: 舉報者微博鏈接 rumormongerName: 發布謠言者的微博名稱 rumormongerUr: 發布謠言者的微博鏈接 rumorText: 謠言內容 visitTimes: 該謠言被訪問次數 result: 該謠言審查結果 publishTime: 該謠言被舉報時間

33. 情感波動分析：github

詞庫已整理到本repo的data文件夾中.

本repo項目是一個通過與人對話獲得其情感值波動圖譜, 內用詞庫在data文件夾中.

34. 中文問答數據集：鏈接?提取碼: 2dva

35. 句子、QA相似度匹配:MatchZoo?github

文本相似度匹配算法的集合，包含多個深度學習的方法，值得嘗試。

36. bert資源：

bert論文中文翻譯:?link

bert原作者的slides:?link?提取碼: iarj
文本分類實踐:?github
bert tutorial文本分類教程:?github
bert pytorch實現:?github
bert用于中文命名實體識別 tensorflow版本:?github
BERT生成句向量，BERT做文本分類、文本相似度計算github
bert 基于 keras 的封裝分類標注框架 Kashgari，幾分鐘即可搭建一個分類或者序列標注模型:?github
bert、ELMO的圖解：?github
BERT: Pre-trained models and downstream applications:?github

37. Texar - Toolkit for Text Generation and Beyond:?github

基于Tensorflow的開源工具包，旨在支持廣泛的機器學習，特別是文本生成任務，如機器翻譯、對話、摘要、內容處置、語言建模等

38. 中文事件抽取：?github

中文復合事件抽取，包括條件事件、因果事件、順承事件、反轉事件等事件抽取，并形成事理圖譜。

39. cocoNLP:?github

人名、地址、郵箱、手機號、手機歸屬地等信息的抽取，rake短語抽取算法。

pip install cocoNLP

>>> from cocoNLP.extractor import extractor>>> ex = extractor()>>> text = '急尋特朗普，男孩，于2018年11月27號11時在陜西省安康市漢濱區走失。丟失發型短發，...如有線索，請迅速與警方聯系：18100065143，132-6156-2938，baizhantang@sina.com.cn 和yangyangfuture at gmail dot com'# 抽取郵箱 >>> emails = ex.extract_email(text) >>> print(emails)['baizhantang@sina.com.cn', 'yangyangfuture@gmail.com.cn'] # 抽取手機號 >>> cellphones = ex.extract_cellphone(text,nation='CHN') >>> print(cellphones)['18100065143', '13261562938'] # 抽取手機歸屬地、運營商 >>> cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones] >>> print(cell_locs)cellphone_location [{'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type': '電信'}] # 抽取地址信息 >>> locations = ex.extract_locations(text) >>> print(locations) ['陜西省安康市漢濱區', '安康市漢濱區', '漢濱區'] # 抽取時間點 >>> times = ex.extract_time(text) >>> print(times) time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"} # 抽取人名 >>> name = ex.extract_name(text) >>> print(name) 特朗普

40. 國內電話號碼正則匹配（三大運營商+虛擬等）:?github

41. 清華大學XLORE:中英文跨語言百科知識圖譜:?link
上述鏈接中包含了所有實體及關系的TTL文件，更多數據將在近期發布。概念，實例，屬性和上下位關系數目

?百度中文維基英文維基總數

概念數量	32,009	150,241	326,518	508,768
實例數量	1,629,591	640,622	1,235,178	3,505,391
屬性數量	157,370	45,190	26,723	229.283
InstanceOf	7,584,931	1,449,925	3,032,515	12,067,371
SubClassOf	2,784	191,577	555,538	749,899

跨語言連接（概念/實例）

?百度中文維基英文維基

百度	-	10,216/336,890	4,846/303,108
中文維基	10,216/336,890	-	28,921/454,579
英文維基	4,846/303,108	28,921/454,579	-

42. 清華大學人工智能技術系列報告：?link
每年會出AI領域相關的報告，內容包含

自然語言處理?link
知識圖譜?link
數據挖掘?link
自動駕駛?link
機器翻譯?link
區塊鏈?link
機器人?link
計算機圖形學?link
3D打印?link
人臉識別?link
人工智能芯片?link
等等

43.自然語言生成方面:

Ehud Reiter教授的博客?北大萬小軍教授強力推薦，該博客對NLG技術、評價與應用進行了深入的探討與反思。
文本生成相關資源大列表
自然語言生成：讓機器掌握自動創作的本領 - 開放域對話生成及在微軟小冰中的實踐
文本生成控制
自然語言生成相關資源大列表

44.:?jieba和hanlp就不必介紹了吧。

45.NLP太難了系列:?github

來到楊過曾經生活過的地方，小龍女動情地說：“我也想過過過兒過過的生活。” ???
來到兒子等校車的地方，鄧超對孫儷說：“我也想等等等等等過的那輛車。”
趙敏說：我也想控忌忌己不想無忌。
你也想犯范范范瑋琪犯過的錯嗎
對敘打擊是一次性行為？

46.自動對聯數據及機器人:
70萬對聯數據 link
代碼 link

上聯下聯

殷勤怕負三春意	瀟灑難書一字愁
如此清秋何吝酒	這般明月不須錢

47.用戶名黑名單列表：?github?包含了用戶名禁用列表，比如:?link

administrator administration autoconfig autodiscover broadcasthost domain editor guest host hostmaster info keybase.txt localdomain localhost master mail mail0 mail1

48.罪名法務名詞及分類模型:?github

包含856項罪名知識圖譜, 基于280萬罪名訓練庫的罪名預測,基于20W法務問答對的13類問題分類與法律資訊問答功能

49.微信公眾號語料:?github

3G語料，包含部分網絡抓取的微信公眾號的文章，已經去除HTML，只包含了純文本。每行一篇，是JSON格式，name是微信公眾號名字，account是微信公眾號ID，title是題目，content是正文

50.cs224n深度學習自然語言處理課程：link

課程中模型的pytorch實現?link
面向深度學習研究人員的自然語言處理實例教程?link

51.中文手寫漢字識別：github

52.中文自然語言處理語料/數據集：github?競品：THUOCL（THU Open Chinese Lexicon）中文詞庫

53.變量命名神器：github?link

54.分詞語料庫+代碼：百度網盤鏈接

提取碼: pea6
keras實現的基于Bi-LSTM + CRF的中文分詞+詞性標注
基于Universal Transformer + CRF 的中文分詞和詞性標注
快速神經網絡分詞包 java version

55. NLP新書推薦《Natural Language Processing》by Jacob Eisenstein：?link

56. 任務型對話英文數據集：?github
【最全任務型對話數據集】主要介紹了一份任務型對話數據集大全，這份數據集大全涵蓋了到目前在任務型對話領域的所有常用數據集的主要信息。此外，為了幫助研究者更好的把握領域進展的脈絡，我們以Leaderboard的形式給出了幾個數據集上的State-of-the-art實驗結果。

57. ASR 語音數據集 + 基于深度學習的中文語音識別系統：?github

Data Sets 數據集
- 清華大學THCHS30中文語音數據集
  
  data_thchs30.tgz?OpenSLR國內鏡像?OpenSLR國外鏡像
  
  test-noise.tgz?OpenSLR國內鏡像?OpenSLR國外鏡像
  
  resource.tgz?OpenSLR國內鏡像?OpenSLR國外鏡像
- Free ST Chinese Mandarin Corpus
  
  ST-CMDS-20170001_1-OS.tar.gz?OpenSLR國內鏡像?OpenSLR國外鏡像
- AIShell-1 開源版數據集
  
  data_aishell.tgz?OpenSLR國內鏡像?OpenSLR國外鏡像
注：數據集解壓方法
$ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done
- Primewords Chinese Corpus Set 1
  
  primewords_md_2018_set1.tar.gz?OpenSLR國內鏡像?OpenSLR國外鏡像

58. 笑聲檢測器：?github

59. Microsoft多語言數字/單位/如日期時間識別包：?[github](https://github.com/Microsoft/Recognizers-Text

60. chinese-xinhua 中華新華字典數據庫及api，包括常用歇后語、成語、詞語和漢字?github

61. 文檔圖譜自動生成?github

TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。輸入一篇文檔，將文檔進行關鍵信息提取，進行結構化，并最終組織成圖譜組織形式，形成對文章語義信息的圖譜化展示

62. SpaCy 中文模型?github

包含Parser, NER, 語法樹等功能。有一些英文package使用spacy的英文模型的，如果要適配中文，可能需要使用spacy中文模型。

63. Common Voice語音識別數據集新版?link

包括來自42,000名貢獻者超過1,400小時的語音樣本，涵github

64. 神經網絡關系抽取 pytorch?github

暫不支持中文

65. 基于bert的命名實體識別 pytorch?github

暫不支持中文

66. 關鍵詞(Keyphrase)抽取包 pke?github
pke: an open source python-based keyphrase extraction toolkit

暫不支持中文，我于近期對其進行修改，使其適配中文。請關注我的github動態，謝謝！

67. 基于醫療領域知識圖譜的問答系統?github

該repo參考了github

68. 基于依存句法與語義角色標注的事件三元組抽取?github

69. 依存句法分析4萬句高質量標注數據?by 蘇州大學漢語依存樹庫（SUCDT）?Homepage?數據下載詳見homepage底部，需要簽署協議，需要郵件接收解壓密碼。

70. cnocr：用來做中文OCR的Python3包，自帶了訓練好的識別模型?github

71. 中文人物關系知識圖譜項目?github

中文人物關系圖譜構建
基于知識庫的數據回標
基于遠程監督與bootstrapping方法的人物關系抽取
基于知識圖譜的知識問答等應用

72. 中文nlp競賽項目及代碼匯總?github

文本生成、文本摘要：Byte Cup 2018 國際機器學習競賽
知識圖譜：瑞金醫院MMC人工智能輔助構建知識圖譜大賽
視頻識別問答：2018之江杯全球人工智能大賽?：視頻識別&問答

73. 中文字符數據?github

簡/繁體漢字筆順
矢量筆畫

74. speech-aligner: 從“人聲語音”及其“語言文本”，產生音素級別時間對齊標注的工具?github

75. AmpliGraph: 知識圖譜表示學習(Python)庫：知識圖譜概念鏈接預測?github

埃森哲出品，目前尚不支持中文

76. Scattertext 文本可視化(python)?github

很好用的工具包，簡單修改后可支持中文
能否分析出某個類別的文本與其他文本的用詞差異

77. 語言/知識表示工具：BERT & ERNIE?github

百度出品，ERNIE也號稱在多項nlp任務中擊敗了bert

78. 中文對比英文自然語言處理NLP的區別綜述?link

79. Synonyms中文近義詞工具包?github

Synonyms 中文近義詞工具包，可以用于自然語言理解的很多任務：文本對齊，推薦算法，相似度計算，語義偏移，關鍵字提取，概念提取，自動摘要，搜索引擎等

80. HarvestText領域自適應文本挖掘工具（新詞發現-情感分析-實體鏈接等）?github

81. word2word：(Python)方便易用的多語言詞-詞對集：62種語言/3,564個多語言對?github

82. 語音識別語料生成工具：從具有音頻/字幕的在線視頻創建自動語音識別(ASR)語料庫?github

83. ASR語音大辭典/詞典：?github

84. 構建醫療實體識別的模型，包含詞典和語料標注，基于python:?github

85. 單文檔非監督的關鍵詞抽取：?github

86. Kashgari中使用gpt-2語言模型?github

87. 開源的金融投資數據提取工具?github

88. 文本自動摘要庫TextTeaser: 僅支持英文?github

89. 人民日報語料處理工具集?github

90. 一些關于自然語言的基本模型?github

91. 基于14W歌曲知識庫的問答嘗試，功能包括歌詞接龍，已知歌詞找歌曲以及歌曲歌手歌詞三角關系的問答?github

92. 基于Siamese bilstm模型的相似句子判定模型,提供訓練數據集和測試數據集?github

提供了10萬個訓練樣本

93. 用Transformer編解碼模型實現的根據Hacker News文章標題自動生成評論?github

94. 用BERT進行序列標記和文本分類的模板代碼?github

95. LitBank：NLP數據集——支持自然語言處理和計算人文學科任務的100部帶標記英文小說語料?github

96. 百度開源的基準信息抽取系統?github

97. 虛假新聞數據集 fake news corpus?github

98. Facebook: LAMA語言模型分析，提供Transformer-XL/BERT/ELMo/GPT預訓練語言模型的統一訪問接口?github

99. CommonsenseQA：面向常識的英文QA挑戰?link

100. 中文知識圖譜資料、數據及工具?github

101. 各大公司內部里大牛分享的技術文檔 PDF 或者 PPT?github

102. 自然語言生成SQL語句（英文）?github

103. 中文NLP數據增強（EDA）工具?github

?英文NLP數據增強工具?github

104. 基于醫藥知識圖譜的智能問答系統?github

105. 京東商品知識圖譜?github

基于京東網站的1300種商品上下級概念，約10萬商品品牌，約65萬品牌銷售關系，商品描述維度等知識庫，基于該知識庫可以支持商品屬性庫構建，商品銷售問答，品牌物品生產等知識查詢服務，也可用于情感分析等下游應用．

106. 基于mongodb存儲的軍事領域知識圖譜問答項目?github

基于mongodb存儲的軍事領域知識圖譜問答項目，包括飛行器、太空裝備等8大類，100余小類，共計5800項的軍事武器知識庫，該項目不使用圖數據庫進行存儲，通過jieba進行問句解析，問句實體項識別，基于查詢模板完成多類問題的查詢，主要是提供一種工業界的問答思想demo。

107. 基于遠監督的中文關系抽取?github

108. 語音情感分析?github

109. 中文ULMFiT 情感分析文本分類語料及模型?github

110. 一個拍照做題程序。輸入一張包含數學計算題的圖片，輸出識別出的數學計算式以及計算結果?github

111. 世界各國大規模人名庫?github

112. 一個利用有趣中文語料庫 qingyun 訓練出來的中文聊天機器人?github

使用了青云語料10萬語料，本repo中也有該語料的鏈接

113. 中文聊天機器人，根據自己的語料訓練出自己想要的聊天機器人，可以用于智能客服、在線問答、智能聊天等場景?github

根據自己的語料訓練出自己想要的聊天機器人，可以用于智能客服、在線問答、智能聊天等場景。加入seqGAN版本。
repo中提供了一份質量不太高的語料

114. 省市區鎮行政區劃數據帶拼音標注?github

國家統計局中的省市區鎮行政區劃數據帶拼音標注，高德地圖的坐標和行政區域邊界范圍，在瀏覽器里面運行js代碼采集的2019年發布的最新數據，含采集源碼，提供csv格式數據，支持csv轉成省市區多級聯動js代碼
坐標、邊界范圍、名稱、拼音、行政區等多級地址

115. 教育行業新聞自動文摘語料庫?github

116. 開放了對話機器人、知識圖譜、語義理解、自然語言處理工具及數據?github

另一個qa對的機器人?Amodel-for-Retrivalchatbot - 客服機器人，Chinese Retreival chatbot（中文檢索式機器人）

117. 中文知識圖譜：基于百度百科中文頁面，抽取三元組信息，構建中文知識圖譜?github

118. masr: 中文語音識別，提供預訓練模型，高識別率?github

119. Python音頻數據增廣庫?github

120. 中文全詞覆蓋BERT及兩份閱讀理解數據?github

DRCD數據集由中國臺灣臺達研究院發布，其形式與SQuAD相同，是基于繁體中文的抽取式閱讀理解數據集。
CMRC 2018數據集是哈工大訊飛聯合實驗室發布的中文機器閱讀理解數據。根據給定問題，系統需要從篇章中抽取出片段作為答案，形式與SQuAD相同。

121. ConvLab：開源多域端到端對話系統平臺?github

122. 中文自然語言處理數據集?github

123. 基于最新版本rasa搭建的對話系統?github

124. 基于TensorFlow和BERT的管道式實體及關系抽取?github

Entity and Relation Extraction Based on TensorFlow and BERT. 基于TensorFlow和BERT的管道式實體及關系抽取，2019語言與智能技術競賽信息抽取任務解決方案。Schema based Knowledge Extraction, SKE 2019

125. 一個小型的證券知識圖譜/知識庫?github

126. 復盤所有NLP比賽的TOP方案?github

127. OpenCLaP：多領域開源中文預訓練語言模型倉庫?github?包含如下語言模型及百度百科數據

民事文書BERT bert-base 全部民事文書 2654萬篇文書 22554詞 370MB
刑事文書BERT bert-base 全部刑事文書 663萬篇文書 22554詞 370MB
百度百科BERT bert-base 百度百科 903萬篇詞條 22166詞 367MB

128. UER：基于不同語料、編碼器、目標任務的中文預訓練模型倉庫（包括BERT、GPT、ELMO等）?github

基于PyTorch的預訓練模型框架，支持對編碼器，目標任務等進行任意的組合，從而復現已有的預訓練模型，或在已有的預訓練模型上進一步改進。基于UER訓練了不同性質的預訓練模型（不同語料、編碼器、目標任務），構成了中文預訓練模型倉庫，適用于不同的場景。

129. 中文自然語言處理向量合集?github

包括字向量,拼音向量,詞向量,詞性向量,依存關系向量.共5種類型的向量

130. 基于金融-司法領域(兼有閑聊性質)的聊天機器人?github

其中的主要模塊有信息抽取、NLU、NLG、知識圖譜等，并且利用Django整合了前端展示,目前已經封裝了nlp和kg的restful接口

131. g2pC：基于上下文的漢語讀音自動標記模塊?github

132. Zincbase 知識圖譜構建工具包?github

133. 詩歌質量評價/細粒度情感詩歌語料庫?github

134. 快速轉化「中文數字」和「阿拉伯數字」?github

中文、阿拉伯數字互轉
中文與阿拉伯數字混合的情況，在開發中

135. 百度知道問答語料庫?github

超過580萬的問題，938萬的答案，5800個分類標簽。基于該問答語料庫，可支持多種應用，如閑聊問答，邏輯挖掘

136. 基于知識圖譜的問答系統?github

BERT做命名實體識別和句子相似度，分為online和outline模式

137. jieba_fast 加速版的jieba?github

使用cpython重寫了jieba分詞庫中計算DAG和HMM中的vitrebi函數，速度得到大幅提升

138. 正則表達式教程?github

139. 中文閱讀理解數據集?github

140. 基于BERT等最新語言模型的抽取式摘要提取?github

141. Python利用深度學習進行文本摘要的綜合指南?link

142. 知識圖譜深度學習相關資料整理?github

深度學習與自然語言處理、知識圖譜、對話系統。包括知識獲取、知識庫構建、知識庫應用三大技術研究與應用

143. 維基大規模平行文本語料?github

85種語言、1620種語言對、135M對照句

144. StanfordNLP 0.2.0：純Python版自然語言處理包?link

145. NeuralNLP-NeuralClassifier：騰訊開源深度學習文本分類工具?github

146. 端到端的封閉域對話系統?github

147. 中文命名實體識別：NeuroNER vs. BertNER?github

148. 新聞事件線索抽取?github

An exploration for Eventline (important news Rank organized by pulic time)，針對某一事件話題下的新聞報道集合，通過使用docrank算法，對新聞報道進行重要性識別，并通過新聞報道時間挑選出時間線上重要新聞

149. 2019年百度的三元組抽取比賽，“科學空間隊”源碼(第7名)?github

150. 基于依存句法的開放域文本知識三元組抽取和知識庫構建?github

151. 中文的GPT2訓練代碼?github

152. ML-NLP - 機器學習(Machine Learning)、NLP面試中常考到的知識點和代碼實現?github

153. nlp4han:中文自然語言處理工具集(斷句/分詞/詞性標注/組塊/句法分析/語義分析/NER/N元語法/HMM/代詞消解/情感分析/拼寫檢查?github

154. XLM：Facebook的跨語言預訓練語言模型?github

155. 用基于BERT的微調和特征提取方法來進行知識圖譜百度百科人物詞條屬性抽取?github

156. 中文自然語言處理相關的開放任務，數據集, 以及當前最佳結果?github

157. CoupletAI - 基于CNN+Bi-LSTM+Attention 的自動對對聯系統?github

158. 抽象知識圖譜，目前規模50萬，支持名詞性實體、狀態性描述、事件性動作進行抽象?github

159. MiningZhiDaoQACorpus - 580萬百度知道問答數據挖掘項目?github

160. brat rapid annotation tool: 序列標注工具?link

161. 大規模中文知識圖譜數據：：1.4億實體?github

162. 數據增強在機器翻譯及其他nlp任務中的應用及效果?link

163. allennlp閱讀理解:支持多種數據和模型?github

164. PDF表格數據提取工具?github

165. Graphbrain：AI開源軟件庫和科研工具，目的是促進自動意義提取和文本理解以及知識的探索和推斷?github

166. 簡歷自動篩選系統?github

167. 基于命名實體識別的簡歷自動摘要?github

168. 中文語言理解測評基準，包括代表性的數據集&基準模型&語料庫&排行榜?github

169. 樹洞 OCR 文字識別?github

一個c++ OCR?github
?

170. 從包含表格的掃描圖片中識別表格和文字?github

171. 語聲遷移?github

172. Python口語自然語言處理工具集(英文)?github

173. similarity：相似度計算工具包，java編寫?github

用于詞語、短語、句子、詞法分析、情感分析、語義分析等相關的相似度計算

174. 海量中文預訓練ALBERT模型?github

175. Transformers 2.0?github

支持TensorFlow 2.0 和 PyTorch 的自然語言處理預訓練語言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8種架構/33種預訓練模型/102種語言

176. 基于大規模音頻數據集Audioset的音頻增強?github

177. Poplar：網頁版自然語言標注工具?github

178. 圖片文字去除，可用于漫畫翻譯?github

179. 186種語言的數字叫法庫?github

180. Amazon發布基于知識的人-人開放領域對話數據集?github

181. 中文文本糾錯模塊代碼?github

182. 繁簡體轉換?github

183. Python實現的多種文本可讀性評價指標?github

184. 類似于人名/地名/組織機構名的命名體識別數據集?github

185. 東南大學《知識圖譜》研究生課程(資料)?github

186. 英文拼寫檢查庫?github

from spellchecker import SpellCheckerspell = SpellChecker()# find those words that may be misspelled misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])for word in misspelled:# Get the one `most likely` answerprint(spell.correction(word))# Get a list of `likely` optionsprint(spell.candidates(word))

187. wwsearch是企業微信后臺自研的全文檢索引擎?github

188. CHAMELEON：深度學習新聞推薦系統元架構?github

189. 8篇論文梳理BERT相關模型進展與反思?github

190. DocSearch：免費文檔搜索引擎?github

191. LIDA：輕量交互式對話標注工具?github

192. aili - the fastest in-memory index in the East 東半球最快并發索引?github

193. 知識圖譜車音工作項目?github

194. 自然語言生成資源大全?github

內含英文數據、論文、代碼

195. 中日韓分詞庫mecab的Python接口庫?github

196. 中文文本摘要/關鍵詞提取?github

197. 漢字字符特征提取器 (featurizer)，提取漢字的特征（發音特征、字形特征）用做深度學習的特征?github

198. 中文生成任務基準測評?github

199. 中文縮寫數據集?github

200. 中文任務基準測評 - 代表性的數據集-基準(預訓練)模型-語料庫-baseline-工具包-排行榜?github

201. PySS3：面向可解釋AI的SS3文本分類器機器可視化工具?github

202. 中文NLP數據集列表?github

203. COPE - 格律詩編輯程序?github

204. doccano：基于網頁的開源協同多語言文本標注工具?github

205. PreNLP：自然語言預處理庫?github

206. 簡單的簡歷解析器，用來從簡歷中提取關鍵信息?github

207. 用于中文閑聊的GPT2模型：GPT2-chitchat?github

208. 基于檢索聊天機器人多輪響應選擇相關資源列表(Leaderboards、Datasets、Papers)?github

209. (Colab)抽象文本摘要實現集錦(教程?github

210. 詞語拼音數據?github

211. 高效模糊搜索工具?github

212. NLP數據增廣資源集?github

213. 微軟對話機器人框架?github

214. GitHub Typo Corpus：大規模GitHub多語言拼寫錯誤/語法錯誤數據集?github

215. TextCluster：短文本聚類預處理模塊 Short text cluster?github

216. 面向語音識別的中文文本規范化?github

217. BLINK：最先進的實體鏈接庫?github

218. BertPunc：基于BERT的最先進標點修復模型?github

219. Tokenizer：快速、可定制的文本詞條化庫?github

220. 中文語言理解測評基準，包括代表性的數據集、基準(預訓練)模型、語料庫、排行榜?github

221. spaCy 醫學文本挖掘與信息提取?github

222. NLP任務示例項目代碼集?github

223. python拼寫檢查庫?github

224. chatbot-list - 行業內關于智能客服、聊天機器人的應用和架構、算法分享和介紹?github

225. 語音質量評價指標(MOSNet, BSSEval, STOI, PESQ, SRMR)?github

226. 用138GB語料訓練的法文RoBERTa預訓練語言模型?link

227. BERT-NER-Pytorch：三種不同模式的BERT中文NER實驗?github

228. 無道詞典 - 有道詞典的命令行版本，支持英漢互查和在線查詢?github

229. 2019年NLP亮點回顧?download

提取碼: yb6x

230. Chinese medical dialogue data 中文醫療對話數據集?github

231. 最好的漢字數字(中文數字)-阿拉伯數字轉換工具?github

232. 基于百科知識庫的中文詞語多詞義/義項獲取與特定句子詞語語義消歧?github

233. awesome-nlp-sentiment-analysis - 情感分析、情緒原因識別、評價對象和評價詞抽取?github

234. LineFlow：面向所有深度學習框架的NLP數據高效加載器?github

235. 中文醫學NLP公開資源整理?github

236. MedQuAD：(英文)醫學問答數據集?github

237. 將自然語言數字串解析轉換為整數和浮點數?github

238. Transfer Learning in Natural Language Processing (NLP)?youtube

239. 面向語音識別的中文/英文發音辭典?github

240. Tokenizers：注重性能與多功能性的最先進分詞器?github

241. CLUENER 細粒度命名實體識別 Fine Grained Named Entity Recognition?github

242. 基于BERT的中文命名實體識別?github

243. 中文謠言數據庫?github

244. NLP數據集/基準任務大列表?github

大多數為英文數據

245. nlp相關的一些論文及代碼, 包括主題模型、詞向量(Word Embedding)、命名實體識別(NER)、文本分類(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)計算等，涉及到各種與nlp相關的算法，基于keras和tensorflow?github

246. Python文本挖掘/NLP實戰示例?github

247. Blackstone：面向非結構化法律文本的spaCy pipeline和NLP模型?github

248. 通過同義詞替換實現文本“變臉”?github

249. 中文預訓練 ELECTREA 模型: 基于對抗學習 pretrain Chinese Model?github

250. albert-chinese-ner - 用預訓練語言模型ALBERT做中文NER?github

251. 基于GPT2的特定主題文本生成/文本增廣?github

252. 開源預訓練語言模型合集?github

253. 多語言句向量包?github

254. 編碼、標記和實現：一種可控高效的文本生成方法?github

255. 英文臟話大列表?github

256. attnvis：GPT2、BERT等transformer語言模型注意力交互可視化?github

257. CoVoST：Facebook發布的多語種語音-文本翻譯語料庫，包括11種語言(法語、德語、荷蘭語、俄語、西班牙語、意大利語、土耳其語、波斯語、瑞典語、蒙古語和中文)的語音、文字轉錄及英文譯文?github

258. Jiagu自然語言處理工具 - 以BiLSTM等模型為基礎，提供知識圖譜關系抽取中文分詞詞性標注命名實體識別情感分析新詞發現關鍵詞文本摘要文本聚類等功能?github

259. 用unet實現對文檔表格的自動檢測，表格重建?github

260. NLP事件提取文獻資源列表?github

261. 金融領域自然語言處理研究資源大列表?github

262. CLUEDatasetSearch - 中英文NLP數據集：搜索所有中文NLP數據集，附常用英文NLP數據集?github

263. medical_NER - 中文醫學知識圖譜命名實體識別?github

264. (哈佛)講因果推理的免費書?pdf

265. 知識圖譜相關學習資料/數據集/工具資源大列表?github

266. Forte：靈活強大的自然語言處理pipeline工具集?github

267. Python字符串相似性算法庫?github

268. PyLaia：面向手寫文檔分析的深度學習工具包?github

269. TextFooler：針對文本分類/推理的對抗文本生成模塊?github

270. Haystack：靈活、強大的可擴展問答(QA)框架?github

271. 中文關鍵短語抽取工具?github

272. pdf文檔解析相關工具包

pdf生成
- fdfgen: 能夠自動創建pdf文檔，并填寫信息
pdf表格解析
- pdftabextract: 用于OCR識別后的表格信息解析，很強大
- tabula-py: 直接將pdf中的表格信息轉換為pandas的dataframe，有java和python兩種版本代碼
- pdfx: 自動抽取出引用參考文獻，并下載對應的pdf文件
- invoice2data: 發票pdf信息抽取
- camelot: pdf表格解析
- pdfplumber: pdf表格解析
pdf語義分割
- PubLayNet:能夠劃分段落、識別表格、圖片
pdf讀取工具
- PDFMiner：PDFMiner能獲取頁面中文本的準確位置，以及字體或行等其他信息。它還有一個PDF轉換器，可以將PDF文件轉換成其他文本格式(如HTML)。還有一個可擴展的解析器PDF，可以用于文本分析以外的其他用途。
- PyPDF2：PyPDF 2是一個python PDF庫，能夠分割、合并、裁剪和轉換PDF文件的頁面。它還可以向PDF文件中添加自定義數據、查看選項和密碼。它可以從PDF檢索文本和元數據，還可以將整個文件合并在一起。
- ReportLab：ReportLab能快速創建PDF 文檔。經過時間證明的、超好用的開源項目，用于創建復雜的、數據驅動的PDF文檔和自定義矢量圖形。它是免費的，開源的，用Python編寫的。該軟件包每月下載5萬多次，是標準Linux發行版的一部分，嵌入到許多產品中，并被選中為Wikipedia的打印/導出功能提供動力。

273. 中文詞語相似度計算方法?gihtub

綜合了同義詞詞林擴展版與知網（Hownet）的詞語相似度計算方法，詞匯覆蓋更多、結果更準確。

274. 人民日報語料庫處理工具集?github

275. stanza:斯坦福團隊NLP工具?github

可處理六十多種語言

276. 一個大規模醫療對話數據集?github

包含110萬醫學咨詢，400萬條醫患對話

277. 新冠肺炎相關數據

新冠及其他類型肺炎中文醫療對話數據集?github
清華大學等機構的開放數據源（COVID-19）github

278. DGL-KE 圖嵌入表示學習算法?github

279. nlp-recipes：微軟出品--自然語言處理最佳實踐和范例?github

280. chinese_keyphrase_extractor (CKPE) - A tool for chinese keyphrase extraction 一個快速從自然語言文本中提取和識別關鍵短語的工具?github

281. 使用GAN生成表格數據（僅支持英文）?github

282. Google發布Taskmaster-2自然語言任務對話數據集?github

283. BDCI2019金融負面信息判定?github

284. 用神經網絡符號推理求解復雜數學方程?github

285. 粵語/英語會話雙語語料庫?github

286. 中文ELECTRA預訓練模型?github

287. 面向深度學習研究人員的自然語言處理實例教程?github

288. Parakeet：基于PaddlePaddle的文本-語音合成?github

289. 103976個英語單詞庫（sql版，csv版，Excel版）包?github

290. 《海賊王》知識圖譜?github

291. 法務智能文獻資源列表?github

292. Datasaur.ai 在線數據標注工作流管理工具?link

293. (Java)準確的語音自然語言檢測庫?github

294. 面向各語種/任務的BERT模型大列表/搜索引擎?link

295. CoVoST：Facebook發布的多語種語音-文本翻譯語料庫?github

296. 基于預訓練模型的中文關鍵詞抽取方法?github

297. Fancy-NLP:用于建設商品畫像的文本知識挖掘工具?github

298. 基于百度webqa與dureader數據集訓練的Albert Large QA模型?github

總結

以上是生活随笔為你收集整理的几乎最全的中文NLP资源库的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SEO【总结】by 2019年5月
下一篇： Windows server 2016