【NLP】GitHub 上有哪些有趣的关于 NLP 的Python项目?
知乎上有人提問:GitHub 上有哪些有趣的關于 NLP 的Python項目?
先來說說什么是NLP?
自然語言處理(NLP)的重點是使計算機能夠理解和處理人類語言。計算機擅長處理結構化數據,如電子表格;然而,我們寫或說的很多信息都是非結構化的。
自然語言處理的目標是使計算機能夠理解非結構化文本并從中提取有意義的信息。多虧了spaCy和NLTK等開源庫,我們只需幾行Python代碼就可以實現許多NLP技術。
說到Github上的NLP項目,這里強烈推薦一個36.9K star的倉庫:「funNLPPublic」
https://github.com/fighting41love/funNL
這是一個中文NLP項目,作者聲稱是NLP民工的樂園: 幾乎最全的中文NLP資源庫
我仔細看了該項目資源的結構,主要是分為各類行業詞庫、語料庫、分詞處理工具、語義判別工具、正則應用工具、NLP開源算法、行業技術報告、各種NLP處理框架等等
凡是中文領域NLP沾邊的地方,作者通通匯總了相關資源,對初學者來說是不錯的一個檢索倉庫。
雖然看起來比較亂,作者沒有去做詳細的歸類,但良心在于很全,能讓你輕松地玩轉各種nlp知識,也不失趣味。
下面分別舉例一些資源,供大家參考,詳細的可以去github倉里自行查找
行業詞庫、語料庫(IT、汽車、醫學、動物、財經、法律等)
NLP論文、行業報告
PDF文檔處理
語音處理工具
行業應用場景
nlp框架和工具
當然上述案例只是該項目的一小部分,我看了下總共有將近400個NLP資源,非常全。
其他關于NLP的好項目也很多,比如NLP-progress、HanLP、spaCy、jina等等,大家可以自己去探索下。
往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【NLP】GitHub 上有哪些有趣的关于 NLP 的Python项目?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux下opencv读取图片并存储到
- 下一篇: 【Python】Pandas数据挖掘与分