中文文本相似度计算工具集
歡迎大家關注我們的網站和系列教程:http://www.tensorflownews.com/,學習更多的機器學習、深度學習的知識!
一、基本工具集
1.分詞工具
a.jieba
結巴中文分詞
https://github.com/fxsjy/jieba
b.HanLP
自然語言處理 中文分詞 詞性標注 命名實體識別 依存句法分析 關鍵詞提取 新詞發現 短語提取 自動摘要 文本分類 拼音簡繁 http://hanlp.hankcs.com/
https://github.com/hankcs/HanLP
c.盤古分詞-開源中文分詞組件
盤古分詞是一個中英文分詞組件。作者eaglet 曾經開發過KTDictSeg 中文分詞組件,擁有大量用戶。 作者基于之前分詞組件的開發經驗,結合最新的開發技術重新編寫了盤古分詞組件。
https://archive.codeplex.com/
d.pullword
Pullword-永久免費的可自定義的中文在線分詞API
http://pullword.com/
e.BosonNLP
玻森中文語義開放平臺提供使用簡單、功能強大、性能可靠的中文自然語言分析云服務。
https://bosonnlp.com/
f.HIT-SCIR/ltp
Language Technology Platform http://ltp.ai
https://github.com/HIT-SCIR/ltp
2.關鍵詞提取
TF-IDF
技術原理:https://dl.acm.org/citation.cfm?id=866292
gensim
https://radimrehurek.com/gensim/models/tfidfmodel.html
?
TextRank
技術原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
TextRank4ZH-從中文文本中自動提取關鍵詞和摘要
https://github.com/letiantian/TextRank4ZH
3.詞向量
word2vec-gensim
Topic modelling for humans - Radim ?eh??ek
https://radimrehurek.com/gensim/index.html
?
GloVe
Global Vectors for Word Representation
https://nlp.stanford.edu/projects/glove/
?
4.距離計算
word2vec-gensim
Topic modelling for humans - Radim ?eh??ek
https://radimrehurek.com/gensim/index.html
?
二、常用算法
?
1.中文分詞+TF-IDF+word2vec+cosine 距離計算
?
2.doc2vec
原理介紹:https://cs.stanford.edu/~quocle/paragraph_vector.pdf
技術實現:https://cs.stanford.edu/~quocle/paragraph_vector.pdf
?
3.simhash
原理介紹:http://www.cnblogs.com/maybe2030/p/5203186.html
技術實現:https://github.com/yanyiwu/simhash
?
三、文本相似度計算綜述
A Survey of Text Similarity Approaches
https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf
《中文信息處理發展報告(2016)》
http://cips-upload.bj.bcebos.com/cips2016.pdf
以上論文下載地址:
http://www.tensorflownews.com/
本篇文章出自http://www.tensorflownews.com,對深度學習感興趣,熱愛Tensorflow的小伙伴,歡迎關注我們的網站!
新人創作打卡挑戰賽發博客就能抽獎!定制產品紅包拿不停!總結
以上是生活随笔為你收集整理的中文文本相似度计算工具集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 配置LINUX的DNS主辅服务器
- 下一篇: react让我怀疑自己没有当程序员的天分