當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文文本相似度计算工具集

發布時間：2025/3/17 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了中文文本相似度计算工具集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

歡迎大家關注我們的網站和系列教程：http://www.tensorflownews.com/，學習更多的機器學習、深度學習的知識！

一、基本工具集

1.分詞工具

a.jieba

結巴中文分詞

https://github.com/fxsjy/jieba

b.HanLP

自然語言處理中文分詞詞性標注命名實體識別依存句法分析關鍵詞提取新詞發現短語提取自動摘要文本分類拼音簡繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

c.盤古分詞-開源中文分詞組件

盤古分詞是一個中英文分詞組件。作者eaglet 曾經開發過KTDictSeg 中文分詞組件，擁有大量用戶。作者基于之前分詞組件的開發經驗，結合最新的開發技術重新編寫了盤古分詞組件。

https://archive.codeplex.com/

d.pullword

Pullword-永久免費的可自定義的中文在線分詞API

http://pullword.com/

e.BosonNLP

玻森中文語義開放平臺提供使用簡單、功能強大、性能可靠的中文自然語言分析云服務。

https://bosonnlp.com/

f.HIT-SCIR/ltp

Language Technology Platform http://ltp.ai

https://github.com/HIT-SCIR/ltp

2.關鍵詞提取

TF-IDF

技術原理：https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

TextRank

技術原理：https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-從中文文本中自動提取關鍵詞和摘要

https://github.com/letiantian/TextRank4ZH

3.詞向量

word2vec-gensim

Topic modelling for humans - Radim ?eh??ek

https://radimrehurek.com/gensim/index.html

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

4.距離計算

word2vec-gensim

Topic modelling for humans - Radim ?eh??ek

https://radimrehurek.com/gensim/index.html

二、常用算法

1.中文分詞+TF-IDF+word2vec+cosine 距離計算

2.doc2vec

原理介紹：https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技術實現：https://cs.stanford.edu/~quocle/paragraph_vector.pdf

3.simhash

原理介紹：http://www.cnblogs.com/maybe2030/p/5203186.html

技術實現：https://github.com/yanyiwu/simhash

三、文本相似度計算綜述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息處理發展報告（2016）》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上論文下載地址：

http://www.tensorflownews.com/

本篇文章出自http://www.tensorflownews.com，對深度學習感興趣，熱愛Tensorflow的小伙伴，歡迎關注我們的網站！

新人創作打卡挑戰賽發博客就能抽獎！定制產品紅包拿不停！

總結

以上是生活随笔為你收集整理的中文文本相似度计算工具集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：配置LINUX的DNS主辅服务器
下一篇： react让我怀疑自己没有当程序员的天分

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

中文文本相似度计算工具集

歡迎大家關注我們的網站和系列教程：http://www.tensorflownews.com/，學習更多的機器學習、深度學習的知識！

本篇文章出自http://www.tensorflownews.com，對深度學習感興趣，熱愛Tensorflow的小伙伴，歡迎關注我們的網站！

總結