日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pyhanlp 文本聚类

發布時間:2025/3/21 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pyhanlp 文本聚类 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文本聚類

文本聚類簡單點的來說就是將文本視作一個樣本,在其上面進行聚類操作。但是與我們機器學習中常用的聚類操作不同之處在于。

我們的聚類對象不是直接的文本本身,而是文本提取出來的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一共有三個文本聚類方法。前兩種都基于詞袋模式,第一個是最常見的聚類算法:k-means,但HanLP不光實現了k-means,還實現了速度更快效果更好的repeated bisection算法(重復二分法,還是翻譯為累次平方法,好像是第一種)。筆者動筆前段時間剛剛添加了一個新的聚類分析器是,基于詞向量的kmens聚類分析器。

基于詞向量的kmeans聚類分析器,輸入的需要時詞向量化后的文件。雖然HanLP的詞向量在Java實現中,還算可以,但在Python中使用不算太好用,同時Python也不推薦用HanLP做詞向量,我們有更好的工具。所以這里我們也就不畫蛇添足了。

而對于前兩個聚類分析器而言,其聚類模塊可以接受任意文本作為文檔,而不需要用特殊分隔符隔開單詞。另外,該模塊還接受單詞列表作為輸入,用戶可以將英文、日文等預先切分為單詞列表后輸入本模塊。統計方法適用于所有語種,不必拘泥于中文。

分詞器的性能問題

在repeated bisection算法無論性能還是速度都要優于kmens,但是在本人的測試中,前者速度基本原作者一致約為kmeans的三倍左右,但是性能略低于后者。此處請讀者自行斟酌。

分詞器的參數

自動判斷聚類個數k(此處來自于原文:HanLP中的文本聚類
很多時候用戶可能覺得聚類個數k這個超參數很難準確指定。在repeated bisection算法中,有一種變通的方法,那就是通過給準則函數的增幅設定閾值beta來自動判斷k。此時算法的停機條件為,當一個簇的二分增幅小于beta時不再對該簇進行劃分,即認為這個簇已經達到最終狀態,不可再分;當所有簇都不可再分時,算法終止,此時產生的聚類數量就不再需要人工指定了。

在HanLP中,repeated bisection算法提供了3種接口,分別需要指定k、beta或兩者同時指定。當同時指定k和beta時,滿足兩者的停止條件中任意一個算法都會停止。當只指定一個時,另一個停止條件不起作用。這三個接口列舉如下:

public List<Set<K>> repeatedBisection(int nclusters)public List<Set<K>> repeatedBisection(double limit_eval)public List<Set<K>> repeatedBisection(int nclusters, double limit_eval)

當我們使用analyzer.repeatedBisection(1.0)時,可以進行自動聚類。

from pyhanlp import * ClusterAnalyzer = SafeJClass('com.hankcs.hanlp.mining.cluster.ClusterAnalyzer') analyzer = ClusterAnalyzer() # 我們需要調用并返回自身analyzer.addDocument("趙一", "流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 藍調, 藍調, 藍調, 藍調, 藍調, 藍調, 搖滾, 搖滾, 搖滾, 搖滾"); analyzer.addDocument("錢二", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲"); analyzer.addDocument("張三", "古典, 古典, 古典, 古典, 民謠, 民謠, 民謠, 民謠"); analyzer.addDocument("李四", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 金屬, 金屬, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲"); analyzer.addDocument("王五", "流行, 流行, 流行, 流行, 搖滾, 搖滾, 搖滾, 嘻哈, 嘻哈, 嘻哈"); analyzer.addDocument("馬六", "古典, 古典, 古典, 古典, 古典, 古典, 古典, 古典, 搖滾");print(analyzer.repeatedBisection(1.0)) [[李四, 錢二], [王五, 趙一], [張三, 馬六]]

評測

評測程序仍然使用搜狗文本分類語料庫迷你版。過程為首先遍歷子目錄讀取文檔,以子目錄+文件名作為id將文檔傳入聚類分析器進行聚類,并且計算F1值返回。該計算過程已被原作者封裝為接口,我們可以直接調用

CORPUS_FOLDER = "/home/fonttian/Data/CNLP/textClassification/sogou-mini/搜狗文本分類語料庫迷你版" for i in ["kmeans", "repeated bisection"]:print(i, ClusterAnalyzer.evaluate(CORPUS_FOLDER, i) * 100) kmeans 83.97065954968313 repeated bisection 82.71523522720585

總結

以上是生活随笔為你收集整理的pyhanlp 文本聚类的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。