當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第07课：动手实战基于 ML 的中文短文本聚类

發布時間：2024/1/23 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了第07课：动手实战基于 ML 的中文短文本聚类小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

關于文本聚類，我曾在 Chat《NLP 中文文本聚類之無監督學習》中介紹過，文本聚類是將一個個文檔由原有的自然語言文字信息轉化成數學信息，以高維空間點的形式展現出來，通過計算哪些點距離比較近，從而將那些點聚成一個簇，簇的中心叫做簇心。一個好的聚類要保證簇內點的距離盡量的近，但簇與簇之間的點要盡量的遠。

如下圖，以 K、M、N 三個點分別為聚類的簇心，將結果聚為三類，使得簇內點的距離盡量的近，但簇與簇之間的點盡量的遠。

開發環境，我們選擇：：

Windows 系統

Python 3.6

Jupyter Notebook

本文繼續沿用上篇文本分類中的語料來進行文本無監督聚類操作。

整個過程分為以下幾個步驟：

語料加載
分詞
去停用詞
抽取詞向量特征
實戰 TF-IDF 的中文文本 K-means 聚類
實戰 word2Vec 的中文文本 K-means 聚類

下面開始項目實戰。

1. 首先進行語料加載，在這之前，引入所需要的 Python 依賴包，并將全部語料和停用詞字典讀入內存中。

第一步，引入依賴庫，有隨機數庫、ji

總結

以上是生活随笔為你收集整理的第07课：动手实战基于 ML 的中文短文本聚类的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：第08课：从自然语言处理角度看 HMM
下一篇：第06课：动手实战基于 ML 的中文短文