深度学习核心技术精讲100篇(五十一)-Spark平台下基于LDA的k-means算法实现
生活随笔
收集整理的這篇文章主要介紹了
深度学习核心技术精讲100篇(五十一)-Spark平台下基于LDA的k-means算法实现
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本文主要在Spark平臺下實現一個機器學習應用,該應用主要涉及LDA主題模型以及K-means聚類。通過本文你可以了解到:
-
文本挖掘的基本流程
-
LDA主題模型算法
-
K-means算法
-
Spark平臺下LDA主題模型實現
-
Spark平臺下基于LDA的K-means算法實現
1.文本挖掘模塊設計
1.1文本挖掘流程
文本分析是機器學習中的一個很寬泛的領域,并且在情感分析、聊天機器人、垃圾郵件檢測、推薦系統以及自然語言處理等方面得到了廣泛應用。
文本聚類是信息檢索領域的一個重要概念,在文本挖掘領域有著廣泛的應用。文本聚類能夠自動地將文本數據集劃分為不同的類簇,從而更好地組織文本信息,可以實現高效的知識導航與瀏覽。
本文選擇主題模型LDA(Latent Dirichlet Allocation)算法對文檔進行分類處理,選擇在Spark平臺上通過Spark MLlib實現LDA算法,其中Spark Mllib是Spark提供的機器學習庫,該庫提供了常用的機器學習算法。其基本設計思路如下圖所示:
1.2文本挖掘流程分析
首先是數據源部分,主要的數據包括文檔數據和互聯網爬蟲數據。然后是數據抽取
總結
以上是生活随笔為你收集整理的深度学习核心技术精讲100篇(五十一)-Spark平台下基于LDA的k-means算法实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (纯干货)万字长文,数据分析利器 pan
- 下一篇: MATLAB实战系列(三十三)-技术和医