日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢?

發布時間:2025/3/12 python 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前段時間做了新浪微博的主題劃分,結果還可以,上傳上來算是對之前的一個交代吧

數據集:

利用Gooseeker在新浪微博上爬取了2161個用戶,包括這些用戶間21368條相互間的關注關系,爬取了2161個新浪微博發布的微博數,粉絲數和關注數,單個用戶最近發布的300條微博,包括微博文本內容、微博的評論數和轉發數。

數據預處理:

1)

將單個用戶發布的300條微博整合成一個文檔

2)

對文檔進行噪音處理,去除‘@某用戶:’、‘我在這里:北京市’相類似的無用短語,再進一步去除特殊的標點符號;

3)

利用結巴分詞對文檔進行分詞工作;

4)

利用完善的停用詞表對文檔去除停用詞;

5)

得到的結果準備進行LDA主題劃分

參數設置:

用戶發布的微博內容文檔進行LDA主題劃分時,根據Griffiths

& Steyvers(2004)對主題模型參數設置的研究,將實驗參數設置為經驗值,主題設為50個,吉布斯采樣迭代次數設置為100次。

劃分結果:

在每個主題內部根據詞語概率高低進行主題詞排序,選擇具有最高概率的10個詞語評估話題挖掘效果。下表所示是取了LDA模型結果中前10個話題及其關鍵詞。

話題 話題關鍵詞

Topic1 推薦 知乎 紀錄片 年 下載 閱讀 文章 作者 英語 豆瓣

Topic2 手機 三星 蘋果 小米 發布 元 屏幕 支持 曝光 產品

Topic3 點 股 市場 股市 股票 經濟 投資 資金 交易

Topic4 孩子 歲 人 男子 年 元 老人 網友 請 女孩

Topic5 人 工作 寫 老師 好 學習 看到 發現 時間 大學

Topic6 錘子 收集 科技 堅果 發布會 關注 羅永浩 新品 老羅 版

Topic7 電影 看過 春晚 真是 節目 看到 來自 電視劇 觀眾 演員

Topic8 深圳 萬 中國 城市 房價 政策 銀行 元 人 改革 錢

Topic9 成都 重慶 西安 事 身邊 吃 地鐵 網友 路 南昌

Topic10 公司 年 互聯網 市場 技術 新 企業 創新 未來 產品這是最直觀的結果,還有其他主題-詞,文檔-主題的概率分布就比較繁雜,不做上傳了,就是結果還可以,當然因為做的方向不是這個方向,所以也就是湊合玩玩的態度~

心得體會:

GooSeeker真的是業界良心,沒有話說的,個人覺得很是方便的網頁數據采集器,當然效率有待提高

python的包功能也是真的強大,還有網上一些大神的代碼能力以及注釋都讓人嘆為觀止,不錯不錯的

越是純粹的東西越是讓人印象深刻,這些東西做出來感覺還是很好的

———————————————————————————————

GitHub - a55509432/python-LDA: lda模型的python實現

我最近也要做。。參考這個吧,完了做出來效果再來溝通

樓主要是有什么心得體會可以分享溝通就更好!

總結

以上是生活随笔為你收集整理的lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。