lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢?
前段時(shí)間做了新浪微博的主題劃分,結(jié)果還可以,上傳上來算是對之前的一個(gè)交代吧
數(shù)據(jù)集:
利用Gooseeker在新浪微博上爬取了2161個(gè)用戶,包括這些用戶間21368條相互間的關(guān)注關(guān)系,爬取了2161個(gè)新浪微博發(fā)布的微博數(shù),粉絲數(shù)和關(guān)注數(shù),單個(gè)用戶最近發(fā)布的300條微博,包括微博文本內(nèi)容、微博的評論數(shù)和轉(zhuǎn)發(fā)數(shù)。
數(shù)據(jù)預(yù)處理:
1)
將單個(gè)用戶發(fā)布的300條微博整合成一個(gè)文檔
2)
對文檔進(jìn)行噪音處理,去除‘@某用戶:’、‘我在這里:北京市’相類似的無用短語,再進(jìn)一步去除特殊的標(biāo)點(diǎn)符號;
3)
利用結(jié)巴分詞對文檔進(jìn)行分詞工作;
4)
利用完善的停用詞表對文檔去除停用詞;
5)
得到的結(jié)果準(zhǔn)備進(jìn)行LDA主題劃分
參數(shù)設(shè)置:
用戶發(fā)布的微博內(nèi)容文檔進(jìn)行LDA主題劃分時(shí),根據(jù)Griffiths
& Steyvers(2004)對主題模型參數(shù)設(shè)置的研究,將實(shí)驗(yàn)參數(shù)設(shè)置為經(jīng)驗(yàn)值,主題設(shè)為50個(gè),吉布斯采樣迭代次數(shù)設(shè)置為100次。
劃分結(jié)果:
在每個(gè)主題內(nèi)部根據(jù)詞語概率高低進(jìn)行主題詞排序,選擇具有最高概率的10個(gè)詞語評估話題挖掘效果。下表所示是取了LDA模型結(jié)果中前10個(gè)話題及其關(guān)鍵詞。
話題 話題關(guān)鍵詞
Topic1 推薦 知乎 紀(jì)錄片 年 下載 閱讀 文章 作者 英語 豆瓣
Topic2 手機(jī) 三星 蘋果 小米 發(fā)布 元 屏幕 支持 曝光 產(chǎn)品
Topic3 點(diǎn) 股 市場 股市 股票 經(jīng)濟(jì) 投資 資金 交易
Topic4 孩子 歲 人 男子 年 元 老人 網(wǎng)友 請 女孩
Topic5 人 工作 寫 老師 好 學(xué)習(xí) 看到 發(fā)現(xiàn) 時(shí)間 大學(xué)
Topic6 錘子 收集 科技 堅(jiān)果 發(fā)布會(huì) 關(guān)注 羅永浩 新品 老羅 版
Topic7 電影 看過 春晚 真是 節(jié)目 看到 來自 電視劇 觀眾 演員
Topic8 深圳 萬 中國 城市 房價(jià) 政策 銀行 元 人 改革 錢
Topic9 成都 重慶 西安 事 身邊 吃 地鐵 網(wǎng)友 路 南昌
Topic10 公司 年 互聯(lián)網(wǎng) 市場 技術(shù) 新 企業(yè) 創(chuàng)新 未來 產(chǎn)品這是最直觀的結(jié)果,還有其他主題-詞,文檔-主題的概率分布就比較繁雜,不做上傳了,就是結(jié)果還可以,當(dāng)然因?yàn)樽龅姆较虿皇沁@個(gè)方向,所以也就是湊合玩玩的態(tài)度~
心得體會(huì):
GooSeeker真的是業(yè)界良心,沒有話說的,個(gè)人覺得很是方便的網(wǎng)頁數(shù)據(jù)采集器,當(dāng)然效率有待提高
python的包功能也是真的強(qiáng)大,還有網(wǎng)上一些大神的代碼能力以及注釋都讓人嘆為觀止,不錯(cuò)不錯(cuò)的
越是純粹的東西越是讓人印象深刻,這些東西做出來感覺還是很好的
———————————————————————————————
GitHub - a55509432/python-LDA: lda模型的python實(shí)現(xiàn)
我最近也要做。。參考這個(gè)吧,完了做出來效果再來溝通
樓主要是有什么心得體會(huì)可以分享溝通就更好!
總結(jié)
以上是生活随笔為你收集整理的lda主题评论文本python_利用python做LDA文本分析,该从哪里入手呢?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机控制技术实际PID控制,计算机控制
- 下一篇: 用python定位手机_使用Python