如何利用计算机做主题模型,利用概率主题模型的微博热点话题发现方法-计算机系统应用.PDF...
利用概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法-計(jì)算機(jī)系統(tǒng)應(yīng)用
2014 年 第 23 卷 第 8 期 計(jì) 算 機(jī) 系 統(tǒng) 應(yīng) 用
①
利用概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法
1 2
米文麗 , 孫曰昕
1(隴東學(xué)院 信息工程學(xué)院, 慶陽(yáng) 745000)
2(西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 蘭州 730070)
摘 要: 微博具有長(zhǎng)度短、實(shí)時(shí)傳播、結(jié)構(gòu)復(fù)雜以及變形詞多等特點(diǎn), 傳統(tǒng)的向量空間模型(VSM)文本表示方法
和隱含語(yǔ)義分析(LSA)無(wú)法很好的對(duì)其進(jìn)行建模. 提出了一種基于概率潛在語(yǔ)義分析(pLSA)和 K 均值聚類
(Kmeans) 的二階段聚類算法, 此外通過(guò)定義微博熱度分析和排序, 有效地支持微博熱點(diǎn)話題發(fā)現(xiàn). 實(shí)驗(yàn)表明, 此
方法能有效地進(jìn)行話題聚類并檢測(cè)出熱點(diǎn)話題.
關(guān)鍵詞: 概率潛在語(yǔ)義分析; 話題發(fā)現(xiàn); 微博; Kmeans
Microblog Hot Topics Discovery Method Based on Probabilistic Topic Model
1 2
MI Wen-Li , SUN Yue-Xin
1(College of Information Engineering, Longdong University, Qingyang 745000, China)
2(College of Computer Science & Engineering, Northwest Normal University, Lanzhou 730070, China)
Abstract: Microblog has the characteristic of short length, complex structure and words deformation. Therefore,
traditional vector space model (VSM) and latent semantic analysis (LSA) are not suitable for modeling them. In this
paper, a two stage clustering algorithm based on probabilistic latent semantic analysis (pLSA) and Kmeans clustering
(Kmeans) is proposed. Besides, this paper also presents the definition of popularity and mechanism of sorting the topics.
Experiments show that our method can effectively cluster topics and be applied to microblog hot topic detection.
Key words: probabilistic latent semantic analysis; topic detection; microblog; Kmeans
近年來(lái),在互聯(lián)網(wǎng)上蓬勃發(fā)展的微博客(微博)越來(lái) 的 Twitter 上的檢索日志和傳統(tǒng)搜索引擎上的檢索日
越多地引起了人們的關(guān)注. 微博從傳統(tǒng)的社交網(wǎng)絡(luò)中 志, 對(duì)微博上的搜索和傳統(tǒng)的 Web 搜索做了一個(gè)完善
脫胎而出,在擁有了獨(dú)立的服務(wù)平臺(tái)后逐漸演化為一 而全面的對(duì)比, 發(fā)現(xiàn) Twitter 用戶傾向于去搜索時(shí)間相
種新的信息發(fā)布形式. 關(guān)的信息, 比如爆炸性的新聞和一些當(dāng)前的流行趨勢(shì);
然而, 微博數(shù)據(jù)主要由普通用戶產(chǎn)生, 無(wú)論是用 Neil[6]認(rèn)為 Twitter 是對(duì)整個(gè)社會(huì)事實(shí)的反應(yīng),可以從中
詞、形式還是具
總結(jié)
以上是生活随笔為你收集整理的如何利用计算机做主题模型,利用概率主题模型的微博热点话题发现方法-计算机系统应用.PDF...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 从左边列表复制到右边列表html,JQ实
- 下一篇: 王道计算机考研 计算机组成原理 第一章、