日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

手把手:R语言文本挖掘和词云可视化实践

發(fā)布時間:2025/3/20 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 手把手:R语言文本挖掘和词云可视化实践 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

互聯(lián)網(wǎng)時代,大量的新聞信息、網(wǎng)絡(luò)交互、輿情信息以文本形式存儲在數(shù)據(jù)庫中,如何利用數(shù)據(jù)分析和文本挖掘的算法,將海量文本的價值挖掘出來,成為我們團隊近期的一個研究方向,本案例就是我們的一個初步嘗試。飛信群是我們在工作、生活中交流的重要平臺,在將近一年的時間里共產(chǎn)生了幾萬條的聊天記錄,展現(xiàn)了我們這個團隊的方方面面。


本文將通過KNIME、R語言和tagxedo三個工具來實現(xiàn)文本挖掘和詞云可視化技術(shù),體驗一下輿情分析的魅力。


一、數(shù)據(jù)導(dǎo)入

數(shù)據(jù)源:201410—20157月的飛信群全部聊天記錄:


圖一 原數(shù)據(jù)示例


通過KNIME進行原始聊天記錄文件的結(jié)構(gòu)化轉(zhuǎn)換,提取文件中發(fā)言人、發(fā)言時間和發(fā)言內(nèi)容三個字段,并保存為csv文件。


圖二 KNIME的流程


R語言的語句:

log <- read.csv('feixin.csv', sep=",", essay-header=FALSE) #數(shù)據(jù)導(dǎo)入并保存為log對象


二、發(fā)言熱度分布

通過熱力圖,我們可以看到大家聊天的熱情在201412月最為高漲,而2015年的2月由于春節(jié)原因,群里冷冷清清了好久。周末2天的空檔期也展現(xiàn)的很清晰哦。

R語言的語句:

require(plyr)

time <- as.POSIXlt(log$V3,origin = '1970-1-1 00:00:00' ,format="%Y-%m-%d %H:%M:%S") #設(shè)置日期格式

cbind(format(time,"%Y-%m"),format(time,"%d"))->day_table #生成發(fā)言時間分布表

as.data.frame(day_table)->day_table #轉(zhuǎn)換數(shù)據(jù)框格式

table(day_table)->day_m #生成日期列聯(lián)表

heatmap(day_m,Rowv=NA,Colv=NA,scale = "column",col=brewer.pal(4,"Blues"),revC = TRUE)

#繪制按日發(fā)言量的熱力圖,藍(lán)色越深代表發(fā)言熱度越高。


圖三 熱度分析


三、個人發(fā)言習(xí)慣分析

誰最能說?通過條形圖可以清晰的看到大家發(fā)言的頻率對比,一目了然。

R語言的語句:

require(plyr)

require(ggplot2)

name=log$V2 #獲取發(fā)言人姓名字段

table(name)->t_name #生成按姓名出現(xiàn)頻率的列聯(lián)表

as.data.frame(t_name)->t_name #轉(zhuǎn)換為數(shù)據(jù)框格式

gg = ggplot(t_name)

gg+geom_bar(aes(x=reorder(name,Freq),y=Freq,fill=name),stat="identity",position="dodge")+coord_flip()+theme(axis.title=element_text(size=18,color="blue"),axis.text=element_text(family='A',size=22,color="black")) ggplot擴展包繪制條形圖


圖四 發(fā)言量分析

注:因為涉及個人隱私所以把圖上10個人的名字都隱去了

有趣的來了,看看我們每個人喜歡在什么時間說話吧。大家都是有兩個發(fā)言高峰,一個是上午10點,一個是下午4點左右,而中午12點是一個明顯的午休靜默期。另外可以看到,有些童鞋在上午說話的頻率高于下午,有些則正相反。


R語言的語句:

require(plyr)

time <- as.POSIXlt(log$V3,origin = '1970-1-1 00:00:00' ,format="%Y-%m-%d %H:%M:%S")

#設(shè)置日期格式

hour <- format(time,'%H') #提取日期值中的小時數(shù)

hour_name <- as.data.frame(cbind(log$V2,hour))

count(hour_name,V1,hour)->hour_table #計算每人按小時發(fā)言的頻次

as.character(hour_name$hour)->hour_name$hour

as.numeric(hour_name$hour)->hour_name$hour #小時字段轉(zhuǎn)換為數(shù)字格式

gg=ggplot(hour_name)

gg+ geom_density(aes(x=hour,fill=V1))+facet_wrap(~V1) +theme( strip.text=element_text(family='A',size=18,color="black"),axis.text=element_text(family='A',size=16,color="black")) #通過ggplot擴展包繪制基于發(fā)言時間段分布的面積圖


圖五 發(fā)言時間分布

注:因為涉及個人隱私所以把圖上10個人的名字都隱去了


四、詞云可視化

震撼的來了,看看這一年大家最關(guān)心什么?討論最多的是什么?有什么有趣的話題呢?為了和團隊的LOGO呼應(yīng),選用大象輪廓的詞云圖,效果棒棒噠。


R語言的語句:

require(tm)

require(Rwordseg)

gsub("[0-9,a-z,A-Z]", "", log$V1)->t #去除英文和數(shù)字

segmentCN(t)->t_seg #中文分詞

removeWords(unlist(t_seg),mystopword)->word #去除停用詞

word = lapply(X = word, FUN = strsplit, " ") #將分詞結(jié)果按空格分隔整理

v = table(unlist(word)) #計算每個單詞的詞頻

v = sort(v, decreasing = T) #按降序排列

d = data.frame(word = names(v), freq = v) #將詞頻矩陣轉(zhuǎn)換為數(shù)據(jù)框格式

d$word=as.character(d$word) #將單詞字段規(guī)整為字符串格式

rbind(d[nchar(d$word)==1,][1:10,],d[nchar(d$word)==2,][1:20,],d[nchar(d$word)>3,][1:20,])->result_r #提取不同字?jǐn)?shù)的單詞中詞頻最高的TOP50單詞,作為詞云繪制的素材

write.table(result_r,"result.csv",sep=",",row.names = FALSE) #保存結(jié)果為csv文件


通過一款開源的詞云可視化工具tagxedo,將導(dǎo)出的詞頻矩陣?yán)L制為各種形狀的詞云圖。


圖六 團隊詞云


看看,除了對“數(shù)據(jù)、互聯(lián)網(wǎng)的關(guān)心是天經(jīng)地義的,我們說的最多的竟然是,名副其實的吃貨團隊,民以食為天嘛。周報赫然醒目也是醉了,其它的高頻詞都和工作息息相關(guān),實驗室工程師,還有平臺、服務(wù)器、數(shù)據(jù)庫,真心是學(xué)習(xí)型聊天群啊。最開心的要數(shù)哈哈哈,證明我們的工作也是歡笑多多,其樂無窮的。


想看到每位童鞋的詞云有什么不同么?


圖七 個體詞云一


爽朗的“哈哈哈,憤怒的啊啊啊,最擅用“[圖片]”在群里展現(xiàn)心情。致我們的美女?dāng)?shù)據(jù)分析師,也是團隊大象logo的設(shè)計者。


下面重磅推出我們的首席數(shù)據(jù)科學(xué)家,瞧瞧科學(xué)家的世界與我們是多么的不同。竟然……基本都是英文術(shù)語。


圖八個體詞云二


五、建模流程

下面用一張圖簡單回顧一下本文實現(xiàn)的建模過程:


圖九 整體分析思路

希望上面的案例分析能幫助大家更好的理解文本挖掘和輿情分析可視化的一些分析思路和呈現(xiàn)方式,我們也會盡力挖掘更多的創(chuàng)意,制作更好的產(chǎn)品呈現(xiàn)給大家,謝謝!。


原文發(fā)布時間為:2015-09-18

本文來自云棲社區(qū)合作伙伴“大數(shù)據(jù)文摘”,了解相關(guān)信息可以關(guān)注“BigDataDigest”微信公眾號

總結(jié)

以上是生活随笔為你收集整理的手把手:R语言文本挖掘和词云可视化实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 看一级黄色大片 | 亚洲欧洲综合在线 | 亚洲国产区| 欧美一区二区三区色 | 亚洲爆乳无码精品aaa片蜜桃 | 国产天天骚| 欧美偷拍一区二区三区 | 日韩欧美精品国产 | 人妻精品一区二区在线 | 少妇一级淫片免费放2 | 超碰caoprom | 视频一区二区免费 | 免费看污视频的网站 | 亚洲交性网 | 欧美一区二区激情 | 黄色片在线免费看 | 77777av| 亚洲毛片视频 | 色欧美亚洲 | 天天插天天操天天干 | 97在线免费公开视频 | 日韩极品在线 | 伊人免费视频二 | 日韩逼 | 四虎婷婷 | 亚洲一级av毛片 | 老熟妇高潮一区二区三区 | 国模在线观看 | 免费久久精品 | 免费高清黄色 | 韩国一区二区在线观看 | 国产毛片18 | 天天艹日日干 | 欧美一区二区三区 | 爆乳熟妇一区二区三区 | 久久春色 | 日本不卡一区在线观看 | 一级全黄男女免费大片 | 伊人精品在线 | 亚洲欧美激情另类 | 无码人妻aⅴ一区二区三区69岛 | 日本美女动态图 | 免费一级毛片麻豆精品 | 欧美区一区二区 | 色成人综合 | 欧美女人交配视频 | 浪浪视频污 | 成年人免费黄色片 | 青草91| 色xxxxxx | 麻豆综合 | av男人资源 | aaa亚洲 | 激情福利视频 | 国产美女自拍视频 | 欧美日韩不卡一区二区三区 | 好大好爽好舒服 | 五月天丁香激情 | av天天射| 无码人妻丰满熟妇啪啪欧美 | 久久久亚洲精品无码 | 国产制服丝袜在线 | 欧美日本在线播放 | 亚洲欧美视频在线播放 | 中国免费黄色片 | 欧美日韩网站 | 亚洲成人免费在线 | 色中文字幕在线观看 | fc2ppv色の美マンに中出し | 在线视频观看国产 | 成人动漫在线观看免费 | 99国产精品久久 | 色婷综合| 欧美性猛交xxxx偷拍洗澡 | a级片日本 | 蜜臀在线一区二区三区 | 亚洲视频在线免费看 | 日韩人妻一区二区三区 | 中文字幕网站 | 色播激情网 | 国产成人精品久久久 | 亚洲成人系列 | 中文字幕一区二区三区四区 | 九九热国产 | 精品亚洲国产成人av制服丝袜 | 99国产精品99久久久久久粉嫩 | 午夜视频久久 | 加勒比综合网 | 久久综合中文 | 日韩污视频 | 91福利视频在线 | 97香蕉碰碰人妻国产欧美 | 国产精品熟妇人妻g奶一区 a少妇 | 日韩在观看线 | 欧美三级色图 | 99资源网 | 性色av无码久久一区二区三区 | 日韩久久中文字幕 | 欧美黄页网站 |