基于豆瓣哈哈哈哈哈哈小组的数据分析研究
目錄
1. 引言
2. 方法
3. 數(shù)據(jù)與結(jié)果分析
4. 結(jié)論與展望
參考文獻(xiàn)
純屬興趣研究,曾發(fā)于豆瓣哈組。
豆瓣哈組爬蟲地址:https://github.com/Captain-F/DoubanHahahaScraper
摘要:本文對豆瓣哈哈哈哈哈哈小組建組以來的帖子進(jìn)行數(shù)據(jù)分析,挖掘好哈的帖子所具有的特征,并進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)好哈的帖子長度不宜過長,需要有配圖,并且插圖數(shù)量適中。同時(shí),本文還對帖子進(jìn)行了其他數(shù)據(jù)分析。
關(guān)鍵詞:快樂;哈哈哈;數(shù)據(jù)分析
1. 引言
“哈哈哈哈哈”不僅是一種大笑、一種快樂,還是我們在工作中釋放壓力、生活中排解和緩解負(fù)面情緒的一種直接和有效的方式。當(dāng)前,普通民眾受新冠病毒的影響,基本都宅在家中,生活會(huì)比較單調(diào)、乏味和無聊,而一些能夠讓人“哈哈哈哈哈”的帖子既能夠給大家?guī)砜鞓?#xff0c;也能舒緩因疫情影響而緊繃的神經(jīng)[1]。回想當(dāng)初入組時(shí)的申請理由,“我想生活中能夠多一些哈哈哈哈哈哈”。入組后,筆者在哈組中確實(shí)收獲了不少快樂。但秉著“共同哈哈哈哈哈”的想法,在自己快樂的同時(shí),也要給別人帶來快樂。筆者給哈組貢獻(xiàn)了零星的帖子,但似乎讓其他的哈er收獲不到快樂,還是有那么點(diǎn)的小小的難過(哈哈哈)。基于自身研究方向,筆者想著,什么樣的帖子最能讓大家歡樂?這樣的帖子又有什么樣的數(shù)據(jù)特征呢?在本文中,筆者對建組以來的帖子進(jìn)行了數(shù)據(jù)分析和可視化研究。
本文的其余部分安排如下。第二部分描述了本研究所用的方法。第三部分則是實(shí)驗(yàn)結(jié)果與分析。第四部分是總結(jié)與展望。
2. 方法
本文所用的方法可分為兩個(gè)部分,分別是數(shù)據(jù)采集和數(shù)據(jù)分析。總的來說,本哈er首先寫了一個(gè)爬蟲代碼,爬取了自建組以來的所有哈貼,生成csv表,并對其進(jìn)行去重。之后,利用自然語言處理和數(shù)據(jù)可視化方法,對過濾后的數(shù)據(jù)進(jìn)行不同維度的分析。
3. 數(shù)據(jù)與結(jié)果分析
3.1數(shù)據(jù)
筆者爬取了從2018年6月6日(哈組第一帖)到2020年2月1日時(shí)間段內(nèi)所發(fā)的所有哈貼。爬取的字段包括:發(fā)帖時(shí)間、帖子名稱、帖子內(nèi)容、回帖內(nèi)容、回應(yīng)數(shù)、帖子中圖片數(shù)、發(fā)帖用戶id、發(fā)帖用戶名稱、帖子url,共計(jì)八個(gè)字段。其中,回帖的內(nèi)容指用戶對帖子的直接回復(fù),用戶對某個(gè)的帖子的評論進(jìn)行回應(yīng),不記錄回應(yīng)內(nèi)容中。帖子中圖片數(shù)指,用戶在帖子所插入的圖片或gif圖數(shù)量的總和。最后,共爬取1, 923, 224條帖子及回應(yīng),經(jīng)過過濾,共獲得1, 920, 647帖子及回應(yīng)。其中,帖子數(shù)為81, 947,回應(yīng)數(shù)為1, 838, 700.
3.2結(jié)果分析
3.2.1 哈帖內(nèi)容分析
圖1是對哈帖內(nèi)容的進(jìn)行展示的詞云圖。從圖中可以看出,“哈哈哈”甚是顯眼,充分體現(xiàn)了組內(nèi)的發(fā)帖核心思想。
圖1 哈帖詞云圖
3.2.2 什么樣的帖子會(huì)比較好哈?
哈哈哈哈哈組發(fā)的帖子,都以文本、圖片(gif)或文本結(jié)合圖片的方式為主。那么好哈的帖子和文本長度、插入圖片數(shù)會(huì)有什么相關(guān)關(guān)系呢? 從圖2的散點(diǎn)圖可以看出,好哈的帖子多集中在字符長度為0~1000的帖子中,且當(dāng)帖子字符增多,回應(yīng)數(shù)總體呈下降的趨勢。
圖2 帖子長度同回應(yīng)數(shù)之間的散點(diǎn)圖
從圖3的散點(diǎn)圖可以更明顯的看出,好哈的帖子多集中在[0, 50]區(qū)間的左半?yún)^(qū),且當(dāng)帖子的配圖數(shù)逐步增多,回應(yīng)數(shù)總體呈下降趨勢。
圖3 插圖數(shù)量同回應(yīng)數(shù)量關(guān)系圖
在文本,圖片以及文本結(jié)合圖片這三種發(fā)帖方式中,哪種方式的發(fā)帖會(huì)更流行呢,獲回應(yīng)數(shù)也更多呢?從圖4中可以看出,以圖片為發(fā)帖方式的占比最大,其次是文本加圖片,最后是文本。但是發(fā)帖獲得回應(yīng)數(shù)這一指標(biāo)來看,文本加圖片的發(fā)帖方式更受用戶青睞,其次是圖片,最后是純文本。從可哈性的角度來說,以文本結(jié)合圖片或者圖片的方式發(fā)帖,更容易讓大家快樂起來。
圖4 不同發(fā)帖方式占比及獲回應(yīng)數(shù)占比
總的來說,好哈的帖子長度不宜過長,需要有配圖,并且插圖數(shù)量適中。(有點(diǎn)像廢話)
3.2.3 誰在哈組發(fā)帖最多呢?
從圖5中可以看出,尬聊師、費(fèi)楠多和陰晴位列發(fā)帖量前三甲。其中,尬聊師個(gè)人在哈組發(fā)帖貢獻(xiàn)量達(dá)1414,獨(dú)一檔!之后,筆者訪問了前三者的個(gè)人主頁,發(fā)現(xiàn)其在豆瓣中也是非常活躍的用戶。
圖5 哈組中發(fā)帖數(shù)量前三甲
3.2.4 誰投的帖子比較好哈呢?
圖6中排名第一的帖子從“哈效果”上來說,并不是很好,但在趣味性和互動(dòng)性上,是非常好的帖子。排名的第二帖子是個(gè)討論帖,如果嚴(yán)格按照組規(guī)來說的話,此帖是不符合要求的,但此貼所提及的事也是引發(fā)了廣泛的社會(huì)影響。排名第三的帖子是實(shí)至名歸,真的很好哈!!!哈哈哈哈哈哈哈哈哈。圖7是排名4-8的帖子。
圖6 獲回應(yīng)數(shù)量前三的哈帖
圖7 獲回應(yīng)數(shù)量排名4-8的帖子
3.2.5本組中一共有多少精華貼呢?
截止2020.2.1,精華帖數(shù)量為61!!!(哈中哈,管理員加精還蠻嚴(yán)格的)
3.2.6 本組的哈貼產(chǎn)量怎么樣?
從圖8可以看出,2018年哈組“創(chuàng)業(yè)起步”比較困難,但6月之后,組內(nèi)發(fā)帖數(shù)量攀升。至10月,發(fā)帖數(shù)量開始下降。
圖8 2018年哈貼產(chǎn)量
步入至2019年,哈組發(fā)貼數(shù)量基本成上升態(tài)勢,并于2019年12月,發(fā)帖量成功突破10, 000大關(guān)。
圖9 2019年哈帖產(chǎn)量
3.2.7 組內(nèi)哈er的“哈哈哈哈哈”輸出量怎么樣?
本組中回應(yīng)區(qū)內(nèi)共輸出8, 838, 199次哈,平均每帖輸出108個(gè)哈!
圖10 哈er總哈數(shù)
其中哈組成員“不歪の太”哈出了天際,在此貼中,共輸出3591個(gè)哈!堪稱本組最能哈的選手!!!
圖11 最長哈輸出
4. 結(jié)論與展望
本文對建組以來以來的哈帖進(jìn)行了簡單的數(shù)據(jù)分析,并將帖子回應(yīng)數(shù)同帖子中字符長度和插圖數(shù)進(jìn)行了關(guān)聯(lián)分析。此外,本文還對哈帖做出了其他的數(shù)據(jù)分析。未來的研究中,可以將組內(nèi)發(fā)帖用戶特征融入,從而獲得更為有趣的發(fā)現(xiàn)。
哈哈哈哈哈組是一個(gè)快樂、有趣的小組,是大家分享和傳遞快樂的地方。當(dāng)下很艱難,但一定會(huì)好起來,武漢加油,中國加油。
參考文獻(xiàn)
[1] 盛玉雷. 人人有責(zé), 疫情防控從我做起. 人民日報(bào), 2020-02-11 (15).
?
總結(jié)
以上是生活随笔為你收集整理的基于豆瓣哈哈哈哈哈哈小组的数据分析研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python切割图集
- 下一篇: 调和分析