简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化
一、前言
最近寫得兩篇關于簡書的數據可視化文章:《簡書推薦作者風云榜(爬取簡書app數據)》、《我的簡書一月記:數據可視化》反響都還不錯,因而將繼續針對簡書進行數據分析和可視化。鑒于此前爬取手機app效率較低,本次重新回歸網頁數據的爬取。
爬取的對象是:今日看點專題下的“熱門”文章數據。一篇文章被編輯收入“今日看點”,即意味著作品將立刻登上首頁,得到很好曝光,為更多用戶所閱讀和喜歡。而本專題“熱門”一欄里,收錄著簡書上至今為止最炙手可熱、獲贊數最多的文章,針對這部分數據進行研究和分析,可以得知哪類文章最受簡書用戶喜歡,哪些作者創作了“高質量”的作品等信息。
二、數據獲取
上圖可知,目前今日看點收錄了148618篇文章, 共有30194人關注。原本想獲取所有的文章,但發現爬取到1900+篇時,就再也無法得到更多數據,可能簡書方面限制和保護了數據。
但根據這1916篇文章獲贊數降序可知,排名第一的文章,獲贊數為:17076;排名最后的為488。由此可見,簡書上最熱門的文章應該都已經獲取到了(后來發現其實并沒有,僅是部分,臉疼),基于此后續研究可以繼續展開。
三、數據可視化
1、年度月份分布情況
首先,我們來看看,截止目前,這些簡書上最熱門的文章都發布在何年何月?作為一名來到簡書一個多月的小透明,一直不知道簡書是何時“橫空出世”的,@簡叔、@簡寶玉可否解答下。
由下圖可知,最早的熱門文章出現于2014年5月,是@CNFeat創作的《如何搭建一個獨立博客——簡明Github Pages與Hexo教程》一文。(間接知道了簡書起碼是在三年前就已經存在了)。之后逐年遞增,猜測可能是新增用戶基數越來越多,平臺越來越為人所知,而且作品越來越好?所以熱門文章出現的越來越多。從2016年7月起,出現較大漲幅,并持續到2017年3月,每月熱門文章均在110篇以上。在今年的4月份起,持續四個月相對回落了許多。這部分不知道原因何在,難道是太熱了,大家創作欲望低迷?
2、24小時分布情況
接著看看發布時間情況,11點鐘文章最多,覺得蠻奇怪的,作為一只喜歡在晚上發布文章的小透明,原本覺得晚上才是創作的大好時光啊,11點鐘已經屬于飯點,難道是上午潛心創作,一天之計在于晨,將當天的寫作任務早早的完成,一身輕松?再是24小時都有人發布文章并成為熱點,可見鳥兒大了,什么林子都有啊。逃......
3、2017年熱門文章
看了那么多歷史的數據,那么到底今年有哪些熱門文章?到底作為一名普通的作者,該如何寫出廣受好評的文章呢?
篩選下本年度按獲贊數降序的文章,如圖,簡單瀏覽下標題,發現非常多設問的句式,想誘導人點擊閱讀,哪能不用“問號”呢!很多作者的經驗分享,或者稱作“教做人”的文章?而偏技術性的文章幾乎沒有,當然原因可能很多,個人也有個人的看法。不過對我來說,倒是可以努力寫寫數據分析和可視化的文章殺進去,占得一席之地。橫空出世,石破天驚,一鳴驚人,@Deserts_X,決定就是你了!咱們年末熱門文章見!
4、閱讀數、喜歡數與評論數
一篇文章的熱門程度,直觀地體現在喜歡數和評論數里,當然前提是有被大量閱讀。如圖可知,有一篇文章閱讀數遠遠高于所有的文章,那就是@簡叔的《簡友常見問題匯總》,作為簡書新手向的使用手冊,有此數據,也屬正常,雖然不知簡叔有多少用戶,但86w+的閱讀量估計是前無古人后無來者了。
再將目光移動到這篇官方文章之外,首先就能看到第二梯度,20w+閱讀量的文章也有近十篇,也是非常難以企及的戰績,雖然其中好幾篇的獲贊數稍顯“平庸”,(手動滑稽)。
換個角度,再看一遍。局部放大,看不到那些討人厭的神級數據后,覺得神清氣爽多了,努力努力應該還是有機會躋身其中的。
5、文章作者
有留心上文CSV截圖的,可以對這些文章都是誰寫的有了初步的了解。對所有作者進行統計,文章數量靠前的每人貢獻的情況如下,也是牛逼壞了。
第一名屬于簡書一哥@彭小六,共收錄了106篇文章。看來分析簡書數據永遠都避不開的一哥。
并列第二名的是@懷左同學和@韓大爺的雜貨鋪,均收錄了41篇文章。
所有799名作者都有一席之地,按照收錄文章數直觀的貢獻情況如下,最左邊和最上邊即為排名前十幾的作者情況:
切換成曲線圖,按降序排列,可見有一條貼近橫坐標,長長的曲線。大多數人無法貢獻熱門文章,能貢獻的人里大多數也只能有一兩篇驚艷之作。
799名作者中有84名為簽約作者,共貢獻625篇文章。不過不知道簡書現在到底有多少名簽約作者。單看此數據,熱門文章里非簽約作者占比也還是蠻大。
其他715名為非簽約作者,共貢獻1291篇文章:
將這1916篇文章對應的799名作者生成如下詞云,假如今日頭條想像簽走知乎300大V一樣來簽走簡書大V,大概可以參考此圖。逃......
單人貢獻5篇及以上熱門文章的,共有69名作者。
6、文章標題
不知道有多少人覺得簡書的文章太過雞湯,或者不熟悉簡書的人,是否直接就認為“簡書=雞湯”?那到底是不是這樣的呢,看看熱門文章都有哪些大概就能知道一二了。標題的數據上文CSV也有不少了,此處將所有標題直接丟一個在線詞云網站,看看都有哪些詞出現了:
什么、如何、書、英語、大學、推薦、自己、人、堅持、努力......這些詞所形成的語境,可以照見背后點贊的簡書用戶組成還是偏于年輕。雖然可能傷到一些人,但個人感覺一個不完全知道自己喜歡什么、有什么愛好、對學習和生活都沒有好的把控的人,或許更會汲汲于閱讀這些文章,當然這可能是每個人成長中必須經歷的過程,看這些文章可能也會有收獲,對自己有所指導,但是否又有很多人其實只是點個贊、收藏下,該如何的生活依舊如何的生活,下次看到類似的文章,依舊點進去,依舊退出來呢?
上面的詞云還是太過簡單粗暴,調用玻森NLP的API,獲取所有標題的詞頻排名前100的關鍵詞,返回結果如下:
沒有了雜亂無章的文字后,在精簡的詞云里,更可以看出,出現最頻繁的詞有:你、干貨、寫作、英語、推薦、大學、努力、書、讀書、人生、堅持、方法......嗯。
四、小結
所有假如你是一名非簡書用戶,看到這些詞云和標題,你覺得簡書是否等同于雞湯呢?又或者,你已經是一名簡書用戶,日常看到的文章,首頁上呈現的文章,對你來說又意味著什么呢?
非引戰,歡迎評論,共同探討想法。
總結
以上是生活随笔為你收集整理的简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化的全部內容,希望文章能夠幫你解決所遇到的問題。