就国内某个程序员问答网站的简单的分析
為什么80%的碼農都做不了架構師?>>> ??
一、數據抓取
分析頁面數據,設計數據表結構
數據只要包含投票、回答數、問題狀態、最后誰回答過、瀏覽數、問題標題、標簽,數據樣例如下:
由于一開只打算爬問題標題,問題ID、問題詳情也沒有記錄下來,最后誰回答過也不算很重要。
最后使用python的urllib2抓取數據,BeautifulSoup對數據進行數據解析,mysql存取數據
寫好代碼就開始跑,由于頁面沒有限制,幾分鐘就全部抓完,或許是問題比較少,2011至今總有3.8W問題,這個還是有點失望的。
二、數據分析
? 數據只有那么幾項,到底能分析出什么呢?
? Excel作圖,下表為數據說明:
| 變量 | answers | views | question_count | solved | votes |
| 含義 | 回答數 | 瀏覽量 | 問題數量 | 解決 | 投票量 |
1.問題投票分布
? ?不出意外的正太分布,似乎程序猿并不喜歡對問題進行投票,除非遇到自己特別認可或者特別厭惡的。比起stackoverflow上的情況似乎是要差點。
2.問題回答數量分布
? ? ?從上圖看以看出,回答數量集中在0-3個;而0-3個占總量的70%+。
3.問題瀏覽分布
? ? 比較神奇的是0-1000瀏覽量的問題數非常少,問題的排列使用的是:提問時間+最后有人回答過(貼吧式),這樣做,只要有人回答問題沉下去就會繼續頂起來。那么部分經典問題就會不斷被瀏覽到;而有少數問題質量比較差,馬上就會沉下去,如圖中X軸200左右處。比較好奇的是:從整體上看,0-1000內瀏覽量的問題數相當少,1000左右處出現一個陡坡。
4.回答數量與瀏覽數量關系
? ? 首先需要說明的是上圖X軸每個點樣例數不一樣(不同回答數的問題數量不一樣),Y軸為平均views數;從圖中看出回答數量和瀏覽量整體是成正比((X>5的樣例比較少)
5.問題解決情況
6.大家都在關注什么
最后使用jieba分詞對問題進行簡單的分析,上面標簽云為部分英文單詞,并不區分大小。發現一個結論是??英文中PHP詞頻排第一。????額,好吧,我葉良辰也是服了。?
三、最后
根據已有的數據,還可以挖掘一些數據,諸如:
什么樣的問題容易有更多人回答?
你編程入門時候學的語言是什么? 求助大神幫忙推薦一款適合前端小白的編輯器? 【官方比賽】社區?1111?秀代碼,讓你來秀讓你飛! 大家第一個閱讀的開源代碼是什么? 你最喜歡的開發工具是什么? 求推薦PHP框架,本人有一定PHP基礎。 理解能力差、數學很差的人可以做程序員嗎 百度面試題-汽水選擇問題 說說你覺得最狂霸酷炫屌炸天的命令 程序員高強度編程后如何放松?什么的問題容易被人厭惡?
等等,不過還是想再吐槽一次,問題總數量實在太少了。
最后的最后,提一下我發現的一個BUG,就有幾個問題的回答數量為0,但問題已經解決,我試點開某個BUG問題看看情況,結果如下:
逗我玩呢?!
轉載于:https://my.oschina.net/toil/blog/521507
總結
以上是生活随笔為你收集整理的就国内某个程序员问答网站的简单的分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【rman】list archivelo
- 下一篇: ActiveX: 如何用.inf和.oc