日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计了50万人的身高数据才发现:大家都爱虚报身高

發布時間:2024/9/27 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 统计了50万人的身高数据才发现:大家都爱虚报身高 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者

二胖并不胖


來源

大數據前言


已獲原作者授權,如需轉載,請聯系原作者。



前些天在知乎上看到一個關于身高的問題。我想既然大家都對身高這么感興趣,正好之前我在相親網上爬了50萬用戶的信息,那不妨來做個統計。關于身高,看看我們能挖出哪些好玩的信息吧。


數據說明


1

數據來源


本次的統計數據來自某相親網站,信息都是用戶自己填寫的。


正常情況下大家報身高都是往高虛報,極少人往矮報吧?所以,本次統計的身高結果應該會比真實情況更高一些,當然,這只是我二胖的個人揣測啦。


樣本用戶生活在北京、上海、廣州和重慶四個城市,選擇這四座城市的原因:

一是因為四座城市在祖國的不同方位,收集樣本范圍夠廣;

二是因為這四座城市都是大城市,外來人口較多,匯集了全國各地的人,能在一定程度上體現總體趨勢。


2

年齡分布


這里我先對統計用戶的年齡進行了可視化,x軸是年齡,y軸是人數,波峰是27歲。



統計用戶的年齡分布


除此之外我還分別統計了男性和女性的年齡分布,女性年齡的波峰出現在27歲,男性年齡的波峰出現在29歲。


總體平均年齡:32.332歲

男性平均年齡:33.239歲

女性平均年齡:31.929歲


3

性別分布





本次統計用戶的性別分布情況


本次統計的用戶中女性占了大多數。


其實是我爬數據的時候先抓取了女性數據,在女性數據抓取完成后才抓取的男性數據,而當我看數據庫樣本數據到50萬的時候就把爬蟲停了。


正態分布


在看統計結果之前,我們先提一下“正態分布”。


正態分布(Normal distribution),也稱“常態分布”,又名高斯分布(Gaussian distribution)。正態分布是一種概率分布。它是具有兩個參數μ和σ的連續型隨機變量的一種分布。


這里我們就不過多地介紹正態分布啦,我們只需知道,身高在樣本數量足夠大的時候應該服從正態分布(當然這是我的一己之見,如果有不同的意見,歡迎指正)。


正態分布的曲線圖應該如下圖所示(中間高,兩邊低,兩側大致對稱),在這種情況下,數據才具有一定的真實性,否則數據就有一定的作假嫌疑。



正態分布示意圖


當然目測是不準確的,還需要通過方差、期望等來判斷。不過當人肉眼都能看出一條曲線不符合正態分布時,那這個數據的真實性就真有待商榷了。


數據展示


好啦,講完正態分布,我們來看看本次統計樣本的身高分布圖。

1

男性



統計用戶中男性的身高分布情況


可以看到男性身高的分布情況不那么符合正態分布。


波峰出現在170cm,人數是24515人。


身高人數前五名是:



不知大家發現沒有,這些身高都是極其常見的身高。


讓二胖來揣測一下,大多數自報身高的情況下——不足170cm同學的都報170cm,不足175cm的都報175cm。


其實大家辦理戶口錄入身高時就是這樣操作的,常見身高就是這幾個數字。所以二胖才在開頭說,大家的真實身高應該會比統計值稍微低一些。


我們來算一下平均值,再把臟數據去除之后,算出來的所有男性的身高平均值是(單位cm)




2

女性


女性的身高統計方式和男性一樣,二胖就不過多解釋了,這里直接展示統計結果:



統計用戶中女性的身高分布情況


女性身高分布圖有點狠啊,160cm遠遠超過了其他身高值。


身高人數前五名是:



女性平均身高(單位cm):





結論


看完這個統計結果,二胖對比了一下國家公布的數字,下圖是百度百科公布的2015年國家統計的身高數據:



看樣子相親網站上的身高數據比國家的統計高出了約6厘米。


到底是因為相親網上的用戶中年輕人較多而年輕人又長得高,還是大家填寫的身高數據水分比較大呢?


還有一種可能就是二胖此次統計的用戶是城市居民,而城市居民的平均身高會相對高一些。


對此,你怎么看呢?

(——本文的數據分析和數據可視化全部由ElasticSearch完成。)


01

?微 信 群??


添加小編微信:tangguoyemeng,備注“進群”即可,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!


成為群成員,或拉人進群,

還有機會參與紅包抽獎,獲得免費贈書哦~~


02

?征 稿?


CSDN作為國內專業的云計算服務平臺,目前提供云計算、大數據、虛擬化、數據中心、OpenStack、CloudStack、機器學習、智能算法等相關云計算觀點、技術、平臺、實踐、云產業咨詢等服務。CSDN?公眾號也一直堅持「與千萬技術人共成長」的理念,深度解讀行業內熱門技術與場景應用,致力于讓所有開發者保持敏銳的技術嗅覺、對行業趨勢與技術獲得更廣闊的認知。

文章題材

  • 首先你需要關注我們的公眾號“CSDN云計算”,這樣你會更準確了解我們需要的文章風格;

  • 側重于云計算領域相關的文章,可以是技術、運維、趨勢等方面的務實內容;

  • 原創,要求文章有鮮明觀點和看法。

投稿須知

  • ?稿費:根據原創性、實用性和時效性等方面進行審核,通過的文章會發布在本微信平臺。一經采用,我們將支付作者酬勞。酬勞可能不多,這代表的是一個心意,更多是因為愛好,是有識之士抒發胸懷的一種方式;

  • 字數要求:稿件字數以2K-8K為宜,少于2K或多于8K都會一定程度降低閱讀愉悅感;

  • 投稿郵箱:lijy@csdn.net。或者添加微信表明來意,微信號:tangguoyemeng。請備注投稿+姓名+公司職位


如果咱們的合作穩定又愉快,還可以簽訂合同長期合作哦!

總結

以上是生活随笔為你收集整理的统计了50万人的身高数据才发现:大家都爱虚报身高的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。