能分清直方图和柱状图,你就是图表届的“头号”玩家|图表家族#36
鏑摘
雖然直方圖是柱狀圖的一種(畢竟乍眼看都是很多柱子的樣子),但是其實它倆一個喜歡數多少,一個喜歡比大小。
直方圖展示數據分布
?
猜猜看哪個是直方圖?
直方圖(Histogram)是一種可視化在連續間隔,或者是特定時間段內數據分布情況的圖表,經常被用在統計學領域。簡單來說,直方圖描述的是一組數據的頻次分布,例如把年齡分成“0-5,5-10,……,80-85”17個組,統計一下中國人口年齡的分布情況。直方圖有助于我們知道數據的分布情況,諸如眾數、中位數的大致位置、數據是否存在缺口或者異常值。
(注:眾數是指一組數據中出現次數最多的數據值,眾數可能是一個數,但也可能是多個數。中位數是指可將數值集合劃分為相等的上下兩部分的數。)
?
根據數據分布狀況不同,直方圖展示的數據有不同的模式,包括對稱單峰、偏左單峰、偏右單峰、雙峰、多峰以及對稱多峰。
?
直方圖的數據模式
來源:Wikipedia
直方圖的百年歷史
一般認為,直方圖最早是由數理統計學家Karl Pearson引入的,1891年他在文章“Contributions to the Mathematical Theory of Evolution II: Skew Variation in Homogeneous Material”中,運用直方圖展示了均質材料中的偏差。
?
Karl Pearson
?
Contributions to the Mathematical Theory of Evolution II:
Skew Variation in Homogeneous Material
Karl Pearson
隨后,他也統計了歐洲250位君主的在位長度,以每3年為一個區間,發現在位時間在9-12年的君主數量最多(眾數)。除此之外,我們也能看到沒有人的在位時間是在51-54年,整體來說,在位時間長的君主很少。
?
圖片來源:Statistical Approaches to Length of Reign
直方、柱狀大不同
直方圖和柱狀圖最讓人迷惑的地方,就是它們長得非常相似。實際上,直方圖和柱狀圖無論是在圖表意義、適用數據上,還是圖表繪制上,都有很大的不同。
1.直方圖展示數據的分布,柱狀圖比較數據的大小。
這是直方圖與柱狀圖最根本的區別。舉個例子,有10個蘋果,每個蘋果重量不同。如果使用直方圖,就展示了重量在0-10g的蘋果有多少個,10-20g的蘋果有多少個;如果使用柱狀圖,則展示每個蘋果的具體重量。
所以直方圖展示的是一組數據中,在你劃分的區間里,這些數據的分布情況,但是我們不知道在一個區間里,單個數據的具體大小。下圖展現了游客在博物館的游覽時間,其中,將近40%的游客僅逗留了0-10分鐘。但是我們無法知道這些游客中,每個人具體的游覽時間是多少。
?
圖片來源:A Histogram is NOT a Bar Chart
而在柱狀圖里,我們能看到的是每個數據的大小,并且進行比較。下圖就比較了在12次展覽中,參觀者參觀時間的中位數,我們能夠知道參觀的具體用時。
?
圖片來源:A Histogram is NOT a Bar Chart
2.直方圖X軸為定量數據,柱狀圖X軸為分類數據。
由圖表的原理就決定了,X軸在直方圖與柱狀圖中的用法是不一樣的。在直方圖中,X軸上的變量是一個個連續的區間,這些區間通常表現為數字,例如代表蘋果重量的“0-10g,10-20g……”,代表時間長度的“0-10min,10-20min……”。而在柱狀圖中,X軸上的變量是一個個分類數據,例如不同的國家名稱、不同的游戲類型。
?
圖片來源:www.mathsisfun.com
因此,直方圖上的每根柱子都是不可移動的,X軸上的區間是連續的、固定的。而柱狀圖上的每根柱子是可以隨意排序的,有的情況下需要按照分類數據的名稱排列,有的則需要按照數值的大小排列。
3.直方圖柱子無間隔,柱狀圖柱子有間隔
因為直方圖中的區間是連續的,因此柱子之間不存在間隙。而柱狀圖的柱子之間是存在間隔。還有一個值得注意的地方,在直方圖中,第一根柱子應該和Y軸有一定的間隔,即使都是從“0”這個值開始的。因為X軸與Y軸上“0”的意義不同,而且很多直方圖上的區間并不是從0開始的。
?
4.直方圖柱子寬度可不一,柱狀圖柱子寬度須一致
柱狀圖柱子的寬度因為沒有數值含義,所以寬度必須一致。但是在直方圖中,柱子的寬度代表了區間的長度,根據區間的不同,柱子的寬度可以不同,但理論上應為單位長度的倍數。
例如,美國人口普查局(The U.S. Census Bureau)調查了12.4億人的上班通勤時間,由于通勤時間在45-150分鐘的人數太少,因此區間改為45-60分鐘、60-90分鐘、90-150分鐘,其他組距則均為5。
?
通勤數據
來源:Wikipedia
可以看到,Y軸的數據為“人數/組距”,在這種情況下,每個柱子的面積相加就等于調查的總人數,柱子的面積就有了意義。
?
通勤時間直方圖
來源:Wikipedia
當上圖的Y軸表達的是“區間人數/總人數/組距”,這個直方圖就是我們初中學習的“頻率分布直方圖”,頻率指的是“區間數量/總數量”。在這樣的直方圖中,所有柱子的面積相加就等于1啦。
使用直方小竅門
1.注意組距
組距會影響直方圖呈現出來的數據分布,因此在繪制直方圖的時候需要多次嘗試改變組距。
?
組距較大的直方圖
?
組距較小的直方圖
2.X軸上為左閉右開區間
一般來說,X軸上的區間遵循“左閉右開”的原則,即在一個“a-b”的區間里,數據x應為“a≤x<b”。
3.注意Y軸所代表的變量
Y軸上的變量可以是頻次(數據出現了多少次)、頻率(頻次/總次數)、頻率/組距,不同的變量會讓直方圖描述的數據分布意義不同。
隱藏在身邊的直方圖
生活中,我們接觸比較多的的應該是RGB直方圖,這種直方圖常出現在在PS、相機等場景中。
?
來源:Thomas看看世界,知乎
在RGB模式下,圖片的顏色與紅(Red)綠(Green)藍(Blue)組成,各自的數值范圍均為0-255。其中,紅色直方圖就描述了0-255這個數值范圍內,像素的分布情況。但這種直方圖的X、Y軸沒有具體數值,我們只能數據分布模式大致判定照片情況。
從今往后,你就能一眼找到那個在柱狀圖海洋的直方圖啦!如果你有遇到有趣的直方圖,歡迎在評論跟大家分享喔~
世界讀書日來點福利!明天19:00前點贊數最多的小伙伴,獲得《可視化溝通用:信息圖表設計讓數據說話》一本。讓讀書成為習慣,天天都是世界讀書日。
更多鏑數使用問題請參看以下文章,如果仍有無法解決的問題,請發送郵件至public@dydata.io或者直接在后臺留言。
咱們下期再見!
參考文章
Statistical Approaches to Length of Reign
http://slideplayer.com/slide/7812080/
How to Draw a Histogram
https://www.wikihow.com/Draw-a-Histogram
A Histogram is NOT a Bar Chart
https://www.forbes.com/sites/naomirobbins/2012/01/04/a-histogram-is-not-a-bar-chart/#fc6366a6d775
往期回顧
條柱形圖 工作報表 餅圖
時序圖表 折線圖 散點圖
氣泡圖 面積圖 弦圖
主題配色 配色技巧 矩形樹圖
雷達圖 瀑布圖 旭日圖
漏斗圖 桑基圖 箱線圖
玫瑰圖 折線家族 熱力圖
柱圖家族 餅圖家族 詞云圖
力向導圖 數據可視化誤區
來源:http://dy.163.com/v2/article/detail/DG3OF9N605118F5T.html
總結
以上是生活随笔為你收集整理的能分清直方图和柱状图,你就是图表届的“头号”玩家|图表家族#36的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 河南省商丘市星林路方域路和合社区用的哪个
- 下一篇: 从南京南回丽水动车D开头的怎么坐