中累计直方图_试验研究中的利器强大的直方图和箱线图
????上次小編給大家介紹了跟誤差線有關的幾個概念以及相關的柱狀圖,散點圖,和小提琴圖(試驗數據統計中常用的 量,圖,和線--再也不擔心文章的統計用圖了!)。這些圖和線都屬于“比較統計學”的范疇。今天給大家總結介紹另一大類:“描述統計學”,主要用到的是直方圖和箱線圖。
總論:
????直方圖和箱線圖是了解連續變量分布的最常用的圖形工具。在這兩種圖中可以找到數據中的下列信息:中位數,分位數,上限,下限,總體數據的變異性和異常值等。另外,這兩種圖在數據比較方面(比較統計學)也可以發揮很大的作用。下圖(Wang et al. 2018)就是一個DH群體中五種不同單倍型在結實小穗數方面的表現差異,雖然少了平均值和SD或SEM,但箱線圖配合表示顯著性差異的字母在此例中還是非常直觀的。
直方圖:
????直方圖想必大家非常熟悉了,尤其是在表示群體對某一表型的分布中應用的非常廣泛。值得注意的是,在我們小麥研究中,大部分性狀都是多基因控制,所以如果能對直方圖做一個normal fitting,然后配上正態性檢測,就顯得我們的圖更加高大上了。即使是單基因控制的抗病性狀,我們也可以根據明顯不符合正態分布來支持目標性狀是由單(或少數)基因控制。
箱線圖:
????箱線圖顧名思義最重要的兩個成分就是箱和線。那么箱和線分別代表什么呢?我們首先來看中間這個箱子以及中間那條粗線:
????中間粗線代表中位數(如果是標準正態分布,中位數和平均值是一樣的,位置在小箱子的中間位置)。箱子大小代表的是四分位數間距(IQR),也稱為中間50%間距,是統計離散度的度量,等于第75和第25百分位數之間的差異,或者說是在上下四分位數之間,即:IQR = Q3-Q1。(這一句話中出現的分位數,四分位數,和百分位數在英語中對應了三個單詞quantile,quartile,和percentile,三者的聯系和區別搞的小編頭都大了,想了解更多的請看文末補充內容)。
????接下來談一下小箱子伸出去的兩根線,在“標準正態分布”的箱線圖中,這兩根線是等長的,代表的是1.5倍的IQR區間,所以箱線圖的下限就是Q1-1.5IQR,上限是Q3+1.5IQR。
????最后是如果有超出上下限的值(大概是2.7個標準差之外),就被叫做異常值了。
? ? 下圖非常好的展現了一個箱線圖中小箱子,上下限,以及異常值跟正態分布圖中方差分布之間相互對應的關系。
箱線圖的不同表達方式:
上面介紹了最標準的箱線圖,但在實際應用過程中,由于數據的分布會稍微偏離或者不符合正態分布,這也就造成了箱線圖的不同表達方式:主要是兩根線的千變萬化以及中位線在小箱子中位置的變化。
Outlier Box Plot (異常值類型,也是Excel 中的默認類型)
????這種類型多用于符合正態分布的數據中,借用這種圖可以很快的鑒定出異常值。
????在這種類型中,一般上下限值等于我們上邊說的Q1-1.5IQR和Q3+1.5IQR,但是當數據中沒有達到上下限的數值,那就用最大值和最小值來替換,這也是造成兩個線經常不等長的原因之一。比如在下圖中,由于數據中最小值要大于下限值,所以下限值那條線就用此數據中的最小值來代替,而不是Q1-1.5IQR。而對于上限來說,由于數據中包含等于上限值的數,所以就用Q3+1.5IQR來表示。而對于大于上限值的一個數據,屬于2.7個方差之外的數值,被視為異常值。
分位數類型
????這種類型多用于不符合正態分布的數據,借用這種圖可以快速的鑒定數據中各種分位數,最大值,最小值等等,從而快速知道某個數值在整個數據中所占的位置(百分位位置)。
????在這種類型中,“上下限值”就是數據中的最大值和最小值,然后中間幾條小線代表自定義的分位數。如下圖中左邊的箱線圖就是分位數類型,大家也可以比較這個圖和直方圖以及異常值箱線圖的區別。另外,下面兩個箱線圖箱子里的菱形代表平均值以及上下95%的置信區間。此類型箱線圖完美的結合了描述統計學和比較統計學兩大功能,屬于小編的最愛!
?
補充內容:
????以下兩段話和一個英文的鏈接比較詳細的講述了quantile,quartile,和percentile之間的關系和區別。有興趣的小伙伴可以看一下。按照小編的理解,以下這個在Stack Exchange上點贊量非高的解釋其實是不對的:
https://stats.stackexchange.com/questions/156778/percentile-vs-quantile-vs-quartile
正確的用法:
The 2 quantiles = the 50th percentile
the 4 quantiles = the upper quartile = the 75th percentile
N Quantiles 的本意就是把正態分布分成N等份,所以我們可以說the 1000 quantiles,但percentile 只能是從 the 0th 到 the 100th。不過不管怎么說,我發現現在的統計學軟件中的quantile都是以percentile形式來計算和展示的(比如正文最后一個圖,以及下圖中在R中計算quantile)。
????“分位數(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變量的概率分布范圍分為幾個具有相同概率的連續區間。分割點的數量比劃分出的區間少1,例如3個分割點能分出4個區間。常用的有中位數(即二分位數)、四分位數(quartile)、十分位數(decile )、百分位數等。q-quantile是指將有限值集分為q個接近相同尺寸的子集。”
????“百分位數統計學術語,如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數??杀硎緸?#xff1a;一組n個觀測值按數值大小排列。如,處于p%位置的值稱第p百分位數?!?/p>
????Understanding Quantiles: Definitions and Uses
https://www.thoughtco.com/what-is-a-quantile-3126239
????歡迎大神在這個話題上繼續補充。
總結
以上是生活随笔為你收集整理的中累计直方图_试验研究中的利器强大的直方图和箱线图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: #模拟触手机屏幕_2部手机经受埃隆马斯克
- 下一篇: 文件夹的位置_感觉电脑变卡了?删除这5个