轻松理解箱形图
箱形圖,也叫盒須圖,盒式圖,boxplot。有95%的把握猜中你現(xiàn)在已經(jīng)不太確定,這圖中有幾條線?每條線代表什么意思?中間的那條線代表的究竟是算數(shù)平均數(shù)還是中位數(shù),還是眾數(shù)?
再問的深點,箱形圖存在的意義為何?之于數(shù)據(jù)分析的實踐意義在哪里?
接下來,帶你從概念開始,一步步剖析箱形圖以及背后的故事。
1.什么是箱形圖?
箱圖的發(fā)明者John Tukey。Tukey先生1915年出生于美國麻省的新貝德福德。他22歲的時候在布朗大學獲得了碩士學位,之后又在普林斯頓大學拿到了化學博士。有趣的是,他并沒有直接開始讓他青史留名的統(tǒng)計學工作,而是在二戰(zhàn)期間進入了火控研究室,在那里,大量武器相關(guān)的研究最終都轉(zhuǎn)而需要先解決統(tǒng)計學問題。從此,Tukey改變了自己的人生方向,一代統(tǒng)計學大師即將出現(xiàn)。
箱形圖最大的優(yōu)點就是不受異常值的影響,可以以一種相對穩(wěn)定的方式描述數(shù)據(jù)的離散分布情況。默念兩遍,箱形圖不受異常值的影響,這很重要。
為了更形象的說明,我們先畫個圖,看圖說話。使用工具RStudio,假設(shè)有數(shù)據(jù)集合num = c(1,6,2,7,4,2,3,3,8,25,30),直接通過boxplot(num)畫圖,如下:
首先從外觀上感知這是個什么東東。奧,中間是個矩形塊,可以把它想象成一個盒子。盒子里面有一條線,外面有兩個形似T的東西。哦,最外面還有兩個空心的圓圈,這個可不是所有的箱形圖都會有。接下來一一解釋這些玩意兒。
2.箱形圖五要素
有一件重要的點,要交代一下,不然可能要被大多數(shù)人給忽略掉了。畫箱形圖,首先要把數(shù)據(jù)從大到小排序,沒錯,是從大到小。
(1)中位數(shù)
中位數(shù),即二分之一分位數(shù)。所以計算的方法就是將一組數(shù)據(jù)(此處中位數(shù),特別指是從大到小排列的有序序列,平時求中位數(shù)并不要求是有序序列)平均分成兩份,取中間這個數(shù)。
如果原始序列長度n是奇數(shù),那么中位數(shù)所在位置是(n+1)/2;如果原始序列長度n是偶數(shù),那么中位數(shù)所在位置是n/2,n/2+1,中位數(shù)的值等于這兩個位置的數(shù)的算數(shù)平均數(shù)。
(2)上四分位數(shù)Q1
強調(diào)一下,四分位數(shù)的求法,是將序列平均分成四份。具體的計算目前有(n+1)/4與(n-1)/4兩種,一般使用(n+1)/4。
好吧,這部分我已經(jīng)說不太清楚了,需要借助R語言這個強大的工具來舉例說明。舉個例子,有有序序列一個test = c(1,2,3,4,5,6,7,8),通過summary(test)來獲取test這個序列的中位數(shù),上四分位數(shù),下四分位數(shù)以及算數(shù)平均值。
這個Q1=2.75是怎么計算出來的呢?首先序列長度n=8,(1+n)/4=2.25,這是什么意思呢?說明上四分位數(shù)在第2.25個位置數(shù),實際上這個數(shù)是不存在的,但我們知道這個位置是在第2個數(shù)與第3個數(shù)之間的。
只能假想從第2個數(shù)到第3個數(shù)之間是均勻分布的。那么第2.25個數(shù)就是第二個數(shù)*0.25+第三個數(shù)*0.75,即2*0.25+3*0.75=0.5+2.25=2.75。
(3)下四分位數(shù)Q3
這個下四分位數(shù)所在位置計算方法同上,只不過是(1+n)/4*3=6.75,這個是個介于第六個位置與第七個位置之間的地方。對應的具體的值是0.75*6+0.25*7=6.25。
(4)內(nèi)限
目前我們文章中看到的這兩個T形的盒須就是內(nèi)限。上面的T形線段所延伸到的極遠處,是Q3+1.5IQR(其中,IQR=Q3-Q1)與剔除異常值后的極大值兩者取最小,下面的T形線段所延伸到的極遠處,是Q1-1.5IQR與剔除異常值后的極小值兩者取最大。
還是以開篇使用的栗子,來說明。
IQR=Q3-Q1=7.5-2.5=5
上內(nèi)限=Q3+1.5*IQR=7.5+1.5*5=15,與剔除兩個異常址30,25后的極大值8,兩者取最小值,所以上內(nèi)限就是8
下內(nèi)限=Q1-1.5*IQR=2.5-1.5*5=-5,與剔除兩個異常址30,25后的極小值1,兩者取最大值,所以下內(nèi)限就是1
(5)外限
外限與內(nèi)限的計算方法相同,唯一的區(qū)別就在與:上面的T形線段所延伸到的極遠處,是Q3+3IQR(其中,IQR=Q3-Q1)與剔除異常值后的極大值兩者取最小,下面的T形線段所延伸到的極遠處,是Q1-3IQR與剔除異常值后的極小值兩者取最大。
3.箱形圖之與異常址清洗
箱形圖最重要的用途就是識別異常值。數(shù)據(jù)清洗中,作用很大。
總結(jié)
- 上一篇: P4768 [NOI2018] 归程(k
- 下一篇: phpeditor编写php_在php中