日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

轻松理解箱形图

發(fā)布時間:2023/12/4 综合教程 52 生活家
生活随笔 收集整理的這篇文章主要介紹了 轻松理解箱形图 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

箱形圖,也叫盒須圖,盒式圖,boxplot。有95%的把握猜中你現(xiàn)在已經(jīng)不太確定,這圖中有幾條線?每條線代表什么意思?中間的那條線代表的究竟是算數(shù)平均數(shù)還是中位數(shù),還是眾數(shù)?

再問的深點,箱形圖存在的意義為何?之于數(shù)據(jù)分析的實踐意義在哪里?

接下來,帶你從概念開始,一步步剖析箱形圖以及背后的故事。

1.什么是箱形圖?

箱圖的發(fā)明者John Tukey。Tukey先生1915年出生于美國麻省的新貝德福德。他22歲的時候在布朗大學獲得了碩士學位,之后又在普林斯頓大學拿到了化學博士。有趣的是,他并沒有直接開始讓他青史留名的統(tǒng)計學工作,而是在二戰(zhàn)期間進入了火控研究室,在那里,大量武器相關(guān)的研究最終都轉(zhuǎn)而需要先解決統(tǒng)計學問題。從此,Tukey改變了自己的人生方向,一代統(tǒng)計學大師即將出現(xiàn)。

箱形圖最大的優(yōu)點就是不受異常值的影響,可以以一種相對穩(wěn)定的方式描述數(shù)據(jù)的離散分布情況。默念兩遍,箱形圖不受異常值的影響,這很重要。

為了更形象的說明,我們先畫個圖,看圖說話。使用工具RStudio,假設(shè)有數(shù)據(jù)集合num = c(1,6,2,7,4,2,3,3,8,25,30),直接通過boxplot(num)畫圖,如下:



首先從外觀上感知這是個什么東東。奧,中間是個矩形塊,可以把它想象成一個盒子。盒子里面有一條線,外面有兩個形似T的東西。哦,最外面還有兩個空心的圓圈,這個可不是所有的箱形圖都會有。接下來一一解釋這些玩意兒。

2.箱形圖五要素

有一件重要的點,要交代一下,不然可能要被大多數(shù)人給忽略掉了。畫箱形圖,首先要把數(shù)據(jù)從大到小排序,沒錯,是從大到小。

(1)中位數(shù)

中位數(shù),即二分之一分位數(shù)。所以計算的方法就是將一組數(shù)據(jù)(此處中位數(shù),特別指是從大到小排列的有序序列,平時求中位數(shù)并不要求是有序序列)平均分成兩份,取中間這個數(shù)。

如果原始序列長度n是奇數(shù),那么中位數(shù)所在位置是(n+1)/2;如果原始序列長度n是偶數(shù),那么中位數(shù)所在位置是n/2,n/2+1,中位數(shù)的值等于這兩個位置的數(shù)的算數(shù)平均數(shù)。

(2)上四分位數(shù)Q1

強調(diào)一下,四分位數(shù)的求法,是將序列平均分成四份。具體的計算目前有(n+1)/4與(n-1)/4兩種,一般使用(n+1)/4。

好吧,這部分我已經(jīng)說不太清楚了,需要借助R語言這個強大的工具來舉例說明。舉個例子,有有序序列一個test = c(1,2,3,4,5,6,7,8),通過summary(test)來獲取test這個序列的中位數(shù),上四分位數(shù),下四分位數(shù)以及算數(shù)平均值。

這個Q1=2.75是怎么計算出來的呢?首先序列長度n=8,(1+n)/4=2.25,這是什么意思呢?說明上四分位數(shù)在第2.25個位置數(shù),實際上這個數(shù)是不存在的,但我們知道這個位置是在第2個數(shù)與第3個數(shù)之間的。

只能假想從第2個數(shù)到第3個數(shù)之間是均勻分布的。那么第2.25個數(shù)就是第二個數(shù)*0.25+第三個數(shù)*0.75,即2*0.25+3*0.75=0.5+2.25=2.75。



(3)下四分位數(shù)Q3

這個下四分位數(shù)所在位置計算方法同上,只不過是(1+n)/4*3=6.75,這個是個介于第六個位置與第七個位置之間的地方。對應的具體的值是0.75*6+0.25*7=6.25。

(4)內(nèi)限

目前我們文章中看到的這兩個T形的盒須就是內(nèi)限。上面的T形線段所延伸到的極遠處,是Q3+1.5IQR(其中,IQR=Q3-Q1)與剔除異常值后的極大值兩者取最小,下面的T形線段所延伸到的極遠處,是Q1-1.5IQR與剔除異常值后的極小值兩者取最大。



還是以開篇使用的栗子,來說明。

IQR=Q3-Q1=7.5-2.5=5

上內(nèi)限=Q3+1.5*IQR=7.5+1.5*5=15,與剔除兩個異常址30,25后的極大值8,兩者取最小值,所以上內(nèi)限就是8

下內(nèi)限=Q1-1.5*IQR=2.5-1.5*5=-5,與剔除兩個異常址30,25后的極小值1,兩者取最大值,所以下內(nèi)限就是1

(5)外限

外限與內(nèi)限的計算方法相同,唯一的區(qū)別就在與:上面的T形線段所延伸到的極遠處,是Q3+3IQR(其中,IQR=Q3-Q1)與剔除異常值后的極大值兩者取最小,下面的T形線段所延伸到的極遠處,是Q1-3IQR與剔除異常值后的極小值兩者取最大。

3.箱形圖之與異常址清洗

箱形圖最重要的用途就是識別異常值。數(shù)據(jù)清洗中,作用很大。

總結(jié)

以上是生活随笔為你收集整理的轻松理解箱形图的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。