日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Boxplot(盒图)

發布時間:2024/3/13 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Boxplot(盒图) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天看到一個程序(matlab版本),里面有個函數叫“boxplot”,沒見過,查了些資料,找到一篇不錯的文章,貼在這供大家參考。

地址:http://blog.renren.com/share/221363020/2984638910(估計這個鏈接很容易失效啊)

最近在擺弄數據離散度的時候遇到一種圖形,叫做盒圖(boxplot)。它對于顯示數據的離散的分布情況效果不錯。


盒圖是在1977年由美國的統計學家約翰·圖基(John Tukey)發明的。它由五個數值點組成:最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max)。也可以往盒圖里面加入平均值(mean)。如上圖。下四分位數、中位數、上四分位數組成一個“帶有隔間的盒子”。上四分位數到最大值之間建立一條延伸線,這個延伸線成為“胡須(whisker)”。

由于現實數據中總是存在各式各樣地“臟數據”,也成為“離群點”,于是為了不因這些少數的離群數據導致整體特征的偏移,將這些離群點單獨匯出,而盒圖中的胡須的兩級修改成最小觀測值與最大觀測值。這里有個經驗,就是最大(最小)觀測值設置為與四分位數值間距離為1.5個IQR(中間四分位數極差)。即


  • IQR = Q3-Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。
  • 最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小于最小觀測值,則胡須下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數,則胡須下限為最小值。
  • 最大觀測值為max = Q3 -1.5*IQR,如果存在離群點大于最大觀測值,則胡須上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數,則胡須上限為最大值。

通過盒圖,在分析數據的時候,盒圖能夠有效地幫助我們識別數據的特征:

  • 直觀地識別數據集中的異常值(查看離群點)。
  • 判斷數據集的數據離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及胡須的長度)。
  • 1.箱體的左側(下)邊界代表第一四分位(Q1),而右側(上)邊界代表第三四分位(Q3)。至于箱體部分代表四分位距(IQR),也就是觀測值的中間50%值。

    2.在箱體中間的線代表的是數據的中位數值。

    3.從箱體邊緣延伸出去的直線稱為觸須(whisker).觸須(whisker)的向外延伸表示了數據集中的最大和最小(異常點除外)。

    4.極端值或異常點(outlier),用星號(*)來標識.如果一個值位于箱體外面(大于Q3或小于Q1),并且距離相應邊界大于1.5倍的IQR,那么這個點就被認為是一個異常點(outlier)。

    如果你選擇通過分組變量(By variable)來分組數據,MINITAB將把圖像變成垂直放置,否則圖形將水平放置。

    使用箱形圖來評估數據的對稱性:
    1.如果數據是明顯對稱,中位數值線將近似位于四分位距箱體的中間,上下觸須(whisker)在長度上將近似相等。

    2.如果數據是偏態的,中位數將可能不位于四分位距(IQR)箱體的中間,某一觸須(whisker)將可能顯著地比另一個長。

    在降水數據的箱形圖(boxplot)中,中位數位于四分位距(IQR)箱體的中間,上下觸須(whisker)長度相等.這表明除了異常點(outlier)星號(*)外,數據是對成的.這很好的說明了異常點(outlier)可能和其它的樣本數據不是來自同一個母體(population)。

    ?

    我們結合Minitab幫助就會知道,
    假定有數據列C1:1 2 3 4 5 6 7 8,C2:1 2 3 4 5 6 7 8 9,
    對于Median(中位數)的位置,這個值等于(N+1)/2,比如C1,共有8個數據,那么中位數就等于(4+5)/2=4.5.由于結果并不是整數,也就是說中位數位于第4和5數數(我們把它們記為X(4)和X(5))之間,那么中位數等于=X(4)+0.5(X(5)-X(4))=4+0.5(5-4)=4.5.

    對于Q1(第一四分位)的位置,這個值等于(N+1)/4,這里N表示數據個數,對于C1來說就是(8+1)/4=2.25,由于結果不是整數,也就是說Q1位于第2和3個數(我們把它們記為X(2)和X(3))之間,那么Q1=X(2)+0.25(X(3)-X(2))=2+0.25(3-2)=2.25.

    對于Q3(第三四分位)的位置,這個值等于3(N+1)/4,這里N表示數據個數,對于C1來說就是3(8+1)/4=6.75,也就是說Q3位于第6和7個數(我們把它們記為X(6)和X(7))之間,
    那么Q3=X(6)+0.75(X(7)-X(6))=6+0.75(7-6)=6.75.

    我們可以通過在MINITAB中計算來驗證結果

    我們新建一個工作表,在C1列輸入1 2 3 4 5 6 7 8
    在C2列輸入1 2 3 4 5 6 7 8 9,
    我們通過菜單Stat>Basic Statistics>Display Descriptive Statistics,在Variables處輸入c1 c2,然后點擊Statistics按鈕,只選中First quartile,Median和Third quartile統計指標,點擊OK.就會在對話(session)窗口看到結果.

    Variable Q1 Median Q3
    C1 2.250 4.500 6.750
    C2 2.500 5.000 7.500

    使用箱形圖(也稱為箱體-觸須圖)來評估和比較樣本分布。下面的圖形圖解了箱形圖默認的組成部分。

    異常點(Outlier)-某個異常大或小的觀測點。任何超過觸須的值就是異常點。

    默認情況下,箱體的頂端是第三四分位(Q3)-75%的數據值小于或等于這個值。

    默認情況下,箱體的底部是第一四分位(Q1)-25%的數據值小于或等于這個值。

    默認情況下,下部的觸須會伸展到最小值,但一定位于下限范圍內。
    下限(Lower limit)=Q1-1.5(Q3-Q1)

    中位數-數據的中間點。一半的觀測值小于或等于它。

    默認情況下,上部的觸須會伸展到最大值,但一定位于上限范圍內。
    上限(Upper limit)=Q3+1.5(Q3-Q1)

    總結

    以上是生活随笔為你收集整理的Boxplot(盒图)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。