日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Boxplot(盒图)

發(fā)布時間:2024/3/13 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Boxplot(盒图) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今天看到一個程序(matlab版本),里面有個函數(shù)叫“boxplot”,沒見過,查了些資料,找到一篇不錯的文章,貼在這供大家參考。

地址:http://blog.renren.com/share/221363020/2984638910(估計這個鏈接很容易失效啊)

最近在擺弄數(shù)據(jù)離散度的時候遇到一種圖形,叫做盒圖(boxplot)。它對于顯示數(shù)據(jù)的離散的分布情況效果不錯。


盒圖是在1977年由美國的統(tǒng)計學(xué)家約翰·圖基(John Tukey)發(fā)明的。它由五個數(shù)值點組成:最小值(min),下四分位數(shù)(Q1),中位數(shù)(median),上四分位數(shù)(Q3),最大值(max)。也可以往盒圖里面加入平均值(mean)。如上圖。下四分位數(shù)、中位數(shù)、上四分位數(shù)組成一個“帶有隔間的盒子”。上四分位數(shù)到最大值之間建立一條延伸線,這個延伸線成為“胡須(whisker)”。

由于現(xiàn)實數(shù)據(jù)中總是存在各式各樣地“臟數(shù)據(jù)”,也成為“離群點”,于是為了不因這些少數(shù)的離群數(shù)據(jù)導(dǎo)致整體特征的偏移,將這些離群點單獨匯出,而盒圖中的胡須的兩級修改成最小觀測值與最大觀測值。這里有個經(jīng)驗,就是最大(最小)觀測值設(shè)置為與四分位數(shù)值間距離為1.5個IQR(中間四分位數(shù)極差)。即


  • IQR = Q3-Q1,即上四分位數(shù)與下四分位數(shù)之間的差,也就是盒子的長度。
  • 最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小于最小觀測值,則胡須下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數(shù),則胡須下限為最小值。
  • 最大觀測值為max = Q3 -1.5*IQR,如果存在離群點大于最大觀測值,則胡須上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數(shù),則胡須上限為最大值。

通過盒圖,在分析數(shù)據(jù)的時候,盒圖能夠有效地幫助我們識別數(shù)據(jù)的特征:

  • 直觀地識別數(shù)據(jù)集中的異常值(查看離群點)。
  • 判斷數(shù)據(jù)集的數(shù)據(jù)離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及胡須的長度)。
  • 1.箱體的左側(cè)(下)邊界代表第一四分位(Q1),而右側(cè)(上)邊界代表第三四分位(Q3)。至于箱體部分代表四分位距(IQR),也就是觀測值的中間50%值。

    2.在箱體中間的線代表的是數(shù)據(jù)的中位數(shù)值。

    3.從箱體邊緣延伸出去的直線稱為觸須(whisker).觸須(whisker)的向外延伸表示了數(shù)據(jù)集中的最大和最小(異常點除外)。

    4.極端值或異常點(outlier),用星號(*)來標識.如果一個值位于箱體外面(大于Q3或小于Q1),并且距離相應(yīng)邊界大于1.5倍的IQR,那么這個點就被認為是一個異常點(outlier)。

    如果你選擇通過分組變量(By variable)來分組數(shù)據(jù),MINITAB將把圖像變成垂直放置,否則圖形將水平放置。

    使用箱形圖來評估數(shù)據(jù)的對稱性:
    1.如果數(shù)據(jù)是明顯對稱,中位數(shù)值線將近似位于四分位距箱體的中間,上下觸須(whisker)在長度上將近似相等。

    2.如果數(shù)據(jù)是偏態(tài)的,中位數(shù)將可能不位于四分位距(IQR)箱體的中間,某一觸須(whisker)將可能顯著地比另一個長。

    在降水數(shù)據(jù)的箱形圖(boxplot)中,中位數(shù)位于四分位距(IQR)箱體的中間,上下觸須(whisker)長度相等.這表明除了異常點(outlier)星號(*)外,數(shù)據(jù)是對成的.這很好的說明了異常點(outlier)可能和其它的樣本數(shù)據(jù)不是來自同一個母體(population)。

    ?

    我們結(jié)合Minitab幫助就會知道,
    假定有數(shù)據(jù)列C1:1 2 3 4 5 6 7 8,C2:1 2 3 4 5 6 7 8 9,
    對于Median(中位數(shù))的位置,這個值等于(N+1)/2,比如C1,共有8個數(shù)據(jù),那么中位數(shù)就等于(4+5)/2=4.5.由于結(jié)果并不是整數(shù),也就是說中位數(shù)位于第4和5數(shù)數(shù)(我們把它們記為X(4)和X(5))之間,那么中位數(shù)等于=X(4)+0.5(X(5)-X(4))=4+0.5(5-4)=4.5.

    對于Q1(第一四分位)的位置,這個值等于(N+1)/4,這里N表示數(shù)據(jù)個數(shù),對于C1來說就是(8+1)/4=2.25,由于結(jié)果不是整數(shù),也就是說Q1位于第2和3個數(shù)(我們把它們記為X(2)和X(3))之間,那么Q1=X(2)+0.25(X(3)-X(2))=2+0.25(3-2)=2.25.

    對于Q3(第三四分位)的位置,這個值等于3(N+1)/4,這里N表示數(shù)據(jù)個數(shù),對于C1來說就是3(8+1)/4=6.75,也就是說Q3位于第6和7個數(shù)(我們把它們記為X(6)和X(7))之間,
    那么Q3=X(6)+0.75(X(7)-X(6))=6+0.75(7-6)=6.75.

    我們可以通過在MINITAB中計算來驗證結(jié)果

    我們新建一個工作表,在C1列輸入1 2 3 4 5 6 7 8
    在C2列輸入1 2 3 4 5 6 7 8 9,
    我們通過菜單Stat>Basic Statistics>Display Descriptive Statistics,在Variables處輸入c1 c2,然后點擊Statistics按鈕,只選中First quartile,Median和Third quartile統(tǒng)計指標,點擊OK.就會在對話(session)窗口看到結(jié)果.

    Variable Q1 Median Q3
    C1 2.250 4.500 6.750
    C2 2.500 5.000 7.500

    使用箱形圖(也稱為箱體-觸須圖)來評估和比較樣本分布。下面的圖形圖解了箱形圖默認的組成部分。

    異常點(Outlier)-某個異常大或小的觀測點。任何超過觸須的值就是異常點。

    默認情況下,箱體的頂端是第三四分位(Q3)-75%的數(shù)據(jù)值小于或等于這個值。

    默認情況下,箱體的底部是第一四分位(Q1)-25%的數(shù)據(jù)值小于或等于這個值。

    默認情況下,下部的觸須會伸展到最小值,但一定位于下限范圍內(nèi)。
    下限(Lower limit)=Q1-1.5(Q3-Q1)

    中位數(shù)-數(shù)據(jù)的中間點。一半的觀測值小于或等于它。

    默認情況下,上部的觸須會伸展到最大值,但一定位于上限范圍內(nèi)。
    上限(Upper limit)=Q3+1.5(Q3-Q1)

    總結(jié)

    以上是生活随笔為你收集整理的Boxplot(盒图)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。