数据分析:度量数据散布的四分位数
生活随笔
收集整理的這篇文章主要介紹了
数据分析:度量数据散布的四分位数
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
假設屬性X的數據以數值遞增序排列。分位數是取自數據分布的每隔一定間隔上的點,把數據劃分成基本上大小相等的連貫集合。4-分位數是3個數據點,他們把數據劃分成4個相等的部分,使得每部分表示數據分布的四分之一。通常稱它們為四分位數。四分位數給出分布的中心、散布和形狀的某種指示。第1個四分位數記作,是第25個百分位數。第3個四分位數記作,是第75個百分位數。
第1個和第3個四分位數之間的距離是散布的一種簡單度量,它給出被數據的中間一般所覆蓋的范圍。該距離稱為四分位數極差(),定義為
? ? ? ? ? ??
分布的五數概括由中位數()、四分位數()、最小和最大觀測值組成,按次序寫出。
盒圖對于識別離群點是有用的。盒圖是一種流行的分布的直觀表示。盒圖體現了五數概括:
- 盒的端點一般在四分位數上,使得盒的長度是。
- 中位數用盒內的線標記。
- 盒外的兩條線(稱作胡須)延伸到最小和最大觀測值。
當處理數量適中的觀測值時,值得個別的會出可能的離群點。在盒圖中占有做:僅當最高和最低觀測值超過四分位數不到時,胡須擴展到它們。否則,胡須出現在四分位數的之內的最極端的觀測值處終止,剩下的情況個別的繪出。盒圖可以用來比較若干個可比較的數據集。
?
參考文獻:《數據挖掘概念與技術 》Jiawei Han, Micheline Kamber, Jian Pei
總結
以上是生活随笔為你收集整理的数据分析:度量数据散布的四分位数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas:数据规范化方法与pytho
- 下一篇: pandas: DataFrame在数据