盒鬚圖(又稱長鬚圖, box-and-whisker plot, 簡稱boxplot),
是一很有效的表示資料的方法, 很多計算機程式中皆有此功能。
盒鬚圖可用來了解資料的偏斜性(skewness)及離群值(outliers)。圖6.3為一典型的盒鬚圖。
圖6.3中, 稱為資料的最小值, 稱為最大值,
與則分別為資料的下四分位數及上四分位數,
因此圖中盒子(盒子之高度並不重要)包含資料的中間部分。
又為資料的中位數。圖6.3包含一個盒子,
及二凸出來的鬚(及上方二線段),
這是此圖命名的由來。
樣本的中位數, 上四分位數及下四分位數, 以及一般的第分位數,
皆可與分佈的分位數對應。設有數據
,
將其按小至大排列, 而得
。關於樣本第
分位數(或說第
樣本分位數), 不同的書有不同的定義。
有些書是定義為, 其中為最大整數函數。
此定義雖然簡單, 但缺點為若與很接近,
則第分位數與第分位數可能會相等。另外,
亦可將樣本的第分位數定義為
(1.1) |
例1.1 設有數據。求樣本之第分位數。
解.先將樣本按小至大排列, 而得, ,
, 。因, ,
。
故以第一種定義所得之第樣本分位數為。
又若, 則, 故第0.4樣本分位數亦為。
事實上從第0.25至第0.49樣本分位數皆為8。
現在來看第二種定義。四個樣本點, 將樣本的值域分成五個區間, 此四點便對應第0.2, 0.4, 0.6及0.8分位數。 第0.37分位數介於第0.2及0.4分位數間。而, , 因此第0.37樣本分位數為
第二種定義的優點是不同的值, 有不同的第分位數。 缺點是不能很靠近0或1。此因若, 則, 但我們並沒有的定義。又當, 則, 因此 也不存在。
當, (6.1)式導致樣本中位數為
此與4.5節對樣本中位數所給的定義相符合。
底下我們對樣本第分位數採第二種定義。
如此樣本的第分位數, 即樣本的第個順序統計量(習題第4題)。
例1.2 瑞萊曾由不同的來源量測標準體積中氮(nitrogen)的重量(見Tukey
(1977)),
而得到下述數據: