國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:19 標準差
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2014/10/10 下午 05:36:01

某人練習射擊,目標是紅心。有時右偏有時左偏,誤差不小,他卻說平均命中紅心。平均不是數據的代表值嗎?他以為他就是告訴人射擊結果的代表值。聽者很狐疑,只不過是一正一負消掉了,這樣算準嗎?顯然只知平均命中紅心並不夠,究竟偏離紅心多遠呢?令人好奇。兩腳各泡在一水桶,右腳水溫攝氏0度,左腳80度。會因平均40度,與溫泉泡湯的水溫差不多,而感到舒服嗎?恐怕未必,一腳很冰,一腳燙極了,連半分鐘都受不了。假設有兩組學生,各有3人。考完試兩組的平均都是60但第一組3個分數是616059;第二組3個分數是906030。雖平均相同,但第一組3人分數接近,第二組3人分數相差很多。大概不會因平均分數相同,而將兩組學生歸為同一類型。

收集到一些數據後,一旦算出平均值或中位數,對數據的大小,通常能略有些概念。不論平均值或中位數,都像數據的核心。數據或剛好等於核心,或散佈在核心的左右,有些較大,有些較小。如何度量散佈程度?全距及四分位距,都能扮演讓人了解數據到底散佈多廣的角色。班上最高與最矮身高之差為全距,代表全班學生的身高橫跨多大範圍。另外,有時會看到諸如XX集團董事長XXX表示在未來的投資機會中,應該重點投資和中產階級生活方式相關的行業”之報導。中產階級,不是很有錢,也不算很窮,收入居中。這群人,不論在政治或經濟上,都令人重視。第三四分位數減去第一四分位數,所得之四分位距,便代表扣除兩端,中間一半的數據,所橫跨範圍之大小,此量也常令人感到興趣。除了全距及四分位距外,還有一很重要,量測散佈程度的量,那就是標準差(standard deviation,又稱標準離差或均方根差)。如果視平均值為數據的核心,標準差便是提供數據偏離此核心多遠的一個量。前面已舉了一些例子,以說明在某些情況下,光知道平均值,可能對數據仍覺模糊。標準差,便具備讓人了解數據對平均值之散佈程度的功能。

每一數據減去平均值,便是數據對平均值之離差(deviation,或說誤差)。而標準差即數據對平均值之離差的平方之平均的正平方根。假設有123455數,則平均值為3。分別求出各數對平均值之離差,得-2-1012。先求平方,得41014再求其平均,得(4+1+0+1+4)/5=2。開根號得標準差=21/2,約為1.414。再看前述兩組學生之例。分數616059那組,平均成績是60分,標準差=(2/3)1/2分,約為0.816分;至於分數906030那組,平均成績仍是60分,而標準差=6001/2分,約為24.495分,是前者之30倍。第一組程度接近,第二組則程度差異不小。第二組的任課教師,可能會煩惱該如何教學。

對數字較敏銳者,說不定會好奇,為何不以數據對平均值之離差的絕對值之平均,來度量數據對平均值之散佈度?省去求標準差時,先平方再開根號之多此一舉。首先,由於先平方再開根號,因此標準差的單位(如分,公斤等),與原有數據相同,這是我們希望的。其次,如同數據的代表值可有不同的量,像是平均值中位數,及眾數等,數據對平均值之離差的絕對值之平均,也是數據對平均值之散佈度的另一種度量法,有其意義,是有人採用。若依此定義,對於123455數,將得(2+1+0+1+2)/5=1.2一值做為數據對平均值之散佈度,比標準差21/2小些。這新的定義,看起來讓計算較簡單,尤其當數據較大量時。不過一方面,數學上處理絕對值的運算,通常比平方麻煩許多;另一方面,標準差有很多好的性質。因此在統計學裡,仍大多以標準差,來表示數據對平均值之散佈度。

標準差的平方,即數據對平均值之離差的平方之平均,即不開平方了,便稱數據的變異數(variance),也是一常用的量。平均值是數據的平均,變異數則為數據與平均值之距離的平方之平均,兩者都是平均。假設有n筆數據x1x2,…,xn,且以`x其平均值,即`x=(x1+x2++xn)/n。則

((x1-`x)2+(x2-`x)2++(xn-`x)2)/n

為變異數;開根號後,即得標準差

( ((x1-`x)2+(x2-`x)2++(xn-`x)2)/n )1/2

如有111115數,則平均值等於1,且易見標準差等於0,因此變異數也是0。常數數列(即所有數據都相等)沒有變異,所以其標準差與變異數都是0。除了常數數列外,數據之標準差與變異數都是正的。數據若都相距不遠,即變異不太大,則標準差與變異數便都較小。變異較大的一組數據,標準差與變異數便都較大。數據若平移,譬如都加一定值a,也就是原本的x1x2,…,xn,改為x1+ax2+a,…,xn+a,則平均值由原本的`x變成`x+a。而因在求離差時,a消掉了,所以標準差及變異數都不變。又若每一數據都乘上一定值b,則平均值由原本的`x變成b`x,至於標準差則成為b倍,變異數成為b2倍。

既然是量測離差,那標準差是否愈小愈好?如果是涉及產品品質,標準差當然要儘量小。例如,螺絲規格,若宣稱直徑8mm,則平均值不但最好是8mm,標準差也該小到很接近0。其他如血壓計、體重計也都一樣,儀器顯示值之標準差,都該愈小愈好,否則起伏不定,便不知如何採信。但若是如基測或學測這類大型考試,考生成績之標準差就不宜太小。標準差過小,表成績太集中,如此便不太能鑑別出考生程度之差異。事實上,在教育體系裡,不見得強調變異要小。若管理嚴格,限制較多,學生照表操課,則學生的學習成效,可能多半能達到一定的水準,且變異較小。但因能自由發揮的機會被削減了,創意可能因而被壓抑。反之,若採較開放的作風,則天資聰穎者,在比較自由的環境下,較能創造發明。但資質不佳,或較不知自我要求者,有可能便庸庸碌碌,所學有限。在開放的環境下,學生的學習成效,通常變異較大。至於變異大與變異小,那種環境較佳?就因人而異了。

考完試,常會給出成績之平均值及標準差。對大型考試如果題目設計良好,成績大致有常態分佈,以平均值為中心。對於常態分佈,成績不超過平均值一個標準差的考生約佔68%;不超過平均值兩個標準差的考生,約佔95%例如,假設平均為63.5分,標準差為10.7分,則約有68%的考生成績介於52.874.2分間;約有95%的考生,成績介於42.184.9分間。成績超過平均值兩個標準差的考生,便有5(=100-95)%。由於常態分佈的曲線以平均值為中心,左右對稱,所以成績若在84.9分之上,表示他考在前2.5%(5%之半),相當優異;若在42.1之下,表示他考在後2.5%,算是很差的。標準差與平均值,是了解數據之兩個很關鍵的量。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (B305
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9039557 位訪客
*