國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:25 常態分佈
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2014/10/29 下午 02:40:05

一函數只要不是負的,且在取值範圍內之積分為1,便是一機率密度函數。雖如果願意,學過一年微積分者,短時間內,便可造出許多機率密度函數。但若根本說不出有何用途,則絕大部分,終究只能與草木同朽,無人理會。經由極限,也是一產生機率密度函數的途徑從十八世紀的棣美弗起,接著十九世紀早期的拉普拉斯,將一有參數np之二項分佈的隨機變數Sn,經由標準化,得到其極限分佈有如下之機率密度函數:

φ(x) = exp(-x2/2σ2) / (2π)1/2

其中x可為任意實數。後人稱有此機率密度函數的分佈,為標準常態分佈,且以符號N(0,1)表之。符號中的N,當然是取自常態(normal)一詞英文之第一個字母。至於一般參數為μσ2之常態分佈,其中σ>0,則以N,σ2)表之。起先人們以為,φ(x)只不過是一機率密度函數而已,可用來估算n很大時,Sn會落在某一區間的機率。但有二項分佈的Sn,總是描述諸如投擲一銅板n次後,所得之正面數。那個時代,也沒太多會碰到n很大的機會。至於此分佈還有沒有其他用途?起先也看不太出來,既然如此,很多人便將它束之高閣

大約在1870年左右,奎特雷靈光一閃,將標準常態分佈的曲線,當做一理想的直方圖,然後將經由不同管道,所收集到各類數據的直方圖與之相比,結果不少相當吻合。於是常態分佈有如鹹魚翻身自此廣受重視。至於奎特雷為何會看上標準常態分佈?他並非突發奇想,而是留意到,許多收集到的數據,其直方圖,都呈現中間高,然後往兩側下降。換句話說,若不管原點及尺度,那些直方圖的形狀,常都如圖2

5給出N,σ2)分佈之機率密度函數及其圖形,這也是往昔在德國10馬克上,陪伴著高斯的圖。常態分佈有很多特性,像是兩個獨立的隨機變數,若皆有常態分佈,則其和仍為常態分佈,而參數就是對應的參數各自相加。就算二者並不獨立,只要有兩變數的常態分佈,則不只是相加,連線性組合,也仍是常態分佈,不過參數的表示,就略複雜些至於其他分佈的線性組合,常變成看不出名堂的怪分佈。此特性亦為常態分佈能頻繁出現之一原因。

常態分佈除了屢能充當數據的模型外,還使用方便。首先,若隨機變數XN,σ2)分佈,則X之期望值及變異數分別就是μσ2,標準差則是σ。當然,標準常態分佈N(0,1)的期望值及變異數(標準差),分別就是01。當我們畫一條直線取一點當做0,再取一長度當做1,如此即得到一條數線。從0往右,是12,…,往左是-1-2,…。至於0的位置在那裡?1到底多長?你知道根本無關緊要。若兩人各畫一條數線,只要將原點(0的位置)對齊,以及適當地調整尺度(單位長),兩條數線上的數字,便完全重疊了。生活裡,將圖形做位置與尺度的改變,乃所在多有。像準備興建的那棟建築,蓋出來會是什麼樣子?建築師講得口沫橫飛,仍難使人有概念。提供一個縮小的模型,便一目瞭然了對有N,σ2)分佈的隨機變數X,將X經過平移,以及尺度的變換。更明確地說,將X標準化,即減去期望值μ後,再除以標準差σ。以Z表標準化後的X,即Z=(X-μ)/σ,則很輕易便能證出,ZN(0,1)分佈。所以N,σ2)N(0,1)分佈之圖形,本質上就是平移加上尺度變換。有些分佈,只要參數一改變,機率密度函數之圖形,便與原來的迥然不同。但態分佈,不論參數為何,毫無例外,就是那一個鐘形。

舉個例子來看。假設XN(5,16)的分佈,想求X£8之機率。先由X£8,得到Z=(X-5)/4£(8-5)/4=0.75,所以變成要求P(Z£0.75),其中ZN(0,1)分佈。該可以看出來了,隨機變數只要有常態分佈,要求與它有關的機率,皆可轉換成求與標準常態分佈有關的機率。這是一極大的方便。一般統計學的教科書,附錄中都有若干常用分佈之機率值表。有些分佈,不同參數便有不同的表,連續好幾頁都是此分佈的表但常態分佈,雖有兩個參數,但只要給一個N(0,1)分佈的表便可以了,簡單明瞭。任一常態分佈,不論參數為何,一旦經標準化後,全轉化成N(0,1)。一個N(0,1),就可概括全部常態分佈。

ZN(0,1)分佈。期望值0是核心,偏離情況如何?標準差是1Z偏離期望值不到1個標準差的機率Z取值在正負1間的機率P(|Z|£1),可求出約0.6827Z偏離期望值不到2個標準差的機率P(|Z|£2),其值約0.9545,至於Z偏離期望值不到3個標準差之機率P(|Z|£3),則約0.9973Z偏離期望值2個標準差以上之機率P(|Z|>2),才約1-0.9545=0.0455,不到5%;要偏離期望值3個標準差以上之機率P(|Z|>3),就小到約1-0.9973=0.0027,不到0.3%。又如前所述,只要XN,σ2)分佈,經標準化後,(X-μ)/σ,便有N(0,1)分佈。因此任一有常態分佈之隨機變數,距期望值不超過123個標準差之機率,分別約為0.68270.95450.9973。這3個機率,有時就概略地以0.680.95,及0.997表之。要注意的是,前述機率只適用於常態分佈。若非常態分佈,則隨機變數取的值,距期望值不超過123個標準差之機率,就完全另當別論了,視不同分佈而定。不可不求甚解,囫圇吞棗地,將機率0.68270.9545,及0.9973套到任何分佈,還以為這是什麼68-95-99.7法則。

如黃文璋(2013)一文所指出,運動選手有時表現會被評為“失常大失常態,或“一反常態”等。假設選手的表現能以常態分佈當模型,有某個期望值及某個標準差。不是機器人,選手成績無法一成不變,表現在期望值左右,雖有波動總在12個標準差之內,大家習以為常,也視此為“正常”情況。一旦表現向下超出太多,譬如說2個標準差,自然讓人很訝異,便覺失常,說跌破眾人眼鏡。由對稱性,會向下超出2個標準差之機率,約0.0455之半,即約0.022752%的機率,的確夠小。國際網球比賽,偶有排名在後的選手,過關斬將最後奪得冠軍。這也是一種失常”,表現向上超出幾個標準差,只是機率當然也是很小。失常不一定都不好,要看向上還是向下。大部分的比賽,結果會符合常態,即由排名在前的選手奪冠。運動場上,看到超過好幾個標準差的不正常事件發生,所謂大爆冷門,有人以為中邪了嗎?但如同巨數法則所指出,只要樣本數夠大,以為不可能的事件出現,其實一點都不必驚訝經年累月的比賽下來,有選手“大失常態,完全是正常的。

教室的課桌椅,及各種公共設施,通常是為正常身高的學生所設計。因此過高或過矮,坐起來可能都不太舒服沒辦法雖叫你的身高不正常。真那麼高或矮到不正常”嗎?倒也不見得,跟長頸鹿比算是矮的,跟貓比則如巨人。智商很高或很低,體能很好或很差,很擅長或很不擅長書法,都是不正常。正常情況下,每個人都有些不正常的特質,可能落在上方,可能在下方。不同時代重視不同的特質,因而造成有人得意,有人不得意。若對現況不滿意與其怨天尤人,還不如往你特質能發揮的地方發展。東漢時出身書香門第的班超(32-102),本來為官府抄寫書籍,過著一般人以為正常的生活後來他對整天抄抄寫寫,感到厭煩無比,毫無成就感不幹了,投筆從戎。不坐辦公室寧可去開疆拓土。在西域大漠,過著餐風露宿,一般人以為不正常的日子,最後成為一代名將

考試的滿分成績,不見得是100分,有6080120,…不一而足。而且視考題難易,若僅說比平均多10,並不知究竟有多好?因若標準差是4分,則多10分就是比平均高出2.5個標準差,算是很優異;若標準差是20分,則比平均不過高0.5個標準差,表現只能算差強人意。通常會將成績標準化,即將成績減去平均值後除以標準差。大型考試,若假設成績有常態分佈,則經標準化後的分數,即使不同次的考試甚至不同科目,也都可相互比較了。但要注意常態分佈雖常可拿來當數據的模型,但也非通行無阻,使用前仍宜做個檢定。例如,有時會看到主辦考試的單位說,這次英文成績有雙峰(或說M)。也就是成績兩極化,比較高分與比較低分,各有群聚。此時顯然便不宜以常態分佈當成績的模型了,因常態分佈僅有單峰

常態分佈尚有不少好的性質,我們所介紹,僅是皮毛而已。有興趣的讀者,可翻閱一般的機率與統計書籍。

參考文獻

1. 黃文璋(2013). 正常與不正常. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (S9LP
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9023224 位訪客
*