國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:41 二項分佈到常態分佈
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2014/12/24 上午 11:14:48

持續投擲一出現正面機率為p之銅板,各次投擲假設為相互獨立,則n次後,所得之正面數Sn,有二項分佈B(n,p)Sn標準化,即令Yn=(Sn-np)/[np(1-p)]1/2,則當n趨近至∞時,Yn的分佈,將趨近至標準常態分佈N(0,1)。這是早期版本的中央極限定理,後來有很一般的版本。高中數學若講授中央極限定理,通常也是只到此版本。因要給出p之信賴區間估計,而為了近似用,此機率論裡著名的中央極限定理,才會在高中出現。

放進高中的題材,本應很初等才對,只是仍屢引起師生不少疑惑。有人可能好奇,諸如信賴區間,及中央極限定理在大學機率及統計的課程裡,長期以來,似乎相安無事,少見抱怨,為何引進高中後,便問題多多?要知不論高中數學裡的信賴區間,或中央極限定理,其內容都只是大學相關題材裡,很少的一部分。高中數學的篇幅實在太有限,此二主題,只能如蜻蜓點水般,稍微講一下。但高中的大小考試很多,且試卷中,往往選擇題佔的比重相當高。既是選擇題,便常會有本質上為是或否”的問題。這麼一點點的內容,為了設計考題,於是反覆翻看,追究各種細節,且每個問題都要有定於一尊的答案。至於到了大學,書上涵蓋的內容極多,搞不太清楚的材料一大堆,考試又以計算證明為主,無暇也無太多精力,去思及高中師生困惑的那些很基本的問題。這是我們猜想在高中裡,對此二主題,不斷產生疑惑,而大學裡反而不太會有人追問的主因。只是沒有提出來,並不表示那些疑惑,在大學裡,眾人皆能清楚明白。底下我們針對幾個基本,但或許會令人感到不解的問題,以Sn為例,分別來說明。

第一個疑惑,乃是否Sn不必標準化,其極限分佈,即為N(0,1)?因當n逐漸增大時,Sn機率密度函數的圖形(以下簡稱圖形),不是就已逐漸顯出常態分佈的鐘形曲線嗎?

首先,鐘形曲線可能被過度引申了。有很多分佈,其圖形皆左右對稱,且由最高點,分別往左、往右下降。不仔細區分,個個都有點像鐘形。但當然不可能每一個都是常態分佈所以,不能常覺得圖形看起來就是鐘形,因而分佈就是常態。其次,Sn乃取正值,而常態分佈會取負值,所以若不對Sn做些改變,不論n再大,Sn的分佈,皆不會趨近至常態再以另一角度來看。隨著n之增大,累積的正面數Sn,有愈來愈多的傾向,這應不難理解。而且對每一整數k=0,1,,nSn取值k的機率,即P(Sn=k),將愈來愈接近0。所以,Sn之圖形,當n愈大,將愈貼近橫軸。如此怎麼看,圖形都絕不會愈來愈像鐘形。有些人可能會堅持他畫的圖形,的確有鐘形的樣子。這一方面,是他取的n仍不夠大。另一方面,若以電腦繪圖,當圖形很貼近橫軸時,為了便於觀看,電腦會調整縱軸尺度,使圓形適當地高,遂讓人誤以為類似鐘形。

第二個疑惑是,離散型的二項分佈,怎會趨近至連續型的常態分佈。

首先,連續型隨機變數的圖形,曲線下的面積表機率;至於離散型則是其圖形的高度表機率。一個是一維的高度一個是二維的面積。維度不同,如何趨近,的確是會讓人迷惑Sn而言,P(Sn=k),即為其圖形在k的高度。現考慮Sn的直方圖。那是一些小長方形,第k個長方形之底部為區間(k-0.5,k+0.5),高度為P(Sn=k)因每一小長方形之底部長皆為1,故第k個長方形之面積,恰等於圖形之高度P(Sn=k)。舉一例子。假設n至少是6,則Sn落在區間[1.3,5.6]之機率P(1.3£Sn£5.6),因Sn只取整數值,故此機率等於P(Sn=2,3,4,5)=P(Sn=2)+P(Sn=3)+P(Sn=4)+P(Sn=5),為4個小長方形面積和。經由直方圖,離散與連續之別,1維與2維不同的問題,便都解決了。

第三個疑惑是,標準化的必要性。

如前所述,當n愈大,Sn有愈來愈大的傾向,且對每一k=0,1,,nP(Sn=k)將愈來愈接近0。不只這樣,Sn的變異也愈來愈大。即Sn取值,隨著n的增大,散的愈廣。事實上,由Sn的變異數np(1-p),隨著n增大而增大,便可看出。因Sn很大,要將它“拉回來”才行,否則不會有一適當大小的分佈。若將Sn減去期望值np,由於Sn-np之期望值E(Sn-np)=np-np=0,因此Sn-np的核心變成0,這是我們說拉回來的意思。光這樣還不夠。想想有1公斤的沙,分散在長度10,000公尺的一線段上,線段的座標不妨取為010,000。範圍大而沙少,則任何一段舉目所及的區間,其中含有的沙量均很小。所以量測不適合以公尺為單位了,要長一點才行,否則其中沒多少沙。此概念在製地圖時常用到。製校園、城市、國家,及世界地圖,比例都不一樣。如果單位長取為100公尺,則原先區間[562,879]將成為[5.62,8.79]。這種區間內的沙,便不至於太稀疏了。因此,將Sn拉回來後,尚要改變尺度。尺度得隨n而增大,適當的尺度便是n1/2。但我們取尺度為[np(1-p)]1/2,二者差個常數倍[p(1-p)]1/2。兩步驟併起來,即將Sn減去期望值np後,除以標準差[np(1-p)]1/2,而得到(Sn-np)/[np(1-p)]1/2,亦即將Sn標準化。標準化後的Sn,期望值為0,不偏不倚,很恰當;變異數則為1,一個單位值,看起來也很好。這是何以明明簡單的尺度n1/2,卻取成[np(1-p)]1/2的原因。至於為何標準化後,極限分佈為N(0,1),這是證明出來的,非三言兩語可說清。這中間其實能有一些解釋,但不妨就想成有如天作之合,並不必有什麼大道理。想更進一步了解由二項分佈到常態分佈的讀者,可參考黃文璋(2011)一文。該文亦給出未標準化,與標準化後,Sn/n圖形之變化。這與討論Sn圖形之變化是等價的。

參考文獻

1. 黃文璋(2011). 關於中央極限定理之圖示. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (T5U9
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9042549 位訪客
*