國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:24 中央極限定理
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2014/10/27 上午 11:48:13

德國現在的法定貨幣是歐元,在東西德統一前,西德用的是馬克。1990年東西德統一後,馬克仍繼續使用至20022底止,此後便全面是歐元天下了。從1989年起,10馬克紙幣上的肖像,並非政治人物,而是高斯(Carl F. Gauss1777-1855)高斯何許人也?他被認為是有史以來三大數學家之一。關於高斯有幾個眾所皆知的故事,像是他很小的時候,便知如何快速求出1+2++100。還有一個是關於尺規作圖,也就是只能用直尺跟圓規來作圖,直尺且限制須沒有刻度。正3邊形跟正4邊形,即使離開學校已久的人,大約仍知道如何作圖。再來是正5邊形。正5邊形到處看得到,如美國國防部,常被稱為五角大廈(The Pentagon),因建築物的外觀,呈正5邊形。但大部分的人,即使學過正5邊形的作圖,恐怕都早就拋到九霄雲外,忘得乾乾淨淨了。但高斯19歲時,卻作出正17多邊形。原本他對哲學與數學皆感興趣,難以抉擇,自此便決定終身奉獻給數學。高斯一生都對那19歲時的成就,念念不忘。他曾希望死後的墓碑上,能刻一正17多邊形。可惜他的願望未能實現,因工匠覺得太難刻了,內角並非整數,且工匠也不可能看得懂高斯的作法不過在高斯出生地布倫瑞克(Braunschweig)之高斯紀念碑上,倒是刻著一個17角的星星。正17多邊形之作圖,乃具有特殊的歷史意義,可參考黃文璋(1999)一書第四章。

高斯在很多領域,不只是數學,如幾何、代數、數論、分析、測量、天文、物理、機率及統計等,都做出不少開創性的工作至今在數學、機率、統計、天文、物理、財務、經濟、生物及社會科學等,都仍常會用到與高斯有關的理論,高斯的名字可說無所不在。本來科學家術業有專攻,又活在不同的時代,只能各領風騷,成就難以放在一起評比。但有人認為,高斯的貢獻,比起其他科學家,都更廣泛,影響也更深遠,可參考黃文璋(2008)一文。雖然成就無與倫比但被挑出來,在10馬克紙幣上伴隨高斯的,並非其他,而是參數為μσ2之常態分佈的機率密度函數:

f(x)=exp(-(x-μ)2/2σ2) / (2πσ2)1/2

其中x為任意實數,以及其圖形。由此一方面可見常態分佈之重要,一方面見微知著,可看出德國人是如何致力於提高國民之數學素養。不必經常強調數學的重要,每天使用的鈔票上,就有個鼎鼎大名的數學家,以及一個大有來頭的函數。這函數中,包含兩個數學中最重要的常數πexp(前者是圓周率,後者是自然對數的底,其值約2.71828),最小偶數兼最小質數2,重要的無理數Ã(高中數學課本講到無理數時,常舉的例子,就是證明Ã為無理數),分式平方,及開平方等基本運算,負號,還有兩個希臘字母μσ當德國人使用紙幣時,不時會看到這個函數及其圖形。起先說不定還會訝異這是什麼?但數學生活化,久而久之,可能便會覺得數學與統計,都不是那麼遙不可及,甚至了解數學與統計都是生活的一部分。

對一取01個值的伯努力數列X1X2,…,Xn,…且取值1的機率為p,令Sn=X1+X2++Xn,其中n1Sn可代表獨立地投擲一出現正面機率為p之銅板n次後,所得正面數,我們知道Sn有參數np之二項分佈。由大數法則知,n很大時,Sn/n有很大的機率很接近p。必須理解,這並不表n很大時,Sn有很大的機率很接近np。雖n很大時,Sn/n大致在p附近一很小的範圍內活動,但乘上n,將有如在顯微鏡下,距離被n倍放大,Sn變成可能偏離np很遠。大數法則講的是,隨著n之增大,樣本平均Sn/n會趨於穩定,即Sn/n只在p附近,波動極其微小。但大數法則絕對沒有說,樣本和Sn會趨於穩定。以數學式子來說明,對一很小的正數a,不等式

|Sn/n-p| £ a

Sn/n落在一以p為中心,半徑為a之區間,即[p-ap+a]。此等價於

|Sn-np| £ an

Sn落在一以np為中心,半徑為an之區間,即[np-annp+an]。原本區間半徑a很小,放大n倍後,因區間半徑an變成很大,Sn的活動範圍也就變得很大。因此Sn便不必然很接近區間中心np了。這點常有人誤解。當p=1/2也就是有一公正銅板,不少人以為投擲數n愈大,正、反面數都將愈接近n/2。事實上完全不會,反而更容易偏離。既然知道會偏離,我們好奇的是,能對偏離程度有所了解嗎?

大數法則說,n很大時,P(|Sn/n-p|£a)很接近1,或等價地說,P(|Sn-np|£an)很接近1。一般而言,人們對機率0與機率1的事件,都較興趣缺缺。想想一個必然失敗(即成功機率為0),或必然成功(即成功機率為1)的事件,是相當乏味的。換句話說,對Sn而言,它取值範圍的大小,以n當尺度單位來量測太大了。這有如量測紙張的大小該用公分,量測馬拉松跑步的距離該用公里。那較適合的尺度單位為何?答案是n1/2n1/2次方,更大或更小的次方都不行。當然對樣本平均Sn/n,適當的量測尺度單位便為1/n1/2。隨著不同的正數aP(|Sn-np|£an1/2),或等價地,P(|Sn/n-p|£a/n1/2),當n趨近至時,此機率之極限值將大於0且小於1。雖找出適合的尺度單位,但只知會介於01之間並不夠,太含混了。機率究竟多大?能否表示出來?

為何要登高山?因山就在那兒。科學家一向不畏挑戰,對p=1/2,法國數學家棣美弗(Abraham de Moivre1667-1754),證明P(an1/2£Sn-n/2£bn1/2),其中a<b,當n趨近至時,其極限可表示成一積分。由於Sn有參數np之二項分佈,不難料到,棣美弗仍是對二項分佈機率的和,辛苦地計算其極限。棣美弗有如以手工,得到後來被稱為中央極限定理的雛型了。1733年,他的曠世傑作發表了。是否造成洛陽紙貴?沒有。這個結果太先進了,超過他同時代的人,對機率理論能有的了解。他們看不出得到這極限有何大用?科學界向來不時興沒有功勞也有苦勞。吾生也有涯,而知也無涯,該懂的東西那麼多,不曉得用途的,自然先丟一旁。於是彷彿船過水無痕,棣美弗的著作,並沒引起什麼回響,相當令人惋惜。將近80年後,棣美弗的同胞拉普拉斯,於1812年,在他那本不朽的著作“機率的分析理論”(Théorie Analytique des Probabilités)中,把塵封已久棣美弗的結果,推廣至一般的p,不限p=1/2,跨出了一大步。拉普拉斯並了解此結果之重要性。可惜,仍未受到那時代科學界的重視。無可奈何,先知有時是寂寞的詩仙李白(701-762)不早也說過古來聖賢皆寂寞。一轉眼,80餘年又過去了進入二十世紀,1901年,俄國數學家李亞普諾夫(Aleksandr M. Lyapunov1859-1924),給出此定理較一般的敘述,及嚴密的證明,用的方法當然不再是手工了。由於有這段歷史,中央極限定理又稱棣美弗-拉普拉斯定理,畢竟還了兩位數學家公道。

對有參數np之二項分佈的Sn,其期望值為np,標準差為[np(1-p)]1/2,拉普拉斯的結果可寫成:

P(np+α[np(1-p)]1/2 £ Sn £ np+β[np(1-p)]1/2)

n趨近至時,趨近至函數

φ(x) = exp(-x2/2)/(2π)1/2

在區間[αβ]之積分。上述結果亦可等價地表示成:

P(α£ (Sn - np)/[np(1-p)]1/2 £β)

n趨近至時,趨近至φ(x)在區間[αβ]之積分。對應前述f(x)中,μ=0σ2=1φ(x)為標準常態分佈的機率密度函數。又將Sn減去期望值np,再除以標準差[np(1-p)]1/2,此過程便稱為將Sn標準化。

在座標平面上,對實數xy=φ(x)之圖形對稱於y軸。此圖形常被稱為鐘形曲線(bell-shape curve),在圖形之下,與x軸間之面積為1。且圖形最高點發生在x=0,高度為φ(0) = 1/(2π)1/2其值約0.3984,見圖2。事實上,有好些機率密度函數,其圖形都是左右對稱,中間最高,向兩側下降,曲線都似鐘形故若見到機率密度函數的圖形有如鐘形,便說這是標準常態分佈的曲線,乃極不妥。其道理就像若pq不一定導致若qp

有人以為Sn趨近至常態分佈,有人以為Sn/n趨近至常態分佈,其實都不對。我們知道Sn有參數np之二項分佈Sn可視為投擲一出現正面機率為p之銅板n後,所得之正面數,當投擲數n愈來愈大,Sn便有愈來愈大的趨勢。由於會取值在比較小的012,其機率都很小,故Sn的直方圖,隨著n之增大,在比較小的012,其高度都將很低。直方圖形逐漸快貼著x軸,因此怎會趨近至常態分佈的鐘形?至於Sn/n,大數法則說了,當n很大時,Sn/n有很大的機率,落在p附近一很小的範圍內。所以Sn/n的直方圖,隨著n之增大,將有如101大樓的高聳入雲(因直方圖那些長方條的總面積為1,而底很小,故高度要很大),也不會趨近至鐘形。對p=1/2,且n=10,000,圖3及圖4分別給出SnSn/n的直方圖,由此二圖大約便可了解我們在說些什麼了。再度提醒,不論SnSn/n,都是要標準化後,其分佈才會趨近至標準常態分佈。

棣美弗與拉普拉斯證明出,獨立且分佈相同的伯努力隨機變數之和,經標準化後,會趨近至標準常態分佈。但只限伯努力隨機變數之和嗎?非也!雖非毫無限制,但結果更一般許多。凡一數列獨立且分佈相同的隨機變數,又假設期望值與變異數皆存在,則那些隨機變數之和,經標準化後,會趨近至標準常態分佈。這是常見版本的中央極限定理。尚有推廣的版本,條件可高度放寬,因此適用範圍更廣,見黃文璋(2010)一書。

十九世紀時,比利時的科學家奎特雷(Adolphe Quetelet1796-1874,今日流行的身體質量指數(Body Mass Index,縮寫BMI),便是他所提出),及英國遺傳學家高頓(Francis Galton1822-1911),發現很多生物的各項特徵,皆符合常態分佈,自此常態分佈廣受重視。甚至若數據不符合常態分佈,還會懷疑是否有誤?例如,因身高太矮便可免役,若役男體檢,過多較矮者,常會進一步檢視流程中有沒有造假。數據有常態分佈,原本是知其然。中央極限定理,便提供了很好的解釋,使知所以然。像是人的身高、體重,及智商等從出生起,持續受很多微小效應的影響,如每天吃的食物、上課聽到的某一句話等。最終呈現出來的量有多大?中央極限定理預期有常態分佈。而奎特雷與高頓,相當於以實例檢驗中央極限定理。

歷來數學中的理論,若能被用到物理上,其重要性往往會提昇許多。1807年,高斯開始在德國哥廷根大學(英文名稱University of Goettingen)任教,同時擔任當地天文台的台長。天文中的觀測有很多步驟,每一步驟皆可能產生若干誤差,最後總誤差有多大呢?高斯研究誤差理論,他證明在一些合理的假設下,量測誤差可以常態分佈來當模型,其推導不算太難,只用到一些基本的數學及統計的工具,可參考黃文璋(2011a)一文。至於中央極限定理,則能由隨機變數之和的角度,提供誤差是常態分佈之詮釋。由於高斯的貢獻,常態分佈機率密度函數的圖形,還曾被稱為高斯曲線(Gaussian curve),或高斯誤差曲線(Gaussian error curve)。不過自皮爾生之後,便開始稱此為常態曲線(normal curve)了。唯至今常態分佈仍常被稱為高斯分佈(Gaussian distribution)。至於中央極限定理這個名稱,則是1920年,由匈牙利數學家波里亞(George Pólya1887-1985)所命名。

不時有人誤以為巨數法則為大數法則,亦有人誤以為中央極限定理為大數法則。可能是大數法則的名稱簡單,因此凡涉及大數的,總有人以為那就是大數法則。對一數列獨立且分佈相同的隨機變數,不拘什麼分佈,當樣本數n很大,大數法則指出,樣本平均差不多就是期望值;中央極限定理,則更近一步,給出樣本平均偏離期望值,不超過一給定距離的近似機率。偏離的尺度單位為1/n1/2,相當精細,因n很大。由於1/n1/2隨著n之增大而下降,即n愈大便又愈精細。由此可能會讓人以為,中央極限定理比大數法則有用。不過後者僅須假設期望值存在,前者卻須假設期望值與變異數皆存在。在更多的假設下,是可能得到更好的結果,科學裡這並不稀奇。當然如伯努力數列,有些隨機變數,若原本已知期望值與變異數皆存在,則中央極限定理便的確較有用。

中央極限定理差不多可說是機率中最重要的一個定理,由此得到的常態分佈,在統計裡處處出現。本文只是中央極限定理之初步介紹,欲更了解者,可參考黃文璋(2011b)一文。

參考文獻

1. 黃文璋(1999). 數學欣賞. 華泰文化事業股份有限公司, 台北市.

2. 黃文璋(2008). 誰與達爾文爭鋒. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).

3. 黃文璋(2010). 機率論, 第二版. 華泰文化事業股份有限公司, 台北市.

4. 黃文璋(2011a). 中央極限定理. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).

5. 黃文璋(2011b). 庶民中央極限定理. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (34L0
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/3/28 下午 01:15:41

2003/10/20起第 8902436 位訪客
*