國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:談統計素養(六)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2017/2/22 下午 07:56:58

6 極限

如同故事結局引人關注,對一進行中的事,人們屢會好奇,一直下去最後會怎樣?這其實就是想知道極限為何,極限是數學中一重要的概念。大學裡很多學系的必修課中,均列有微積分。因這是進入不少領域的敲門磚,而微積分的基礎便是極限。由於高中的選修數學裡,已有微積分的題材,所以極限對一般高中畢業生,並不陌生。

極限是什麼?簡單講,有一數列ann≥1,考慮n趨近至無限大(n→∞表之)時,an會趨近至何值?或有一函數f(t)t≥0,考慮t→∞時,f(t)會趨近至何值?這是微積分裡,兩個求極限之基本形式。至於怎樣是趨近?那可非三言兩語能解釋得清楚。有些人還誤以為趨近乃接近之意。像曾在一則新聞裡出現至於籃球,相較起來,兩隊總得分出現單或雙的機率,就比較趨近於相等一句。其中的趨近於相等便非正確敘述宜以接近取代。又極限當然也可能不存在,極限不存在的討論,常會讓學生搞得糊裡糊塗。換句話說,要真正弄懂極限,並不十分容易。即使在大學裡,修過微積分的人,對極限多半也只是懞懞懂懂,不敢多談。雖然如此,機率與統計裡,兩個基於極限的隨機法則,即中央極限定理與大數法則,不少人卻能朗朗上口,隨時引用,一無所懼。

201411月底九合一選舉投票前,有位臺北市長候選人,拋出以遴選委員會,來挑選首長的主張。他解釋:

在統計學上,N25,就會接近大數法則,也就是中央極限理論,不太容易出現偏頗的情況。雖然他準備設置的遴選委員會成員不到25人,但以過去經驗來看,只要15個人就會蠻準確的

N是什麼沒說,且N25時,何者會接近大數法則也沒說。只是大數法則,顧名思義是個法則(law),引用無妨,至於說接近它,就不知意義為何?另外,大數法則與中央極限定理(通常稱定理而不稱理論”)內涵完全不同,所以沒有大數法則也就是中央極限定理這種講法。而大數法則居然能用來遴選市政府首長,還認為蠻準確,更是聞所未聞。

這位候選人究竟在說些什麼,一般人可能並不太清楚。但看他一付言之鑿鑿,即使對其講法心存懷疑者,恐怕大多數寧可不開口了,以免自曝其短。畢竟知之為知,不知為不知,是知也

先來看大數法則,這可能是較容易理解的。氣象局每日公佈對各地降雨機率之預測。只是就算預告的降雨機率高達90%,一天結束,也不見得果真下雨。氣象局的預測準確嗎?令人好奇。你知道不能僅由幾天的準不準,便驟下結論。就像對一銅板,若只投擲幾次,並無法判定銅板是否公正。我國中央氣象局,在其網站上,對降雨機率60%”的說明為,每預測100次,實際降雨有58.6次。每100次,怎會有不是整數的58.6次?這應是指平均而言,也就是若過去預測降雨機率60%”的有n次,其中k次真的下雨,則k/n約為0.586。由於氣象局已長期進行預測,這裡的n當然不會小。氣象局所提供對機率的解釋,乃符合常見頻率的觀點。

一隨機試驗若有兩個結果,即稱為伯努力試驗(Bernoulli trial)這種試驗,雖簡單卻處處出現。如投擲一銅板,會出現正面或反面;投擲一骰子,會出現偶數或奇數等。一般而言,若對一隨機試驗的某事件A有興趣,則觀測後,可能事件A發生,也可能事件A沒發生,如此便是兩個結果了。對於二結果,人們習於其一以成功稱之,其二以失敗稱之。成功常只是表有興趣的那一結果,並不見得真的做什麼事成功。

假設有一可重覆觀測的伯努力試驗,每次成功的機率以p表之。則每次試驗後,便產生一有伯努力分佈之隨機變數,即取值01,其中1表成功,0表失敗,且得到1的機率為p,得到0的機率為1-p。觀測n次後,以Sn表總共成功的次數,則Sn有二項分佈B(n,p)。而Sn/n表觀測n次後,平均每次觀測成功的次數。Sn/n即為n次試驗後,所得n個伯努力隨機變數之樣本平均。不論專業或非專業人士,皆知可以Sn/n來估計p。統計學裡,則告訴我們,此一p之估計量,有很多好的性質。

當觀測次數n不太大時,Sn/n取值還可能上下有不小的波動,但當n很大時,Sn/n便大致會很接近p。即若在座標平面上,繪y=Sn/nn≥1,之圖形,則隨著n之愈來愈大後,其圖形將大致貼近水平線y=p這便是一般人以為的大數法則,即使沒正式學過,直觀上也覺得會成立。之前所提以頻率的觀點來解釋機率,其背後的理論基礎,便是大數法則。對大數法則,有時會將其詮釋成,一件事最終會呈現該有的風貌。所指的就是上述觀測次數夠多後,樣本平均將差不多等於事件發生機率的意義。所以,想估計銅板出現正面的機率p,人們向來知道,就是持續投擲,只要投擲數夠多,則以總共出現的正面數除以投擲數,便是p之一不錯的估計值。

要注意的是,前述討論其實隱含做了一假設。即各次投擲相互獨立,且每次出現正面的機率相同。也就是假設各樣本為相互獨立且有相同分佈。因此不會有這次出現正面,下次便較易出現正面;或投擲若干次後,出現正面的機率改變等情況。實務上,如果以隨機取樣,來估計池中某種魚之比例,或市民對某議題之支持率,由於魚與人皆有個性等因素,此假設並非毫無疑義地成立。但對於投擲銅板,此假設通常可接受。只是不論n再大,Sn/n不但不見得會等於p,甚至也不保證就很接近p。以投擲一公正銅板100次為例,是有可能全出現正面,雖發生的機率(1/2)100相當小。此時,n=100S100=100,因而S100/100=1,可一點都不接近p=1/2

我們已指出,對n=12,隨機數列Sn/n,隨著n之增大,並不必然很接近p。但這豈非違反大數法則?倒也沒有。那大數法則是在講些什麼?以白話來說,乃表只要n夠大,Sn/n任意接近p的機率,便可任意接近1。而怎樣算是任意接近?即差距可以小於任給的一個上限,所給的上限當然須是正的。以數學來表示,對任給的二正數ab,其中考慮b<1即可,則只要n夠大,便能使|P(|Sn/n-p|≤a)-1|<b。又因機率不會大於1,前述不等式等價於P(|Sn/n-p|≤a)>1-b。所以,只要n夠大,Sn/n雖不一定很接近p,但會很接近p的機率,便將很大,要多大皆可。我們之前提到的大致,便是這個意思。而由於是在談機率,當n很大後,Sn/n不接近p的機率既然很小,要多小皆可,那就夠了,不必在意Sn/n不接近p的情況。

大數法則告訴我們,對任一給的正數a,只要n夠大,則Sn/np之差距不超過a的機率,將差不多是1。討論隨機現象,機率是10的事件,表必然發生或必然不發生,這樣的事件,通常不會讓人太感興趣。由於機率差不多是1,顯示若想知道Sn/n究竟如何散佈在p附近,不論a如何小,當n持續增大後,Sn/np之差距不超過a,便遲早是一太大的範圍(Sn/n落在此範圍內之機率差不多是1)。因此欲較有意義的描述Sn/n散佈在p附近的情況,所給的Sn/n落在p附近之範圍,須更小才行。固定的範圍,已知不適用了。最後求出,適當的範圍,其尺度單位為1/n1/2,乃一隨著n之無止盡地增大而漸減至0之尺度。如此一來,便有辨法來近似Sn/n落在p附近一範圍內之機率。更明確地說,對α<βn很大時

P(Sn/n[p+αp(1-p)/n1/2p+βp(1-p)/n1/2])

(Sn/n - p)/(p(1-p)/n1/2)落在區間[α,β]的機率,即

(1) P(α≤(Sn/n-p)/(p(1-p)/n1/2)≤β)= P(α≤(Sn-np))/(np(1-p))1/2β)

上式左側是關於樣本平均Sn/n,右側則是關於樣本和Sn,可以函數

(2) ϕ(x) = exp(-x2/2) / (2π)1/2xR

αβ的積分來近似。此結果,便是著名的二項分佈之常態近似,也是很原始版本的中央極限定理。

(2)式為標準常態分佈(N(0,1)表之)之機率密度函數,其中包含數學中幾個重要的常數、函數及運算。以常數來說,有最小的正整數1、最小的偶數2、圓周率π、自然對數函數的底e。由於Sn的期望值為np,標準差為(np(1-p))1/2,減去期望值後,再除以標準差,便是將Sn標準化。中央極限定理即指出,樣本和Sn經標準化後,當n很大時,其分佈可以標準常態分佈來近似。函數y=ϕ(x)xR,其圖形有如鐘形,對稱於y軸,最高點發生在x=0,自y軸向兩側漸減至0

機率裡分佈的產生,有一些不同的途徑,經由極限為主要的一種。常態分佈便是極限下,所產生的一重要無比之分佈。

大數法則說,n很大時,Sn/n大致p附近。但大致一詞乃口語,若想知道如何大致法,則大數法則就束手無策了,得換由中央極限定理來發揮功能。中央極限定理能給出,Sn/n落在p附近一範圍內之機率的近似值。而若不欲機率值太大,範圍便得隨著n之增大,而愈來愈小。中央極限定理,相當於用倍數以n1/2的速率成長之顯微鏡,來觀看Sn/n散佈在p附近之情況。若要讓散佈情況看起來更優美些,便將倍數調整為n1/2/(p(1-p))

投擲一公正的銅板100次,以X表正面出現的次數。大數法則指出,X/100“大致0.5即有很大的機率,X/100會很接近0.5。那是否表X大致50?如果答案為肯定,由於X取整數值,因此X便有很大的機率為50。利用排列組合會出50個正面的機率為

P(X=50)=C(100,50)(1/2)100=100!/(50!)2×(1/2)100

只是100!是一很大的數,上述機率值要正確算出不易。藉由近似公式,可得

P(X=50)≈0.0796

為一不算很大的機率。所以大數法則,並未使投擲一公正的銅板100次後,出現的正面數大致50X/100“大致0.5沒錯,但小差距放大100倍,可不見得仍是小差距了。X的散佈範圍變大了。事實上,投擲一公正的銅板2n次,當n愈大,將愈不容易出現恰好n個正面。

X之期望值為50,且標準差為5底下藉求X落在期望值50附近一範圍內的機率,來看中央極限定理之一應用。先求P(45≤X≤55),即X與期望值50相距不超過1個標準差之機率。利用(1)(2)式,及N(0,1)介於正負1間之機率,約為0.6826,即得

P(45≤X≤55)≈0.6826

或者就簡單的說機率約為0.68。至於X與期望值50相距不超過2個標準差之機率,仍由中央極限定理,得

P(40≤X≤60)≈0.9544

或者就簡單的說機率約為0.95

有幾點要說明。首先,當n很大時,分佈可以N(0,1)來近似的,既不是Sn,也不是Sn/n,而是標準化後的Sn。包括若干高中數學課本的作者,很多人誤解這點。還宣稱隨著n之增大,SnSn/n的機率密度函數之圖形,都會愈來愈像N(0,1)那一鐘形的機率密度函數圖形。其實很容易可看出這並不正確。Sn不會取負值,且隨著n之持續漸增,Sn取值很大的機率,將愈來愈接近1;至於Sn/n取值乃介於01之間。因此就算n再怎麼大,不論SnSn/n,其機率密度函數的圖形,一點都不會近似定義在整個x軸,函數y=ϕ(x)xR,那一對稱於y軸的圖形。這方面的詳細討論,可參考黃文璋(2011a)一文。

自問世以來,歷經不同學者的推廣,大數法則及中央極限定理,條件均早已放寬不少,因此適用性更廣。也讓諸如人的身高、體重、智商,及量測的誤差等,常可以常態分佈來當模式。常態分佈遂處處可見,於眾多分佈裡,享有獨尊的地位。在常見的版本裡,不限伯努力分佈,對一數列相互獨立且有共同分佈的隨機變數,當共同分佈的期望值存在,大數法則便適用;當期望值及變異數皆存在,則中央極限定理便適用。雖相互獨立與分佈相同,皆可以較鬆的條件取代,但就是須有些條件。並非只要有很多隨機變數,大數法則或中央極限定理,便能派上用場,這點須特別留意。

回到本節一開始所引那位臺北市長候選人的談話。大數法則或中央極限定理,雖為極限下的結果,但實務上,遇到的樣本數自然都是有限。有些教科書指出,通常樣本數n並不必太大,如n至少達到30,或者更小些,n至少有25,則關於樣本平均,及樣本和之機率,就都可利用中央極限定理來求近似值。這可能是那位候選人說在統計學上,N25就會接近大數法則,也就是中央極限定理,其中N25”的由來。但此不求甚解的候選人,不但將大數法則與中央極限定理混為一談,甚至並不了解大數法則的內涵。只要樣本數夠大,就不太會出現偏頗嗎?不妨以電影獎項之評審為例。

世界各地年度的大小電影獎項,超過100個應毫無疑義。即使在台灣,也設有金馬獎,及台北電影獎等兩個。其中奧斯卡金像獎(The Academy Awards,或簡單稱為Oscars),不僅是美國,甚至可說是全世界最受矚目的電影獎。每年頒發包含最佳影片、最佳導演、最佳男主角、最佳女主角、最佳男配角,及最佳女配角等,共二十餘個獎項。各獎如何產生?美國影藝學院(The Academy of Motion Picture Arts and Sciences) 的會員總數超過6千人。各獎入圍名單,由相關分會的成員投票決定。如演員會員(13百多位)可對最佳男、女主角,及最佳男、女配角獎,有關演技的4個獎項投票。待全部獎項的入圍名單確定後,每一會員,皆可對任一獎項投票。投票人數這麼多,又都是專業人士,應不會有爭議吧!

聽過奧斯卡好白”(Oscars So White)嗎?20161月,奧斯卡金像獎入圍名單公佈後,掀起的種族歧視質疑聲浪,幾乎淹沒了提名的喜悅。因連續兩年,有關演員的那4個獎項,20位入圍者(4獎每年均各有5人入圍),清一色都是白人。此外,幾個重要的獎項,如最佳影片,及最佳導演等,也幾乎是白人的天下。每一獎項,參與入圍名單投票的人數,均遠遠超過25,甚至上千,但因此就不會出現偏頗的情況嗎?由影藝界的反應來看,顯然覺得相當偏頗。

一般在做民調時,會在意誤差的大小。直觀上,欲誤差小,樣本數便不能少。為使誤差不超過3%的機率,大於0.95,藉助中央極限定理,同時也採用一些其他的近似(見黃文璋(2011b)),一開始設定的成功樣本數為1,0681千個左右宣稱是隨機所產生的樣本,由於有拒訪等人為因素,都還常被批評取樣的代表性不足,因此做出的調查偏差太大,未能準確反映真相等。為特定目的而成立的遴選委員會,了不起數十個委員,怎敢說一定客觀?其委員幾乎不可能隨機產生,大抵是被指派。因此從委員會成立之始,便難以避免主觀了。而不同委員的立場迥異,更不會是有共同分佈";委員不乏具同質性或相異立場,也難以獨立。因此不論大數法則或中央極限定理,在此皆不適用。怎會異想天開,拿中央極限定理,來為遴選的公正性背書?

201411月落幕的第51屆金馬獎,得獎名單由總共17位委員共同討論決定。但未獲最佳女主角獎的著名演員鞏俐,事後透過經紀人表示,金馬獎不專業、不公正,今後不會再參加了。由此可看出,像遴選這類評比,有相當程度的主觀成分,爭議難免,並無所謂只要15個人就會蠻準確的"這種推論。

大數法則及中央極限定理,乃機率中二極重要的隨機法則,用途廣泛,但卻也沒那麼無所不包,連選才都用的上。正確運用為上,不必過度推崇,也不可意圖用來唬人。

參考文獻

1. 黃文璋(2011a)。關於中央極限定理之圖示。黃家小館(http://www.stat.nuk.edu.tw/huangwj)

2. 黃文璋(2011b)。庶民中央極限定理。黃家小館(http://www.stat.nuk.edu.tw/huangwj)

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (QHP4
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9036227 位訪客
*