國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:36 淺談信賴區間
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2014/12/10 下午 08:35:08

信賴區間,當初會被引進高中數學,顯然那時並不認為這是太深的概念。但此題材自進入高中後,卻屢引起爭議。有些好學者,為一探究竟,投入鑽研,卻常反而更糊塗,有些人還因此連根本的機率之意義都搞不清楚了。即使歷來已舉辦過不少研習會,企圖釐清其中的一些問題,只是效果不彰。為今之計,就是將此題材,移出高中數學。

信賴區間究竟是什麼?它是估計用的。人們常接觸未知的量,如考試成績、銅板出現正面的機率、飲料的容量、台灣黑熊的數量、明年經濟成長率,及民眾對某議題之支持率等。估計未知的量,是為了協助決策。對一隨機現象,若採用點估計,即以一個值,來估計其中有興趣的某個量(或者說參數),要每次都準確,通常是不可能。已病入膏肓者的家屬,焦慮地想知道親人能再活多久?但不論再權威的醫生,假設斬釘截鐵地告知4個月,則可能提早死亡,或活得更久,4個月的估計,幾乎可說一定不準。為了不讓家屬覺得醫生太不可靠,有些醫生遂回答可再活26個月。不以一個固定的值,而以一區間來估計,雖看起來沒那麼權威了,不過家屬反而可能認為這種估計,比較合理,更值得“信賴”。只是仍難免有部分家屬,感到這樣的講法有些模糊,遂追問可能性有多大?即死亡時間,會落在此區間的機率為何?醫生說不定答8成,或9成等。即機率0.8,或0.9等。那估計26個月,跟估計17個月,有什麼差別?就是機率的不同,後者涵蓋存活時間的機率較大。

對一未知的量,以一區間來估計,並附上該未知量會落在此區間之機率,或者說區間會涵蓋該未知量之機率,便稱為區間估計。其中的區間,稱為信賴區間(confidence interval),或置信區間。至於伴隨的機率值,則稱為信心水準(confidence level)、信賴水準,或信賴度等。有幾個問題將立即浮現。例如,信賴區間如何產生?它唯一嗎?信心水準又是怎麼求出?

在估計一未知的量時,若採區間估計,往往是先給定信心水準。信心水準乃表機率,所以為一介於01間之值。求出一區間,即信賴區間,使該區間涵蓋前述未知量之機率,如事先所設定的信心水準。如果涵蓋機率無法剛好等於信心水準,則可略微超過些。信心水準有時以百分比表示,且往往為一較靠近100%的值。常取的信心水準有95%,及90%等。對一固定的信心水準,一般而言,信賴區間並不唯一,通常採取長度較短的。估計區間的長度愈短,代表估計愈精準。太長的估計區間,參考價值將較小。所以,在相同條件下,要儘量得到最短的信賴區間。底下先給兩個例子。

假設隨機變數XN(μ,σ2)分佈,其中σ2假設為已知,μ為未知。我們來看如何給出X之期望值μ的一信賴區間。以Z表標準化後的X,即Z=(X-μ)/σ,則ZN(0,1)分佈,且

P(a£Z£b)=P(a£(X-μ)/σ£b)=P(X-bσ£μ£X-aσ)

如果信心水準取為95%,則先找出ab,使得P(a£Z£b)=0.95。則當觀測到X[X-bσ,X-aσ]便為μ之一95%信心水準之信賴區間,通常就簡單地說μ之95%(0.95)信賴區間。由圖1,可看出ab並不唯一,只要曲線下,從ab的面積為0.95即可。不只不唯一,甚至對同一信心水準,有無限多組(a,b)。又利用N(0,1)分佈機率密度函數之漸增漸減性質,不難證明當a=-b時,會使區間長度最短。此時μ之95%信賴區間約為[X-1.96σ,X+1.96σ]。一旦觀測到X,代入前述區間,便得所求μ之95%信賴區間。在民國99年開始實施的“普通高級中學選修科目‘數學’課程綱要”(底下簡稱“課綱”)的“附錄”中,寫著:

高中程度的統計推論只做隨機變數期望值的估計,它的背後理論是中央極限定理。要介紹中央極限定理,就需要引入常態分布。此部分僅做通識性的介紹,以活動方式建立學生對中央極限定理的直觀。

如上我們給出常態分佈期望值之信賴區間,只是不知在何處有用到中央極限定理?因此前述所引課綱中的那句“背後理論”云云,並無依據。且可以說是畫蛇添足,一點都不需要。

其次,假設隨機變數X在區間[0,θ]均勻分佈,其中θ>0,為未知。則X之機率密度函數為f(x)=1/θ0£x£θ。現對1£a<b

P(aX£θ£bX)=P(θ/b£X£θ/a)=θ/bθ/a 1/θdx=1/θ(θ/a-θ/b)=1/a-1/b

仍取信心水準為95%。要找出(a,b)使得1/a-1/b=0.95。不難看出此不定方程式有無限多組解,例如,a=1.01b=2,020/81即為一組解。當觀測到X[aX,bX]便為θ之一95%信賴區間。又利用微積分,可證明當a=1,且b=20時,會使區間長度最短。此時θ之95%信賴區間為[X,20X]。如果觀測得到X=2.1,則θ之95%信賴區間便為[2.1,42]

舉以上二例,只是讓讀者對信賴區間能略有些概念。實務上,較少會僅以一個樣本,來給出信賴區間。

眾所周知,統計在現代生活中,所扮演的角色愈來愈重要。為了讓國民具備基本的統計知識,中小學的數學課程裡,近年來陸續引進一些統計的題材。自民國95年起,高中數學課綱,還加進信賴區間的單元。惟信賴區間並非很淺顯的概念,欲進入此主題,需要一些背景知識。在一般大學的統計學教科書中,信賴區間的單元,多半出現在全書的後半部。於有了足夠的鋪陳後,才開始接觸。如今在高中數學並不太多的篇幅裡,想將信賴區間的題材介紹清楚,並讓學生了解其內涵,其實是緣木求魚,幾乎是不可能的任務。屢引起師生的困擾,乃可預期。在高中學習此題材,與讓學生享受知識吸收之樂,欣賞數學之美,完全背道而馳。且不論在計算、邏輯推演,或領悟隨機性方面,都讓學生一無所穫。北宋朝呂本中(1084-1145)所著的“紫微雜說”一書裡,有“揠苗助長,苦心極力,卒無所得也”一句,正是信賴區間放進高中數學後,幾年下來的寫照。

並不是所有參數的信賴區間,都可如前述二例,輕易地求出。而當然也不只常態分佈及均勻分佈,其參數之信賴區間可輕易求出。當信賴區間不易求出時,可能便要藉助數值計算,或採近似的方法。對一可重複觀測的隨機現象,底下說明信賴區間,可如何近似地產生。

以投擲銅板為例。假設想估計某銅板出現正面的機率p。直觀上,就是先持續投擲銅板,此過程即收集資料。每次出現正面的機率都假設是p,且各次投擲間,假設相互獨立。投擲n次後,以Sn表共得之正面數,則SnB(n,p)分佈,且相對頻率Sn/n,常用來做為p之估計量。投擲前,Sn/n為一隨機變數,投擲後,得到Sn的觀測值,也就有了估計值。設n=10S10=6,則p之估計值為0.6。若另一天,重來一遍,投擲數n仍為10,而S10=5,則p之估計值便為0.5。因Sn是一隨機變數,即使用同一銅板,及採相同的n,每次所得的Sn並不盡相同,估計值是會變的。Sn=k之機率為

P(Sn=k)=C(n,k)pk(1-p)n-kk=0, 1, 2,, n

給定一信心水準,如95%,然後找一d0,使得以Sn/n為中心點,半徑為d的區間,即(Sn/n-d,Sn/n+d),涵蓋p的機率為0.95,則此區間便是p之一95%信賴區間。若無法找到d0,使得前述涵蓋機率剛好是0.95,則找出最小的d,使得涵蓋機率至少是0.95

一堆有組合數C(n,k)的機率,本就令人頭痛,不知該如何求和。而靈敏的讀者可能也已看出,由於p未知,且d又不能與p有關,所以d根本無法找出。因Sn之期望值為np,標準差為[np(1-p)]1/2,利用中央極限定理,標準化後的Sn,即(Sn-np)/[np(1-p)]1/2,當n夠大,便有近似的N(0,1)分佈。再經一些不算太複雜的計算,將得到一個p之近似的95%信賴區間。怎可以有近似?這樣不是不夠準確嗎?這乃沒有辦法中的辦法。在統計估計的過程裡,常會採取近似。而只要樣本數夠大,因採取近似,所產生的誤差,便不至於過大。

給定一信心水準,且採同樣的估計方法,直觀上若樣本數愈大,則信賴區間的長度將愈短。付出更多代價(取樣較多),總該有些收穫(估計較精準)。有時會先給定信心水準,如0.95(95%),及可接受的誤差(信賴區間的半徑)d,如0.03(3%),然後倒過來,看樣本數n究竟該多大?

底下來看,在實際應用時,對信賴區間可能會產生那些困惑?

媒體上常會公佈各種民調的結果。於分析討論後,新聞報導裡,常有如下典型的結論:

這次調查於121619日晚間進行,成功訪問了1,023位設籍台北市的成年民眾,另有353人拒訪;在95%的信心水準下,抽樣誤差在正負3.1%以內。調查以台北市住宅電話為母體作尾數兩位隨機抽樣,並依據台北市成年民眾之性別及年齡結構進行加權。

除給出成功訪問之樣本數、拒訪數、信心水準,及抽樣誤差等數據外,還說明樣本如何產生、抽樣的日期,以及有做加權等,即對調查的過程須交待清楚。

高中數學引進信賴區間,主要是因看到抽樣調查,在現今社會的重要。要知為了收集民意,抽樣調查,早已成為許多機構經常在進行的統計工作。至於信賴區間,則是一項抽樣調查的結論中,所不可缺少的。有些學者遂認為,高中生該懂點信賴區間。高中引進概念上不算簡單的信賴區間,已令人心驚膽顫了。而因近似的需要,又引進中央極限定理。此定理即使在大學的機率論裡,都不算淺顯,連不少大學數學系的畢業生,都不甚了了。可說是一不易“做通識性的介紹”之定理,如今卻堂而皇之地進入高中數學了。

數學中的定理,多少需要些條件。高中數學裡所給的中央極限定理,乃最基本的版本,即假設各樣本相互獨立、有共同分佈,且變異數存在。對於銅板,它可以毫無怨言,讓人想投擲幾次都行,且可合理地假設各次投擲間相互獨立,每次有相同出現正面的機率。現假設欲估計某地區成年選民中,對某特定議題之支持率p。乍看之下,此有如想估計銅板出現正面的機率,差別只是以隨機抽樣,收集支持與否的資料,來取代投擲銅板。只是民調與投擲銅板畢竟大不相同,要能成功訪問,得花點功夫,要有些技巧,否則易被拒訪,因此怎可有人二次被抽中?這樣必被抱怨不已。故民調裡的抽樣,一般是“取出後不放回”。但取出後不放回,將導致各樣本間不獨立,中央極限定理因而就不適用了。

取出後不放回,於取了若干個樣本後,其中支持某特定議題之人數,將有超幾何分佈(hypergeometric distribution),而非二項分佈。有些致力於教學的中學教師,試圖證明當母體總數N(如前述報導中設籍台北市的成年民眾數)趨近至無限大時,其中超幾何分佈的機率值,會趨近至二項分佈的機率值。這便是不時會有的嘗試,所謂證明“超幾何分佈的極限是二項分佈”。只是至今所見到的證明,都是錯的,可參考黃文璋(2011c)一文。事實上,應說若抽取的樣本數n,與母體總數N相比很小,則將取出後不放回,視之為取出後放回,然後將支持的樣本數Sn之分佈,捨超幾何分佈,而用較容易處理的二項分佈來取代,所造成的誤差,便不至於太大。這裡面原本便用到近似了,即以常態分佈來近似標準化後的Sn,現在不過是多了一個近似。

在民調裡,信賴區間的半徑d,常稱為抽樣誤差。雖事先設定為95%的信心水準,及3%的抽樣誤差,換算出成功的樣本數n該有1,068個。若採用電訪,多隻電話同時進行,待結束時,剔除不合格的樣本,則n很難恰好為1,068個。另一方面,若看到有人做的民調,n常剛好是1,068,你可合理地懷疑其中有作假。利用近似公式d=0.98/n1/2,由獲得之成功樣本數n,便能換算出對應的抽樣誤差d。若n大於1,068,則d將小於3%;若n小於1,068,則d便大於3%。那何以不增加樣本數,以減小抽樣誤差?要知抽樣誤差,若降為原設定的1/3,即1%,則成功樣本數,便須增至9倍,即9,612份。在相同設備下,花的時間將成為9倍。成本大幅增加不說,民意如流水,一項調查若不盡快完成,則因種種事件的發生,將使得民眾對某議題的意見受到干擾。一方面是調查過程中,已用到數個近似,本來就不是那麼精準。另一方面,是人未必說真話,且會改變想法,因此訪問對象是人,與投擲銅板,是截然不同的情況。故與其將精力花在增加樣本數,還不如設法提高調查品質,這包含問卷設計、訪員訓練、抽樣方法、加權方式,及資料分析等流程,如此才能真正有效降低抽樣誤差。

信賴區間裡信心水準的涵義,也常令人感到迷惘。取樣前,信賴區間是一隨機區間,取樣後,則得到一固定的區間。此固定區間,要嘛包含所欲估計的未知量,要嘛就不包含。說有0.95的機率包含,往往令不少人難以理解。要知機率從來不是僅看少數幾次的結果。對同一信心水準,如95%,及同一樣本數,若反覆觀測,便得到很多不同的信賴區間。在這些信賴區間中,將大約有95%個,會包含所欲估計的未知量。就如一銅板出現正面的機率若為0.6,表投擲多次後,其中將約有60%次是出現正面。但若只投擲一次,當然不是出現正面便是反面,不會有0.6次為正面。至於所謂信心(或信賴),乃指對獲得信賴區間的過程有信心,而非針對所得那一特定區間而言。若將信心水準95%,想成一事件發生的機率為0.95,大致便可了解95%的意義了。至於對不能重複觀測的事件,如前述醫生說某病人能再活26個月的機率為0.8,如果長期來說,差不多有80%的病人,的確在醫生所講0.8的區間中過世,那就表示醫生夠專業,估計的不錯,並非信口開河。

本文有部分內容,取自黃文璋(2014)。信賴區間之較詳細的討論,及其中牽涉的一些推導,可參考黃文璋(2007)一文。至於若干機率、中央極限定理,及信賴區間之闡釋,可見黃文璋(2011a)(2011b)(2011c)等三文。民國98101年,那4年學測及指考的數學考題中,有幾題是關於信賴區間,不論題目的敘述或解答,只要可能產生爭議者,我們皆挑出來討論,並彙整成黃文璋(2011d)一文。

參考文獻

1. 黃文璋(2007). 統計裡的信賴. 數學傳播季刊, 30(4): 48-61.

2. 黃文璋(2011a). 對機率要有信心. 黃家小館 (http://huang.nuk.edu.tw/cindex.htm).

3. 黃文璋(2011b). 關於中央極限定理之圖示. 黃家小館 (http://huang.nuk.edu.tw/cindex.htm).

4. 黃文璋(2011c). 庶民中央極限定理. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).

5. 黃文璋(2011d). 機率統計考題探討. 黃家小館(http://huang.nuk.edu.tw/cindex.htm).

6. 黃文璋(2014). 談信賴區間. 翰林數學天地, 36(20144月號): 7-10.

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (UE7U
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9040550 位訪客
*