32 估計方法
我們先看點估計(point estimation),即以一個統計量,來估計一參數。
下課時學生嘻鬧間,教室的玻璃窗被打破了。誰是禍首?無人承認,這時老師往往從平日最調皮的同學開始詢問。社區有竊案發生,警方常從有前科且具地緣關係者開始追查。怎可懷有偏見?沒辦法,若優先約談向來規矩的學生,或毫無前科者,豈不更不合理?事實上,醫生看診,常也是從病人的症狀,推測那一種病最易產生此症狀。會誤判嗎?當然會。這類例子生活裡處處可見。看電影時,人們屢推測下一步會如何,才會有之前的劇情。編劇會特意誤導觀眾嗎?不無可能,因畢竟有時並不想讓觀眾輕易猜中下一步,有時會製造些懸疑。但劇情總是較常有個脈絡可尋,很少會從頭到尾一直跳躍不已。
像這種由觀測到的結果,推測最可能使此結果發生的原因,是人們常有的思維。由此便衍生一種估計法。設有一隨機現象,知其發生結果之機率密函數,但其中含有某未知參數,擬估計該參數。如獨立地投擲一出現正面機率為p之銅板n次,其中0≤p≤1,以X1,X2,…,Xn分別表各次所得之結果,其中Xi=1,或0,就依第i次得到正面或反面,i=1,…,n。令Sn=X1+X2+…+Xn,且sn=x1+x2+…+xn。因Xi有Ber(p)分佈,故X1,X2,…,Xn之聯合機率密度函數為
f(x1,x2,…,xn|p)=psn(1-p)n-sn。
今欲估計參數p,從所得觀測值x1,x2,…,xn,推測究竟p為何,才會使x1,x2,…,xn被觀測到之機率最大?這是一種常用的估計法,在統計學裡稱為最大概似法(method of maximum likelihood),所得之估計量值,稱為最大概似估計值(maximum likelihood estimate,縮寫為MLE);所得之估計量,稱為最大概似估計量(maximum likelihood estimator,縮寫亦為MLE)。
現在來看對前述問題,最大概似估計值如何求出?將f(x1,x2,…,xn|p)視為一p之函數,而將x1,x2,…,xn固定(因x1,x2,…,xn已被視為觀測值,固定下來,如今會變的是p),且以L(p|x1,x2,…,xn)表此函數,函數之形式與f(x1,x2,…,xn|p)相同,只是變數不同,換成p。即
L(p|x1,x2,…,xn)=psn(1-p)n-sn,0≤p≤1,
並稱此為概似函數(likelihood function),也就是可能性函數。我們想求p,使得L(p|x1,x2,…,xn)最大。也就是想求p的函數L(p|x1,x2,…,xn),其極大值發生在何處?經由微分,得極大值發生在p=sn/n。即p之最大概似估計值為sn/n,且p之最大概似估計量為Sn/n。我們便以統計量Sn/n來估計p。
再看另一估計法。對可重覆觀測的實驗,就仍以前述投擲銅板的情況為例,由於當X有Ber(p)分佈時,X之期望值E(X)=p,我們遂以樣本平均Sn/n取代期望值E(X),即用樣本平均Sn/n來估計p。為什麼會想到以樣本平均來取代期望值E(X)?因由大數法則,當n很大時,Sn/n大致會在p附近一小範圍內波動。即在n很大時,Sn/n於某種意義下,會很接近p。也就是n很大時,以Sn/n來估計p,不致於會有太大的偏差。由於在統計裡,E(X)稱為X之一次動差,E(X2)稱為X之二次動差,餘類推,故這種估計法,稱為動差法(method of moments),而得到之估計量,便稱為動差估計量(method of moments estimator)。有大數法則支持,有些學者對於可重覆觀測的現象,凡估計或推論,傾向依賴相對頻率,這樣的思維,被歸類為頻率學派(frequentist)。19世紀時,由於崇尚大數法則,頻率學派可說主導統計的思維。依如此思維的推導,稱之為古典的作法(classical approach)。採用此法,通常只要樣本愈多,對參數的推估就愈精準。
對前述投擲銅板之例,以不同的兩個方法,動差法及最大概似法,得到相同的估計量,這並不奇怪,因畢竟這是兩個很合理的估計法,常會英雄所見略同。但當然兩種方法,也會有得到不同估計量的時候。底下給一例。
設X1,X2,…,Xn為一組由機率密度函數f(x|θ)=1/θ,x=1,…,θ,所產生之隨機樣本,其中θ為一未知正整數。可看出這組隨機變數,其共同分佈是離散型的均勻分佈U[1,θ]。一個例子是,袋中有若干張紙牌,每張上有一數字,各張上的數字皆不相同,只知分別是1,2,…,但不知最大為何。依序取牌,每次取出後放回,n次後得到數字X1,X2,…,Xn。現想據此估計數字的上限θ。顯然E(X)=(θ+1)/2。以Sn/n取代E(X),得θ之動差估計量為2Sn/n-1。由於X1,X2,…,Xn都不可超過θ,而樣本平均Sn/n可以很小,當X1,X2,…,Xn中,有比2Sn/n-1大者,此估計量便不合理了。例如,設n=10,且觀測到的X1,X2,…,X10中,有9個1,及1個10,則Sn/n=1.9,且θ之動差估計值為2×1.9-1=2.8。θ明明須為正整數,如今以一非整數2.8去估計它,就已令人不安了;而X1,X2,…,Xn,明明都不可超過θ,如今卻在得到一觀測值10之下,還以2.8去估計θ,更令人覺得這估計值實在不妥。但這卻被認為是由一不錯的動差法所得之估計值。此處樣本數n=10並不大,當樣本數太小,估計值有時會不盡如人意。其次來求最大概似估計量。X1,X2,…,Xn之聯合機率密度函數為
f(x1,x2,…,xn|θ)=1/θn,1≤x1,x2,…,xn≤θ。
故概似函數為
L(θ|x1,x2,…,xn)=1/θn,1≤x1,x2,…,xn≤θ。
上述概似函數之極大值發生在何處?顯然θ要愈小愈好。但又須滿足θ≥xi,i=1,…,n。故取θ為xi,i=1,…,n,中之極大值即可。現令X(n)=Max{X1,X2,…,Xn}表X1,X2,…,Xn中之最大的量,且以X(n)估計θ。此θ之最大概似估計量為X(n)必為正整數不說,且較動差估計量2Sn/n-1合理多了。當然若n很大時,X1,X2,…,Xn中,由大數法則,Sn/n將有高機率會很接近E(X)=(θ+1)/2。於是2Sn/n-1將有高機率會很接近θ。如此一來,X1,X2,…,Xn中,會有比θ大者,其機率就很小了。不過不論n多大,2Sn/n-1都不一定是整數。
估計法並不限上述兩種。門診時,聽完病人的描述後,醫生開單要病人去做某些項檢查。醫生對病因已有判斷,不外A、B及C等3種,機率各為0.4、0.3及0.3。檢查完,看到報告後,醫生的判斷有了改變,病因A及B兩種,機率各改為0.8及0.2,C則不可能。對於分佈中的參數θ,常被視為一未知但固定的量,由所獲得之隨機樣本X1,X2,…,Xn,來估計θ。但有時對參數會有些事前的看法,也就是不視為未知且固定,而當做一隨機變數。例如,當估計銅板出現正面的機率p時,以為既然是政府發行的,即使不是公正(p=0.5),也不致於太偏頗,遂取p有U[0.45,0.55],即p在區間[0.45,0.55]均勻分佈。此處U[0.45,0.55],便稱為p之事前分佈(prior distribution)。由於事前分佈可以很主觀,因而常就被視為估計者之主觀的分佈(subjective distribution)。在此所謂主觀,並非一負面的描述,因此分佈的產生,常也是基於過去的資料,並非就是隨意猜測。由於主觀分佈是在實驗觀測前就建立的,故才稱為事前分佈。取樣後,修正對參數θ分佈之看法,便得θ之事後分佈(posterior distribution),並據此估計θ。這種方法,稱為貝氏作法(Bayesian approach),持此主張者,便稱貝氏學派(Bayesian)。貝氏一詞之由來,是因在修正分佈時,用到條件機率裡的貝氏定理。在貝氏作法裡,一個常用來估計θ的量,為事後分佈的期望值,即E(θ|X),且稱之為貝氏估計量(Bayesian estimator)。底下給一簡單的例子。
假設以抽血檢驗D君是否患有某特定疾病。令X表檢驗的結果,X=1或0,分別表D君檢驗後呈正反應及負反應;又令θ表D君有病或無病的狀態,θ=1或0,分別表D君有病或無病。又設X之機率密度函數為
f(1|θ=1)=0.8,f(0|θ=1)=0.2,f(1|θ=0)=0.3,f(0|θ=0)=0.7;
現將θ之事前分佈設為
π(1)=0.05,π(0)=0.95。
檢驗前D君有病的機率為0.05,我們想利用貝氏作法,以估計檢驗後D君有病的機率。由假設,得X之邊際機率密度函數為
m(1)=P(X=1)=f(1|θ=1)π(1)+f(1|θ=0)π(0)=0.04+0.285=0.325,
m(0)=P(X=0)=f(0|θ=1)π(1)+f(0|θ=0)π(0)=0.01+0.665=0.675。
故在給定X之下,θ之事後分佈為
π(1|1)=f(1|θ=1)π(1)/m(1)=0.04/0.325≈0.123,
π(0|1)=f(1|θ=0)π(0)/m(1)=0.285/0.325≈0.877。
π(1|0)=f(0|θ=1)π(1)/m(0)=0.01/0.675≈0.0148,
π(0|0)=f(0|0)π(0)/m(0)=0.665/0.675≈0.9852。
故θ之貝氏估計量E(θ|X),對X=1,及0時,分別為
E(θ|1)=P(θ=1|1)=π(1|1)≈0.123,
及
E(θ|0)=P(θ=1|0)=π(1|0)≈0.0148。
即X=1(檢驗呈正反應)時,以0.123估計P(θ=1),X=0(檢驗呈負反應)時,以0.0148估計P(θ=1)。我們發現,當檢驗呈正反應時,D君會有病的機率之貝氏估計值約為0.123,並不大;而當檢驗呈負反應時,D君會有病的機率之貝氏估計值約為0.0148,就更小了。其中關鍵是因在人口中,會有病的機率只有0.05,本來就不大。
對上例,假設有一組隨機樣本X1,X2,…,Xn,即D君重複檢驗n次,則最大概似估計量及動差估計量,分別為何?在此二情況下,當然都不考慮θ之事前分佈了。由於X1,X2,…,Xn之聯合機率密度函數為
f(x1,x2,…,xn|θ=1)=0.8sn0.2n-sn,
f(x1,x2,…,xn|θ=0)=0.3sn0.7n-sn,
其中如前sn=x1+x2+…+xn。則概似函數為
L(θ|x1,x2,…,xn)=0.8sn0.2n-sn,θ=1,
L(θ|x1,x2,…,xn)=0.3sn0.7n-sn,θ=0。
故最大概似估計量為
(28/3)sn(2/7)n>1時,估計θ=1,
(28/3)sn(2/7)n≤1時,估計θ=0。
至於動差估計量,自然便是以Sn/n估計P(θ=1)了。
點估計的方法並不僅上述幾種,此處僅是初步的介紹,並未涉及太複雜的估計量。