國立高雄大學統計研究所-心在南方

:::

:::

主題：統計下凡(三十二)

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2022/1/16 下午 12:22:44

32 估計方法

我們先看點估計(point estimation)，即以一個統計量，來估計一參數。

下課時學生嘻鬧間，教室的玻璃窗被打破了。誰是禍首？無人承認，這時老師往往從平日最調皮的同學開始詢問。社區有竊案發生，警方常從有前科且具地緣關係者開始追查。怎可懷有偏見？沒辦法，若優先約談向來規矩的學生，或毫無前科者，豈不更不合理？事實上，醫生看診，常也是從病人的症狀，推測那一種病最易產生此症狀。會誤判嗎？當然會。這類例子生活裡處處可見。看電影時，人們屢推測下一步會如何，才會有之前的劇情。編劇會特意誤導觀眾嗎？不無可能，因畢竟有時並不想讓觀眾輕易猜中下一步，有時會製造些懸疑。但劇情總是較常有個脈絡可尋，很少會從頭到尾一直跳躍不已。

像這種由觀測到的結果，推測最可能使此結果發生的原因，是人們常有的思維。由此便衍生一種估計法。設有一隨機現象，知其發生結果之機率密函數，但其中含有某未知參數，擬估計該參數。如獨立地投擲一出現正面機率為p之銅板n次，其中0≤p≤1，以X₁，X₂，…，X_n分別表各次所得之結果，其中X_i=1，或0，就依第i次得到正面或反面，i=1，…，n。令S_n=X₁+X₂+…+X_n，且s_n=x₁+x₂+…+x_n。因X_i有Ber(p)分佈，故X₁，X₂，…，X_n之聯合機率密度函數為

f(x₁,x₂,…,x_n|p)=p^sⁿ(1-p)ⁿ^-sⁿ。

今欲估計參數p，從所得觀測值x₁，x₂，…，x_n，推測究竟p為何，才會使x₁，x₂，…，x_n被觀測到之機率最大？這是一種常用的估計法，在統計學裡稱為最大概似法(method of maximum likelihood)，所得之估計量值，稱為最大概似估計值(maximum likelihood estimate，縮寫為MLE)；所得之估計量，稱為最大概似估計量(maximum likelihood estimator，縮寫亦為MLE)。

現在來看對前述問題，最大概似估計值如何求出？將f(x₁,x₂,…,x_n|p)視為一p之函數，而將x₁，x₂，…，x_n固定(因x₁，x₂，…，x_n已被視為觀測值，固定下來，如今會變的是p)，且以L(p|x₁,x₂,…,x_n)表此函數，函數之形式與f(x₁,x₂,…,x_n|p)相同，只是變數不同，換成p。即

L(p|x₁,x₂,…,x_n)=p^sⁿ(1-p)ⁿ^-sⁿ，0≤p≤1，

並稱此為概似函數(likelihood function)，也就是可能性函數。我們想求p，使得L(p|x₁,x₂,…,x_n)最大。也就是想求p的函數L(p|x₁,x₂,…,x_n)，其極大值發生在何處？經由微分，得極大值發生在p=s_n/n。即p之最大概似估計值為s_n/n，且p之最大概似估計量為S_n/n。我們便以統計量S_n/n來估計p。

再看另一估計法。對可重覆觀測的實驗，就仍以前述投擲銅板的情況為例，由於當X有Ber(p)分佈時，X之期望值E(X)=p，我們遂以樣本平均S_n/n取代期望值E(X)，即用樣本平均S_n/n來估計p。為什麼會想到以樣本平均來取代期望值E(X)？因由大數法則，當n很大時，S_n/n大致會在p附近一小範圍內波動。即在n很大時，S_n/n於某種意義下，會很接近p。也就是n很大時，以S_n/n來估計p，不致於會有太大的偏差。由於在統計裡，E(X)稱為X之一次動差，E(X²)稱為X之二次動差，餘類推，故這種估計法，稱為動差法(method of moments)，而得到之估計量，便稱為動差估計量(method of moments estimator)。有大數法則支持，有些學者對於可重覆觀測的現象，凡估計或推論，傾向依賴相對頻率，這樣的思維，被歸類為頻率學派(frequentist)。19世紀時，由於崇尚大數法則，頻率學派可說主導統計的思維。依如此思維的推導，稱之為古典的作法(classical approach)。採用此法，通常只要樣本愈多，對參數的推估就愈精準。

對前述投擲銅板之例，以不同的兩個方法，動差法及最大概似法，得到相同的估計量，這並不奇怪，因畢竟這是兩個很合理的估計法，常會英雄所見略同。但當然兩種方法，也會有得到不同估計量的時候。底下給一例。

設X₁，X₂，…，X_n為一組由機率密度函數f(x|θ)=1/θ，x=1，…，θ，所產生之隨機樣本，其中θ為一未知正整數。可看出這組隨機變數，其共同分佈是離散型的均勻分佈U[1,θ]。一個例子是，袋中有若干張紙牌，每張上有一數字，各張上的數字皆不相同，只知分別是1，2，…，但不知最大為何。依序取牌，每次取出後放回，n次後得到數字X₁，X₂，…，X_n。現想據此估計數字的上限θ。顯然E(X)=(θ+1)/2。以S_n/n取代E(X)，得θ之動差估計量為2S_n/n-1。由於X₁，X₂，…，X_n都不可超過θ，而樣本平均S_n/n可以很小，當X₁，X₂，…，X_n中，有比2S_n/n-1大者，此估計量便不合理了。例如，設n=10，且觀測到的X₁，X₂，…，X₁₀中，有9個1，及1個10，則S_n/n=1.9，且θ之動差估計值為2×1.9-1=2.8。θ明明須為正整數，如今以一非整數2.8去估計它，就已令人不安了；而X₁，X₂，…，X_n，明明都不可超過θ，如今卻在得到一觀測值10之下，還以2.8去估計θ，更令人覺得這估計值實在不妥。但這卻被認為是由一不錯的動差法所得之估計值。此處樣本數n=10並不大，當樣本數太小，估計值有時會不盡如人意。其次來求最大概似估計量。X₁，X₂，…，X_n之聯合機率密度函數為

f(x₁,x₂,…,x_n|θ)=1/θⁿ，1≤x₁,x₂,…,x_n≤θ。

故概似函數為

L(θ|x₁,x₂,…,x_n)=1/θⁿ，1≤x₁,x₂,…,x_n≤θ。

上述概似函數之極大值發生在何處？顯然θ要愈小愈好。但又須滿足θ≥x_i，i=1，…，n。故取θ為x_i，i=1，…，n，中之極大值即可。現令X_(n)=Max｛X₁，X₂，…，X_n｝表X₁，X₂，…，X_n中之最大的量，且以X_(n)估計θ。此θ之最大概似估計量為X_(n)必為正整數不說，且較動差估計量2S_n/n-1合理多了。當然若n很大時，X₁，X₂，…，X_n中，由大數法則，S_n/n將有高機率會很接近E(X)=(θ+1)/2。於是2S_n/n-1將有高機率會很接近θ。如此一來，X₁，X₂，…，X_n中，會有比θ大者，其機率就很小了。不過不論n多大，2S_n/n-1都不一定是整數。

估計法並不限上述兩種。門診時，聽完病人的描述後，醫生開單要病人去做某些項檢查。醫生對病因已有判斷，不外A、B及C等3種，機率各為0.4、0.3及0.3。檢查完，看到報告後，醫生的判斷有了改變，病因A及B兩種，機率各改為0.8及0.2，C則不可能。對於分佈中的參數θ，常被視為一未知但固定的量，由所獲得之隨機樣本X₁，X₂，…，X_n，來估計θ。但有時對參數會有些事前的看法，也就是不視為未知且固定，而當做一隨機變數。例如，當估計銅板出現正面的機率p時，以為既然是政府發行的，即使不是公正(p=0.5)，也不致於太偏頗，遂取p有U[0.45,0.55]，即p在區間[0.45,0.55]均勻分佈。此處U[0.45,0.55]，便稱為p之事前分佈(prior distribution)。由於事前分佈可以很主觀，因而常就被視為估計者之主觀的分佈(subjective distribution)。在此所謂主觀，並非一負面的描述，因此分佈的產生，常也是基於過去的資料，並非就是隨意猜測。由於主觀分佈是在實驗觀測前就建立的，故才稱為事前分佈。取樣後，修正對參數θ分佈之看法，便得θ之事後分佈(posterior distribution)，並據此估計θ。這種方法，稱為貝氏作法(Bayesian approach)，持此主張者，便稱貝氏學派(Bayesian)。貝氏一詞之由來，是因在修正分佈時，用到條件機率裡的貝氏定理。在貝氏作法裡，一個常用來估計θ的量，為事後分佈的期望值，即E(θ|X)，且稱之為貝氏估計量(Bayesian estimator)。底下給一簡單的例子。

假設以抽血檢驗D君是否患有某特定疾病。令X表檢驗的結果，X=1或0，分別表D君檢驗後呈正反應及負反應；又令θ表D君有病或無病的狀態，θ=1或0，分別表D君有病或無病。又設X之機率密度函數為

f(1|θ=1)=0.8，f(0|θ=1)=0.2，f(1|θ=0)=0.3，f(0|θ=0)=0.7；

現將θ之事前分佈設為

π(1)=0.05，π(0)=0.95。

檢驗前D君有病的機率為0.05，我們想利用貝氏作法，以估計檢驗後D君有病的機率。由假設，得X之邊際機率密度函數為

m(1)=P(X=1)=f(1|θ=1)π(1)+f(1|θ=0)π(0)=0.04+0.285=0.325，

m(0)=P(X=0)=f(0|θ=1)π(1)+f(0|θ=0)π(0)=0.01+0.665=0.675。

故在給定X之下，θ之事後分佈為

π(1|1)=f(1|θ=1)π(1)/m(1)=0.04/0.325≈0.123，

π(0|1)=f(1|θ=0)π(0)/m(1)=0.285/0.325≈0.877。

π(1|0)=f(0|θ=1)π(1)/m(0)=0.01/0.675≈0.0148，

π(0|0)=f(0|0)π(0)/m(0)=0.665/0.675≈0.9852。

故θ之貝氏估計量E(θ|X)，對X=1，及0時，分別為

E(θ|1)=P(θ=1|1)=π(1|1)≈0.123，

及

E(θ|0)=P(θ=1|0)=π(1|0)≈0.0148。

即X=1(檢驗呈正反應)時，以0.123估計P(θ=1)，X=0(檢驗呈負反應)時，以0.0148估計P(θ=1)。我們發現，當檢驗呈正反應時，D君會有病的機率之貝氏估計值約為0.123，並不大；而當檢驗呈負反應時，D君會有病的機率之貝氏估計值約為0.0148，就更小了。其中關鍵是因在人口中，會有病的機率只有0.05，本來就不大。