國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:統計下凡(三十二)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2022/1/16 下午 12:22:44

32 估計方法

我們先看點估計(point estimation),即以一個統計量,來估計一參數。

下課時學生嘻鬧間,教室的玻璃窗被打破了。誰是禍首?無人承認,這時老師往往從平日最調皮的同學開始詢問。社區有竊案發生,警方常從有前科且具地緣關係者開始追查。怎可懷有偏見?沒辦法,若優先約談向來規矩的學生,或毫無前科者,豈不更不合理?事實上,醫生看診,常也是從病人的症狀,推測那一種病最易產生此症狀。會誤判嗎?當然會。這類例子生活裡處處可見。看電影時,人們屢推測下一步會如何,才會有之前的劇情。編劇會特意誤導觀眾嗎?不無可能,因畢竟有時並不想讓觀眾輕易猜中下一步,有時會製造些懸疑。但劇情總是較常有個脈絡可尋,很少會從頭到尾一直跳躍不已。

像這種由觀測到的結果,推測最可能使此結果發生的原因,是人們常有的思維。由此便衍生一種估計法。設有一隨機現象,知其發生結果之機率密函數,但其中含有某未知參數,擬估計該參數。如獨立地投擲一出現正面機率為p之銅板n次,其中0≤p≤1,以X1X2Xn分別表各次所得之結果,其中Xi=1,或0,就依第i次得到正面或反面,i=1n。令Sn=X1+X2+…+Xn,且sn=x1+x2+…+xn。因XiBer(p)分佈,故X1X2Xn之聯合機率密度函數為

f(x1,x2,…,xn|p)=psn(1-p)n-sn

今欲估計參數p,從所得觀測值x1x2xn,推測究竟p為何,才會使x1x2xn被觀測到之機率最大?這是一種常用的估計法,在統計學裡稱為最大概似法(method of maximum likelihood),所得之估計量值,稱為最大概似估計值(maximum likelihood estimate,縮寫為MLE);所得之估計量,稱為最大概似估計量(maximum likelihood estimator,縮寫亦為MLE)

現在來看對前述問題,最大概似估計值如何求出?將f(x1,x2,…,xn|p)視為一p之函數,而將x1x2xn固定(x1x2xn已被視為觀測值,固定下來,如今會變的是p),且以L(p|x1,x2,…,xn)表此函數,函數之形式與f(x1,x2,…,xn|p)相同,只是變數不同,換成p。即

L(p|x1,x2,…,xn)=psn(1-p)n-sn0≤p≤1

並稱此為概似函數(likelihood function),也就是可能性函數。我們想求p,使得L(p|x1,x2,…,xn)最大。也就是想求p的函數L(p|x1,x2,…,xn),其極大值發生在何處?經由微分,得極大值發生在p=sn/n。即p之最大概似估計值為sn/n,且p之最大概似估計量為Sn/n。我們便以統計量Sn/n來估計p

再看另一估計法。對可重覆觀測的實驗,就仍以前述投擲銅板的情況為例,由於當XBer(p)分佈時,X之期望值E(X)=p,我們遂以樣本平均Sn/n取代期望值E(X),即用樣本平均Sn/n來估計p。為什麼會想到以樣本平均來取代期望值E(X)?因由大數法則,當n很大時,Sn/n大致會在p附近一小範圍內波動。即在n很大時,Sn/n於某種意義下,會很接近p。也就是n很大時,以Sn/n來估計p,不致於會有太大的偏差。由於在統計裡,E(X)稱為X之一次動差,E(X2)稱為X之二次動差,餘類推,故這種估計法,稱為動差法(method of moments),而得到之估計量,便稱為動差估計量(method of moments estimator)。有大數法則支持,有些學者對於可重覆觀測的現象,凡估計或推論,傾向依賴相對頻率,這樣的思維,被歸類為頻率學派(frequentist)19世紀時,由於崇尚大數法則,頻率學派可說主導統計的思維。依如此思維的推導,稱之為古典的作法(classical approach)。採用此法,通常只要樣本愈多,對參數的推估就愈精準。

對前述投擲銅板之例,以不同的兩個方法,動差法及最大概似法,得到相同的估計量,這並不奇怪,因畢竟這是兩個很合理的估計法,常會英雄所見略同。但當然兩種方法,也會有得到不同估計量的時候。底下給一例。

X1X2Xn為一組由機率密度函數f(x|θ)=1/θx=1θ,所產生之隨機樣本,其中θ為一未知正整數。可看出這組隨機變數,其共同分佈是離散型的均勻分佈U[1,θ]。一個例子是,袋中有若干張紙牌,每張上有一數字,各張上的數字皆不相同,只知分別是12,但不知最大為何。依序取牌,每次取出後放回,n次後得到數字X1X2Xn。現想據此估計數字的上限θ。顯然E(X)=(θ+1)/2。以Sn/n取代E(X),得θ之動差估計量為2Sn/n-1。由於X1X2Xn都不可超過θ,而樣本平均Sn/n可以很小,當X1X2Xn中,有比2Sn/n-1大者,此估計量便不合理了。例如,設n=10,且觀測到的X1X2X10中,有91,及110,則Sn/n=1.9,且θ之動差估計值為2×1.9-1=2.8θ明明須為正整數,如今以一非整數2.8去估計它,就已令人不安了;而X1X2Xn,明明都不可超過θ,如今卻在得到一觀測值10之下,還以2.8去估計θ,更令人覺得這估計值實在不妥。但這卻被認為是由一不錯的動差法所得之估計值。此處樣本數n=10並不大,當樣本數太小,估計值有時會不盡如人意。其次來求最大概似估計量。X1X2Xn之聯合機率密度函數為

f(x1,x2,…,xn|θ)=1/θn1≤x1,x2,…,xnθ

故概似函數為

L(θ|x1,x2,…,xn)=1/θn1≤x1,x2,…,xnθ

上述概似函數之極大值發生在何處?顯然θ要愈小愈好。但又須滿足θxii=1n。故取θxii=1n,中之極大值即可。現令X(n)=MaxX1X2Xn}表X1X2Xn中之最大的量,且以X(n)估計θ。此θ之最大概似估計量為X(n)必為正整數不說,且較動差估計量2Sn/n-1合理多了。當然若n很大時,X1X2Xn中,由大數法則,Sn/n將有高機率會很接近E(X)=(θ+1)/2。於是2Sn/n-1將有高機率會很接近θ。如此一來,X1X2Xn中,會有比θ大者,其機率就很小了。不過不論n多大,2Sn/n-1都不一定是整數。

估計法並不限上述兩種。門診時,聽完病人的描述後,醫生開單要病人去做某些項檢查。醫生對病因已有判斷,不外ABC3種,機率各為0.40.30.3。檢查完,看到報告後,醫生的判斷有了改變,病因AB兩種,機率各改為0.80.2C則不可能。對於分佈中的參數θ,常被視為一未知但固定的量,由所獲得之隨機樣本X1X2Xn,來估計θ。但有時對參數會有些事前的看法,也就是不視為未知且固定,而當做一隨機變數。例如,當估計銅板出現正面的機率p時,以為既然是政府發行的,即使不是公正(p=0.5),也不致於太偏頗,遂取pU[0.45,0.55],即p在區間[0.45,0.55]均勻分佈。此處U[0.45,0.55],便稱為p之事前分佈(prior distribution)。由於事前分佈可以很主觀,因而常就被視為估計者之主觀的分佈(subjective distribution)。在此所謂主觀,並非一負面的描述,因此分佈的產生,常也是基於過去的資料,並非就是隨意猜測。由於主觀分佈是在實驗觀測前就建立的,故才稱為事前分佈。取樣後,修正對參數θ分佈之看法,便得θ之事後分佈(posterior distribution),並據此估計θ。這種方法,稱為貝氏作法(Bayesian approach),持此主張者,便稱貝氏學派(Bayesian)。貝氏一詞之由來,是因在修正分佈時,用到條件機率裡的貝氏定理。在貝氏作法裡,一個常用來估計θ的量,為事後分佈的期望值,即E(θ|X),且稱之為貝氏估計量(Bayesian estimator)。底下給一簡單的例子。

假設以抽血檢驗D君是否患有某特定疾病。令X表檢驗的結果,X=10,分別表D君檢驗後呈正反應及負反應;又令θD君有病或無病的狀態,θ=10,分別表D君有病或無病。又設X之機率密度函數為

f(1|θ=1)=0.8f(0|θ=1)=0.2f(1|θ=0)=0.3f(0|θ=0)=0.7

現將θ之事前分佈設為

π(1)=0.05π(0)=0.95

檢驗前D君有病的機率為0.05,我們想利用貝氏作法,以估計檢驗後D君有病的機率。由假設,得X之邊際機率密度函數為

m(1)=P(X=1)=f(1|θ=1)π(1)+f(1|θ=0)π(0)=0.04+0.285=0.325

m(0)=P(X=0)=f(0|θ=1)π(1)+f(0|θ=0)π(0)=0.01+0.665=0.675

故在給定X之下,θ之事後分佈為

π(1|1)=f(1|θ=1)π(1)/m(1)=0.04/0.325≈0.123

π(0|1)=f(1|θ=0)π(0)/m(1)=0.285/0.325≈0.877

π(1|0)=f(0|θ=1)π(1)/m(0)=0.01/0.675≈0.0148

π(0|0)=f(0|0)π(0)/m(0)=0.665/0.675≈0.9852

θ之貝氏估計量E(θ|X),對X=1,及0時,分別為

E(θ|1)=P(θ=1|1)=π(1|1)≈0.123

E(θ|0)=P(θ=1|0)=π(1|0)≈0.0148

X=1(檢驗呈正反應)時,以0.123估計P(θ=1)X=0(檢驗呈負反應)時,以0.0148估計P(θ=1)。我們發現,當檢驗呈正反應時,D君會有病的機率之貝氏估計值約為0.123,並不大;而當檢驗呈負反應時,D君會有病的機率之貝氏估計值約為0.0148,就更小了。其中關鍵是因在人口中,會有病的機率只有0.05,本來就不大。

對上例,假設有一組隨機樣本X1X2Xn,即D君重複檢驗n次,則最大概似估計量及動差估計量,分別為何?在此二情況下,當然都不考慮θ之事前分佈了。由於X1X2Xn之聯合機率密度函數為

f(x1,x2,…,xn|θ=1)=0.8sn0.2n-sn

f(x1,x2,…,xn|θ=0)=0.3sn0.7n-sn

其中如前sn=x1+x2+…+xn。則概似函數為

L(θ|x1,x2,…,xn)=0.8sn0.2n-snθ=1

L(θ|x1,x2,…,xn)=0.3sn0.7n-snθ=0

故最大概似估計量為

(28/3)sn(2/7)n>1時,估計θ=1

(28/3)sn(2/7)n≤1時,估計θ=0

至於動差估計量,自然便是以Sn/n估計P(θ=1)了。

點估計的方法並不僅上述幾種,此處僅是初步的介紹,並未涉及太複雜的估計量。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (P2H4
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9042795 位訪客
*