國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:談統計誤差(四)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2016/7/9 下午 05:20:34

4. 假設檢定

數學中常在證明,甚至還有人以為,數學所做的事,就是證明。一命題若經證明為真,便毫無例外地成立。例如,直角三角形中,兩股平方和等於斜邊平方。這是著名的畢氏定理,大家中學時便學過了,此命題早在兩千多年前便已證出。由於未曾發現證明有誤,因此任何人若想找反例,看是否有那一直角三角形,兩股平方和不等於斜邊平方,必然徒勞無功。

數學之外,隨機世界中,真相常難明,既無法證明為真,也無法證明為偽。球隊比賽前,常以投擲銅板決定先後,只是銅板是否為公正?恐怕不論投擲多少次,皆不能判定出現正面的機率,確實就是0.5,而不是其他值。地球壽命究竟有多長?有天文學家估計46億年,甚至亦有估計地球壽命剩下75.9億年。這些值究竟有多可靠?真的都只有天曉得。科學家遂慣常以“證實”取代“證明”。媒體上經常刊登科學上的各種證實。如

科學家證實,曾瀕臨絕種的座頭鯨,數量已逐漸回升;

德國科學家證實,喝綠茶可以減肥;

一項研究證實,喝咖啡之後的24小時內的記憶力,相對平常會大幅提高。

除了上述這類讓人半信半疑的證實外,亦有

科學家證實南極臭氧層破洞開始在治癒;

科學家證實念佛持咒有神奇的力量,

這類讓人無從想像,或匪夷所思的證實。只能當做是一個個的假設,有人接受,有人不接受。生活裡便是充滿著無法辨明真偽的假設,就看那些是你能接受,那些是你不能接受,或者說拒絕的。只是接受的依據為何?除憑藉主觀外,能否設計出一套公平合理的機制?

做決策公平合理是必要的。兩人分一個蛋糕,如何讓雙方都覺得不吃虧?這是著名的分蛋糕問題。有一簡單的解法,就是由一人分,然後另一人先挑。當然你可以抬槓,說負責分的那位,會謹慎地分,不讓有某一塊較大,而因他後拿,因此所拿到的,乃他認為的一半;但先挑的那位,會以為他在兩塊中,選了比較大,或至少一樣大的一塊,因此他拿到的,乃他認為會大於或等於一半的一塊。但蛋糕明明就是一個,不會兩人各自拿到的,加起來超過一個。無論如何,這種分法,使兩人都認為自己得到的,沒有比較小,應能說是一種公平的方法。

被宣判死刑者,一旦執法,就起手無回,因此不可不慎。唐宋八大家之一的歐陽修(1007-1072),在追念其父母的“瀧岡阡表”一文中,提到其父為死囚“求其生而不得,則死者與我皆無恨也”。對已被判死刑者,歐陽修之父,會再仔細檢視案子,看是否有對該死囚有利的證據,之前卻被忽視者。若真的找不到才作罷,判決定讞。這時死囚也能理解歐陽修之父,已盡力為他找一線生機卻不可得,於是“死者與我皆無恨也”。早在1千年前,歐陽修之父,可說便已具備現代法學裡所重視之“無罪推定”的精神:

被告未經審判證明有罪確定前,推定其為無罪。犯罪事實應依證據認定之,無證據不得認定犯罪事實。

這是我國刑事訴訟法第154條,所謂“無罪推定原則”。被檢察官起訴的被告,即使眾人皆曰可殺,法庭上仍先假設被告是無辜的。在無罪的前題下,若證據夠充分,方能判定有罪。反之,法官只要認定檢察官起訴的內容,罪證不足,即可宣判無罪,不必去調查。必須一提的是,前述條文裡的“證明”一詞,與數學裡的證明意義並不同,而與“證實”較同義。

在我國刑事案件經檢察官起訴後,由法院進行審理。若最終被判無罪,檢察官可說是灰頭土臉。因不但白忙一場,長期下來,若定罪率若太低,檢察官也難免被認為不嚴謹,會濫行起訴。因此對起訴的案子,總是檢察官認為已收集了相當夠的證據,有信心可使被告被定罪。但法官並不買帳,仍假設被告無罪,逐一檢視檢察官提供的證據,是否夠強。法官倒也不是懷疑檢察官存心整被告,隨便弄些資料來充數。而是只有站在被告立場,從對其有利的觀點來審理,才能避免冤屈。否則一旦定罪執行刑罰後,若日後發現其實是誤判,即使有冤獄賠償,但人生不能倒帶,當事人可能牢也坐了,名譽也毀了,甚至還家破人亡,這些都不是金錢所能彌補的。

對於被起訴者,檢察官的目的,毫無疑義,是要定他的罪,但審判的機制,是先假設他無罪。科學家若相信喝綠茶可以減肥,想做個檢定,該先假設什麼呢?有如無罪推定,也應是先假設喝綠茶不能減肥,然後若有夠高比率的人,喝後變瘦了,便能推翻原假設,即證實喝綠茶可以減肥。而為了避免干擾因子,並非隨意找人來進行實驗,實驗過程也有若干規範,這屬於統計學裡實驗設計(experimental design)的內容,在此不擬討論。為了檢定某假設能否接受,統計學裡,設計了一套合理的“假設檢定”(hypothesis testing)的流程。一開始要先確定二假設,即虛無假設(null hypothesis),與對立假設(alternative hypothesis)。虛無假設通常表現況,或傾向推翻(或說拒絕)的情況;至於對立假設則通常表現況外之一可能性,且傾向接受的。雖想推翻虛無假設,卻儘量保護它,不讓它輕易被推翻。如此一旦推翻,才有說服力。所以,當虛無假設被拒絕時,是有相當的信心該假設不成立。反之,若虛無假設被接受時,通常並不表就相信它為真了,而是表證據尚不足以推翻它,就繼續觀察。那些被法院宣判無罪開釋者,常高興地說“司法還我清白”。其實司法並未宣佈他清白,司法只是沒判他有罪而已。假設他明明有罪,在被判無罪後,若自此改邪歸正,那便還好;若心存僥倖,以為本領高明,能騙過法律,之後仍幹些不法勾當,則夜路走多,總有出大紕漏,因而被定罪的一日。不輕易將現況推翻,乃是一較科學的精神。朝令夕改並不該鼓勵,如此在訂定各種規章時,才會更謹慎、更斟酌,因知一旦通過後,就不易更改了。

附帶一提,屢有人好奇,統計與機率的差別何在?我們以兩個情況來說明。首先,假設有某公正銅板,獨立地投擲20次,試求出現17個正面的機率。眾所皆知,不必管是否真有一個公正銅板,也不必實際去投擲,就能把指定事件的機率算出。此為機率問題,在給定的前提下,去推導結果。再看第二個情況。若有人獨立地投擲某銅板20次,結果出現17個正面,由於正面數過多,遂懷疑該銅板並非公正,出現正面的機率可能大於0.5,於是去執行一個假設檢定。這便是統計問題,由觀測到的結果,去檢驗前提是否可接受。

對隨機現象做決策,不誤判乃幾乎不可能。例如,若懷疑某銅板較易出現正面,令p表銅板出現正面的機率,則可將虛無假設取為p = 0.5,對立假設取為p > 0.5。只是即使銅板實際出現正面的機率為0.55,比0.5大,投擲100次,也可能正反面各得50次。這時合理的推論,當然是接受虛無假設,但這就誤判了。至此,讀者也許可以明白,虛無假設何以名之為“虛無”了。天下本無事,庸人自擾之。明明是不相信銅板為公正,才去進行檢定,大費周章後,卻仍接受銅板為公正,可說白忙一場。英文null之意義為空的。接受虛無假設,乃接受一空的假設。試想,法官若判定被檢察官起訴的嫌犯無罪,消費者保護會若宣佈經檢驗某食品成份合格,都表示整個過程沒有建設性,多此一舉。檢察官得重新偵辦案子了,而消費者保護會說不定會被認為擾民了,破壞店家的商譽。

為了簡便,我們以H0Ha,分別表虛無假設及對立假設。有兩種可能的誤判。其一是虛無假設為真卻拒絕,稱此為第一型錯誤(Type I error);其二是對立假設為真卻拒絕,稱此為第二型錯誤(Type II error)。以法院審判為例。在無罪推定之原則下,以H0表被起訴者無罪,Ha表被起訴者有罪。若被起訴者明明無罪,卻被判有罪,便犯了第一型錯誤;而若實際有罪卻被判無罪,便犯了第二型錯誤。通常犯第一型錯誤比較嚴重。因無罪若被判有罪,便可能坐牢、受處罰,或至少名譽受損,這種錯誤較難彌補。一般會先設定一個第一型錯誤機率值之上限α,稱為顯著水準(significance level)α為一較小的值,常取成0.050.01,或0.001等,也可以是其他值。在α給定後,決定何時拒絕H0,即決定拒絕域。拒絕域的選取,若能使第二型錯誤的機率值β最小,當然最好。此時的拒絕域,稱為顯著水準不超過α下之最佳拒絕域。對某些情況,統計學裡有一套找到最佳拒絕域的方法。

既然犯第一型錯誤較嚴重,那α是否取得愈小愈好?一般而言,α愈小β將愈大,無法兩全。仍以法庭審判為例。若悲天憫人,寧可錯放1千不錯罰1人,對證據的審核高度嚴格,則很多實際有罪者,將連自己都難以置信地被判無罪釋放了。所以α取得過小,不見得就好。宜視不同狀況,斟酌取適當大小的α

現考慮檢定銅板出現正面的機率p。設H0p = 0.5Hap≠0.5。即擬檢定此是否為一公正銅板。持續投擲銅板n次,以X表所得正面數,則X有參數np之二項分佈,即B(n,p) 分佈。當H0為真,即p = 0.5,則X較可能落在期望值n/2的附近。所以直觀上,當X較偏離n/2,便該拒絕H0。於是取拒絕域為{|X-n/2| c}={X n/2+c,或X n/2-c},其中c將由nα來決定。

現取n=100α=0.05。由於n較大時,二項分佈的機率值不太好算,以常態分佈來近似,而c須為整數,得c11。如此拒絕域={X 61,或X 39},此時實際的α值約為0.0358。對離散型分佈,有時無法取到剛好能達到所給α值之拒絕域。若取α=0.01,則得c=14。如此拒絕域={X 64,或X 36},且實際的α值約為0.007。在相同的樣本數n之下,α值取得愈小,表H0愈被保護,因而拒絕域將愈小,即愈不容易拒絕H0。當α=0.01,投擲銅板100次,若得到63個正面,比在H0(銅板為公正)下的期望值50多了13,即超過26%,感覺上很偏差,但由於63並未落在拒絕域,因此仍得接受此銅板為公正。沒辦法,那是α取太小的關係,如果α取大一點,如α=0.05,則同樣得到63個正面,就要拒絕銅板為公正了。

在相同的α下,如何能避免得到的正面數很偏差時,還不能拒絕銅板為公正?解決之道是加大n。假設取n=10,000,則在H0下,X之期望值=5,000。則當α=0.01時,將得c=130,因而拒絕域={X 5,130,或X 4,870}。此時正面數X,只要比5,000偏離逾130/5,000=2.6%,就得拒絕H0了。

我們再介紹p-值。由於不同的人所取之α值可能不同,在實務裡,當得到一觀測值後,人們常會給出p-(p-value)。所謂p-值,即會得到比觀測值,至少同樣極端之事件的機率值。對前述檢定銅板是否公正之例,設n=100,且觀測到X=63。所得正面數,至少偏離期望值5013之事件為{X 63,或X 37}。則p-值便為上述事件之機率,約為0.0124。得到此p-值後便知,只要給定的α0.0124小,就不能拒絕H0,而若給定的α0.0124大,就得拒絕H0

曾有某公司的劣油案,一審被判無罪,引起輿論嘩然,有些對判決不滿意的人,遂提出法律上無罪推定原則,不該適用食品和藥物等受管制行業的建議。只是我們已反覆說明,無罪推定原則,仍是現實社會,於做決策時,一較合理的原則。同理假設檢定裡,現況仍是該被優先保護的。另外,在前述例子中,我們怎麼都沒求第二型錯誤的機率?第二型錯誤的機率,有時比較複雜些,在此暫不討論。

最後來看“顯著”一詞的由來。顯著與否,乃依發生機率的大小。發生機率較大的事件若發生,乃屬稀鬆平常,無須大驚小怪。但若小機率事件發生,此事件便屬顯著,顯著事件自然引人注意。至於怎樣的機率算小?0.050.01?當然視情況而定,不能一概而論。所以得先訂個標準,亦即給定顯著水準,依此以決定拒絕域。因而觀測值若落在拒絕域,便稱檢定結果為顯著,且接受Ha;否則便是不顯著,且接受H0

統計是門入世的學問。統計學裡提供一套假設檢定的程序,以為做推論時之依據。此程序並非在判定事情的真偽,而是用來做為擬採對策之指引。我們僅對假設檢定給一粗淺的介紹,想進一步認識此題材者,可參考一般統計學教科書。了解假設檢定的內涵後,將發現它不過是將人們平常做抉擇的思維,有系統地給出一執行的流程。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (54AW
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 8997053 位訪客
*