8 檢定誤差
在隨機世界裡,常無法證明真偽,但為了做決策,不時得判定,或給出推論,這時假設檢定往往能派上用場。由於針對隨機現象,不論再好的方法,總免不了有誤差。假設檢定裡的兩型錯誤機率,便都是用來表示誤差大小。必須一提的是,藉助假設檢定做判斷時,得儘量保持客觀的態度,從多方檢視可能會有的誤差。統計畢竟只是用來協助做決策的工具,不必過度“推崇”。如果盲目的假統計之名,則犯下的錯誤,其嚴重性可能遠超過前述兩型。待犯下大錯後,倒過來抱怨統計不可信,便將多犯一個冤枉統計的錯。
宋朝的包拯(999-1062),以清廉公正聞名於世,後世稱為他“包青天”,或“包公”。民間傳說中,有很多關於他破解各種奇案的故事。其中有一則常掛他名字的“包公審錢案”。賣油條的小孩,才離開一陣子,回來後發現錢不見了。原本錢放在盛油條的籃子裡,籃子則擺在一塊大石上。包公接獲報告後,叫人把石頭抬來審問。雖一再恫嚇,石頭不說就是不說,這麼頑劣?只好用刑了。只是打到棍子斷了,石頭仍不開口。一旁看熱鬧的人,都忍不住笑起來。包公生氣了,罰圍觀者每人拿兩個銅錢,扔進一個裝一半水的盆子裡。有個人才扔完錢,包公便指著他厲聲說“別走!就是你!”那人大呼冤枉,眾人也不解。包公說,“籃子裡的錢都沾著油,而只有你的錢扔進水裡後,有油浮上來,別人卻都沒有,偷錢的不是你是誰?”那人俯首認罪,眾人皆心服。
此故事有趣歸有趣,但無懈可擊嗎?先來看底下的例子。
M君一人獨中樂透彩頭獎,獎金超過二十億,史上最高。現身領取獎金時,錢還沒領到,調查員卻出現了。“你中樂透彩頭獎那期,買了幾張?”調查員問。“1張。”M君回答。“買1張就中頭獎?有作弊嫌疑!”調查員口氣不善。“怎麼作弊啊?運氣好不行嗎?”科學辦案,調查員多少懂些統計,他當場展示一假設檢定給M君看。
49取6的彩券,中頭獎要6碼全吻合,不計順序,因此每張彩券中頭獎的機率為
1/C(49,6)=1/13,983,816,
將近1千4百萬分之1的機率,的確很難中。現令
H0:M君沒作弊,Ha:M君作弊,
分別表虛無假設及對立假設。“作弊是什麼意思?”M君謹慎地問。“買通樂透彩公司的員工、會算牌、有預測能力,或任何形式的作假都算。”調查員回答。“那拒絕域能取成什麼?”M君有點想不透。“先不必管拒絕域是什麼,但任一合理的拒絕域,都該包含你(M君)中頭獎之事件。”調查員再度說明。“顯著水準α取成多少?”M君再問。“等下再說。”調查員似乎不覺得那很重要。禍從天降,雖並不滿意調查員的回應,但由於虛無假設是被保護的,擅長統計的M君,相信經此檢定,反而可證實他的清白,讓他順利領到獎金,也就不計較了。
在H0為真下,觀測到M君中頭獎,由於沒有比這更極端的事件了,故此機率即
p-值=1/13,983,816。
實務上α極少取成這麼小,所以在任一合理的α下,皆該拒絕H0,而接受Ha,也就是接受M君作弊。“你沒作弊誰作弊?”調查員正色道。怎會這樣?M君愣住了。
僅憑某人身上的錢有油,就認定他偷了賣油條小孩的錢。這種典型包公斷案的手法,雖是千古美談,但其實令人提心吊膽。如果機靈的偷錢者,根本早就躲遠了,而圍觀者中,有人稍早買油條時沒零錢,則找回來的銅錢,不就沾了油嗎?包公因而認定他偷錢,豈不誤判?再仔細想想,在“包公審錢案”裡,除了沒有給出在未偷賣油條小孩的錢之下,身上有沾了油的錢之機率外,包公判定的依據,與調查員由某人中頭獎,便檢定出他作弊,本質上是一樣的。推斷都是憑一假設檢定,包公的有爭議,那調查員的呢?也一樣。若依調查員的論點,則任一位中頭獎者,皆會被“證實”作弊!這樣的假設檢定,豈會令人心服?這麼說,假設檢定不可靠嗎?
首先,因投擲銅板,所獲正面數的多寡,只受銅板正面出現機率的影響,故由投擲後出現的正面數,來檢定正面出現之機率,並無不妥,只要各次投擲,的確相互獨立。但身上擁有沾了油的錢,並不見得是來自賣油條的小孩。就算是,也不見得是偷來的。其次,投擲銅板20次,在出現20個正面下,懷疑銅板非公正,算是合理。因當銅板為公正,此機率才
(1/2)20=1/1,048,576,
約百萬分之1的機率,相當小。但小機率若遇到大樣本,譬如說有2百萬人相繼做此實驗,則其中有人擲出20個正面,乃很平常,一點都不該訝異。這點應不難理解。同理,在彩券銷售量夠大的情況下,有人中頭獎,便幾乎是必然,不該連想到作弊。還有一點要注意,對於銅板,誤判其公正性較無妨。但若涉及到人或其他重要的事務,導致犯錯的後果影響較大時,則就須儘量謹慎。總之,運用假設檢定來判定時,萬不可因見到p-值很小,就理直氣壯地認為結論已定,不必再多說了。
在前述檢定樂透彩是否作弊之例子中,除給出
p-值=P(M君中頭獎|M君沒作弊)
外,站在M君的立場,應也檢視
P(M君沒作弊|M君中頭獎)
之大小。否則M君將以為調查員故入人罪,辦案完全一廂情願,這樣他是不會服氣的。要知即使p-值很小,上述條件機率並不必然也很小。而此條件機率,才是從中頭獎者的角度,與是否作弊密切相關的一個機率。底下來討論此機率值。
處理條件機率,可利用貝氏定理(Bayes’ Theorem)。即對二事件A,B,只要P(A)及P(B)皆不為0,便有
(1) P(B|A)=P(A∩B)/P(A)=P(A|B)P(B)/P(A)=P(A|B)P(B)/(P(A|B)P(B)+P(A|Bc)P(Bc)),
其中Bc表B之餘集。現令事件A表M君中頭獎,B表M君沒作弊。則事件Bc表M君作弊。我們想求
P(B|A)=P(M君沒作弊|M君中頭獎)。
切記P(B|A)與P(A|B),此二條件機率是不一樣的,不可混淆。為了適用更一般的情況,令
p=P(A|B)=P(M君中頭獎|M君沒作弊),
又令
q=P(Bc)=P(M君作弊),
則
P(B)=P(M君沒作弊)=1-q,
我們再令
P(A|Bc)=P(M君中頭獎|M君作弊)=1,
上述條件機率取為1,乃因我們假設作弊便一定成功。因若作弊不成功,則不會中頭獎,也就沒有後續的檢定問題。當然,若要更一般,可允許P(A|Bc)不為1。在以上的假設下,由(1)式,即得
(2) P(B|A)=p(1-q)/(p(1-q)+q)。
回到我們的情況,p=1/13,983,816,但q是多少可就未知了。假設q=10-1,代入(2)式,即得
P(B|A)=9/13,983,825≈0.000000643。
假設q=10-2,則
P(B|A)=99/13,983,915≈0.000007079。
假設q=10-3,則
P(B|A)=999/13,984,815≈0.00007143。
假設q=10-4,則
P(B|A)=9,999/13,993,815≈0.0007145。
假設q=10-5,則
P(B|A)=99,999/14,083,815≈0.007100。
假設q=10-6,則
P(B|A)=999,999/14,983,815≈0.06674。
假設q=10-7,則
P(B|A)=9,999,999/23,983,815≈0.4169。
假設q=10-8,則
P(B|A)=99,999,999/113,983,815≈0.8773。
最後,假設q=0,即M君絕對不會作弊,則
P(B|A)=1。
在q=10-1、…、10-7、0之假設下,我們分別求出
P(B|A)=P(M君沒作弊|M君中頭獎)。
這些機率,都比p-值大很多。且可看出,若M君作弊的機率q愈小,則在M君中頭獎下,並沒作弊的機率便愈大,亦即有作弊的機率將愈小。若q與p(M君沒作弊下,會中頭獎的機率)相比不大,如q=10-7、10-8,則P(M君沒作弊|M君中頭獎)便不算小,此時豈有必要去懷疑M君作弊?所以只因
p-值=P(M君中頭獎|M君沒作弊)
很小,就見獵心喜,一口咬定M君中頭獎是因作弊,則犯錯機率,便絕非以為的p-值那麼小。
你可能會好奇,如何得知q究竟多少呢?對事件的推論,可藉助先驗機率(prior probability,有時只簡單地稱為prior),這是貝氏學派(Bayesian)的想法。可由過去的經驗(如樂透彩曾發生的作弊次數),及M君的資料(職業、生活狀況,及過去行為的紀錄等)等,來推估先驗機率q。就算不了解M君,也可由樂透彩發行單位所掌握的作弊資訊,由全體q的估計值,做為M君個人的q之估計值。一般而言,不論全體或個人的q,都應極小。因現場隨機開獎,豈那麼容易作弊?對q的推估會不會很主觀?當然不無可能。但主觀機率本來就是幾種主要對機率的解釋之一。無論如何,就算不是很精準,如估計q介於10-7至10-5間,而得P(M君沒作弊|M君中頭獎)介於0.007100至0.4169間,仍比對q毫無想法下,能得到更有效的推論。
最後,我們來看一著名的“檢察官的謬誤”(prosecutor’s fallacy)。此為一過度依賴假設檢定,而犯下難以挽回的大錯之實例。
莎莉克拉克(Sally Clark,1964-2007)是家中的獨生女,她父親是位資深警官,母親是位美容師,她與先生同為律師。家庭及事業,一切看起來都很美好。1996年9月,他們的老大誕生。不料這個健康的男嬰,卻在當年12月,11週大時在家中猝死。從悲傷中復原後,於1997年11月,莎莉又生了一個兒子。豈料8週後,1998年1月,不幸的事再度降臨,嬰兒在家中猝死。但不幸還沒結束,因兩次事故發生,都只有莎莉一人在家,她被以殺嬰的罪名起訴。檢察官並沒有莎莉行凶的直接證據,但他就是認為,接連兩個嬰兒猝死,乃極不尋常。為了說服陪審團,這絕非猝死,檢察官找來梅鐸(Sir Roy Meadow,1933-)作證。梅鐸是位夙負盛名的小兒科醫生,且上法庭作證的經驗豐富。
梅鐸向陪審團說明,一家有兩個嬰兒接連猝死的機率,僅有7,300萬分之1,那是多麼微乎其微。只是梅鐸誤解機率,他提供的數據,完全不可信,細節可參考黃文璋(2016)一文。但陪審團卻接受了梅鐸的證詞。1999年,莎莉被判無期徒刑,並於2000年入獄。直到2003年1月,經第二次上訴後,基於死嬰之新的病理報告出爐,最高法院才改判莎莉無罪。只是清白來的太遲,出獄後,莎莉一直處於精神不佳的狀態。2007年3月,她因酒精中毒,死於家中。
我們來重新檢視。如前,令
a=P(二嬰兒猝死|莎莉沒殺二嬰),
b=P(莎莉殺二嬰)。
則仿上述樂透彩作弊之檢定一例的推導,即得
(3) P(莎莉沒殺二嬰|二嬰兒猝死)=a(1-b)/(a(1-b)+b),
此處依舊合理地假設P(二嬰兒猝死|莎莉殺二嬰)=1。
梅鐸的機率值雖不可靠,但我們還是先來看,就算採用他所宣稱的機率,莎莉的嫌疑,是否真有那麼大?即取a=1/7,300萬。至於b,以莎莉的背景,取b=1/1百萬,都可能太大了。將此二a,b代入(3)式,得
P(莎莉沒殺二嬰|二嬰兒猝死)=999,999/73,999,999≈0.01351。
此機率可遠比梅鐸提供的a=1/7,300萬,著實大多了。更不要說若b=1/1千萬,或b=1/1億了。
在黃文璋(2016)一文中,我們提到,莎莉獲釋後,2004年,有研究指出,a應介於
1/338,000至1/169,000間,
為梅鐸以為的a之215倍以上。對此新的a,仍取b=1/1百萬,則得P(莎莉沒殺二嬰|二嬰兒猝死)介於
999,999/1,337,999至999,999/1,168,999間。
即約介於
0.747383966與0.855431869間。
這樣的機率與小到誇張的1/7,300萬相比,大小有如天壤之別。換句話說,在二嬰兒猝死下,莎莉沒殺二嬰的機率,絕非梅鐸所說的那麼小。如此一來,陪審團的決定,可能將大不相同了。
執行假設檢定時,會產生出乎意外的誤差,並不僅限上述只從一個角度看的情況。我們再舉一情況。有位老師,要班上學生各自以投擲,來檢定一銅板出現正面的機率是否大於1/2,且給出p-值。以p表銅板出現正面的機率。顯然取
H0:p=1/2,Ha:p>1/2。
K生與L生投擲後,皆得19個正面及1個反面,但兩人的p-值卻不一樣。這很奇怪嗎?
K生事先設訂投擲20次,所以出現的正面數有二項分佈B(20,p)。而比出現19個正面,至少同樣極端的事件,為出現19或20個正面。又在H0之下,p=1/2。故K生之
p-值=P(投擲20次,出現19或20個正面|p=1/2)=(C(20,19)+C(20,20))/220=21/220。
至於L生,他乃設定持續投擲,直至出現第1個反面,便立即停止。故出現的正面數有負二項分佈(negative binomial distribution) NB(1,p)。此時比出現19個正面,至少同樣極端的事件,為出現19,20,…個正面。在H0之下,仍有p=1/2。故L生之
p-值=P(在出現第1個要反面前,至少出現19個正面|p=1/2)=1/220+1/221+1/222+…=1/219。
K生的p-值,為L生的p-值之10.5倍。
此例告訴我們,雖得到相同的正面數與反面數,還要知道是如何投擲的,才有完整的資訊。若只看到K生與L生所紀錄歷次投擲的結果,正、正、…、正、反完全相同,都是連續19個正再1個反,便以為數據相同,p-值也必相同,則將可能大錯特錯。要知相同的數據,有些會導致拒絕H0,有些卻會導致接受H0。因此檢定前得先確定,這些數據究竟是怎麼來的。來源若有異,結論將有能完全相反,不可不慎。
欲對假設檢定進一步了解者,可參考黃文璋(2005)一文。
參考文獻
1. 黃文璋(2005)。統計顯著性。數學傳播季刊,29(4):29-38。
2. 黃文璋(2016)。談統計誤差─假設檢定篇。黃家小館(http://www.stat.nuk.edu.tw/huangwj)。