國立高雄大學統計研究所-心在南方

:::

:::

主題：談統計素養(八)

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2017/3/12 上午 12:04:02

8 檢定誤差

在隨機世界裡，常無法證明真偽，但為了做決策，不時得判定，或給出推論，這時假設檢定往往能派上用場。由於針對隨機現象，不論再好的方法，總免不了有誤差。假設檢定裡的兩型錯誤機率，便都是用來表示誤差大小。必須一提的是，藉助假設檢定做判斷時，得儘量保持客觀的態度，從多方檢視可能會有的誤差。統計畢竟只是用來協助做決策的工具，不必過度“推崇”。如果盲目的假統計之名，則犯下的錯誤，其嚴重性可能遠超過前述兩型。待犯下大錯後，倒過來抱怨統計不可信，便將多犯一個冤枉統計的錯。

宋朝的包拯(999-1062)，以清廉公正聞名於世，後世稱為他“包青天”，或“包公”。民間傳說中，有很多關於他破解各種奇案的故事。其中有一則常掛他名字的“包公審錢案”。賣油條的小孩，才離開一陣子，回來後發現錢不見了。原本錢放在盛油條的籃子裡，籃子則擺在一塊大石上。包公接獲報告後，叫人把石頭抬來審問。雖一再恫嚇，石頭不說就是不說，這麼頑劣？只好用刑了。只是打到棍子斷了，石頭仍不開口。一旁看熱鬧的人，都忍不住笑起來。包公生氣了，罰圍觀者每人拿兩個銅錢，扔進一個裝一半水的盆子裡。有個人才扔完錢，包公便指著他厲聲說“別走！就是你！”那人大呼冤枉，眾人也不解。包公說，“籃子裡的錢都沾著油，而只有你的錢扔進水裡後，有油浮上來，別人卻都沒有，偷錢的不是你是誰？”那人俯首認罪，眾人皆心服。

此故事有趣歸有趣，但無懈可擊嗎？先來看底下的例子。

M君一人獨中樂透彩頭獎，獎金超過二十億，史上最高。現身領取獎金時，錢還沒領到，調查員卻出現了。“你中樂透彩頭獎那期，買了幾張？”調查員問。“1張。”M君回答。“買1張就中頭獎？有作弊嫌疑！”調查員口氣不善。“怎麼作弊啊？運氣好不行嗎？”科學辦案，調查員多少懂些統計，他當場展示一假設檢定給M君看。

49取6的彩券，中頭獎要6碼全吻合，不計順序，因此每張彩券中頭獎的機率為

1/C(49,6)=1/13,983,816，

將近1千4百萬分之1的機率，的確很難中。現令

H₀：M君沒作弊，H_a：M君作弊，

分別表虛無假設及對立假設。“作弊是什麼意思？”M君謹慎地問。“買通樂透彩公司的員工、會算牌、有預測能力，或任何形式的作假都算。”調查員回答。“那拒絕域能取成什麼？”M君有點想不透。“先不必管拒絕域是什麼，但任一合理的拒絕域，都該包含你(M君)中頭獎之事件。”調查員再度說明。“顯著水準α取成多少？”M君再問。“等下再說。”調查員似乎不覺得那很重要。禍從天降，雖並不滿意調查員的回應，但由於虛無假設是被保護的，擅長統計的M君，相信經此檢定，反而可證實他的清白，讓他順利領到獎金，也就不計較了。

在H₀為真下，觀測到M君中頭獎，由於沒有比這更極端的事件了，故此機率即

p-值=1/13,983,816。

實務上α極少取成這麼小，所以在任一合理的α下，皆該拒絕H₀，而接受H_a，也就是接受M君作弊。“你沒作弊誰作弊？”調查員正色道。怎會這樣？M君愣住了。

僅憑某人身上的錢有油，就認定他偷了賣油條小孩的錢。這種典型包公斷案的手法，雖是千古美談，但其實令人提心吊膽。如果機靈的偷錢者，根本早就躲遠了，而圍觀者中，有人稍早買油條時沒零錢，則找回來的銅錢，不就沾了油嗎？包公因而認定他偷錢，豈不誤判？再仔細想想，在“包公審錢案”裡，除了沒有給出在未偷賣油條小孩的錢之下，身上有沾了油的錢之機率外，包公判定的依據，與調查員由某人中頭獎，便檢定出他作弊，本質上是一樣的。推斷都是憑一假設檢定，包公的有爭議，那調查員的呢？也一樣。若依調查員的論點，則任一位中頭獎者，皆會被“證實”作弊！這樣的假設檢定，豈會令人心服？這麼說，假設檢定不可靠嗎？

首先，因投擲銅板，所獲正面數的多寡，只受銅板正面出現機率的影響，故由投擲後出現的正面數，來檢定正面出現之機率，並無不妥，只要各次投擲，的確相互獨立。但身上擁有沾了油的錢，並不見得是來自賣油條的小孩。就算是，也不見得是偷來的。其次，投擲銅板20次，在出現20個正面下，懷疑銅板非公正，算是合理。因當銅板為公正，此機率才

(1/2)²⁰=1/1,048,576，

約百萬分之1的機率，相當小。但小機率若遇到大樣本，譬如說有2百萬人相繼做此實驗，則其中有人擲出20個正面，乃很平常，一點都不該訝異。這點應不難理解。同理，在彩券銷售量夠大的情況下，有人中頭獎，便幾乎是必然，不該連想到作弊。還有一點要注意，對於銅板，誤判其公正性較無妨。但若涉及到人或其他重要的事務，導致犯錯的後果影響較大時，則就須儘量謹慎。總之，運用假設檢定來判定時，萬不可因見到p-值很小，就理直氣壯地認為結論已定，不必再多說了。

在前述檢定樂透彩是否作弊之例子中，除給出

p-值=P(M君中頭獎|M君沒作弊)

外，站在M君的立場，應也檢視

P(M君沒作弊|M君中頭獎)

之大小。否則M君將以為調查員故入人罪，辦案完全一廂情願，這樣他是不會服氣的。要知即使p-值很小，上述條件機率並不必然也很小。而此條件機率，才是從中頭獎者的角度，與是否作弊密切相關的一個機率。底下來討論此機率值。

處理條件機率，可利用貝氏定理(Bayes’ Theorem)。即對二事件A，B，只要P(A)及P(B)皆不為0，便有

其中B^c表B之餘集。現令事件A表M君中頭獎，B表M君沒作弊。則事件B^c表M君作弊。我們想求

P(B|A)=P(M君沒作弊|M君中頭獎)。

切記P(B|A)與P(A|B)，此二條件機率是不一樣的，不可混淆。為了適用更一般的情況，令

p=P(A|B)=P(M君中頭獎|M君沒作弊)，

又令

q=P(B^c)=P(M君作弊)，

則

P(B)=P(M君沒作弊)=1-q，

我們再令

P(A|B^c)=P(M君中頭獎|M君作弊)=1，

上述條件機率取為1，乃因我們假設作弊便一定成功。因若作弊不成功，則不會中頭獎，也就沒有後續的檢定問題。當然，若要更一般，可允許P(A|B^c)不為1。在以上的假設下，由(1)式，即得

(2) P(B|A)=p(1-q)/(p(1-q)+q)。

回到我們的情況，p=1/13,983,816，但q是多少可就未知了。假設q=10^-1，代入(2)式，即得

P(B|A)=9/13,983,825≈0.000000643。

假設q=10^-2，則

P(B|A)=99/13,983,915≈0.000007079。

假設q=10^-3，則

P(B|A)=999/13,984,815≈0.00007143。

假設q=10^-4，則

P(B|A)=9,999/13,993,815≈0.0007145。

假設q=10^-5，則

P(B|A)=99,999/14,083,815≈0.007100。

假設q=10^-6，則

P(B|A)=999,999/14,983,815≈0.06674。

假設q=10^-7，則

P(B|A)=9,999,999/23,983,815≈0.4169。

假設q=10^-8，則

P(B|A)=99,999,999/113,983,815≈0.8773。

最後，假設q=0，即M君絕對不會作弊，則

P(B|A)=1。

在q=10^-1、…、10^-7、0之假設下，我們分別求出

P(B|A)=P(M君沒作弊|M君中頭獎)。

這些機率，都比p-值大很多。且可看出，若M君作弊的機率q愈小，則在M君中頭獎下，並沒作弊的機率便愈大，亦即有作弊的機率將愈小。若q與p(M君沒作弊下，會中頭獎的機率)相比不大，如q=10^-7、10^-8，則P(M君沒作弊|M君中頭獎)便不算小，此時豈有必要去懷疑M君作弊？所以只因

p-值=P(M君中頭獎|M君沒作弊)

很小，就見獵心喜，一口咬定M君中頭獎是因作弊，則犯錯機率，便絕非以為的p-值那麼小。

你可能會好奇，如何得知q究竟多少呢？對事件的推論，可藉助先驗機率(prior probability，有時只簡單地稱為prior)，這是貝氏學派(Bayesian)的想法。可由過去的經驗(如樂透彩曾發生的作弊次數)，及M君的資料(職業、生活狀況，及過去行為的紀錄等)等，來推估先驗機率q。就算不了解M君，也可由樂透彩發行單位所掌握的作弊資訊，由全體q的估計值，做為M君個人的q之估計值。一般而言，不論全體或個人的q，都應極小。因現場隨機開獎，豈那麼容易作弊？對q的推估會不會很主觀？當然不無可能。但主觀機率本來就是幾種主要對機率的解釋之一。無論如何，就算不是很精準，如估計q介於10^-7至10^-5間，而得P(M君沒作弊|M君中頭獎)介於0.007100至0.4169間，仍比對q毫無想法下，能得到更有效的推論。

最後，我們來看一著名的“檢察官的謬誤”(prosecutor’s fallacy)。此為一過度依賴假設檢定，而犯下難以挽回的大錯之實例。

莎莉克拉克(Sally Clark，1964-2007)是家中的獨生女，她父親是位資深警官，母親是位美容師，她與先生同為律師。家庭及事業，一切看起來都很美好。1996年9月，他們的老大誕生。不料這個健康的男嬰，卻在當年12月，11週大時在家中猝死。從悲傷中復原後，於1997年11月，莎莉又生了一個兒子。豈料8週後，1998年1月，不幸的事再度降臨，嬰兒在家中猝死。但不幸還沒結束，因兩次事故發生，都只有莎莉一人在家，她被以殺嬰的罪名起訴。檢察官並沒有莎莉行凶的直接證據，但他就是認為，接連兩個嬰兒猝死，乃極不尋常。為了說服陪審團，這絕非猝死，檢察官找來梅鐸(Sir Roy Meadow，1933-)作證。梅鐸是位夙負盛名的小兒科醫生，且上法庭作證的經驗豐富。

梅鐸向陪審團說明，一家有兩個嬰兒接連猝死的機率，僅有7,300萬分之1，那是多麼微乎其微。只是梅鐸誤解機率，他提供的數據，完全不可信，細節可參考黃文璋(2016)一文。但陪審團卻接受了梅鐸的證詞。1999年，莎莉被判無期徒刑，並於2000年入獄。直到2003年1月，經第二次上訴後，基於死嬰之新的病理報告出爐，最高法院才改判莎莉無罪。只是清白來的太遲，出獄後，莎莉一直處於精神不佳的狀態。2007年3月，她因酒精中毒，死於家中。

我們來重新檢視。如前，令

a=P(二嬰兒猝死|莎莉沒殺二嬰)，

b=P(莎莉殺二嬰)。

則仿上述樂透彩作弊之檢定一例的推導，即得

(3) P(莎莉沒殺二嬰|二嬰兒猝死)=a(1-b)/(a(1-b)+b)，

此處依舊合理地假設P(二嬰兒猝死|莎莉殺二嬰)=1。

梅鐸的機率值雖不可靠，但我們還是先來看，就算採用他所宣稱的機率，莎莉的嫌疑，是否真有那麼大？即取a=1/7,300萬。至於b，以莎莉的背景，取b=1/1百萬，都可能太大了。將此二a，b代入(3)式，得

P(莎莉沒殺二嬰|二嬰兒猝死)=999,999/73,999,999≈0.01351。

此機率可遠比梅鐸提供的a=1/7,300萬，著實大多了。更不要說若b=1/1千萬，或b=1/1億了。

在黃文璋(2016)一文中，我們提到，莎莉獲釋後，2004年，有研究指出，a應介於

1/338,000至1/169,000間，

為梅鐸以為的a之215倍以上。對此新的a，仍取b=1/1百萬，則得P(莎莉沒殺二嬰|二嬰兒猝死)介於

999,999/1,337,999至999,999/1,168,999間。

即約介於

0.747383966與0.855431869間。

這樣的機率與小到誇張的1/7,300萬相比，大小有如天壤之別。換句話說，在二嬰兒猝死下，莎莉沒殺二嬰的機率，絕非梅鐸所說的那麼小。如此一來，陪審團的決定，可能將大不相同了。

執行假設檢定時，會產生出乎意外的誤差，並不僅限上述只從一個角度看的情況。我們再舉一情況。有位老師，要班上學生各自以投擲，來檢定一銅板出現正面的機率是否大於1/2，且給出p-值。以p表銅板出現正面的機率。顯然取

H₀：p=1/2，H_a：p>1/2。

K生與L生投擲後，皆得19個正面及1個反面，但兩人的p-值卻不一樣。這很奇怪嗎？

K生事先設訂投擲20次，所以出現的正面數有二項分佈B(20,p)。而比出現19個正面，至少同樣極端的事件，為出現19或20個正面。又在H₀之下，p=1/2。故K生之

p-值=P(投擲20次，出現19或20個正面|p=1/2)=(C(20,19)+C(20,20))/2²⁰=21/2²⁰。

至於L生，他乃設定持續投擲，直至出現第1個反面，便立即停止。故出現的正面數有負二項分佈(negative binomial distribution) NB(1,p)。此時比出現19個正面，至少同樣極端的事件，為出現19，20，…個正面。在H₀之下，仍有p=1/2。故L生之

p-值=P(在出現第1個要反面前，至少出現19個正面|p=1/2)=1/2²⁰+1/2²¹+1/2²²+…=1/2¹⁹。

K生的p-值，為L生的p-值之10.5倍。

此例告訴我們，雖得到相同的正面數與反面數，還要知道是如何投擲的，才有完整的資訊。若只看到K生與L生所紀錄歷次投擲的結果，正、正、…、正、反完全相同，都是連續19個正再1個反，便以為數據相同，p-值也必相同，則將可能大錯特錯。要知相同的數據，有些會導致拒絕H₀，有些卻會導致接受H₀。因此檢定前得先確定，這些數據究竟是怎麼來的。來源若有異，結論將有能完全相反，不可不慎。