國立高雄大學統計研究所-心在南方

:::

:::

主題：談統計誤差(五)

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2016/7/16 下午 04:01:27

5 假設檢定之進一步探討

49取6的樂透彩，頭獎要6碼全吻合，不計順序。因此中頭獎的機率為

1/C(49,6)=1/13,983,816，

將近1千4百萬分之1的機率，可說微乎其微。A君之前從不買彩券，某日心血來潮買了1張，居然就中了頭獎。A君的朋友B君，每期都買好幾張，卻最多只中些小獎。他半開玩笑地對A君說，“你一定是買通樂透彩公司的員工，或能算牌之類的，否則豈可能一買就中？”A君當然否認。兩人都學過統計，B君說“我們來做一假設檢定。”A君欣然同意，但強調“虛無假設須取成我是清白的。”B君說“那當然。”虛無假設是被保護的，A君遂安心地等著看B君證實他清白。現令

H₀ ：A君沒作弊，H_a：A君作弊，

分別表虛無假設及對立假設。此處作弊的意思很廣，有預測能力、求來明牌，或任何作假等都算。至於拒絕域要取成什麼？只要是合理的拒絕域，便該包含A君中頭獎，這是一明顯可能觀測到的結果。如今在H₀為真下，觀測到A君中頭獎，此機率即

p-值=1/13,983,816。

B君認為實務上極少有這麼小的顯著水準α。所以在任一合理的α之下，皆該拒絕H₀，而接受H_a，也就是接受A君作弊。怎會這樣？A君愣住了。

A君倒也不必覺得太委曲，因這不過是一正常假設檢定的結果，類似的情境不少。被認為是現代統計學的創始者費雪(Sir Ronald Aylmer Fisher，1890-1962，他是位爵士)，在他的“實驗設計”(The Design of Experiments，1935)一書中，曾講了一“淑女品茶”(the lady tasting tea)的故事，我們稍加修改如下。某日一群朋友，正悠閒地享用下午茶。其中有位男士，大談他喝遍天下好的奶茶之經驗。C女士忍不住說，奶茶的調製順序，深深影響其風味，先加奶後加茶，與先加茶後加奶，喝起來完全不同。在座不少科學家，聽後皆很存疑，成分都一樣，豈能喝出差別？有位統計學家說，那就來檢定一下。顯然H₀與H_a，可分別取成：

H₀：C女士無法分辨奶茶是先放奶或先放茶，

H_a：C女士能分辨奶茶是先放奶或先放茶。

請餐廳製作20杯奶茶，有些先放奶，有些先放茶，所有賓客皆不知順序，然後讓C女士依序飲用並辨別，最後由餐廳宣佈答案。令人驚奇的是，C女士全部講對。不論拒絕域取成什麼，顯然都該包含20杯全對。因而

p-值=(1/2)²⁰=1/1,048,576，

即使遠大於1/13,983,816，但H₀想必會被拒絕。

樂透彩是公開開獎，就算得到前述A君作弊的推論，大部分的人，恐怕仍是相信A君就只是好運而已，而非作弊。否則用相同的方法，將得到每位樂透彩的頭獎得主，都是作弊之推論。甚至，那些員工有幾千人以上的大公司，歲末尾牙餐會裡常有的摸彩，中頭獎者，豈不也都是靠作弊？處處皆作弊？這世界固然沒那麼美好，倒也還不至於說是充滿作弊。但若不相信有弊端，難道是假設檢定的推論不值得採信？另一方面，C女士品茶的能力，的確令人嘖嘖稱奇，但即使通過檢定，她是否真具備分辨先放奶或先放茶的特異功能，恐怕眾人莫衷一是。有人可能相信了，有人只視為魔術，一點都不信。究竟這是怎麼回事？

我們先對假設檢定裡的顯著性，做些闡釋。某公司研發出一種新飲料，市面上飲料品牌眾多，如何才能脫穎而出？該公司遂設計出一套實驗流程，找了25所中學進行實驗，每所中學的飲料配方略有不同。各校均執行一檢定，取

H₀：喝此飲料無法提高記憶力，

H_a：喝此飲料能提高記憶力。

中學生升學壓力大，飲料若對提高記憶力有幫助，就有賣點。在α=0.05下，其中有一所學校得到顯著的結果。於是該公司以此校的結果，完成一份研究報告，宣稱經嚴格的統計檢定，證實喝該配方的飲料，能提高記憶力，且大力促銷。一瓶才20元左右的飲料，會有那麼驚人的功能？不少人嗤之以鼻。但報告看起來，卻不像有造假。

其實只要想想設定α=0.05的涵義，就知上述飲料提高記憶力之檢定，根本不必造假。在虛無假設為真下，會犯第一型錯誤的機率為0.05。也就是當實際上喝該飲料無助提高記憶力，觀測值仍有0.05的機率，會落在拒絕域，因而會接受H_a。也就是平均每20所參與實驗的中學，將有1所“證實”該飲料能提高記憶力。如今共有25所中學參與實驗，其中有1所得到顯著的結果，乃算是合理。你現在知道了，拿1公正銅板讓20人依序各投擲100次去檢定，雖是相同的銅板，在α=0.05之下，若有人得到銅板不公正的推論，並不足為奇。甚至對一般的檢定，不論α取得多小，只要檢定做的夠多回，便不難在其中發現有幾回的結果為顯著。由於有上述這種現象，科學上的觀測，不宜一得到顯著的結果，便立即興奮地拿去發表。實驗的結論，要能重複才行。即不可只有你能得到某新藥對治療某疾病有效，別人重做都無效。否則學術刊物上，將經常發表一些光怪陸離的研究報告。

要知不論再小的機率，只要碰到大樣本，其發生便都不稀奇。先舉一常見到的例子來說明。每逢過年期間，台灣各地廟宇，屢舉行擲筊比賽的活動。擲筊是民間一種求神問卜的儀式，將兩片用木頭做成的半月形狀筊杯，投擲至地面後，若二筊杯呈現一正一反，便稱得到聖筊，代表向神明祈求或請示的事，獲得應允或認為可行。在擲筊比賽裡，獲第一名的，往往連續擲出十餘個聖筊。有如投擲1公正銅板得正面，得1聖筊之機率亦為1/2。不妨試試，實際拿一銅板投擲，看能否連得10個正面？恐怕不容易，因(假設銅板為公正)機率僅有

(1/2)¹⁰=1/1,024。

那怎麼可能有人得到13個聖筊？喔！原來報名者有1萬多人，這就難怪了。由於

(1/2)¹³ =1/8,192，

故只要報名有8,192人以上，平均便至少能有1位連得13個聖筊。媒體上出現的標題，常是醒目的奪冠者擲出多少個聖筊，讓人驚嘆萬分。其實若知道該活動的報名人數，大約就不會訝異了。諸如公司尾牙餐會的摸彩，或樂透彩開獎等，“有人”中頭獎，都屬上述小機率碰到大樣本之例。對某位“特定”的人，要中頭獎的確很難。但要“有人”中頭獎，則往往不算難事，有時還成為必然會發生之事。事實上，任一期只要銷售量夠大，有人中頭獎並沒什麼，此處不過剛好就是A君而已。但若下一期A君又只買1張彩券，且又中頭獎，那就真會令人起疑，連樂透彩公司，可能都會請警方進行調查。

一般而言，對很多事件，人們心中各有不同的事先信賴程度，或者事前機率(prior probability)。對堅定相信樂透彩頭獎號碼為隨機產生的人，即使A君在彩券開獎前，自信地說，“我拜過菩薩了，這張必中頭獎”，而開獎後果然美夢成真，恐怕仍不認為A君對菩薩的祈求有效(或A君有預知能力，或A君作弊等)。而且不少買彩券者，每次都自以為會獲幸運之神的眷顧，因此各個人那些喃喃自語的信心，不太有人在乎。但如果A君中頭獎一事二度發生，原本堅定相信他怎麼拜都沒用的人，信心可能便開始動搖了；若三度發生，將有如三人成虎，或視A君如神，或不再相信樂透彩的開獎公正了。但是，除非出現可靠的佐證，否則光由A君接二，甚至連三的中頭獎，雖大部分的人，會懷疑其中必有名堂，不可能僅是憑運氣，卻無法這樣就認定A君一定作弊，須有其他佐證才行。簡單講，假設檢定接受某一假設，與該假設確實為真，完全是兩回事。底下給一實例。

2015-16 NBA的季後賽，可說高潮迭起。季後賽都是採7戰4勝制。先是在西區冠軍賽，打完4場後，雷霆隊以3勝1敗，領先勇士隊聽牌。在這一年的例行賽，創下許多歷史紀錄的勇士隊，眼看就要被淘汰了。因西區冠軍賽，之前從未有從1比3落後，而能奪冠之例。雷霆隊的球迷，已迫不及待，準備慶祝了。不料韌性十足的勇士隊，彷彿覺得這一年創的紀錄尚不夠多，他們連勝3場，登上西區冠軍寶座。原本心情有如洗三溫暖的支持者狂喜，且信心高漲，因勇士隊經此鍛鍊，還有打不敗的球隊嗎？勇士隊過關後，接著要與已等候在那裡的東區冠軍騎士隊，進行殊死戰，以決定今日之域中，竟是誰家天下？

總冠軍賽打完4場，勇士隊取得3比1領先，看來勝券在握了。因NBA總冠軍賽史上，3比1領先卻被逆轉，之前從未發生過。何況，在西區冠軍賽，勇士隊已完成一次不可能的任務，球迷又不是愛麗思，在同一年的季後賽裡，豈會接連看到兩件類似之不可能的事？要相信機率！結果騎士隊壓根不理機率，硬是連贏3場封王。勇士隊在前一輪，才成為西區冠軍賽史上，從1比3落後下逆轉的首例，下一輪便成為總冠軍賽史上，第一支從3比1領先，卻被逆轉的苦主，只能徒呼負負。但對上天實在也無從抱怨起，因大幸與大不幸，都發生在勇士隊身上。愛麗思說“你看吧！”。

見到連續兩回這麼峰迴路轉的比賽，NBA的球迷，興奮之餘，會懷疑是為了票房或其他原因，NBA暗中搞鬼所造成的嗎？猜想大部分的人不會。要知假設檢定雖是現代做決策之一重要依據，但我們已數度強調，見到顯著事件發生，是該睜大雙眼，仔細檢視。卻不表所懷疑的事，果真就該被推翻。甚至，若盲目依賴統計，過度重視顯著事件，認為由看到這個“果”，必然就是那個“因”所造成，有時會產生“檢察官的謬誤”(prosecutor's fallacy)。

設有某法院審理某刑事案件。在無罪推定的前提下，虛無假設自然取為H₀：被告無辜。假若檢查官提出不少疑點，且指出若H₀為真，這些現象會發生之機率為百萬分之1，一個很小的p-值。但被告的律師，若有概念的話，該反駁應在意是，當這些現象發生時，H₀為真之機率為何？相信大家現在該都知道了，此其實是要求另一條件機率。而這得要有更多的資訊才能計算，與那百萬分之1的機率，完全是兩回事。但在法庭上，屢會將二者混淆，有時冤獄便這樣產生的，因此才會常被稱為檢察官的謬誤。由於受不了統計有時成了冤獄的幫凶，還有人提出“靠統計數字定罪的危險”之警告。底下以著名的“莎莉克拉克案”(The Sally Clark case)，來說明法庭若要引用統計來當證據，須格外謹慎。資料取自Wikipedia(维基百科)。

莎莉克拉克(Sally Clark，1964-2007，本名Sally Lockyer， Clark為夫姓)，是家中的獨生女，她父親是位資深警官，母親是美容師。1990年，莎莉與同樣是初級律師(solicitor)的史提夫克拉克(Steve Clark)結婚。家庭及事業，一切看起來都很美好。1996年9月，他們的老大誕生。健康的男嬰，卻在當年12月，11週大時在家中猝死(Sudden cardiac death，縮寫SCD，指突然的死亡)。莎莉好不容易才從悲傷中復原，於1997年11月，又生了一個兒子後，以為可開始過新生活了。豈料8週後，1998年1月又在家中猝死，兩次都只有莎莉一人在家。喪子顯然不是最大的痛，莎莉面臨殺嬰的控訴。

起訴的檢察官，並沒有莎莉行凶的直接證據。但他就是認為，接連兩個嬰兒猝死，極不尋常。憑其直覺，檢察官完全不相信嬰兒猝死症(Sudden infant death syndrome，縮寫SIDS，指嬰兒突然死亡，不論從其病史、身體檢查，或研究調查，都無法發現死因)，就是此事件發生的真正原因。為了說服陪審團，這絕不是猝死，檢察官找來梅鐸(Sir Roy Meadow，1933-，他亦是位爵士)作證。梅鐸是位夙負盛名的小兒科醫生(paediatrician)，且上法庭作證的經驗豐富。

梅鐸以簡易的方式，向陪審團說明，一家有兩個嬰兒接連猝死的機率有多小。他說同一家庭有兩個小孩死於SIDS的機率，為7,300萬分之1。梅鐸承認7,300萬分之1的機率，並不表示就不可能發生。但他指出，這種意外，每1百年才會有1次。搞不清楚7,300萬分之1，到底有多小的人，聽到1百年1次，立即就懂了。人生不滿百，百年1次的事，怎會見得到？顯然不是猝死！梅鐸還說，英國兩個小孩的家庭，共有1,500萬個。對照7,300萬分之1的機率，一聽又更明白了。不會發生！既然不可能是猝死，結論就浮出了。

我們先來看梅鐸的數據之由來。梅鐸宣稱，對一如克拉克這種富裕且不抽煙的家庭，會發生一件嬰兒猝死(cot death)的機率為1/8,543。因此會發生兩件嬰兒猝死的機率，為前一值的平方，即

(1/8,543)²= 1/72,982,849，

7,300萬分之1的機率，便是這樣產生的。那百年1次又是如何來的？梅鐸說，全英國每年約有70萬新生兒，他將7,300除以70，得104.…，近似100。

陪審團接受了梅鐸的證詞。1999年，莎莉被判無期徒刑(life imprisonment)，並於2000年入獄。直到2003年1月，經第二次上訴後，基於死嬰之新的病理報告出爐，最高法院改判莎拉無罪。只是遲來的正義，對莎拉幫助已不大了。出獄後，莎莉一直處於精神不佳的狀態，有如槁木死灰，終日酗酒，茫然度日。2007年3月，她因酒精中毒，死於家中。

陪審團及檢察官的數學及統計，可能都不會太好，那梅鐸的功力如何呢？被封為爵士，總不至於浪得虛名吧！那1/8,543嬰兒猝死的機率，我們就先接受好了。但將兩個1/8,543相乘，就毫無根據了。同一家庭的兩個嬰兒猝死，是獨立事件嗎？這對未曾謀面的兄弟兩人，由於遺傳之關係，說不定會有類似的基因缺陷。再加上照顧方式，及生長環境皆相同等因素，二猝死事件，絕不該在沒有依據下，就視為獨立。無論如何，不管三七二十一，就將兩機率值相乘，是很輕率的。不該是一個受過水準以上機率訓練的人，所會犯的錯。因此7,300萬分之1的機率，應是極被低估的。至於因機率7,300萬分之1，且每年約70萬新生兒，將二者相除，就得到同一家庭兩件嬰兒猝死案，百年才會有一樁，這更是莫名其妙了。只是既然有這麼多統計上的缺失，英國眾多統計學者，難道都不吭聲嗎？

首先，如我們之前所一再強調的，這裡犯了檢察官的謬誤。因就算7,300萬分之1的機率為正確，也不表在兩個嬰兒猝死下，莎拉無辜的機率也是7,300萬分之1。這是另一條件機率，要有更多的資訊，才能估算。另外，英國皇家統計學會(Royal Statistical Society，縮寫RSS)，倒也沒有袖手旁觀。事實上，他們於2001年10月，發表一公開的聲明，對本案裡的“法庭誤用統計”(misuse of statistics in the courts)，表示關切。並說“7,300萬分之1的機率毫無統計依據”(“no statistical basis” for the “1 in 73 million”)。2002年1月，RSS還寫信給上議院大法官(Lord Chancellor)，明確指出7,300萬分之1的計算是錯的(the calculation leading to 1 in 73 million is invalid)。

2005年，英國醫學總會(General Medical Council，縮寫GMC)，鑑於梅鐸曾多次在法庭上擔任專家證人，卻提供錯誤資訊，因而數度入人於罪，撤銷了他的醫師執照。雖經上訴後，隔年梅鐸重新拿回其執照，但名聲已毀了一大半了。

最後，2004年，索爾福德大學(University of Salford)的數學教授希爾(Ray Hill)，在期刊Paediatric and Perinatal Epidemiology上，發表一篇論文。他依據英國的統計資料，推導出嬰兒猝死的機率約1/1,300，而非1/8,543。並且估計出，一家庭若有一嬰兒猝死，則會有第二個嬰兒猝死的機率，將提高5至10倍。看來梅鐸醫生自以為能善用統計，其實犯了不少錯，卻一直毫無所覺。統計！多少人假統計之名！

暫無回應

回本區首頁

回應總數0

姓名：	回應前，請先註冊或登入。
E-mail：
內容：
驗證碼：	（50SU）

:::

地　　址：811高雄市楠梓區高雄大學路700號
電　　話：07-5919362 傳真：07-5919360 e-mail: stat@nuk.edu.tw
更新日期：2024/4/11 上午 09:16:10

2003/10/20起第

9047477

位訪客