國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:談統計素養(八)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2017/3/12 上午 12:04:02

8 檢定誤差

在隨機世界裡,常無法證明真偽,但為了做決策,不時得判定,或給出推論,這時假設檢定往往能派上用場。由於針對隨機現象,不論再好的方法,總免不了有誤差。假設檢定裡的兩型錯誤機率,便都是用來表示誤差大小。必須一提的是,藉助假設檢定做判斷時,得儘量保持客觀的態度,從多方檢視可能會有的誤差。統計畢竟只是用來協助做決策的工具,不必過度推崇。如果盲目的假統計之名,則犯下的錯誤,其嚴重性可能遠超過前述兩型。待犯下大錯後,倒過來抱怨統計不可信,便將多犯一個冤枉統計的錯。

宋朝的包拯(999-1062),以清廉公正聞名於世,後世稱為他包青天,或包公。民間傳說中,有很多關於他破解各種奇案的故事。其中有一則常掛他名字的包公審錢案。賣油條的小孩,才離開一陣子,回來後發現錢不見了。原本錢放在盛油條的籃子裡,籃子則擺在一塊大石上。包公接獲報告後,叫人把石頭抬來審問。雖一再恫嚇,石頭不說就是不說,這麼頑劣?只好用刑了。只是打到棍子斷了,石頭仍不開口。一旁看熱鬧的人,都忍不住笑起來。包公生氣了,罰圍觀者每人拿兩個銅錢,扔進一個裝一半水的盆子裡。有個人才扔完錢,包公便指著他厲聲說別走!就是你!那人大呼冤枉,眾人也不解。包公說,籃子裡的錢都沾著油,而只有你的錢扔進水裡後,有油浮上來,別人卻都沒有,偷錢的不是你是誰?那人俯首認罪,眾人皆心服。

此故事有趣歸有趣,但無懈可擊嗎?先來看底下的例子

M君一人獨中樂透彩頭獎,獎金超過二十億,史上最高。現身領取獎金時,錢還沒領到,調查員卻出現了。你中樂透彩頭獎那期,買了幾張?調查員問。“1張。”M君回答。1張就中頭獎?有作弊嫌疑!調查員口氣不善。怎麼作弊啊?運氣好不行嗎?科學辦案,調查員多少懂些統計,他當場展示一假設檢定給M君看。

496的彩券,中頭獎要6碼全吻合,不計順序,因此每張彩券中頭獎的機率為

1/C(49,6)=1/13,983,816

將近14百萬分之1的機率,的確很難中。現令

H0M君沒作弊,HaM君作弊,

分別表虛無假設及對立假設。作弊是什麼意思?”M君謹慎地問。買通樂透彩公司的員工、會算牌、有預測能力,或任何形式的作假都算。調查員回答。那拒絕域能取成什麼?”M君有點想不透。先不必管拒絕域是什麼,但任一合理的拒絕域,都該包含你(M)中頭獎之事件。調查員再度說明。顯著水準α取成多少?”M君再問。等下再說。調查員似乎不覺得那很重要。禍從天降,雖並不滿意調查員的回應,但由於虛無假設是被保護的,擅長統計的M君,相信經此檢定,反而可證實他的清白,讓他順利領到獎金,也就不計較了。

H0為真下,觀測到M君中頭獎,由於沒有比這更極端的事件了,故此機率即

p-=1/13,983,816

實務上α極少取成這麼小,所以在任一合理的α下,皆該拒絕H0,而接受Ha,也就是接受M君作弊。你沒作弊誰作弊?調查員正色道。怎會這樣?M君愣住了。

僅憑某人身上的錢有油,就認定他偷了賣油條小孩的錢。這種典型包公斷案的手法,雖是千古美談,但其實令人提心吊膽。如果機靈的偷錢者,根本早就躲遠了,而圍觀者中,有人稍早買油條時沒零錢,則找回來的銅錢,不就沾了油嗎?包公因而認定他偷錢,豈不誤判?再仔細想想,在包公審錢案裡,除了沒有給出在未偷賣油條小孩的錢之下,身上有沾了油的錢之機率外,包公判定的依據,與調查員由某人中頭獎,便檢定出他作弊,本質上是一樣的。推斷都是憑一假設檢定,包公的有爭議,那調查員的呢?也一樣。若調查員的論點,則任一位中頭獎者,皆會被證實作弊!這樣的假設檢定,豈會令人心服?這麼說,假設檢定不可靠嗎?

首先,因投擲銅板,所獲正面數的多寡,只受銅板正面出現機率的影響,故由投擲後出現的正面數,來檢定正面出現之機率,並無不妥,只要各次投擲,的確相互獨立。但身上擁有沾了油的錢,並不見得是來自賣油條的小孩。就算是,也不見得是偷來的。其次,投擲銅板20次,在出現20個正面下,懷疑銅板非公正,算是合理。因當銅板為公正,此機率才

(1/2)20=1/1,048,576

約百萬分之1的機率,相當小。但小機率若遇到大樣本,譬如說有2百萬人相繼做此實驗,則其中有人擲出20個正面,乃很平常,一點都不該訝異。這點應不難理解。同理,在彩券銷售量夠大的情況下,有人中頭獎,便幾乎是必然,不該連想到作弊。還有一點要注意,對於銅板,誤判其公正性較無妨。但若涉及到人或其他重要的事務,導致犯錯的後果影響較大時,則就須儘量謹慎。總之,運用假設檢定來判定時,萬不可因見到p-值很小,就理直氣壯地認為結論已定,不必再多說了。

在前述檢定樂透彩是否作弊之例子中,除給出

p-=P(M君中頭獎|M君沒作弊)

外,站在M君的立場,應也檢視

P(M君沒作弊|M君中頭獎)

之大小。否則M君將以為調查員故入人罪,辦案完全一廂情願,這樣他是不會服氣的。要知即使p-值很小,上述條件機率並不必然也很小。而此條件機率,才是從中頭獎者的角度,與是否作弊密切相關的一個機率。底下來討論此機率值。

處理條件機率,可利用貝氏定理(Bayes Theorem)。即對二事件AB,只要P(A)P(B)皆不為0,便有

(1) P(B|A)=P(AB)/P(A)=P(A|B)P(B)/P(A)=P(A|B)P(B)/(P(A|B)P(B)+P(A|Bc)P(Bc))

其中BcB之餘集。現令事件AM君中頭獎,BM沒作弊。則事件BcM君作弊。我們想求

P(B|A)=P(M君沒作弊|M君中頭獎)

切記P(B|A)P(A|B),此二條件機率是不一樣的,不可混淆。為了適用更一般的情況,令

p=P(A|B)=P(M君中頭獎|M君沒作弊)

又令

q=P(Bc)=P(M君作弊)

P(B)=P(M君沒作弊)=1-q

我們再令

P(A|Bc)=P(M君中頭獎|M君作弊)=1

上述條件機率取為1,乃因我們假設作弊便一定成功。因若作弊不成功,則不會中頭獎,也就沒有後續的檢定問題。當然,若要更一般,可允許P(A|Bc)不為1。在以上的假設下,由(1)式,即得

(2) P(B|A)=p(1-q)/(p(1-q)+q)

回到我們的情況,p=1/13,983,816,但q是多少可就未知了。假設q=10-1,代入(2)式,即得

P(B|A)=9/13,983,825≈0.000000643

假設q=10-2,則

P(B|A)=99/13,983,915≈0.000007079

假設q=10-3,則

P(B|A)=999/13,984,815≈0.00007143

假設q=10-4,則

P(B|A)=9,999/13,993,815≈0.0007145

假設q=10-5,則

P(B|A)=99,999/14,083,815≈0.007100

假設q=10-6,則

P(B|A)=999,999/14,983,815≈0.06674

假設q=10-7,則

P(B|A)=9,999,999/23,983,815≈0.4169

假設q=10-8,則

P(B|A)=99,999,999/113,983,815≈0.8773

最後,假設q=0,即M君絕對不會作弊,則

P(B|A)=1

q=10-110-70之假設下,我們分別求出

P(B|A)=P(M君沒作弊|M君中頭獎)

這些機率,都比p-值大很多。且可看出,若M君作弊的機率q愈小,則在M君中頭獎下,並沒作弊的機率便愈大,亦即有作弊的機率將愈小。若qp(M君沒作弊下,會中頭獎的機率)相比不大,如q=10-710-8,則P(M君沒作弊|M君中頭獎)便不算小,此時豈有必要去懷疑M君作弊?所以只因

p-=P(M君中頭獎|M君沒作弊)

很小,就見獵心喜,一口咬定M君中頭獎是因作弊,則犯錯機率,便絕非以為的p-值那麼小。

你可能會好奇,如何得知q究竟多少呢?對事件的推論,可藉助先驗機率(prior probability,有時只簡單地稱為prior),這是貝氏學派(Bayesian)的想法。可由過去的經驗(如樂透彩曾發生的作弊次數),及M君的資料(職業、生活狀況,及過去行為的紀錄等)等,來推估先驗機率q。就算不了解M君,也可由樂透彩發行單位所掌握的作弊資訊,由全體q的估計值,做為M君個人的q之估計值。一般而言,不論全體或個人的q,都應極小。因現場隨機開獎,豈那麼容易作弊?對q的推估會不會很主觀?當然不無可能。但主觀機率本來就是幾種主要對機率的解釋之一。無論如何,就算不是很精準,如估計q介於10-710-5間,而得P(M君沒作弊|M君中頭獎)介於0.0071000.4169間,仍比對q毫無想法下,能得到更有效的推論。

最後,我們來看一著名的檢察官的謬誤”(prosecutor’s fallacy)。此為一過度依賴假設檢定,而犯下難以挽回的大錯之實例。

莎莉克拉克(Sally Clark1964-2007)是家中的獨生女,她父親是位資深警官,母親是位美容師,她與先生同為律師。家庭及事業,一切看起來都很美好。19969月,他們的老大誕生。不料這個健康的男嬰,卻在當年12月,11週大時在家中猝死。從悲傷中復原後,於199711月,莎莉又生了一個兒子。豈料8週後,19981月,不幸的事再度降臨,嬰兒在家中猝死。但不幸還沒結束,因兩次事故發生,都只有莎莉一人在家,她被以殺嬰的罪名起訴。檢察官並沒有莎莉行凶的直接證據,但他就是認為,接連兩個嬰兒猝死,乃極不尋常。為了說服陪審團,這絕非猝死,檢察官找來梅鐸(Sir Roy Meadow1933-)作證。梅鐸是位夙負盛名的小兒科醫生,且上法庭作證的經驗豐富。

梅鐸向陪審團說明,一家有兩個嬰兒接連猝死的機率,僅有7,300萬分之1那是多麼微乎其微。只是梅鐸誤解機率,他提供的數據,完全不可信,細節可參考黃文璋(2016)一文。但陪審團卻接受了梅鐸的證詞。1999年,莎莉被判無期徒刑,並於2000年入獄。直到20031月,經第二次上訴後,基於死嬰之新的病理報告出爐,最高法院才改判莎莉無罪。只是清白來的太遲,出獄後,莎莉一直處於精神不佳的狀態。20073月,她因酒精中毒,死於家中。

我們來重新檢視。如前,令

a=P(二嬰兒猝死|莎莉沒殺二嬰)

b=P(莎莉殺二嬰)

則仿上述樂透彩作弊之檢定一例的推導,即得

(3) P(莎莉沒殺二嬰|二嬰兒猝死)=a(1-b)/(a(1-b)+b)

此處依舊合理地假設P(二嬰兒猝死|莎莉殺二嬰)=1

梅鐸的機率值雖不可靠,但我們還是先來看,就算採用他所宣稱的機率,莎莉的嫌疑,是否真有那麼大?即取a=1/7,300萬。至於b,以莎莉的背景,取b=1/1百萬,都可能太大了。將此二ab代入(3)式,得

P(莎莉沒殺二嬰|二嬰兒猝死)=999,999/73,999,999≈0.01351

此機率可遠比梅鐸提供的a=1/7,300萬,著實大多了。更不要說若b=1/1千萬,或b=1/1億了。

在黃文璋(2016)一文中,我們提到,莎莉獲釋後,2004年,有研究指出,a應介於

1/338,0001/169,000間,

為梅鐸以為的a215倍以上。對此新的a,仍取b=1/1百萬,則得P(莎莉沒殺二嬰|二嬰兒猝死)介於

999,999/1,337,999999,999/1,168,999間。

即約介於

0.7473839660.855431869間。

這樣的機率與小到誇張的1/7,300萬相比,大小有如天壤之別。換句話說在二嬰兒猝死下,莎莉沒殺二嬰的機率,絕非梅鐸所說的那麼小。如此一來,陪審團的決定,可能將大不相同了。

執行假設檢定時,會產生出乎意外的誤差,並不僅限上述只從一個角度看的情況。我們再舉一情況。有位老師,要班上學生各自以投擲,來檢定一銅板出現正面的機率是否大於1/2,且給出p-值。以p表銅板出現正面的機率。顯然取

H0p=1/2Hap>1/2

K生與L生投擲後,皆得19個正面及1個反面,但兩人的p-值卻不一樣。這很奇怪嗎?

K生事先設訂投擲20次,所以出現的正面數有二項分佈B(20,p)。而比出現19個正面,至少同樣極端的事件,為出現1920個正面。又在H0之下,p=1/2。故K生之

p-=P(投擲20次,出現1920個正面|p=1/2)=(C(20,19)+C(20,20))/220=21/220

至於L生,他乃設定持續投擲,直至出現第1個反面,便立即停止。故出現的正面數有負二項分佈(negative binomial distribution) NB(1,p)。此時比出現19個正面,至少同樣極端的事件,為出現1920個正面。在H0之下,仍有p=1/2。故L生之

p-=P(在出現第1個要反面前,至少出現19個正面|p=1/2)=1/220+1/221+1/222+…=1/219

K生的p-值,為L生的p-值之10.5倍。

此例告訴我們,雖得到相同的正面數與反面數,還要知道是如何投擲的,才有完整的資訊。若只看到K生與L生所紀錄歷次投擲的結果,正、正、、正、反完全相同,都是連續19個正再1個反,便以為數據相同,p-值也必相同,則將可能大錯特錯。要知相同的數據,有些會導致拒絕H0,有些卻會導致接受H0。因此檢定前得先確定,這些數據究竟是怎麼來的。來源若有異,結論將有能完全相反,不可不慎。

欲對假設檢定進一步了解者,可參考黃文璋(2005)一文

參考文獻

1. 黃文璋(2005)。統計顯著性。數學傳播季刊,29(4)29-38

2. 黃文璋(2016)。談統計誤差假設檢定篇。黃家小館(http://www.stat.nuk.edu.tw/huangwj)

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (QQ55
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9019014 位訪客
*