國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:談統計誤差(三)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2016/7/2 下午 06:56:09

3. 統計邏輯

誤差大小如何掌握?隨機世界中不乏資料,而只要有資料,統計便能發揮功能,進而掌握誤差大小。統計分析對資料的仰賴,有如製磚需要黏土。那統計又是什麼

統計其實有很多面相,但有人說統計與考古的原理類似。首先,都在挖掘,或者說在探勘。考古是挖掘古物,統計則是挖掘資料。只是天地這麼大,往那裡開挖,才能挖出有價值的古物?要先研讀文獻,找出古物較可能之落腳處。同樣地,資料浩如煙海,欲有效率地收集到有用的資料,也是得先好好規劃。另外,考古所得,有物無文,是人來講故事,說幾千年前如何如何,把已過了很久遠的事,帶到眼前。再度,挖掘到的資料,是冰冷的,並沒有說話,是人在替它們說話,讓它們活躍起來,告訴我們一些有意義的資訊。至於說什麼話呢?

要知統計的目的,並不在探索真相,因真相可能永遠未明,真相不妨就留給上帝。統計主要的目的,乃是在做決策即告訴人們怎樣做最好,其依據便是所收集到的資料。而所謂最好,得先訂定評比的準則,否則沒有永遠的最佳策略。舉例而言,一隻靜止不動的錶,與一隻慢1分鐘的錶,何者較準?大部分的人會以為是後者,因任何時刻都只差1分鐘,前者則常差很多。但也有人以為前者較準,因每天有個時刻完全準確,後者則無一時刻是準的。所以,欲評比策略優劣,得先確定究竟如何評比。只是在運用統計前,須具備一些基本的邏輯,否則學再多方法,及得到什麼結果都沒用,因很可能會誤用統計,反而比不懂統計還糟。底下來看至少有那些邏輯,是該先弄清楚的。

首先來看因果關係。大家受數學的薰陶較久,對數學中pq的因果關係較清楚,不過我們仍扼要說明一下假設條件p成立,必導致結果q成立,則p稱為命題pq的充分條件,q則稱為必要條件。充分條件就是因,必要條件就是果,有因便會有果。例如,若x>3,則x2>9。有x>3這個因,將得到x2>9這個果。反過來就不一定對了,由x2>9並無法導致x>3必成立,因也有可能x<-3。數學裡經常在證明,往往就是在確定某因果關係為真。只是在現實世界中,是否有因果關係,常很難判定。底下給幾個例子。

一項調查顯示(見徐仕美譯(2016)227),北美洲的阿茲海默症(Alzheimer's disease)病人,有三分之二是女性。聽起來很驚人,但這是否表示女性該擔憂了,因她們比男性更容易得阿茲海默症?那可不必然,看這類報導常要很謹慎,不能率爾就自行建立一因果關係。要知女性平均壽命比男性長,而通常阿茲海默症,發生在人的年紀較大時,即老年是阿茲海默症的最大風險因子。因此在最容易罹病的年齡群(其中女性佔多數)中,罹病者以女性居多,乃屬合理。那些70歲,沒罹患阿茲海默症,但死於心臟病的男性,如果能繼續活下去,說不定便罹病了。事實上,2014年,美國阿茲海默症協會(Alzheimer's Association)指出,目前尚無證據顯示,任一年齡層中的女性,比男性更可能失智。所以,雖罹病者中,女性佔三分之二,男性佔三分之一,看起來比例懸殊,卻不能就此驟下結論,說女性較易罹病,因其中有一不可忽視的干擾因素”(confounding factor)─壽命。性別與罹患阿茲海默症相關性很高,數據提供的資訊只到這裡。但若將其解讀成女性較易罹病,這便是人說的,而非數據說的。除非有其他更可靠的證據,否則不能這樣說。

再看一例。201667日,聯合報有一則標題是高教育程度的人 比較容易磨牙?之報導

高教育程度的人比較容易磨牙嗎?奇美醫院口腔顎面外科醫師林哲毅表示,根據國外的調查確實是這樣的,但原因並不是很清楚,可能與壓力有關係,但也可能是高教育者,磨牙後就醫的比例會比較高。

磨牙症是指易咬緊牙齒或磨牙,患者會不自覺地在白天咬緊牙齒,或在夜間睡眠時磨動牙齒。雖數據顯示,磨牙就醫的病患中,高教育程度者,所佔比率較高。但這不表教育程度較高的人,有較易磨牙的傾向,此因果關係不見得成立。真實的情況說不定是,高教育程度者,因工作職務也可能較高,壓力遂可能較大,因而不自覺地以磨牙舒緩壓力。所以,是壓力大造成易磨牙,而與教育程度的高低關係不大。另一可能性是,那些受過較多教育的人,比較懂得照顧自己,了解健康之重要,當發現不對勁的磨牙,較會去看醫生。因此,若想知道磨牙的真實原因,得進一步探討才行。

這種相關性高,但其間沒有因果關係的例子處處可見。例如,依據統計,當可樂銷量大時,醫院腸胃科的門診人數也較多。難道喝可樂對腸胃有傷?事實上,可樂銷量大,往往是天氣炎熱時;當天氣炎熱,又使食物易腐敗,導致易吃壞肚子。氣溫為一干擾因素。

我們再提那一著名的尿布與啤酒事件。美國百貨連鎖店Wal-Mart檢視顧客的購物清單,所謂購物籃分析(market basket analysis),發現在有尿布或啤酒的帳單裡,二者同時出現的比例很高。但二者的使用對象完全不同,究竟是怎麼回事?原來在家中有嬰兒的時期,先生大抵會較顧家,週末便儘量待在家中協助照料,少往外面跑。居家男人,不少就以看電視打發時間,這時喝喝啤酒輕鬆一下,乃一樂也。因而當先生受妻子之託,採買尿布時,常也順便拿些啤酒。弄清楚原委後,Wal-Mart遂將看起來毫不相干的尿布與啤酒放在鄰近,結果二者的銷售量同時增加。

大家常講大數據,藉助統計,一般而言,只能判定二因子間的相關性高或低,或者說,能找出相關性較高的因子,以供進一步探究。只是統計畢竟不是萬能,通常不易判定二因子間,是否有因果關係。因果關係之確定,得經由其他途徑。千萬不可由兩個變數的相關性很高,就跳到其間有因果關係的推論。

隨機性也是一不容易理解的概念。相對頻率,為一種常用的對機率之解釋,因而頻率也屢被用來詮釋機率。由於不夠嚴謹,遂讓有些初學者,對機率產生誤解。假設有一公正銅板,即出現正面的機率為1/21/2的倒數是2,有些人便想成(投擲)兩次出現一次正面,隨機性不見了。即使學過一些機率的人,也可能會有這樣的誤解。持續投擲前述銅板,令X表出現第一個正面所需之投擲數X之期望值E(X)=2。口語常便說成平均每(投擲)兩次出現一次正面這是正確的。只是既然是口語,有人便覺可講得簡單些,遂說成(投擲)兩次出現一次正面即省掉平均二字,這就不對了。至於對機率較有概念的人,有些也會以為,就算不是每(投擲)兩次出現一次正面,只要投擲數(偶數)多些便應很可能有半數是正面。這並不正確。實際去計算投擲2次,出現11反的機率為1/2;投擲10次,出現55反的機率為252/1,024,約為0.246,不到1/4;投擲100次,出現5050反的機率又更小了,約為0.08。事實上,投擲數(偶數)愈多,愈不容易出現正反面數各半。

這種出現次數偏離預期,當可能的結果愈多,將會愈明顯。以426的樂透彩為例。每週開2期,1年大致開104期,3年就以開312期計。每期開16個頭獎號碼,3年共開出6×312=1,872個號碼。則142,每號碼出現次數的期望值為1,872/42,約為44.57。但觀測結果,各號碼出現的頻率,常會差異很大最多與最少的,差異高達30次都不稀奇,反而較少見到每號碼均出現44次左右。這本是正常的現象,卻常有人因而質疑各號碼並非隨機產生。隨機下的不均勻是正常的。教室講台上有個籤筒,老師上課以抽籤的方式,點學生回答問題。每取出一隻籤後放回。若一學期下來,每位學生被問的次數均相同,學生可不要就誤以為老師果真是隨機抽籤,而是該懷疑,籤根本非隨機抽取。

條件機率亦常令人感到迷惑,我們以測謊為例。測謊機的準確度有多高?有人說七成,也有人說九成。有人迷信測謊,以為人很難能騙過測謊機,有人則認為測謊機並沒那麼可靠,在審判中絕不能拿來當證據。準確度不妨就以九成計好了。假設某公司發現有某項業務機密外洩,因無人承認,負責安全的主管,遂提議以測謊來找出洩密者。這樣做妥當嗎?

假設經手該項業務的人員共有100人,其中有1人洩密因不準的機率為0.1經測謊後,99位無辜者中,平均有9.9位會顯示洩密;唯一那位洩密者,有0.9的機率會被測出,有0.1的機率未被測出,即平均有0.9位會顯示洩密所以測畢後,平均共有10.8(=9.9+0.9)位顯示洩密。但其中其實僅有1位洩密,即測謊後每位可疑者,只有1/10.8的機率洩密,此值才約0.09259,不到0.1的機率。此與一開始信誓旦旦的宣稱,測謊之準確度高達九成,有很大差異。更不要說有時真正犯罪者,較有經驗,能打敗測謊機;且有些無辜者,較容易緊張,反而通不過測謊機,那誤差就更大了測謊的效果,絕不可高估。最後,如果洩密者根本不在那100人中,洩密乃經由其他管道,則測謊後,將產生10位無辜的可疑者。要屈打成招嗎難以收場了。

由機率0.9降至0.09259,便涉及條件機率。機率0.9的意義是P(顯示洩密|實際洩密)=0.9,且P(顯示未洩密|實際未洩密)=0.9。但我們有興趣的,其實是P(實際洩密|顯示洩密)=?而這與P(顯示洩密|實際洩密),其差異常不可以道里計。機率值會變,是機率的特性。給定某條件後,機率值將可能會改變。即對二事件ABP(A|B)不一定等於P(A)。這與數學中強調不變性,如3一直就是32一直就是2,乃完全不同。而P(A|B)P(B|A)此二條件機率,其值也可能差異很大。統計裡,每有一資訊產生,也就是條件改變了,則機率值往往隨之而變,這是不可不知的。

參考文獻

1. 徐仕美譯(2016)。記憶的盡頭(The End of Memory: A Natural History of Aging and Alzheimer’s)

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (HM4C
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9039662 位訪客
*