國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:統計下凡(二十二)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2021/11/7 上午 10:06:33

22 統計相關

某作家新近出了本書,這本書值得看嗎?現今一般人常不假思索,便進入搜尋引擎Google查查。立刻出現很多相關的資料。看起來評價相當不錯,決定要買後,進入某網路書店找到該書,結果出現一句“瀏覽此書的人,也瀏覽…”。所列出的書,有些你毫無興趣,但也有幾本引起你的注意。網路時代,人們若對某事物或事件有興趣,常會主動或被動,接觸相關的事物或事件。

相關就是有關係,有各式各樣的關係。數學裡的命題“若AB”,便是一種因果關係。只要某條件(或者說前題)A成立,便導致結果B必然成立,這是一很強的關係。數學裡的定理,通常便是顯示某重要的因果關係成立。因果關係外,有些關係就不見得那麼強烈。事實上,只要夠努力去追究,總會找出兩物或量之間,有某種程度的關係,當然有可能很微弱。正如有些人對於食品、農藥及汙染等,無法容忍其中有某特定成分存在,要求該成分須“零檢出”。但也有專家指出,凡儀器不夠好,無法驗出的,便是“零檢出”。此隱含只要儀器夠精密,很多成分即使微乎其微,也能驗出。統計裡兩量間有所謂“相關”(correlation),又稱為相關性,並以相關係數(correlation coefficient,有時只稱correlation)來計量兩變數共同變化的程度。兩量相關並不表有因果關係。另外,有相關便也有“無相關”(uncorrelated,或稱no correlation),但無相關也不表兩量間,一定沒有關係,關係要找總是有的。

2021629日聯合報有則報導,標題是“NBA/喬治好表現重新證明自己 卡森斯:給他該有的稱讚”。這是對西區快艇隊,在一場季後賽獲勝後的評論。快艇隊的球員莫里斯(Marcus Morris Sr.1989-),在該場比賽中,169中攻下22分,命中率有56.25%,算是不錯。記者誇獎他,“本季季後賽,當莫里斯命中率高於5成時,快艇80敗。”數據如此,那可否說“若莫里斯命中率高於5成時,則快艇隊必勝。”假設此因果關係成立,快艇隊當然得善用,因已進入季後賽,每一場勝利都很關鍵。可惜此因果關係很可能不成立。在職業球賽裡,這類應被歸於“有趣事件”的還不少。如“xxx隊本球季在主場出賽,若xxxxxx合得至少60分,則xxx隊至今尚未敗過”。30支球隊,又那麼多場比賽,仔細觀察,總會發現一些有趣的現象。其中大部分,就只是某段期間有的現象,若繼續觀察,通常遲早該現象便中斷了,顯示並未存在一因果關係。但“莫里斯命中率高於5成”,與“快艇隊獲勝”卻的確可能相關。畢竟一球員有特別好的表現,是可能帶動士氣,增加球隊獲勝之機率。“有趣事件”的存在,仰賴的常是觀察入微。

在“愛麗絲鏡中奇遇”(Through the Looking-Glass1871,路易斯卡羅(Lewis Carroll(1832-1898)著,中譯本很多)的第五章:

Alice laughed. ‘There’s no use trying’, she said. ‘One can’t believe impossible things.’

‘I daresay you haven’t had much practice,’ said the (White) Queen. ‘When I was your age, I always did it for half-an-hour a day. Why, sometimes I’ve believed as many as six impossible things before breakfast.’

早餐前能發現6件不可能的事件?令人嘆為觀止。人們常說資料探勘,如果能像白王后一般,很細心敏銳地觀察,自然可找出很多有趣的關係、現象,或屬於“不可能”的事件。只是所發現的關係或現象等,當然要加以確認,方能斷言此關係是穩定存在,或僅是偶發性的。

前面指出,相關不表就有因果關係。例如,有人注意到,當可樂消售量增大時,不少醫院腸胃科的門診人數,亦顯著增加。經統計分析後,也果真得到,可樂消售量與腸胃科之門診人數,二量相關性很高。那是喝可樂對腸胃不好嗎?不能驟下結論。比較可能的原因是,可樂銷量大,往往是天氣炎熱時。天氣炎熱,使食物易腐敗,導致較會吃壞肚子。氣溫便是所謂“干擾因子”(confounding factor)。當兩量相關性高時,須謹慎搜尋是否有干擾因子。另外,阿茲海默症(Alzheimer’s disease),乃一很令人擔心罹患的疾病,尤其是婦女。男性不必擔心嗎?事實上,是有研究指出,病患中約有2/3為女性。但這項研究的推論,應是“性別與罹患阿茲海默症的相關性很高”,不能輕率解讀成女性較易罹病。要知阿茲海默症,通常發生在年紀較大時,而女性平均壽命比男性長,因此罹病者以女性居多,這是合理的。在此壽命,便是一干擾因子。有些相關並非假消息,只不過是無用的訊息。例如,曾有報導,“O型、射手座、已婚男 最易中彩券”。前述3項條件都符合的,是否該趕緊去買彩券?可能不需要。單看血型一項,就知此項相關性沒啥用途,因台灣的居民裡,O型血佔最多,超過4成,因此中獎者以O型血最多,只是合理而已。至於中獎者中,12個星座各自佔的比例,很可能差異並不太大,但總有個星座比例最高,如今“剛好”是射手座而已。至於中獎者中,已婚男最多也沒什麼,很可能就是購買彩券者中,以已婚的男性佔最多。

“英國醫學雜誌”(British Medical Journal,縮寫BMJ),曾刊登一篇瑞典烏普薩拉大學(Uppsala University)的麥可森(Karl Michaelsson)教授,所領導完成的研究報告。此研究於19871990年間,針對61,400位婦女,記錄她們的飲食習慣,之後進行長達20年的追蹤觀察。該篇論文中指出,婦女若一天飲用3(約共680cc)以上的牛奶,則死亡率比每天喝不到1杯的人高出1倍,且其中骨折的比率亦較高。人們一直以來,都以為喝牛奶是有益健康的,如今女性是否不該多喝牛奶了?別急,這仍要進一步研究才能下定論。因有些專家並不認同麥可森之觀測結果,他們認為很可能是婦女若有骨質疏鬆,常會被鼓勵多喝牛奶。但牛奶畢竟不是仙丹玉露,喝再多也免不了一死。結果死後卻把原因歸咎於牛奶,因果關係完全顛倒。是“骨質疏鬆”的人易骨折,因而易死亡。導致多喝牛奶與骨折及死亡率增加的關連性很強。至於牛奶喝多,是否會導致骨折增加?是否導致死亡率增加?這才是一般人較關心的議題,卻非前述研究之結論。

身為研究人員,就得從事研究,並將成果發表。但成果都有用嗎?並不盡然。像前述那些花大功夫去研究,但成果的價值不太高之情況很多。再給一例。曾有人研究台灣自19992008年,185665歲以上獨居老人的生活習性。發現經常逛街者,較不常逛街者,存活率高出27%。此成果令人關切,難道“購物療法”對健康有益?如果真是這樣,獨居老人是否該多逛街以延年益壽?即使一身是病,是否該強忍病痛出門?實情說不定是對獨居的老人,身體狀況較佳者,才較方便自行逛街。而身體較好的人,存活率本來就較高。因果關係倒過來了。事實上,亦有人指出,獨居者只要樂於外出與人打交道,減少孤寂感,就有助健康了,逛街不過是這種方式之一。所以即使找到二量之相關性高,在運用前,也宜探討相關性產生之原因。

再看一例。曾有一則美國麻省理工學院(Massachusetts Institute of Technology)所做的研究之報導:單親媽媽撫養長大的男孩比較難有成就,日後也較容易離婚,製造下一代的單親家庭。離婚媽媽若有兒子,看了此報導後得趕快再婚嗎?以免當年所做的抉擇,將禍及愛兒。而望子成龍的媽媽,是否不論如何遇人不淑,都該吞忍下來,萬不可離婚?這可不見得。要知孩子的成就,乃與遺傳及成長環境關係密切,前述兩種作法,很可能都不見得有用,且還可能讓孩子將來的發展更差。因果關係易誤用的情況著實不少。如若去分析死亡的獨居老人之生活習性,很可能發現不抽菸的比例很高。那能得到不抽菸者,於上了年紀後,將易自己一人過活的結論嗎?一般而言,即使多年的菸槍,一旦上了年紀,基於“貪生怕死”的原因,戒菸的比例不低,與是否獨居關係並不大。

但有時相關性是可善用的。曾有美國某大型連鎖超市,經由探勘顧客的購物清單,發現星期五晚上,啤酒與嬰兒尿布同時出現在購物清單的比例很高。難道是使用尿布者,較愛喝啤酒嗎?顯然不是。真正的原因很可能是,若家中有嬰兒,當爸爸的周末便常得留家幫忙照料,為打發時間,會看球賽轉播之類的節目。於是買尿布時,順便買些啤酒,以便看電視時享用。或者反過來,去買啤酒時順便買尿布,才不會在家球賽看一半,被太太差遣去買尿布。了解此原委後,超市可設計較佳的貨品動線,以同時增加啤酒及尿布的銷售量。經由統計分析,找出那些變數間相關性較高,並善加利用。警方辦案也常如此,從大量的數據中,找到種種線索。但切記相關性較高的兩變數間,其間並不必然便有因果關係?須更進一步探討方能得知真相。

有時二變數的相關性並非太明顯。生物相互間有一“密度制約”(density dependence)的族群效應。給一例子來看,這取自“半個地球:探尋生物多樣性及其保存之道”(Half-Earth: Our Planet’s Fight for Life2016,愛德華威爾森著(Edward O. Wilson1929-),金恒鑣與王益真譯(2017))一書。一般人想到狼幾乎都是不好的,從小時候聽到的童話:小紅帽、三隻小豬,及狼和七隻小山羊等,到上學後學到的有關狼的成語:聲名狼藉、引狼入室、狼狽為奸,及豺狼當道等,相信對狼的描述,極少是正面的。牧羊者更痛恨狼,欲除之而後快。美國的黃石國家公園(Yellowstone National Park),也曾儘量除狼。大功告成後,1995年,卻從加拿大東部引進一群狼。為什麼?原來狼不是書生,並非百無一用。對協助樹木生長,狼能扮演很正面的角色。在狼銷聲匿跡後,赤鹿(elk)等草食動物,便過著幸福快樂的日子,不受抑制地大幅成長。可憐白楊樹(Balsam poplar)苗,便被啃得光禿禿的。一隻狼在一星期內,可吃掉一整隻赤鹿(elk),而一隻赤鹿在一星期內,可啃掉一大片白楊樹苗。公園裡每星期少一隻赤鹿沒什麼,但每星期少一大片白楊樹可就觸目驚心了。當公園內有狼群時,赤鹿能啃掉的白楊樹苗就會減少,白楊樹苗也就欣欣向榮。一旦移除狼群,赤鹿便多起來了,白楊樹苗的成長也就快速下降。明白此關係後,黃石國家公園便維持適當的狼群。

類似上述狼、鹿、白楊樹關係的例子很多。印度的孫德爾本斯國家公園(Sundarbans National Park),有世界最大的紅樹林。公園內老虎的角色,便如同黃石國家公園裡的狼,會捕食並減少花鹿、野豬及獼猴等族群,間接保護了紅樹林。亦即紅樹林裡有了老虎,並不必過於厭惡,因會增加不少動植物之數量,有助維護公園的生物多樣性(Biodiversity)。另外,在“狼圖騰”(姜戎著,2004)一書中,描述大陸的內蒙草原,狼群經人類持續捕殺後,數量大減。在生態缺乏高等獵食者下,獺子(旱獺內蒙亞種)及地鼠等便大量繁殖。草原被這些低等齧齒類動物啃光後,嚴重沙漠化,大部分已不適合放牧了。

網站搜尋功能日益提升的今日,可快速找出較相關之事物,以供決策者參考。如由Google網站,在短期間內,擁入多人查詢有關流感的病情,及如何用藥等,便能推斷流感可能快爆發了。這種利用搜尋流感的資料,與流感流行有相關性來預測,有時比官方的預測流感,更及時且經濟。只是兩因素間之相關性高,並不表其間有因果關係,這點我們已一再強調了。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (0P5A
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9002581 位訪客
*