國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:談統計素養(九)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2017/3/23 下午 07:17:52

9 相關性

戰國時代和氏之璧的故事,相信聽過的人不少。若想知道詳細內容,當然是上網google一下。在某網站對此故事的介紹裡,還列出相關事件:藺相如完璧歸趙。喔!這的確相關,也就順便看一下。有些購物網站,當你在查詢某物品時,會出現一句瀏覽此商品的人,也瀏覽…”,或買此商品的人,也買了…”,底下則列出若干物品,供你參考。而網站所建議的物品中,有些的確讓你產生興趣,覺得與你所查詢的相關。網路時代,讓相關資料的搜尋,更為便捷。生活裡,人們常會主動或被動,接觸到相關事件。如警方辦案,須從千頭萬緒中,找出與案情相關的線索。

數學素養研究計畫中,所訂出的四大數學知識素養領域裡,第一個是變化與關係,可見其重要性。變化為大家所熟知。四時行焉,百物生焉,變化不斷。除了物理變化,及化學變化外,還有友情、天氣、經濟等,幾乎什麼都可有變化。至於關係,也是很多事物間,都可拉上關係。有些是一看便知有關連。如父子關係,身高與體重的關係等。有些關連則不是那麼明顯,但被探索出來。如之前提過的,獅子、老虎、豹,及貓等動物,除了都是哺乳動物外,看似沒什麼特別的關係。但其實牠們在動物的分類裡,皆屬貓科,有共同的祖先,這就不見得普遍為人所知了。又如中學數學裡,方程式的根與係數之關係,及直角三角形三邊長之關係(即畢氏定理)等,都是被探索出來的性質。另外,對多變的事物,人們常企圖掌握其變化。像是對兩個量,若能知道其間的關係,將有助於了解,一量如何隨另一量而變。

有兩種關係很令人感興趣。其一為函數關係,其二為因果關係。函數不過就是一種對應關係。假設有二集合AB,分別稱為定義域及對應域,若每一A中的元素,都恰有一B中的元素與之對應,便稱此為一由AB的函數。函數關係處處可見,如在台灣,每一國民皆有一身分證字號。由國民對應到身分證字號,便產生一函數。兩個量若有函數關係,其關係便很強,給定定義域中一x,其對應的y便完全確定。至於因果關係,則是指在某假設(或說前提)下,會導致某結論必然成立。所以若不想要該結論發生,就要避免前提發生。例如,酒醉開車易肇事。肇事害人害己,必須避免,於是酒喝到一個標準後,就被禁止開車。有些因果關係較明顯,如任一偶數(前提)的平方,仍為偶數(結論);有些則須花些功夫去證明,如任給一三角形(前提),其垂心、外心及重心三點共線(結論,此線稱為歐拉線)

如果兒子的身高(y),是其父親身高(x)的一個函數,則父親有多高,兒子一旦出生,其成年後的身高,便定下來了。只是既然造出這個隨機世界,就不會讓事情這麼單調。由於遺傳,父子的身高的確有相當強的關係,但如果就是函數關係,便失去隨機性了。那隨機世界裡,有沒有因果關係?

2017319日,中時電子報有一則新聞的標題是研究:多養1個小孩多活1。有這種事?來看一下內容。這是由瑞典科學家領導的一項大型研究。對1911年至1925年間出生,共70萬名男性,及72.5萬名女性,分析其子女數目、教育程度、婚姻狀態,及死亡時間等。研究指出,男性60歲沒有子女者,能再存活約18.4年;至少有1子女者,則能再存活約20.2年,多活約1.8年。至於女性,60歲沒有子女者,能再存活約23.1年;至少有1子女者,能再存活約24.6年,多活約1.5年。原來只是比較有小孩跟沒小孩兩個族群,且是比60歲以後。並無標題顯示的多1個小孩(),會多活1()的意思。事實上,若有子女,則年紀大後,可能較有人照顧及陪伴,如此身心會較健康、生活品質會較佳,是有助長壽。但年輕時若小孩過多,難免較操勞,再加上經濟負擔較重,是否會有損健康,使有些人連60歲都活不到?總之,長壽或短命的原因很多,絕非由單一小孩多寡的因素所決定。況且,人之間的差異性很大,定出比較規則,如比平均壽命,或比長壽的比例,再經一嚴謹的假設檢定,是可判定兩個族群的壽命,能否分出長短。但不宜只針對二人比較。因同樣的因素,對不同的人,效果可能完全相反。換句話說,隨機世界裡,即使討論因果關係,與數學中必然成立的因果關係,意義也可能大不相同。

網站搜尋功能日益提升,可快速地找出較相關之事物,供決策者參考。譬如說,Google網站,由短期間內,擁入多人查詢有關流感的病情,及如何用藥等,推斷流感快爆發了。這種利用搜尋流感的資料,與流感流行有相關性來預測,有時比官方做的預測,更及時且經濟。只是兩因素間之相關性高,並不表其間有因果關係。在著名的尿布與啤酒事件裡,美國百貨連鎖店Wal-Mart,由檢視顧客的購物清單,發現在列有尿布或啤酒的帳單裡,二者同時出現的比例不小。但總不至於說,尿布的使用者,較可能愛喝啤酒。但數據分析,只能做到這裡,想了解原因,得另行調查。有些號稱是大數據專家者,認為在數據可大量且快速分析的時代,只須看重相關性,不必花功夫在探索難以捉摸的因果關係上。像尿布與啤酒,就放在一起賣,何須管為什麼?

查詢流感者,或許不見得染病,而有其他目的,如為了寫報告等,但應有很多是由於自己、家人或朋友染病了;尿布與啤酒同時出現在帳單裡,即使非同一人使用,總是同一家的人在用。對這類情況,若只在意相關性,大致無妨,但並非永遠都如此。曾有一則新聞的標題是“O型、射手座、已婚男 最易中彩券。愛買彩券的人不少,但向來求明牌似乎都不見效果。如今發現中獎與血型、星座、婚姻狀態,及性別相關,那是否幾項都符合的,該趕緊去買?因不是說看重相關性就好,不必在乎因果關係?事實上,單看血型一項,就可了解並非所有相關性都值得看重。台灣的居民裡,O型血佔最多,超過4成,因此中獎者以O型血最多,只是吻合而已。這就如若看到報導,新北市歷來開出最多頭獎,則購買彩券時,須特地跑去新北市嗎?大可不必。因新北市的人口,乃全台各縣市中最多的,理應有最多頭獎落在該市。縣市跟中獎相關性雖高,卻對中獎無影響。

相關性高,但其間沒有因果關係的例子處處可見,我們從黃文璋(2016)一文中,找出幾個來看。不少人擔心罹患阿茲海默症(Alzheimer’s disease),尤其是婦女,因有研究指出,病患中約有三分之二是女性。但這項研究其實是說,性別與罹患阿茲海默症的相關性很高,不能就解讀成女性較易罹病。要知阿茲海默症,較多發生在年紀較大時,而女性平均壽命比男性長,因此罹病者以女性居多,乃屬合理。不可忽視其中的干擾因素”(confounding factor)─壽命。另外,統計顯示磨牙的病患裡,學歷高的較多。只是若將磨牙與學歷的相關性很高,解讀成教育程度較高的人,比較容易磨牙,就不對了。事實上,學歷較高者,工作職務可能較高,壓力遂也可能較大,有些便以磨牙來舒緩壓力。所以,是壓力大造成易磨牙,高學歷是無辜的。另一可能性是,教育水準較高的人,可能也較了解健康之重要,當發現自己不對勁地磨牙時,懂得該去看醫生。壓力及知道照顧自己,都可能是干擾因素。還有一類常見的例子。當可樂銷量大時,醫院腸胃科的門診人數也較多。看到此相關性高的統計結果,並不必因此就認為喝可樂易傷腸胃。因可樂銷量大,往往是天氣炎熱時。天氣炎熱,使食物易腐敗,導致易吃壞肚子。氣溫為一干擾因素。

總之,在不少情況下,絕不可只看到相關性高,就以為有什麼大發現。因果關係並非都可不去追究,知道相關性就足矣。但這也不表相關性高這一資訊沒用。可由相關性高的因素出發,進一步探索其中是否有由因果關係。警方辦案,當然會從較相關的人、事、時、地、物開始查,這是合理的,具統計裡最大概似法”(method of maximum likelihood)的想法。但不能僅停留在相關性較高的因素,而棄因果關係於不顧,這樣就常會進入死胡同。

到此你可能好奇,什麼是相關?這其實並無嚴格的定義。同姓是相關,所謂五百年前是一家;同鄉、同事、同學、同行等都屬相關。二事物在網路上同時出現是相關,經常同時出現,會被認為相關性高。但當然也不一定。同學多年,所以名字常連在一起,看起來相關性很高。不過可能就僅止於這樣而已,彼此一點都不熟,毫不相干。

統計裡引進相關係數(correlation coefficient,有時只稱correlation),以量測兩變數間之線性相關性(linear correlation),包含強度及方向。相關係數取值介於-11間。若取正值,兩變數便稱正相關;若取負值,兩變數便稱負相關;而當相關係數為0,則稱兩變數無相關(uncorrelated,或稱no correlation),為一相當實用的度量器

線性關係是一很簡單的關係,加上前述符合度量需求的性質,因此不只在統計裡,在很多科學的領域,都廣被採用來量測兩變數的線性相依程度。由於是為英國統計學家皮爾生(Karl pearson1857-1936)所首創,且為有別於統計裡其他不同定義的相關係數,有時稱為皮爾生相關係數”(Pearson’s correlation coefficient,又稱Pearson’s r)

假設有兩個隨機變數XY,其共變異數(covariance) Cov(X,Y),與兩變數的標準差σXσY之商,便是相關係數。在此

Cov(X,Y)=E[(X-μX)(Y-μY)]=E(XY)-μX μY

其中μXμY,分別為XY之期望值。若以ρXY之相關係數,則便有

ρ = Cov(X,Y)/(σXσY ) = E[(X-μX)(Y-μY)]/(σXσY)= E[((X-μX)/σX)((Y-μY)/σY)]

由上式知,相關係數即兩隨機變數經標準化後,乘積之期望值。由於標準化後之隨機變數,期望值為0,標準差為1,所以相關係數,可視為兩隨機變數標準化後之共變異數。兩隨機變數XY的相關係數要存在,先決條件是,XY之期望值皆存在,及變異數都存在且都不為0。變異數會為0,就是常數了。如果要較嚴密地講,可說此時隨機變數為一常數的機率為1,但並沒太大必要。

可看出Cov(X,X)=Var(X)。即自己跟自己的共變異數,就是變異數。因此共變異數的概念,乃變異數之推廣。如果變異數,是用來度量一隨機變數偏離期望值的程度,則共變異數,便能度量二隨機變數同時偏離各自期望值的程度。若X>μX時,較可能使Y>μY,且若X<μX時,較可能使Y<μY,也就是說XY,有同時增大或同時減小之傾向,則(X-μX)(Y-μY)便較可能是正的,因而它的期望值Cov(X,Y)也就較可能為正。反之,若較大的X,有伴隨較小的Y之傾向,且較小的X,有伴隨較大的Y之傾向,則(X-μX)(Y-μY)便較可能是負的,因而它的期望值Cov(X,Y)將較可能為負。也就是Cov(X,Y)之正負,能反映XY之增長方向,究竟傾向相同或相反。由於標準差為正值,所以相關係數與共變異數符號相同,且二者同時為0,或同時不為0。因此相關係數為正或為負,分別顯示XY之增大與減小的傾向,相同或相反。

我們說過,對二隨機變數XY共變異數是用來度量它們同時偏離各自期望值的程度。但與變異數類似,其值與所採用的尺度有關。例如,對於父與子身高的共變異數,身高單位採用公分,與採用公尺,前者之共變異數為後者之1(=1002)倍。不過一旦除以兩標準差後,得到的相關係數,便無此困擾了。相關係數ρ,永遠取值在區間[-1,1]。當ρ很接近0,表XY的線性關係較弱;而當ρ很接近1,或很接近-1,表XY有較強的線性關係。事實上,當ρ=1,或-1XY便有完美的線性關係,或者說XY為完全相關(completely correlated)。即對二隨機變數XY,若ρ=1,則存在常數ab,其中a>0,使得Y=aX+b;若ρ=-1,則存在常數ab,其中a<0,使得Y=aX+b

另外,當XY獨立時,Cov(X,Y)=0,因而ρ(X,Y)=0。但其逆不真。也就是說,共變異數(或相關係數)0,此時稱兩隨機變數為無相關(uncorrelated),並不導致二變數必獨立。甚至,二隨機變數即使無相關,也不表二者沒有關係。例如,自區間[-1,1]隨機地取一個點,以X表之,再令Y=X2YX的平方,二者顯然關係無比密切,知道X後,Y便完全決定了。但底下來看XY卻為無相關。因X為一對稱的隨機變數,故E(X)=0,且E(XY)=E(X3)=0,因而Cov(X,Y)=0,即得XY為無相關。這種例子很多,如黃文璋(2007)一文之例4亦為一例。仍要強調,相關係數雖說是量測二隨機變數之關連程度(degree of association),但主要是反映二隨機變數間,線性關係之強度及正負,而非反映任何其他關係。

對於數據,亦可定義其相關係數。設有(x1,y1)(x2,y2)(xn,yn),且分別以̄x̄y表其平均值,則數據x’s,與y’s之相關係數,一般表示成r,定義為

r =Σni=1(xi-̄x) (yi-̄y)/[(Σni=1(xi-̄x)2 )1/2(Σni=1(yi-̄y)2 )1/2]

例如,設有數據(1,5)(3,9)(4,7)(5,1)(7,13),則̄x=4̄y=7,且

(1-4)2+(3-4)2+(4-4)2+(5-4)2+(7-4)2=20

(5-7)2+(9-7)2+(7-7)2+(1-7)2+(13-7)2=80

(1-4)(5-7)+(3-4)(9-7)+(4-4)(7-9)+(5-4)(1-7)+(7-4)(13-7)=16

故得

r = 16/(2080)1/2=0.4

曾有報導,同卵雙胞胎,若性別相同,則身高的相關係數很高,達到0.95,這乃可以預期。至於大學成績與將來收入多寡的相關係數,就不見得太高了,說不定還負的。至於婦女的教育程度與小孩數,也有可能是負相關。

參考文獻

1. 黃文璋(2007)。統計裡的關係。數學傳播季刊,31(1)49-67

2. 黃文璋(2016)。談統計誤差假設檢定篇。黃家小館(http://www.stat.nuk.edu.tw/huangwj)

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (1QKK
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9061494 位訪客
*