有沒有關係?人們常會提到“關係”一詞。生活裡充滿著各種關係,如親子關係、婆媳關係、勞資關係,及國際關係等,這些關係都令人忽視不得。數學中的關係也不少,如相似關係、邊與角的關係、根與係數的關係,及直線和圓的位置關係等。大約從國中起,數學課程裡,便常學到各式各樣的關係。對隨機現象,當有兩個變數時,常需了解二者間之關係。獨立也是一種關係,即兩個變數所取的值,彼此不受影響。當兩變數獨立,它們間的關係便完全確定了。具備獨立性,在執行統計推論時,常方便不少。舉個例子來看。欲估計一銅板出現正面的機率p,不須長考,立刻會想到的,便是投擲若干次,然後用所得正面數的相對頻率,以估計p。此時很自然地,便會假設各次投擲結果為相互獨立。若投擲n次,出現k個正面,但被告知各次投擲間,不見得獨立,則可能便瞠目結舌,不知該如何是好。你可能好奇,獨立性在那裡用到?舉個極端的例子來看。假設銅板有“記憶”,看第一次出現那一面,之後每次投擲,都跟第一次出現的相同。或者另一情境,有位執行實驗者偷懶,只投第1次,自第2次起,全抄第1次的結果。則自第2次起,每次是否出現正面,全依第1次的投擲結果而定,所以各次得到正面的機率,跟第1次相同,皆仍是p。如此k不是0便是n,於是不論p之實際值為何,其估計值必為0或1。一旦去掉獨立性的假設,便可能得到這種很荒謬的估計。在執行統計推論前,總要先取樣,很多方法都是基於各樣本為獨立。
常聽到“龍生龍,鳳生鳳,老鼠生兒會打洞”,由於遺傳,兒子身高與父親身高之間應有關係,少有人覺得可假設父子身高為獨立。又不論經由推薦甄選,或申請入學,很多大學校系會採計學測的英文成績。既然重視英文,那英文成績,與入學後的學業成績,總該有些關係吧!若有,關係為何?至於數學學測成績,與入學後的學業成績之關係呢?有時兩變數間,直觀上不像會獨立,覺得該會有些關係,但如何度量兩變數間之關係?對單一變數,若知道平均值(期望值)及變異數,則對此變數的集中及散佈情況,便能略有概念。二變數呢?如何以某些關鍵值,來表示兩者間之關係?
前面提到遺傳,眾所皆知,子女的各種特徵,多少會受到父母之影響。但遺傳的影響,究竟有多大?十九世紀時,不少英國統計學家,被此問題所吸引,很想弄清楚。他們陸續收集了大量有關家族成員之數據。高爾頓,這位達爾文(Charles Robert Darwin,1809-1882)的表弟,與表哥同樣興趣廣泛,他跟學生皮爾生,兩人便曾聯手探討子女跟其父母的相似程度。皮爾生將所獲得的1,078對父子的身高,標示在x-y座標平面上,以x軸代表父親身高,y軸代表兒子身高。由於尚有母親等因素的影響,可想見父親身高相同者,兒子身高並不一定相同。即同一x值,圖形上可能會有好幾個不同的點。1,078個點,散佈在直線x=y附近。那些點,有點像是順著x=y直線往右上方爬升。在比較靠近直線處,點較密集;若偏離x=y直線,則點較稀疏。雖高父偶有矮子,矮父也偶有高子。但大致看起來,較大的x值,對應較大的y值,且較小的x值,對應較小的y值。用統計術語來說,父子身高間,有正關聯(positive association)。即隨著x之變大,y亦有變大的傾向。印證人們一直以來的印象:父親高,兒子也較可能高;父親矮,兒子便高不到那裡去。但同一x值,所對應的y值,仍可能有不小的變異。換句話說,雖父子身高間,似乎有正關聯,但關係不見得很強。這也是我們平常的印象,由於每人成長過程之不同,因此對170公分高的父親,有180或165公分的兒子,甚至看到兄弟身高、體重,或智商,相差很多,都不會太驚訝,覺得就是有可能。著名的神魔小說“封神演義”,一般看法完成於明朝,但作者到底是那一位,至今仍沒有定論,說法不一。在此書的第三十二回裡,有句“一母之子,有賢愚之分;一樹之果,有酸甜之別。”可見人們很早便理解,遣傳的影響並非那麼絕對。
如何度量兩變數間的關係?脫胎自老師高爾頓之一類似的概念,皮爾生引進相關係數(correlation coefficient,有時只稱correlation),以量測兩變數間之關係。或者更明確地說,量測兩變數間之線性相關性(linear correlation)。關係有很多種,相關係數乃呈現兩變數線性關係的強度及“方向”。相關係數取值介於-1至1間。若取正值,兩變數便稱正相關;若取負值,兩變數便稱負相關;而當相關係數為0,則稱兩變數無相關(uncorrelated,或稱no correlation),可說是一相當實用的“度量器”。如同函數裡的線性函數,線性關係是一很簡單的關係。加上前述符合度量需求的性質,因此自皮爾生提出後,不只在統計裡,即使在很多科學的領域,都廣被採用來量測兩變數的線性相依程度。由於是皮爾生所首創,且為有別於統計裡其他不同定義的相關係數,此處介紹的相關係數,又稱為“皮爾生相關係數”(Pearson’s correlation coefficient,又稱Pearson’s r)。不過底下我們凡提到相關係數,都是指皮爾生相關係數。
假設有兩個隨機變數X,Y,其共變異數(covariance) Cov(X,Y),與兩變數的標準差σX,σY之商,便是相關係數。在此
Cov(X,Y) = E[ (X-μX)(Y-μY) ] = E(XY) - μX μY,
其中μX及μY,分別為X,Y之期望值。若以希臘字母ρ表X與Y之相關係數,則便有
ρ=Cov(X,Y)/σXσY=E[(X-μX)(Y-μY)]/σXσY=E[((X-μX)/σX).((Y-μY)/σY)]。
由上式知,相關係數即兩隨機變數經標準化後,乘積之期望值。由於標準化後之隨機變數,期望值為0,標準差為1,所以相關係數,可視為兩隨機變數標準化後之共變異數。又若有幾個不同的隨機變數,為了區隔起見,可以ρ(X,Y),或ρX,Y,表X與Y之相關係數。兩隨機變數X,Y的相關係數要能存在,先決條件是X與Y之期望值皆要存在,及兩變異數都要存在且都不能為0。什麼情況下,變異數會等於0呢?表隨機變數為一常數,或者講精準一點,隨機變數為一常數的機率為1。反之,既然取常數值,這種隨機變數便沒有變異,故其變異數為0。直觀上這都是對的。甚至,常數隨機變數,與任一隨機變數之共變異數亦為0。這不難看出:當X為常數,則μX=X,故X-μX=0。由於變異數為0,故對常數隨機變數,我們不定義它與其他隨機變數之相關係數。
可看出Cov(X,X)=Var(X)。即自己跟自己的共變異數,就是變異數。因此共變異數的概念,乃變異數之推廣。如果變異數,是用來度量一隨機變數偏離期望值的程度,則共變異數,便能度量二隨機變數同時偏離各自期望值的程度。若X>μX時,較可能使Y>μY,且若X<μX時,較可能使Y<μY,也就是說X與Y,有同時增大或同時減小之傾向,則(X-μX)(Y-μY)便較可能是正的,因而它的期望值Cov(X,Y)也就較可能為正。我們只說“較可能”,因畢竟仍得精算一下才知正負。反之,若較大的X,有伴隨較小的Y之傾向,且較小的X,有伴隨較大的Y之傾向,則(X-μX)(Y-μY)便較可能是負的,因而它的期望值Cov(X,Y)將較可能為負。也就是Cov(X,Y)之正負,能反映X與Y之增長方向,究竟傾向相同或相反。由於標準差乃取正值,所以相關係數與共變異數符號相同,且二者同時為0,或同時不為0。因此相關係數是否為正,便也顯示X與Y之增大與減小傾向,是否相同。若X,Y,Z,分別表數學、自然,及國文的成績,我們大概會預期ρ(X,Y)>0,但就不太確定ρ(X,Z)之正負了。
我們說過,共變異數是用來度量二隨機變數X與Y,同時偏離各自期望值的程度。但與變異數類似,它有一缺點,即其值與所採用的尺度有關。例如,對於父與子身高的共變異數,身高單位採用公分,與採用公尺,前者之共變異數為後者之1萬(=1002)倍。不過一旦除以兩標準差後,所得之相關係數,這種困擾立即消除。相關係數ρ,永遠取值在區間[-1,1],當ρ很接近0,表X與Y的線性關係較弱;而當ρ很接近1或很接近-1,表X與Y有較強的線性關係。事實上,當ρ=1,或-1,X與Y便有完美的線性關係,或者說X與Y為完全相關(completely correlated)。即對二隨機變數X與Y,若ρ=1,則存在常數a,b,其中a>0,使得P(Y=aX+b)=1;若ρ=-1,則存在常數a,b,其中a<0,使得P(Y=aX+b)=1。上述這些性質之證明,均可見黃文璋(2010)一書之2.9節。
另外,當X與Y獨立時,Cov(X,Y)=0,因而ρ(X,Y)=0。但其逆不真。也就是說,共變異數(或相關係數)為0,即兩隨機變數為無相關,並不導致二變數獨立。而且,二隨機變數即使無相關,也不表二者沒有關係。很容易可找到關係絕對密切的兩隨機變數,其相關係數卻為0。可參考黃文璋(2007)一文之例4及例5。還是要提醒讀者一點,相關係數雖說是量測二隨機變數之關連程度(degree of association),但主要是反映二隨機變數間,線性關係之強度及正負,而非反映任何其他關係。
若有數據(x1,y1),(x2,y2),…,(xn,yn),且分別以`x,`y表其平均值,則其相關係數,一般表示成r,定義為
r = [Σn i=1(xi-`x)(yi-`y)]/[(Σn i=1(xi-`x)2)1/2(Σn i=1(yi-`y)2)1/2],
其中大寫希臘字母Σ,如同一般,表和的記號。例如,設有數據(1,5), (3,9), (4,7), (5,1), (7,13),則`x=4,`y=7,且
(1-4)2+(3-4)2+(4-4)2+(5-4)2+(7-4)2=20,
(5-7)2+(9-7)2+(7-7)2+(1-7)2+(13-7)2=80,
(1-4)(5-7)+(3-4)(9-7)+(4-4)(7-9)+(5-4)((1-7)+(7-4)(13-7)=16。
故得
r = 16/(20.80)1/2=0.4,
曾有報導,同卵雙胞胎,若性別相同,身高的相關係數高達0.95,這乃可以預期。至於教育程度與收入的相關係數就不太高了,可能在0.3與0.4間。讀書在於變化氣質,若財富未隨之而來,並不必訝異。不論大小,上述二者都是正相關。至於婦女的教育程度與小孩數,大約便會是負相關了。我們藉圖1來說明當相關係數為正、負或0時,圖形之變化。所觀測到的數據(x1,y1),…,(xn,yn),若大部分都落在區域I及III,則r將為正(正相關);若大部分都落在區域II及IV,則r將為負(負相關);若散佈在I,II,III,IV等四個區域,則r將接近0(無相關)。
參考文獻
1. 黃文璋(2007). 統計裡的關係. 數學傳播季刊, 31(1): 49-67.
2. 黃文璋(2010). 機率論, 第二版, 464頁. 華泰文化事業股份有限公司, 台北市.