國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:27 相關係數
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2014/11/11 下午 10:34:35

有沒有關係?人們常會提到關係一詞。生活裡充滿著各種關係,如親子關係、婆媳關係、勞資關係,及國際關係等,這些關係都令人忽視不得。數學中的關係也不少,如相似關係、邊與角的關係、根與係數的關係,及直線和圓的位置關係等。大約從國中起,數學課程裡,便常學到各式各樣的關係。對隨機現象,當有兩個變數時,常需了解二者間之關係。獨立也是一種關係,即兩個變數所取的值,彼此不受影響。當兩變數獨立,它們間的關係便完全確定了。具備獨立性,在執行統計推論時,常方便不少。舉個例子來看。欲估計一銅板出現正面的機率p,不須長考,立刻會想到的便是投擲若干次,然後用所得正面數的相對頻率,以估計p此時很自然地,便會假設各次投擲結果為相互獨立。若投擲n次,出現k個正面,但被告知各次投擲間,不見得獨立,則可能便瞠目結舌,不知該如何是好。你可能好奇,獨立性在那裡用到?舉個極端的例子來看。假設銅板有記憶,看第一次出現那一面,之後每次投擲,都跟第一次出現的相同。或者另一情境有位執行實驗者偷懶,只投第1次,自第2次起,全抄第1次的結果。則自第2次起,每次是否出現正面,全依第1次的投擲結果而定,所以各次得到正面的機率,跟第1次相同皆仍是p。如此k不是0便是n,於是不論p之實際值為何其估計值必為01。一旦去掉獨立性的假設,便可能得到這種很荒謬的估計。在執行統計推論前,總要先取樣,很多方法都是基於各樣本為獨立。

常聽到龍生龍,鳳生鳳,老鼠生兒會打洞,由於遺傳,兒子身高與父親身高之間應有關係,少有人覺得可假設父子身高為獨立又不論經由推薦甄選,或申請入學,很多大學校系會採計學測的英文成績。既然重視英文,那英文成績,與入學後的學業成績,總該有些關係吧若有,關係為何?至於數學學測成績,與入學後的學業成績之關係呢?有時兩變數間,直觀上不像會獨立,覺得該會有些關係,但如何度量兩變數間之關係?對單一變數,若知道平均值(期望值)及變異數,則對此變數的集中及散佈情況,便能略有概念。二變數呢?如何以某些關鍵值,來表示兩者間之關係?

前面提到遺傳,眾所皆知,子女的各種特徵,多少會受到父母之影響。但遺傳的影響,究竟有多大?十九世紀時,不少英國統計學家,被此問題所吸引,很想弄清楚。他們陸續收集了大量有關家族成員之數據。高爾頓,這位達爾文(Charles Robert Darwin1809-1882)的表弟與表哥同樣興趣廣泛,他跟學生皮爾生,兩人便曾聯手探討子女跟其父母的相似程度。皮爾生將所獲得的1,078對父子的身高,標示在x-y座標平面上,以x軸代表父親身高,y軸代表兒子身高。由於尚有母親等因素的影響,可想見父親身高相同者,兒子身高並不一定相同。即同一x值,圖形上可能會有好幾個不同的點。1,078個點,散佈在直線x=y附近。那些點,有點像是順著x=y直線往右上方爬升。在比較靠近直線處,點較密集;若偏離x=y直線,則點較稀疏。雖高父偶有矮子,矮父也偶有高子。但大致看起來,較大的x值,對應較大的y且較小的x值,對應較小的y值。用統計術語來說,父子身高間,有正關聯(positive association)。即隨著x之變大,y亦有變大的傾向。印證人們一直以來的印象父親高,兒子也較可能高;父親矮,兒子便高不到那裡去。但同一x值,所對應的y仍可能有不小的變異。換句話說,雖父子身高間,似乎有正關聯,但關係不見得很強這也是我們平常的印象,由於每人成長過程之不同,因此對170公分高的父親180165公分的兒子,甚至看到兄弟身高、體重,或智商,相差很多,都不會太驚訝,覺得就是有可能。著名的神魔小說封神演義,一般看法完成於明朝,但作者到底是那一位,至今仍沒有定論,說法不一。在此書的第三十二回裡有句一母之子,有賢愚之分;一樹之果,有酸甜之別。可見人們很早便理解遣傳的影響並非那麼絕對。

如何度量兩變數間的關係?脫胎自老師高爾頓之一類似的概念,皮爾生引進相關係數(correlation coefficient,有時只稱correlation),以量測兩變數間之關係。或者更明確地說,量測兩變數間之線性相關性(linear correlation)。關係有很多種,相關係數乃呈現兩變數線性關係的強度及方向。相關係數取值介於-11間。若取正值,兩變數便稱正相關;若取負值,兩變數便稱負相關;而當相關係數為0,則稱兩變數無相關(uncorrelated,或稱no correlation),可說是一相當實用的度量器。如同函數裡的線性函數,線性關係是一很簡單的關係。加上前述符合度量需求的性質,因此自皮爾生提出後,不只在統計裡,即使在很多科學的領域,都廣被採用來量測兩變數的線性相依程度。由於是皮爾生所首創,且為有別於統計裡其他不同定義的相關係數,此處介紹的相關係數,又稱為皮爾生相關係數”(Pearsons correlation coefficient又稱Pearsons r)。不過底下我們凡提到相關係數,都是指皮爾生相關係數。

假設有兩個隨機變數XY,其共變異數(covariance) Cov(X,Y),與兩變數的標準差σXσY之商,便是相關係數。在此

Cov(X,Y) = E[ (X-μX)(Y-μY) ] = E(XY) - μX μY

其中μXμY,分別為XY之期望值。若以希臘字母ρXY之相關係數,則便有

ρ=Cov(X,Y)/σXσY=E[(X-μX)(Y-μY)]/σXσY=E[((X-μX)/σX)((Y-μY)/σY)]

由上式知,相關係數即兩隨機變數經標準化後,乘積之期望值由於標準化後之隨機變數,期望值為0,標準差為1,所以相關係數,可視為兩隨機變數標準化後之共變異數。又若有幾個不同的隨機變數,為了區隔起見,可以ρ(X,Y),或ρX,Y,表XY之相關係數。兩隨機變數XY的相關係數要能存在,先決條件是XY之期望值皆要存在,及兩變異數都要存在且都不能為0。什麼情況下,變異數會等於0呢?表隨機變數為一常數,或者講精準一點,隨機變數為一常數的機率為1反之,既然取常數值,這種隨機變數便沒有變異,故其變異數為0。直觀上這都是對的。甚至,常數隨機變數,與任一隨機變數之共變異數亦為0。這不難看出:X為常數μX=XX-μX=0。由於變異數為0,故對常數隨機變數我們不定義它與其他隨機變數之相關係數。

可看出Cov(X,X)=Var(X)。即自己跟自己的共變異數就是變異數。因此共變異數的概念,乃變異數之推廣。如果變異數,是用來度量一隨機變數偏離期望值的程度,則共變異數,便能度量二隨機變數同時偏離各自期望值的程度。若X>μX時,較可能使Y>μY,且若X<μX時,較可能使Y<μY也就是說XY,有同時增大或同時減小之傾向(X-μX)(Y-μY)便較可能是正的,因而它的期望值Cov(X,Y)也就較可能為正我們只說較可能,因畢竟仍得精算一下才知正負。反之,若較大的X,有伴隨較小的Y之傾向,且較小的X,有伴隨較大的Y之傾向,則(X-μX)(Y-μY)便較可能是負的,因而它的期望值Cov(X,Y)將較可能為負。也就是Cov(X,Y)之正負,能反映XY之增長方向,究竟傾向相同或相反。由於標準差乃取正值,所以相關係數與共變異數符號相同,且二者同時為0,或同時不為0。因此相關係數是否為正,便也顯示XY之增大與減小傾向,是否相同。若XYZ,分別表數學、自然,及國文的成績,我們大概會預期ρ(X,Y)>0,但就不太確定ρ(X,Z)之正負了。

我們說過,共變異數是用來度量二隨機變數XY,同時偏離各自期望值的程度。但與變異數類似,它有一缺點,即其值與所採用的尺度有關。例如,對於父與子身高的共變異數,身高單位採用公分,與採用公尺,前者之共變異數為後者之1(=1002)倍。不過一旦除以兩標準差後,所得之相關係數,這種困擾立即消除。相關係數ρ,永遠取值在區間[-1,1],當ρ很接近0,表XY的線性關係較弱;而當ρ很接近1或很接近-1,表XY有較強的線性關係。事實上,當ρ=1,或-1XY便有完美的線性關係,或者說XY為完全相關(completely correlated)。即對二隨機變數XY,若ρ=1,則存在常數ab,其中a>0,使得P(Y=aX+b)=1;若ρ=-1,則存在常數ab,其中a<0,使得P(Y=aX+b)=1。上述這些性質之證明,均可見黃文璋(2010)一書之2.9節。

另外,當XY獨立時,Cov(X,Y)=0,因而ρ(X,Y)=0但其逆不真。也就是說,共變異數(或相關係數)0,即兩隨機變數為無相關並不導致二變數獨立。而且,二隨機變數即使無相關,也不表二者沒有關係。很容易可找到關係絕對密切的兩隨機變數,其相關係數卻為0。可參考黃文璋(2007)一文之例4及例5。還是要提醒讀者一點,相關係數雖說是量測二隨機變數之關連程度(degree of association),但主要是反映二隨機變數間,線性關係之強度及正負,而非反映任何其他關係。

若有數據(x1,y1)(x2,y2)(xn,yn),且分別以`x`y表其平均值,則其相關係數,一般表示成r,定義為

r = [Σn i=1(xi-`x)(yi-`y)]/[(Σn i=1(xi-`x)2)1/2(Σn i=1(yi-`y)2)1/2]

其中大寫希臘字母Σ,如同一般,表和的記號。例如設有數據(1,5), (3,9), (4,7), (5,1), (7,13)`x=4`y=7

(1-4)2+(3-4)2+(4-4)2+(5-4)2+(7-4)2=20

(5-7)2+(9-7)2+(7-7)2+(1-7)2+(13-7)2=80

(1-4)(5-7)+(3-4)(9-7)+(4-4)(7-9)+(5-4)((1-7)+(7-4)(13-7)=16

故得

r = 16/(2080)1/2=0.4

曾有報導同卵雙胞胎若性別相同身高的相關係數高達0.95這乃可以預期至於教育程度與收入的相關係數就不太高了可能在0.30.4。讀書在於變化氣質,若財富未隨之而來,並不必訝異。不論大小,上述二者都是正相關。至於婦女的教育程度與小孩數,大約便會是負相關了我們藉圖1來說明當相關係數為正、負或0圖形之變化。所觀測到的數據(x1,y1)(xn,yn)若大部分都落在區域IIII,則r將為正(正相關);若大部分都落在區域IIIV,則r將為(負相關);若散佈在IIIIIIIV等四個區域,則r將接近0(無相關)

參考文獻

1. 黃文璋(2007). 統計裡的關係. 數學傳播季刊, 31(1): 49-67.

2. 黃文璋(2010). 機率論, 第二版, 464. 華泰文化事業股份有限公司, 台北市.

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (2IJO
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 8998715 位訪客
*