兩隨機變數間,可有各式各樣的關係。獨立是一種很特殊,且很簡單的關係,就是彼此沒有影響。在執行統計推論時,涉及的隨機變數,若能獨立,當然不錯。很多統計理論,其中的隨機變數,便都假設為獨立。但有時變數間就是不獨立,這倒非缺點,從推論的觀點,亦有其好處。不獨立才能由過去的資料,以對未來做預測。樂透彩頭獎號碼的產生,各次間為相互獨立,因此即使收集再多過去的號碼,對預測未來,都毫無幫助。那些花大力氣,下大功夫,企圖找明牌的人,最後都會醒悟,不過是在做白工罷了。但準備學測或指考,往往會先做考古題,因知道下次的考題,與過去的考題,多少有些關係,至少題型會類似。其他如兩次考試成績、父子身高,及今明兩天的氣溫等,都不至於獨立。既然不獨立,就會想找出二變數之關係,使能對未來預測。
所有關係裡,有些關係很令人重視,函數關係便是一個。什麼是函數?在數學裡,函數是一種對應。有兩個集合A,B,其中A稱為定義域,B稱為對應域。若每一A中的元素a,都恰有一B中的元素b,跟它對應,則這種對應關係,便是一函數。不可有超過一個的對應,也就是a不可又對應b又對應c,這幾乎是要成為函數,唯一的條件。函數有如一生產機器,放進某一原料,就出來一明確的產品,出來兩產品不行。但不同的原料,出來的產品相同,這卻是可以,此時就不是一對一函數。所以,若A是一些父親的集合,B是他們孩子的集合,則每一父親對應其孩子,便不是一函數,因有些人有不只一個孩子。但由B至A為一函數,因每個孩子的父親確定。雖可能幾個不同小孩,有同一個父親,但這倒沒問題,就只是非一對一函數而已。
設有二隨機變數X,Y,滿足
Y=Q(X)。
每一X,有一Y=Q(X)與之對應,即Y為X之一函數。則知道X之值後,Y的值便完全決定了。從預測的角度,這當然很完美。例如,假設X表父親的身高,Y表兒子的身高。若Y為X的函數,則知道X後,Y便確定了,預測百分之百精準。但你曉得,就算兒子的身高,深受父親身高之影響,也絕不可能那些身高相同的父親,兒子身高也就相同。因此兒子身高,不會是父親身高的函數。退而求其次,如果兒子身高“大致”為父親身高的函數,那也很好。即假設Y與X間,有如下關係:
Y=Q(X)+ε,
其中ε代表誤差項,為一隨機變數。對預測而言,若ε不會太大,則這樣的模式便相當實用了。Q(x)有如身高X=x的父親,其兒子身高之代表值,至於兒子身高則在Q(x)附近波動。如果能估計出函數Q,則當父親身高X=174(公分),其兒子身高便在Q(174)左右。這也便有個譜了。
通常會對誤差項ε,給一些看起來合理的假設。例如,誤差雖有正負,但平均而言,似該為0,所以不妨假設E(ε)=0。有時為了簡便,或是採信高斯的誤差理論,因而進一步假設ε有期望值為0,變異數為σ2之常態分佈。σ2也可設法估計出來。
對於模式Y=Q(X)+ε,本已令人滿意了。若其中的Q,為一很簡單的函數,那就更美好了。怎樣的函數算是簡單?首先想到的,當然是線性函數,總不至於以為是常數。也就是說,如果函數
Q(x)=ax+b,
其中a,b為二常數,那將讓使用者讚美不已。至於a,b為何?能求出嗎?
若知道X,Y的聯合分佈,就有辦法估計出a,b。底下略述其作法。
我們希望誤差ε要愈小愈好,即Y-Q(X)要愈小愈好,或者說絕對誤差|Y-Q(X)|要愈小愈好。但此為隨機變數,其值有大有小。而且我們知道,數學裡絕對值常較難處理。因此仿照變異數的定義,考慮Y-Q(X)平方之期望值。我們便由“誤差平方之期望值”(mean squared error,縮寫MSE,統計學中,談論誤差時,常引出此量,其正平方根便能用來表示誤差)最小,來解a,b。即從使
E[(Y-Q(X))2]=E[(Y-aX-b)2]
最小,來解出a,b。推導過程可參考黃文璋(2010)第3.5節,我們給出答案如下:
a=a1=Cov(X,Y)/Var(X),
b=b1=E(Y)-a1E(X)。
a1X+b1又稱為MSE最小下,Y之最佳線性預測。統計學裡常在求最佳預測。但何謂最佳?不同標準下,可能會有不同的最佳。這跟選美一樣,比賽項目中,常包含才藝表演,及機智問答等,並不光看外貌。因此若奪冠者,被認為不是所有參選中最美,並不足為奇。此處的最佳預測,乃從線性函數中,找MSE最小者。一旦標準改了,最佳預測便可能隨之而換。
若X與Y間,有上述Y=Q(X)+ε之關係,函數Q,便稱Y對X之迴歸,Q也就稱為迴歸函數。迴歸一詞,是高爾頓為了研究父子身高間的關係,最早引進的。由於簡單好用,備受歡迎,迴歸分析(regression analysis)早已被廣泛使用。當Q(x)=ax+b為一次式,y=Q(x)在x-y座標平面上為一直線,稱為迴歸線(regression line)。Q(x)如果是二次式,便是二次迴歸(quadratic regression)。也可有多項式迴歸。次數愈高,模型當然愈準確,但也就愈複雜。
由上述結果,若有數據(x1,y1),(x2,y2),…,(xn,yn),且分別以`x,`y,表變數x,與變數y之平均值,則因變數x與變數y,共變異數之定義為
Σni=1(xi-`x)(yi-`y)/n,
再利用x之變異數的定義為
Σni=1(xi-`x)2/n,
即得a1之估計值為
â1=[Σni=1(xi-`x)(yi-`y)]/[Σni=1(xi-`x)2],
因而b1之估計值為
b^1=`y- â1`x。
以上是從隨機變數的結果,立即得到數據的迴歸線估計。也可利用法國數學家拉格朗治(Joseph L. Lagrange,1736-1813),及高斯,所發展出來的最小平方法(least squares method,又稱最小平方法原理,Principle of least squares),直接求出â1,及b^1。有興趣的讀者可參考黃文璋(2003)第6.5節。在x-y座標平面上,標示出收集到的數據(x1,y1),(x2,y2),…,(xn,yn),我們想找一條穿越這些點的直線。理想狀況是,這些點原本便全落在一直線上。實際上,很難如此美好,於是我們求出迴歸線。在所有直線中,迴歸線滿足各點與直線的高度差之平方和最小。有了迴歸線後,對一任給的x值,便以此線上對應的y值,做為Y之估計值。
迴歸分析主要是為了預測,已知一個量,以一簡單的函數來預測另一個量。但對預測要有些基本的了解,否則會貽笑大方。曾有中學老師,於考完試放榜前告訴學生,學校已針對全年級的兩次考試成績,做迴歸分析。校方的估計,絕對比學生自己所估計準確,因此學生就不必估計了。學校雖然體貼,但這完全是錯的概念。簡單講,校方所得的估計,是一種平均下的結果。是任取一位學生,知道他上次考幾分,在沒有其他資訊下,從過去全年級學生,兩次成績的資料,給一簡單的估計值。至於學生本身,完全清楚這段時間準備是否周全,考試的臨場狀況,甚至考完還可對答案。除非學生程度差到毫無判斷力,否則正常情況下,學生自己的估計,當然比校方對前次成績相同者,都給同一個下次成績之估計值,要準確多了。這麼沒有概念者,所做之預測,豈能何參考價值?
參考文獻
1. 黃文璋(2003). 數理統計. 華泰文化事業股份有限公司, 台北市.
2. 黃文璋(2010). 機率論, 第二版. 華泰文化事業股份有限公司, 台北市.