國立高雄大學統計研究所-心在南方

:::

:::

主題：28 迴歸分析

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2014/11/14 下午 10:08:14

兩隨機變數間，可有各式各樣的關係。獨立是一種很特殊，且很簡單的關係，就是彼此沒有影響。在執行統計推論時，涉及的隨機變數，若能獨立，當然不錯。很多統計理論，其中的隨機變數，便都假設為獨立。但有時變數間就是不獨立，這倒非缺點，從推論的觀點，亦有其好處。不獨立才能由過去的資料，以對未來做預測。樂透彩頭獎號碼的產生，各次間為相互獨立，因此即使收集再多過去的號碼，對預測未來，都毫無幫助。那些花大力氣，下大功夫，企圖找明牌的人，最後都會醒悟，不過是在做白工罷了。但準備學測或指考，往往會先做考古題，因知道下次的考題，與過去的考題，多少有些關係，至少題型會類似。其他如兩次考試成績、父子身高，及今明兩天的氣溫等，都不至於獨立。既然不獨立，就會想找出二變數之關係，使能對未來預測。

所有關係裡，有些關係很令人重視，函數關係便是一個。什麼是函數？在數學裡，函數是一種對應。有兩個集合A，B，其中A稱為定義域，B稱為對應域。若每一A中的元素a，都恰有一B中的元素b，跟它對應，則這種對應關係，便是一函數。不可有超過一個的對應，也就是a不可又對應b又對應c，這幾乎是要成為函數，唯一的條件。函數有如一生產機器，放進某一原料，就出來一明確的產品，出來兩產品不行。但不同的原料，出來的產品相同，這卻是可以，此時就不是一對一函數。所以，若A是一些父親的集合，B是他們孩子的集合，則每一父親對應其孩子，便不是一函數，因有些人有不只一個孩子。但由B至A為一函數，因每個孩子的父親確定。雖可能幾個不同小孩，有同一個父親，但這倒沒問題，就只是非一對一函數而已。

設有二隨機變數X，Y，滿足

Y=Q(X)。

每一X，有一Y=Q(X)與之對應，即Y為X之一函數。則知道X之值後，Y的值便完全決定了。從預測的角度，這當然很完美。例如，假設X表父親的身高，Y表兒子的身高。若Y為X的函數，則知道X後，Y便確定了，預測百分之百精準。但你曉得，就算兒子的身高，深受父親身高之影響，也絕不可能那些身高相同的父親，兒子身高也就相同。因此兒子身高，不會是父親身高的函數。退而求其次，如果兒子身高“大致”為父親身高的函數，那也很好。即假設Y與X間，有如下關係：

Y=Q(X)+ε，

其中ε代表誤差項，為一隨機變數。對預測而言，若ε不會太大，則這樣的模式便相當實用了。Q(x)有如身高X=x的父親，其兒子身高之代表值，至於兒子身高則在Q(x)附近波動。如果能估計出函數Q，則當父親身高X=174(公分)，其兒子身高便在Q(174)左右。這也便有個譜了。

通常會對誤差項ε，給一些看起來合理的假設。例如，誤差雖有正負，但平均而言，似該為0，所以不妨假設E(ε)=0。有時為了簡便，或是採信高斯的誤差理論，因而進一步假設ε有期望值為0，變異數為σ²之常態分佈。σ²也可設法估計出來。

對於模式Y=Q(X)+ε，本已令人滿意了。若其中的Q，為一很簡單的函數，那就更美好了。怎樣的函數算是簡單？首先想到的，當然是線性函數，總不至於以為是常數。也就是說，如果函數

Q(x)=ax+b，

其中a，b為二常數，那將讓使用者讚美不已。至於a，b為何？能求出嗎？

若知道X，Y的聯合分佈，就有辦法估計出a，b。底下略述其作法。

我們希望誤差ε要愈小愈好，即Y-Q(X)要愈小愈好，或者說絕對誤差|Y-Q(X)|要愈小愈好。但此為隨機變數，其值有大有小。而且我們知道，數學裡絕對值常較難處理。因此仿照變異數的定義，考慮Y-Q(X)平方之期望值。我們便由“誤差平方之期望值”(mean squared error，縮寫MSE，統計學中，談論誤差時，常引出此量，其正平方根便能用來表示誤差)最小，來解a，b。即從使

E[(Y-Q(X))²]=E[(Y-aX-b)²]

最小，來解出a，b。推導過程可參考黃文璋(2010)第3.5節，我們給出答案如下：

a=a₁=Cov(X,Y)/Var(X)，

b=b₁=E(Y)-a₁E(X)。

a₁X+b₁又稱為MSE最小下，Y之最佳線性預測。統計學裡常在求最佳預測。但何謂最佳？不同標準下，可能會有不同的最佳。這跟選美一樣，比賽項目中，常包含才藝表演，及機智問答等，並不光看外貌。因此若奪冠者，被認為不是所有參選中最美，並不足為奇。此處的最佳預測，乃從線性函數中，找MSE最小者。一旦標準改了，最佳預測便可能隨之而換。

若X與Y間，有上述Y=Q(X)+ε之關係，函數Q，便稱Y對X之迴歸，Q也就稱為迴歸函數。迴歸一詞，是高爾頓為了研究父子身高間的關係，最早引進的。由於簡單好用，備受歡迎，迴歸分析(regression analysis)早已被廣泛使用。當Q(x)=ax+b為一次式，y=Q(x)在x-y座標平面上為一直線，稱為迴歸線(regression line)。Q(x)如果是二次式，便是二次迴歸(quadratic regression)。也可有多項式迴歸。次數愈高，模型當然愈準確，但也就愈複雜。

由上述結果，若有數據(x₁,y₁)，(x₂,y₂)，…，(x_n,y_n)，且分別以`x，`y，表變數x，與變數y之平均值，則因變數x與變數y，共變異數之定義為

Σⁿ_i₌₁ (x_i-`x)(y_i-`y)/n，

再利用x之變異數的定義為

Σⁿ_i₌₁(x_i-`x)²/n，

即得a₁之估計值為

â₁=[Σⁿ_i₌₁(x_i-`x)(y_i-`y)]/[Σⁿ_i₌₁(x_i-`x)²]，

因而b₁之估計值為

b^{^}₁=`y- â₁`x。

以上是從隨機變數的結果，立即得到數據的迴歸線估計。也可利用法國數學家拉格朗治(Joseph L. Lagrange，1736-1813)，及高斯，所發展出來的最小平方法(least squares method，又稱最小平方法原理，Principle of least squares)，直接求出â₁，及b^{^}₁。有興趣的讀者可參考黃文璋(2003)第6.5節。在x-y座標平面上，標示出收集到的數據(x₁,y₁)，(x₂,y₂)，…，(x_n,y_n)，我們想找一條穿越這些點的直線。理想狀況是，這些點原本便全落在一直線上。實際上，很難如此美好，於是我們求出迴歸線。在所有直線中，迴歸線滿足各點與直線的高度差之平方和最小。有了迴歸線後，對一任給的x值，便以此線上對應的y值，做為Y之估計值。

迴歸分析主要是為了預測，已知一個量，以一簡單的函數來預測另一個量。但對預測要有些基本的了解，否則會貽笑大方。曾有中學老師，於考完試放榜前告訴學生，學校已針對全年級的兩次考試成績，做迴歸分析。校方的估計，絕對比學生自己所估計準確，因此學生就不必估計了。學校雖然體貼，但這完全是錯的概念。簡單講，校方所得的估計，是一種平均下的結果。是任取一位學生，知道他上次考幾分，在沒有其他資訊下，從過去全年級學生，兩次成績的資料，給一簡單的估計值。至於學生本身，完全清楚這段時間準備是否周全，考試的臨場狀況，甚至考完還可對答案。除非學生程度差到毫無判斷力，否則正常情況下，學生自己的估計，當然比校方對前次成績相同者，都給同一個下次成績之估計值，要準確多了。這麼沒有概念者，所做之預測，豈能何參考價值？

參考文獻

1. 黃文璋(2003). 數理統計. 華泰文化事業股份有限公司, 台北市.