國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:28 迴歸分析
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2014/11/14 下午 10:08:14

兩隨機變數間,可有各式各樣的關係。獨立是一種很特殊,且很簡單的關係,就是彼此沒有影響。在執行統計推論時涉及的隨機變數若能獨立,當然不錯。很多統計理論其中的隨機變數,便都假設為獨立。但有時變數間就是不獨立,這倒非缺點,從推論的觀點,亦有其好處。不獨立才能由過去的資料,以對未來做預測。樂透彩頭獎號碼的產生,各次間為相互獨立,因此即使收集再多過去的號碼,對預測未來,都毫無幫助。那些花大力氣,下大功夫,企圖找明牌的人,最後都會醒悟,不過是在做白工罷了。但準備學測或指考,往往會先做考古題,因知道下次的考題,與過去的考題,多少有些關係,至少題型會類似。其他如兩次考試成績父子身高,及今明兩天的氣溫等,都不至於獨立。既然不獨立,就會想找出二變數之關係,使能對未來預測。

所有關係裡,有些關係很令人重視,函數關係便是一個什麼是函數?在數學裡,函數是一種對應。有兩個集合AB,其中A稱為定義域,B稱為對應域。若每一A中的元素a,都恰有一B中的元素b,跟它對應,則這種對應關係便是一函數。不可有超過一個的對應,也就是a不可又對應b又對應c,這幾乎是要成為函數,唯一的條件。函數有如一生產機器,放進某一原料,就出來一明確的產品,出來兩產品不行。但不同的原料,出來的產品相同,這卻是可以此時就不是一對一函數。所以,若A是一些父親的集合,B是他們孩子的集合,則每一父親對應其孩子,便不是一函數因有些人有不只一個孩子。但由BA為一函數,因每個孩子的父親確定。雖可能幾個不同小孩,有同一個父親,但這倒沒問題,就只是非一對一函數而已。

設有二隨機變數XY,滿足

Y=Q(X)

每一X,有一Y=Q(X)與之對應,即YX之一函數。則知道X之值後,Y的值便完全決定了從預測的角度,這當然很完美。例如,假設X表父親的身高Y表兒子的身高。若YX的函數,則知道X後,Y便確定了,預測百分之百精準但你曉得,就算兒子的身高,深受父親身高之影響,也絕不可能那些身高相同的父親,兒子身高也就相同。因此兒子身高,不會是父親身高的函數。退而求其次,如果兒子身高大致為父親身高的函數,那也很好。即假設YX間,有如下關係:

Y=Q(X)+ε

其中ε代表誤差項,為一隨機變數。對預測而言,若ε不會太大,則這樣的模式便相當實用了。Q(x)有如身高X=x的父親,其兒子身高之代表值,至於兒子身高則在Q(x)附近波動如果能估計出函數Q,則當父親身高X=174(公分),其兒子身高便在Q(174)左右。這也便有個譜了。

通常會對誤差項ε,給一些看起來合理的假設。例如,誤差雖有正負,但平均而言,似該為0,所以不妨假設E(ε)=0有時為了簡便,或是採信高斯的誤差理論,因而進一步假設ε有期望值為0,變異數為σ2之常態分佈。σ2也可設法估計出來。

對於模式Y=Q(X)+ε,本已令人滿意了。若其中的Q,為一很簡單的函數,那就更美好了。怎樣的函數算是簡單?首先想到的,當然是線性函數,總不至於以為是常數。也就是說,如果函數

Q(x)=ax+b

其中ab為二常數,那將讓使用者讚美不已。至於ab為何?能求出嗎?

若知道XY的聯合分佈,就有辦法估計出ab。底下略述其作法。

我們希望誤差ε要愈小愈好,即Y-Q(X)要愈小愈好,或者說絕對誤差|Y-Q(X)|要愈小愈好。但此為隨機變數,其值有大有小。而且我們知道,數學裡絕對值常較難處理。因此仿照變異數的定義,考慮Y-Q(X)平方之期望值。我們便由誤差平方之期望值(mean squared error,縮寫MSE,統計學中談論誤差時,常引出此量,其正平方根便能用來表示誤差)最小,來解ab。即從使

E[(Y-Q(X))2]=E[(Y-aX-b)2]

最小,來解出ab。推導過程可參考黃文璋(2010)3.5節,我們給出答案如下:

a=a1=Cov(X,Y)/Var(X)

b=b1=E(Y)-a1E(X)

a1X+b1又稱為MSE最小下,Y之最佳線性預測。統計學裡常在求最佳預測。但何謂最佳?不同標準下,可能會有不同的最佳這跟選美一樣,比賽項目中,常包含才藝表演,及機智問答等,並不光看外貌。因此若奪冠者,被認為不是所有參選中最美,並不足為奇。此處的最佳預測,乃從線性函數中,找MSE最小者。一旦標準改了,最佳預測便可能隨之而換。

XY間,有上述Y=Q(X)+ε之關係,函數Q,便稱YX之迴歸,Q也就稱為迴歸函數。迴歸一詞,是高爾頓為了研究父子身高間的關係,最早引進的。由於簡單好用,備受歡迎,迴歸分析(regression analysis)早已被廣泛使用。當Q(x)=ax+b為一次式,y=Q(x)x-y座標平面上為一直線,稱為迴歸線(regression line)Q(x)如果是二次式,便是二次迴歸(quadratic regression)。也可有多項式迴歸。次數愈高,模型當然愈準確,但也就愈複雜。

由上述結果,若有數據(x1,y1)(x2,y2)(xn,yn),且分別以`x`y,表變數x變數y之平均值,則因變數x變數y,共變異數之定義為

Σni=1(xi-`x)(yi-`y)/n

再利用x之變異數的定義為

Σni=1(xi-`x)2/n

即得a1之估計值為

â1=[Σni=1(xi-`x)(yi-`y)]/[Σni=1(xi-`x)2]

因而b1之估計值為

b^1=`y- â1`x

以上是從隨機變數的結果,立即得到數據的迴歸線估計。也可利用法國數學家拉格朗治(Joseph L. Lagrange1736-1813),及高斯,所發展出來的最小平方法(least squares method,又稱最小平方法原理,Principle of least squares),直接求出â1,及b^1。有興趣的讀者可參考黃文璋(2003)6.5節。在x-y座標平面上,標示出收集到的數據(x1,y1)(x2,y2)(xn,yn),我們想找一條穿越這些點的直線。理想狀況是,這些點原本便全落在一直線上。實際上,很難如此美好於是我們求出迴歸線。在所有直線中迴歸線滿足各點與直線的高度差之平方和最小。有了迴歸線後,對一任給的x值,便以此線上對應的y值,做為Y之估計值。

迴歸分析主要是為了預測,已知一個量,以一簡單的函數來預測另一個量。但對預測要有些基本的了解,否則會貽笑大方。曾有中學老師,於考完試放榜前告訴學生,學校已針對全年級的兩次考試成績,做迴歸分析。校方的估計,絕對比學生自己所估計準確,因此學生就不必估計了。學校雖然體貼,但這完全是錯的概念。簡單講,校方所得的估計,是一種平均下的結果。是任取一位學生,知道他上次考幾分在沒有其他資訊下,從過去全年級學生兩次成績的資料,給一簡單的估計值。至於學生本身,完全清楚這段時間準備是否周全,考試的臨場狀況,甚至考完還可對答案。除非學生程度差到毫無判斷力,否則正常情況下,學生自己的估計,當然比校方對前次成績相同者,都給同一個下次成績之估計值,要準確多了。這麼沒有概念者,所做之預測,豈能何參考價值?

參考文獻

1. 黃文璋(2003). 數理統計. 華泰文化事業股份有限公司, 台北市.

2. 黃文璋(2010). 機率論, 第二版. 華泰文化事業股份有限公司, 台北市.

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (5CMR
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/4/11 上午 09:16:10

2003/10/20起第 9008725 位訪客
*