2019-03-25

教甄(口試自介)台南國小.幼兒去年107考出兩題【迴歸分析 VIF 膨脹係數 / 共線性問題

教甄(口試自介)台南國小、幼兒去年 107 考出兩題【迴歸分析 VIF 膨脹係數 / 共線性問題】通常是電腦跑統計用的。解析如下:迴歸分析 Regression Analysis是運用一個或一組變項來預測另一個變項的統計技術總稱,被預測的變項稱為效標變項或依變項,預測變項也可稱為自變項。只根據一個預測變項來預測效標變項的迴歸分析稱為「簡單迴歸」(simple regression)若預測變項為兩個或兩個以上則稱為「多元迴歸」(multiple regression)。例如,
.
單用學生國中在校成績來預測其國中基本學力測驗分數,即為簡單迴歸分析的例子,若同時用學生在校成績和智商兩個變項來預測其國中基本學力測驗分數,則為多元單迴歸分析的應用。迴歸分析的原理是找出最適切數學方程式來表示預測變項和效標變項之間的關係,此式稱為迴歸方程式,若假定預測變項和效標變項間的函數關係為線性,稱為直線或線性迴歸 (linear regression),否則稱為非線性迴歸(nonlinear regression)。
.
迴歸分析是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具體的來說,迴歸分析可以幫助人們了解在只有一個自變數變化時應變數的變化量。一般來說,通過迴歸分析我們可以由給出的自變數估計應變數的條件期望。
.
簡單線性迴歸(simple linear regression)以單一變數預測判斷兩變數之間相關的方向和程度
.
複迴歸(或多變量迴歸)multiple regression analysis 是簡單線性迴歸的一種延伸應用,用以瞭解一個依變項與兩組以上自變項的函數關係。
.
對數線性迴歸對數線性迴歸(Log-linear model),是將解釋變項(實驗設計中的自變項)和反應變項(實驗設計中的依變項)都取對數值之後再進行線性迴歸,所以依據解釋變項的數量,可能是對數簡單線性迴歸,也可能是對數複迴歸。

多元共線性是指多元迴歸分析中,自變項之間有相關存在的一種現象,是一種程度的問題(degree of matters),而不是全有或全無(all or none)的狀態。多元共線性若是達嚴重的程度時,會對多元迴歸分析造成下列的不良影響:  
 
1.膨脹最小平方法(least squares)估計參數值的變異數和共變數,使得迴歸係數的估計值變得很不精確;
2.膨脹迴歸係數估計值的相關係數;   
3.膨脹預測值的變異數,但對預測能力不影響;   
4.造成解釋迴歸係數及其信賴區間估計之困難;   
5.造成整體模式的考驗達顯著,但各別迴歸係數之考驗不顯著的矛盾現象和解釋上之困擾;   
6.造成迴歸係數的正負號與所期望者相反的衝突現象,這是由於自變項間之壓抑效果(suppress effect)造成的。   

一個比較簡單的診斷方法是察看自變項間的相關係數矩陣,看看該矩陣中是否有元素值(即自變項兩兩之間的相關係數值)是大於.90以上者,若有,即表示該二變項互為多元共線性變項,並認為該迴歸分析中有嚴重的多元共線性問題存在。
另一個比較正式、客觀的診斷法,則為使用第j個自變項的「變異數膨脹因子」(variance inflation factor)作為判斷的指標,凡變異數膨脹因子指標值大於10者,即表示第j個自變項是一個多元共線性變項。

在一般的迴歸分析中,針對這種多元共線性問題,有些統計學家會建議將多元共線性變項予以刪除,不納入迴歸方程式中。但避免多元共線性問題所造成困擾的最佳解決方法,不是刪除該具有多元共線性變項,而是使用所謂的「偏差迴歸分析」(biased regression analysis, BRA)。

其中以「山脊型迴歸」(ridge regression)最受到學者們的重視和使用;除此之外,尚有「主成分迴歸」(principal component regression)、「潛在根迴歸」(latent root regression)、「貝氏法迴歸」(Baysean regression)、「遞縮式迴歸」(shrinkage regression)等,

不過這些偏差迴歸分析法所獲得的迴歸係數值都是「有偏差的」(biased),亦即這些迴歸係數的期望值不等於母群體的迴歸係數值,所以稱作偏差迴歸係數估計值,而本補救多元共線性問題的方法即稱作偏差迴歸分析法。
~ 轉貼(參見:1.林清山.2.盧雪梅.3.余民寧.4.許世穎【教甄自介】部落格)
#心理測驗統計 #教育研究法測驗統計 #區塊鏈機器學習