- 迴歸分析和複迴歸分析是「預測數值」的分析方法,
例如:從「最高氣溫」預測「冰紅茶的銷售量」。
從「店面面積」和「與車站的距離」預測「新設分店的單月銷售量」。
- Logistic迴歸分析是「預測機率」的分析方法,
例如:從「吸菸量」和「飲酒量」預測「罹患癌症的機率」。
從「學生出勤課數」和「學生模擬考成績」預測「考進大學的機率」。
第1章 基本知識
- 機率密度函數
- 卡方分布表,代表和下圖斜線部分的機率(=面積)P相對應的橫軸座標。
圖中的X^2稱為卡方。
- F分布表,代表和下圖斜線部分的機率(=面積)P相對應的橫軸座標。
第2章 迴歸分析
- 迴歸式y=ax+b,y稱為「因變數」或「從屬變數」,
x稱為「自變數」或「獨立變數」,a稱為「迴歸係數」。
<迴歸分析的步驟>
Step1.先把自變數和因變數的點畫到座標圖上,看看求迴歸式有沒有意義
Step2.求迴歸式(殘差最小平方法)
-a=x和y的離差積項和/x的離差平方和;b=y平均值-x平均值*a
-迴歸式一定通過(x的平均值,y的平均值)
Step3.確認迴歸式的準確度
-複相關係數(R):代表迴歸式的準確度,也就是代表點和迴歸式吻合程度的指標。
實際上,這只是指實際值y和預測值y的單相關係數而已。
-(複相關係數)的平方稱為「判斷係數」,通常寫為R^2。
判斷係數介於0到1之間,迴歸式的準確度越高,判斷係數越接近1,否則越接近0。
-迴歸分析的假設:符合平均為Ax+B,標準差為的常態分佈。
Step4.進行「迴歸係數檢定」
-可確定A是否等於0,若A=0則代表不管X(最高氣溫)是多少,Y(冰紅茶的銷售量)都一樣。
Step5.推測母群體迴歸Ax+B
Step6.預測
- 以上步驟並非每步驟皆缺一不可,若為「敘述統計學」只需做Step1-3,Step6。
例如:小明的年齡與身高。
(因世界上只有一個小明,而小名10歲時身高為150cm,也只有一個值)
所以不需要考慮「推論統計學」的觀點,分析母群體迴歸Ax+B的信賴區間和A<>0是否成立。
- 分析可能會受到時間影響的數據時,最好確定相鄰差的連動狀況,
這種連動狀況稱為序列相關,又稱為自我相關。
表示序列相關程度的指標包括杜賓瓦森序列相關統計量(Durbin-Watson test)。
第3章 複迴歸分析
- 只要把複迴歸分析當成「有兩個以上的自變數的迴歸分析」就行了。
<複迴歸分析的步驟>
Step1.先畫好各自變數和因變數的點座標圖,看看求複迴歸式有沒有意義
Step2.求複迴歸式(殘差最小平方法)
Step3.確認複迴歸式的準確度
- 判定係數R^2的缺點:自變數的個數越多,判定係數就越大。
(即使增加的自變數和因變數毫無關係)。
所以要確定複迴歸式的準確度時,需要計算「修正判定係數」
(調整自由度後的判定係數)R*^2。
Step4.進行「偏迴歸係數檢定」
-有兩種偏迴歸係數檢定:
1.整體檢定偏迴歸係數
2.個別檢定偏迴歸係數
- F分布也可說是基於t分布的「偏迴歸係數檢定」。
Step5.推測母群體迴歸A1x1+A2x2+...Apxp+B
- 需要使用馬氏距離
Step6.預測
- 求「自變數個數少,而且準確度高的複迴歸式」的方法:
變數減少法、變數增減法、變數減增法、總評法...。
總評法
- 以上步驟並非每步驟皆缺一不可,若為「敘述統計學」只需做Step1-3,Step6。
推論統計才需Step1-Step6。
- 複迴歸的因變數必須是「可以測量」的數據,不過自變數可以是:
1.只有「可以測量」的數據
2.有「可以測量」的數據和「不可測量」的數據
3.只有「不可測量」的數據
- 複迴歸分析的自變數只有「不可測量」數據的情況,稱為數量化一類。
- 多重共線性:當自變數之間彼此有密切關聯時,可能會出現下列狀況:
1.求不出偏迴歸係數
2.即使求出偏迴歸係數,數值也會很奇怪,例如本來應該是正數的係數變成負數。
可以用VIF和容忍值指標,確定沒有多重共線性問題。
- 自變數之間彼此有關聯時,最好省略其中一個變數再分析。
- 有些人不把複迴歸分析用於預測,而是驗證「每個自變數對因變數的影響程度」。
筆者不是很贊成,因為此種方式是認定了變數的關係和複迴歸分析的結構一樣,
也許真實情況不是如此。
要檢驗「每個自變數對因變數的影響程度」,與其利用複迴歸分析,
不如使用結構方程模型分析。
第4章Logistic迴歸分析
- 最大概似估計法
- Logistic的因變數必須是「機率」,不過自變數可以是:
1.只有「可以測量」的數據
2.有「可以測量」的數據和「不可測量」的數據
3.只有「不可測量」的數據
(例如:「星期三或星期六或星期日」:1代表是這三天其中一天,0代表是其它日子。)
<Logistic迴歸分析的步驟>
Step1.先畫好各自變數和因變數的點座標圖,看看求Logistic迴歸式有沒有意義
Step2.求Logistic迴歸式
Step3.確認Logistic迴歸式的準確度
- Logistic迴歸式只有判定係數(沒有複迴歸係數)
Logistic迴歸式的判定係數比較不容易變大,所以頂多把它當成參考。
要檢驗Logistic迴歸式的準確度,可以用誤判率=事實和分析結果不一致的個體個數/整體個數。
也可以利用實際Y與預測Y的點散布圖,求單相關係數值。
Step4.進行「迴歸係數檢定」
- 整體檢定迴歸係數(最大概似比檢定)/個別檢定迴歸係數(Wald檢定)
- 卡方分布有時候會被說為是基於標準常態分佈的「迴歸係數檢定」。
Step5.預測
- 勝算比odds ratio
- 風險比
沒有留言:
張貼留言