ShuoCherng: 擺脫挫折的統計學入門

擺脫挫折的統計學入門

第二部統計學基礎篇
第八章相關、迴歸、決定係數
8.2 迴歸分析
- 藉由迴歸分析可以瞭解某個變量會如何影響另一個變量。
- 由x決定y的關係，在統計學中稱作「以x解釋y」，x稱作解釋變數，y稱作被解釋變數，
而這種關係稱作y對x做迴歸。
8.3 決定係數：可以決定什麼呢？
- 殘差是實際值與迴歸直線上之估計值的落差。

- 相關係數的平方，也稱作決定係數。決定係數=1時，相關係數為正負1，是最強的相關關係，
散佈圖上的所有點都排列在同一條直線上，殘差為0。

- (1-決定係數)是以比值的形式表示「將迴歸直線模型納入考慮時，以估計值yi為中心之殘差的
分散程度」比「未將迴歸直線模型納入考慮時，原始y的分散程度」小多少。
故決定細數本身可用來表示在套用迴歸模型後，分散程度縮小的程度。
- 舉例來說，若(1-決定係數)為0.2，就表示將模型納入考慮時之殘差分散程度，
是為將模型納入考慮時之原始y分散程度的20%。此時的決定係數為0.8，故在代入模型之後，
可減少80%的分散程度。在統計學中，我們會說「這個迴歸直線模型可解釋80%的y變異數」。
也又是說，y之所以會出現變異，80%的原因是「來自於這條直線」。
- 當決定係數=1，也就是散佈圖上的點完全位於一條直線上時，這條直線可減少100%的變異數，
殘差=0，即資料的分散情形100%可由線性單迴歸解釋。

- 上圖中，(a)是相關係數為0.5時的散佈圖，(b)是相關係數為0.7時的散佈圖。
如圖所示，相關係數為0.5時，根本稱不上是中等程度的相關，而是幾乎找不到相關係數。
這是因為當相關係數=0.5時，決定係數=0.25。也就是說套入迴歸直線這個模型後所減少的變異數，
或者說模型可解釋的變異數只佔了25%，原始y的變異數還有75%仍殘留在迴歸直線的殘差中。
而當相關係數為0.7時，決定係數為其平方，也就是0.49，大約等於0.5，
故其回歸直線可解釋約一半的變異數。如圖所示，相關係數為0.7時，
比較接近所謂「中等程度的正相關」的概念。

第十章隨機變數與機率分配模型
10.1 隨機變數的概念

- 資料的平均 = (組別值x相對次數)的總和
- 資料的變異數 = [(組別值-平均)^2 x 相對次數]的總和
10.2 機率分配模型與常態分配、中央極限定理
10.2.2 常態分配模型與中央極限定理
- 中央極限定理的意思就是「若某個隨機變數是無數個彼此獨立之隨機變數的平均，
那麼這個隨機變數所服從的機率分布，就會是一個常態分佈」。
10.2.3 常態分配模型的性質

- 上圖左方的直方圖中，灰色部分的長條面積表示隨機變數的數值落在「某個範圍」內的機率。
當把組距切得非常小，使值方圖看不到一個個長條時，灰色部分得面積仍代表同樣的機率。
這種看不到長條得直方圖所表示的機率分布，稱作「連續型機率分布」，
而直方圖的每個長條上緣連起來的曲線，則稱作「機率密度函數」。
- 常態分布有以下這個很重要的性質：若隨機變數X服從期望值為μ，
變異數為σ^2的常態分配N(μ,σ^2)，那麼隨機變數X-μ/σ服從常態分布N(0,1)。

- 如上圖，所謂的隨機變數X-μ/σ，是將隨機變數X的每一個可能數值接減去μ再除以σ後，
得到的一個新的隨機變數。要注意的是，若隨機變數的期望值為μ，變異值為σ^2，
那麼，就算原本的隨機變數X不是常態分布，X-μ/σ的期望值也會是0，變異數也會是1。
- 常態分布的性質1：若隨機變數X服從常態分布，那麼，轉換後的隨機變數X-μ/σ會服從期望值為0，
變異數為1的常態分布。
- 期望值為0，變異數為1的常態分布，也就是N(0,1)也稱作標準常態分布。

第三部統計學進階篇
第十二章區間估計與檢定
12.1 區間估計
12.1.1 什麼是區間估計
- 常態分配的性質2：從服從常態分布N(μ,σ^2)之母體隨機抽出樣本X1,...,Xn，
則樣本平均會服從常態分布N(μ,σ^2/n)。
- 常態分布的這個性值一般稱作「機率分布的再現性」。
更為基本的描述是「當彼此獨立的兩個隨機變數皆服從常態分布時，
這兩個隨機變數的和也會服從常態分布」。
12.1.2 常態分配與區間估計
- 不偏變異數是經過調整，使其期望值與母體變異數相等的變異數。
「不偏」就是「沒有偏離」的意思。隨然不偏變異數有時會比母體變異數大，
有時會比母體變異數小，但較大和較小的機會是「平等」的。
不會發生每次算出的不偏變異數都比母體變異數大，或都比母體變異數小之類的事。
12.2 不偏變異數、t分配與區間估計
12.2.2 t分配與區間估計
- t統計量會服從的機率分配並不是標準常態分布，而是自由度為n-1的t分配(Student's t 分配)，
可寫作t(n-1)。t分布的機率密度函數與標準常態分布相當相似，
圖形以t=0為中心左右對稱。

12.3 檢定是「在某條件下的審判」
- 型二錯誤：虛無假說實際上是錯的，實驗者卻在計算抽樣資料之後，得到「不拒絕」虛無假說的結論。型二錯誤又稱為「固步自封的錯誤」。
型二錯誤的機率有時會以β來表示。
- 即使虛無假說為真，當我們在顯著水準為5%的情況下進行多次假說檢定時，
會有5%的檢定犯下型一錯誤，拒絕了不應拒絕的虛無假說，接受了不應接受的對立假說。
型一錯誤又被稱為「杞人憂天的錯誤」。型一錯誤(=顯著水準)有時會以α來表示。

ShuoCherng

2020年5月25日星期一

擺脫挫折的統計學入門

沒有留言:

張貼留言

2020年5月25日 星期一

擺脫挫折的統計學入門

沒有留言:

張貼留言

2020年5月25日星期一