擺脫挫折的統計學入門
第二部 統計學基礎篇
第八章 相關、迴歸、決定係數
8.2 迴歸分析
- 藉由迴歸分析可以瞭解某個變量會如何影響另一個變量。
- 由x決定y的關係,在統計學中稱作「以x解釋y」,x稱作解釋變數,y稱作被解釋變數,
而這種關係稱作y對x做迴歸。
8.3 決定係數:可以決定什麼呢?
- 殘差是實際值與迴歸直線上之估計值的落差。
- 相關係數的平方,也稱作決定係數。決定係數=1時,相關係數為正負1,是最強的相關關係,
散佈圖上的所有點都排列在同一條直線上,殘差為0。
- (1-決定係數)是以比值的形式表示「將迴歸直線模型納入考慮時,以估計值yi為中心之殘差的
分散程度」比「未將迴歸直線模型納入考慮時,原始y的分散程度」小多少。
故決定細數本身可用來表示在套用迴歸模型後,分散程度縮小的程度。
- 舉例來說,若(1-決定係數)為0.2,就表示將模型納入考慮時之殘差分散程度,
是為將模型納入考慮時之原始y分散程度的20%。此時的決定係數為0.8,故在代入模型之後,
可減少80%的分散程度。在統計學中,我們會說「這個迴歸直線模型可解釋80%的y變異數」。
也又是說,y之所以會出現變異,80%的原因是「來自於這條直線」。
- 當決定係數=1,也就是散佈圖上的點完全位於一條直線上時,這條直線可減少100%的變異數,
殘差=0,即資料的分散情形100%可由線性單迴歸解釋。
- 上圖中,(a)是相關係數為0.5時的散佈圖,(b)是相關係數為0.7時的散佈圖。
如圖所示,相關係數為0.5時,根本稱不上是中等程度的相關,而是幾乎找不到相關係數。
這是因為當相關係數=0.5時,決定係數=0.25。也就是說套入迴歸直線這個模型後所減少的變異數,
或者說模型可解釋的變異數只佔了25%,原始y的變異數還有75%仍殘留在迴歸直線的殘差中。
而當相關係數為0.7時,決定係數為其平方,也就是0.49,大約等於0.5,
故其回歸直線可解釋約一半的變異數。如圖所示,相關係數為0.7時,
比較接近所謂「中等程度的正相關」的概念。
第十章 隨機變數與機率分配模型
10.1 隨機變數的概念
- 資料的平均 = (組別值x相對次數)的總和
- 資料的變異數 = [(組別值-平均)^2 x 相對次數]的總和
10.2 機率分配模型與常態分配、中央極限定理
10.2.2 常態分配模型與中央極限定理
- 中央極限定理的意思就是「若某個隨機變數是無數個彼此獨立之隨機變數的平均,
那麼這個隨機變數所服從的機率分布,就會是一個常態分佈」。
10.2.3 常態分配模型的性質
- 上圖左方的直方圖中,灰色部分的長條面積表示隨機變數的數值落在「某個範圍」內的機率。
當把組距切得非常小,使值方圖看不到一個個長條時,灰色部分得面積仍代表同樣的機率。
這種看不到長條得直方圖所表示的機率分布,稱作「連續型機率分布」,
而直方圖的每個長條上緣連起來的曲線,則稱作「機率密度函數」。
- 常態分布有以下這個很重要的性質:若隨機變數X服從期望值為μ,
變異數為σ^2的常態分配N(μ,σ^2),那麼隨機變數X-μ/σ服從常態分布N(0,1)。
- 如上圖,所謂的隨機變數X-μ/σ,是將隨機變數X的每一個可能數值接減去μ再除以σ後,
得到的一個新的隨機變數。要注意的是,若隨機變數的期望值為μ,變異值為σ^2,
那麼,就算原本的隨機變數X不是常態分布,X-μ/σ的期望值也會是0,變異數也會是1。
- 常態分布的性質1:若隨機變數X服從常態分布,那麼,轉換後的隨機變數X-μ/σ會服從期望值為0,
變異數為1的常態分布。
- 期望值為0,變異數為1的常態分布,也就是N(0,1)也稱作標準常態分布。
第三部 統計學進階篇
第十二章 區間估計與檢定
12.1 區間估計
12.1.1 什麼是區間估計
- 常態分配的性質2:從服從常態分布N(μ,σ^2)之母體隨機抽出樣本X1,...,Xn,
則樣本平均會服從常態分布N(μ,σ^2/n)。
- 常態分布的這個性值一般稱作「機率分布的再現性」。
更為基本的描述是「當彼此獨立的兩個隨機變數皆服從常態分布時,
這兩個隨機變數的和也會服從常態分布」。
12.1.2 常態分配與區間估計
- 不偏變異數是經過調整,使其期望值與母體變異數相等的變異數。
「不偏」就是「沒有偏離」的意思。隨然不偏變異數有時會比母體變異數大,
有時會比母體變異數小,但較大和較小的機會是「平等」的。
不會發生每次算出的不偏變異數都比母體變異數大,或都比母體變異數小之類的事。
12.2 不偏變異數、t分配與區間估計
12.2.2 t分配與區間估計
- t統計量會服從的機率分配並不是標準常態分布,而是自由度為n-1的t分配(Student's t 分配),
可寫作t(n-1)。t分布的機率密度函數與標準常態分布相當相似,
圖形以t=0為中心左右對稱。
12.3 檢定是「在某條件下的審判」
- 型二錯誤:虛無假說實際上是錯的,實驗者卻在計算抽樣資料之後,得到「不拒絕」虛無假說的結論。型二錯誤又稱為「固步自封的錯誤」。
型二錯誤的機率有時會以β來表示。
- 即使虛無假說為真,當我們在顯著水準為5%的情況下進行多次假說檢定時,
會有5%的檢定犯下型一錯誤,拒絕了不應拒絕的虛無假說,接受了不應接受的對立假說。
型一錯誤又被稱為「杞人憂天的錯誤」。型一錯誤(=顯著水準)有時會以α來表示。
沒有留言:
張貼留言