文科生也看得懂的工作用統計學
第一章 欲速則速!一口氣讀完統計學!
- 統計學可大致分成敘述統計學、推論統計學、貝氏統計學三大類。
還有一種多變量分析,用於處理兩個以上的變量。
- 傳統統計(頻率論)用於可預測發生頻率的事例。
反過來說,當資料很少甚或原本就沒有資料時,就很難預估。
相對地,貝氏統計學就算樣本資料很少,也可以估計,說得極端一點,
連一次都不曾發生過的事件,都可以估計其發生機率,這就是貝氏統計的特徵。
- 貝氏統計學的另一優點,就在於有新資料增加時,推論的機率也會隨之改變(精度更高)。
這個優點稱為貝氏修正。
第四章 體驗常態分配
- 樣本平均數的分配已知特徵
1.樣本平均數的分配的平均數和母體平均數一致。
2.樣本平均數的分配的變異數為σ^2/n(σ為母體標準差)
3.不論母體分配為何,樣本數越大,「樣本平均數的分配」越趨近常態分配。
2020年5月31日 星期日
2020年5月25日 星期一
擺脫挫折的統計學入門
擺脫挫折的統計學入門
第二部 統計學基礎篇
第八章 相關、迴歸、決定係數
8.2 迴歸分析
- 藉由迴歸分析可以瞭解某個變量會如何影響另一個變量。
- 由x決定y的關係,在統計學中稱作「以x解釋y」,x稱作解釋變數,y稱作被解釋變數,
而這種關係稱作y對x做迴歸。
8.3 決定係數:可以決定什麼呢?
- 殘差是實際值與迴歸直線上之估計值的落差。
- 相關係數的平方,也稱作決定係數。決定係數=1時,相關係數為正負1,是最強的相關關係,
散佈圖上的所有點都排列在同一條直線上,殘差為0。
- (1-決定係數)是以比值的形式表示「將迴歸直線模型納入考慮時,以估計值yi為中心之殘差的
分散程度」比「未將迴歸直線模型納入考慮時,原始y的分散程度」小多少。
故決定細數本身可用來表示在套用迴歸模型後,分散程度縮小的程度。
- 舉例來說,若(1-決定係數)為0.2,就表示將模型納入考慮時之殘差分散程度,
是為將模型納入考慮時之原始y分散程度的20%。此時的決定係數為0.8,故在代入模型之後,
可減少80%的分散程度。在統計學中,我們會說「這個迴歸直線模型可解釋80%的y變異數」。
也又是說,y之所以會出現變異,80%的原因是「來自於這條直線」。
- 當決定係數=1,也就是散佈圖上的點完全位於一條直線上時,這條直線可減少100%的變異數,
殘差=0,即資料的分散情形100%可由線性單迴歸解釋。
- 上圖中,(a)是相關係數為0.5時的散佈圖,(b)是相關係數為0.7時的散佈圖。
如圖所示,相關係數為0.5時,根本稱不上是中等程度的相關,而是幾乎找不到相關係數。
這是因為當相關係數=0.5時,決定係數=0.25。也就是說套入迴歸直線這個模型後所減少的變異數,
或者說模型可解釋的變異數只佔了25%,原始y的變異數還有75%仍殘留在迴歸直線的殘差中。
而當相關係數為0.7時,決定係數為其平方,也就是0.49,大約等於0.5,
故其回歸直線可解釋約一半的變異數。如圖所示,相關係數為0.7時,
比較接近所謂「中等程度的正相關」的概念。
第十章 隨機變數與機率分配模型
10.1 隨機變數的概念
- 資料的平均 = (組別值x相對次數)的總和
- 資料的變異數 = [(組別值-平均)^2 x 相對次數]的總和
10.2 機率分配模型與常態分配、中央極限定理
10.2.2 常態分配模型與中央極限定理
- 中央極限定理的意思就是「若某個隨機變數是無數個彼此獨立之隨機變數的平均,
那麼這個隨機變數所服從的機率分布,就會是一個常態分佈」。
10.2.3 常態分配模型的性質
- 上圖左方的直方圖中,灰色部分的長條面積表示隨機變數的數值落在「某個範圍」內的機率。
當把組距切得非常小,使值方圖看不到一個個長條時,灰色部分得面積仍代表同樣的機率。
這種看不到長條得直方圖所表示的機率分布,稱作「連續型機率分布」,
而直方圖的每個長條上緣連起來的曲線,則稱作「機率密度函數」。
- 常態分布有以下這個很重要的性質:若隨機變數X服從期望值為μ,
變異數為σ^2的常態分配N(μ,σ^2),那麼隨機變數X-μ/σ服從常態分布N(0,1)。
- 如上圖,所謂的隨機變數X-μ/σ,是將隨機變數X的每一個可能數值接減去μ再除以σ後,
得到的一個新的隨機變數。要注意的是,若隨機變數的期望值為μ,變異值為σ^2,
那麼,就算原本的隨機變數X不是常態分布,X-μ/σ的期望值也會是0,變異數也會是1。
- 常態分布的性質1:若隨機變數X服從常態分布,那麼,轉換後的隨機變數X-μ/σ會服從期望值為0,
變異數為1的常態分布。
- 期望值為0,變異數為1的常態分布,也就是N(0,1)也稱作標準常態分布。
第三部 統計學進階篇
第十二章 區間估計與檢定
12.1 區間估計
12.1.1 什麼是區間估計
- 常態分配的性質2:從服從常態分布N(μ,σ^2)之母體隨機抽出樣本X1,...,Xn,
則樣本平均會服從常態分布N(μ,σ^2/n)。
- 常態分布的這個性值一般稱作「機率分布的再現性」。
更為基本的描述是「當彼此獨立的兩個隨機變數皆服從常態分布時,
這兩個隨機變數的和也會服從常態分布」。
12.1.2 常態分配與區間估計
- 不偏變異數是經過調整,使其期望值與母體變異數相等的變異數。
「不偏」就是「沒有偏離」的意思。隨然不偏變異數有時會比母體變異數大,
有時會比母體變異數小,但較大和較小的機會是「平等」的。
不會發生每次算出的不偏變異數都比母體變異數大,或都比母體變異數小之類的事。
12.2 不偏變異數、t分配與區間估計
12.2.2 t分配與區間估計
- t統計量會服從的機率分配並不是標準常態分布,而是自由度為n-1的t分配(Student's t 分配),
可寫作t(n-1)。t分布的機率密度函數與標準常態分布相當相似,
圖形以t=0為中心左右對稱。
12.3 檢定是「在某條件下的審判」
- 型二錯誤:虛無假說實際上是錯的,實驗者卻在計算抽樣資料之後,得到「不拒絕」虛無假說的結論。型二錯誤又稱為「固步自封的錯誤」。
型二錯誤的機率有時會以β來表示。
- 即使虛無假說為真,當我們在顯著水準為5%的情況下進行多次假說檢定時,
會有5%的檢定犯下型一錯誤,拒絕了不應拒絕的虛無假說,接受了不應接受的對立假說。
型一錯誤又被稱為「杞人憂天的錯誤」。型一錯誤(=顯著水準)有時會以α來表示。
第二部 統計學基礎篇
第八章 相關、迴歸、決定係數
8.2 迴歸分析
- 藉由迴歸分析可以瞭解某個變量會如何影響另一個變量。
- 由x決定y的關係,在統計學中稱作「以x解釋y」,x稱作解釋變數,y稱作被解釋變數,
而這種關係稱作y對x做迴歸。
8.3 決定係數:可以決定什麼呢?
- 殘差是實際值與迴歸直線上之估計值的落差。
- 相關係數的平方,也稱作決定係數。決定係數=1時,相關係數為正負1,是最強的相關關係,
散佈圖上的所有點都排列在同一條直線上,殘差為0。
- (1-決定係數)是以比值的形式表示「將迴歸直線模型納入考慮時,以估計值yi為中心之殘差的
分散程度」比「未將迴歸直線模型納入考慮時,原始y的分散程度」小多少。
故決定細數本身可用來表示在套用迴歸模型後,分散程度縮小的程度。
- 舉例來說,若(1-決定係數)為0.2,就表示將模型納入考慮時之殘差分散程度,
是為將模型納入考慮時之原始y分散程度的20%。此時的決定係數為0.8,故在代入模型之後,
可減少80%的分散程度。在統計學中,我們會說「這個迴歸直線模型可解釋80%的y變異數」。
也又是說,y之所以會出現變異,80%的原因是「來自於這條直線」。
- 當決定係數=1,也就是散佈圖上的點完全位於一條直線上時,這條直線可減少100%的變異數,
殘差=0,即資料的分散情形100%可由線性單迴歸解釋。
- 上圖中,(a)是相關係數為0.5時的散佈圖,(b)是相關係數為0.7時的散佈圖。
如圖所示,相關係數為0.5時,根本稱不上是中等程度的相關,而是幾乎找不到相關係數。
這是因為當相關係數=0.5時,決定係數=0.25。也就是說套入迴歸直線這個模型後所減少的變異數,
或者說模型可解釋的變異數只佔了25%,原始y的變異數還有75%仍殘留在迴歸直線的殘差中。
而當相關係數為0.7時,決定係數為其平方,也就是0.49,大約等於0.5,
故其回歸直線可解釋約一半的變異數。如圖所示,相關係數為0.7時,
比較接近所謂「中等程度的正相關」的概念。
第十章 隨機變數與機率分配模型
10.1 隨機變數的概念
- 資料的平均 = (組別值x相對次數)的總和
- 資料的變異數 = [(組別值-平均)^2 x 相對次數]的總和
10.2 機率分配模型與常態分配、中央極限定理
10.2.2 常態分配模型與中央極限定理
- 中央極限定理的意思就是「若某個隨機變數是無數個彼此獨立之隨機變數的平均,
那麼這個隨機變數所服從的機率分布,就會是一個常態分佈」。
10.2.3 常態分配模型的性質
- 上圖左方的直方圖中,灰色部分的長條面積表示隨機變數的數值落在「某個範圍」內的機率。
當把組距切得非常小,使值方圖看不到一個個長條時,灰色部分得面積仍代表同樣的機率。
這種看不到長條得直方圖所表示的機率分布,稱作「連續型機率分布」,
而直方圖的每個長條上緣連起來的曲線,則稱作「機率密度函數」。
- 常態分布有以下這個很重要的性質:若隨機變數X服從期望值為μ,
變異數為σ^2的常態分配N(μ,σ^2),那麼隨機變數X-μ/σ服從常態分布N(0,1)。
- 如上圖,所謂的隨機變數X-μ/σ,是將隨機變數X的每一個可能數值接減去μ再除以σ後,
得到的一個新的隨機變數。要注意的是,若隨機變數的期望值為μ,變異值為σ^2,
那麼,就算原本的隨機變數X不是常態分布,X-μ/σ的期望值也會是0,變異數也會是1。
- 常態分布的性質1:若隨機變數X服從常態分布,那麼,轉換後的隨機變數X-μ/σ會服從期望值為0,
變異數為1的常態分布。
- 期望值為0,變異數為1的常態分布,也就是N(0,1)也稱作標準常態分布。
第三部 統計學進階篇
第十二章 區間估計與檢定
12.1 區間估計
12.1.1 什麼是區間估計
- 常態分配的性質2:從服從常態分布N(μ,σ^2)之母體隨機抽出樣本X1,...,Xn,
則樣本平均會服從常態分布N(μ,σ^2/n)。
- 常態分布的這個性值一般稱作「機率分布的再現性」。
更為基本的描述是「當彼此獨立的兩個隨機變數皆服從常態分布時,
這兩個隨機變數的和也會服從常態分布」。
12.1.2 常態分配與區間估計
- 不偏變異數是經過調整,使其期望值與母體變異數相等的變異數。
「不偏」就是「沒有偏離」的意思。隨然不偏變異數有時會比母體變異數大,
有時會比母體變異數小,但較大和較小的機會是「平等」的。
不會發生每次算出的不偏變異數都比母體變異數大,或都比母體變異數小之類的事。
12.2 不偏變異數、t分配與區間估計
12.2.2 t分配與區間估計
- t統計量會服從的機率分配並不是標準常態分布,而是自由度為n-1的t分配(Student's t 分配),
可寫作t(n-1)。t分布的機率密度函數與標準常態分布相當相似,
圖形以t=0為中心左右對稱。
12.3 檢定是「在某條件下的審判」
- 型二錯誤:虛無假說實際上是錯的,實驗者卻在計算抽樣資料之後,得到「不拒絕」虛無假說的結論。型二錯誤又稱為「固步自封的錯誤」。
型二錯誤的機率有時會以β來表示。
- 即使虛無假說為真,當我們在顯著水準為5%的情況下進行多次假說檢定時,
會有5%的檢定犯下型一錯誤,拒絕了不應拒絕的虛無假說,接受了不應接受的對立假說。
型一錯誤又被稱為「杞人憂天的錯誤」。型一錯誤(=顯著水準)有時會以α來表示。
2020年5月12日 星期二
世界第一簡單統計學(因素分析篇)
世界第一簡單統計學(因素分析篇)
第1章 問卷的基礎知識
- 隨機抽樣法:單純隨機抽樣法、分層隨機抽樣法、兩段隨機抽樣法、分層兩段隨機抽樣法。
- 非隨機抽樣法:介紹法、應徵法、街頭訪問。
- 數據分析的方法:探索型數據分析、驗證型數據分析。
第4章 主成份分析
- 主成份分析的過程
Step1.求主成份和主成份得分
Step2.確認分析結果的精確度
-- 可以利用「累計貢獻率」判斷主成份分析的結果好不好。
-- 第i主成份的貢獻率大致代表「該主成份涵蓋了多少分析數據所含的資訊」。
Step3.研究分析結果
第5章 因素分析
- 因素分析的注意事項
1.主成份分析的每個主成份有這些意義:第一主成份代表綜合能力。
其他主成份和分析者的意圖無關,是(以數學規則)自動求得的數值。
;而因素分析的共同因素並沒有這些既定的意義。
總之先分析,分析者「事後」才「主觀地」解釋每個共同因素的意義。
2.主成份分析有「第一主成份」和「其他主成份」的順序;
因素分析不一樣,每個共通因素都是平等的。
3.麻煩的是分析者必須在分析「之前」設定共同因素的各數,才能進行因素分析的計算。
6.其他因素也稱為獨特因素
7.計算因素分析時,通常針對每個變數把分析的數據標準化之後才計算。
8.以算式和簡圖表示因素分析的結構。
10.因素分析並不是為了找出共同因素的分析方法。而是確認「因素負荷量」數值的分析方法。
- 因素分析的步驟如下:
Step1.求旋轉前的因素負荷量
-- 因素負荷量有很多種計算方法,例如「主因素法」和
「最大概似估計法」(Maximum likelihood estimation,MLE)
-- 假設「任意共同因素之間的單相關係數為0」這種想法稱為「直交因素模型」(orthogonal)。
不採取這種假設的想法稱為「斜交因素模型」(oblique)。
-- 以往基於「比較容易計算」,通常採取直交因素模型,不過,現在因為:
電腦性能提升、就常理判斷,「任意共同因素之間的單相關係數為0」
這種直交因素模型的假設並無法實現。分析時慢慢改用斜交因素模型。
Step2.求旋轉後的因素負荷量
-- 旋轉有很多種,大致可以分為「直交旋轉」和「斜交旋轉」。
直交旋轉:
最大變異轉軸法(Varimax)有兩種分別是「原始最大變異轉軸法」(Varimax raw)、
「標準化最大變異轉軸法」(Varimax normalized)
四次方最大值法(Quartimax)
雙重四次方最大值(Biquartimax)
斜交旋轉:
Promax轉軸法
四次方最小值法(Quartimin)
雙重四次方最小值(Biquartimin)
共變數最小法(Covarimin)
Step3.解釋每個共同因素的意義
Step4.確定分析結果的準確度
Step5.求因素得分,掌握每個個體的特徵
- 最大概似估計法,因素負荷量著名計算除了之前介紹的主因素法之外,還有最大概似估計法。
- Promax轉軸法步驟如下:
Step1.以最大變異轉軸法旋轉
Step2.猜測「根據以往的經驗,母群體一定是這個模樣」,也就是推測
「真正的因素負荷量矩陣」,這個矩陣通常為目標矩陣。
Step3.轉軸(1)的軸,盡量接近(2)推測的目標矩陣
- 時代的潮流已經由「主因素法+最大變異轉軸法」轉向「最大概似估計法+Promax轉軸法」。
- 主因素法和最大概似估計法不同,沒有「母群體必須符合多變量常態分析」這麼嚴格的限制
附錄 各種分析方法
- 多變量分析:重迴歸分析、Logistic迴歸分析、群落分析、對應分析與數量化三類、
結構方程式模型(Structural Equation Modeling,SEM)
- 其他﹕統計的假設檢定:
母平均差的檢定(也就是「t檢定」)
例如:推測「東京男性上班族每個月零用錢的平均金額」和
「大阪男性上班族每個月零用錢的平均金額」是否相同
、獨立性檢定(也就是「卡方檢定」)
例如:推測母群體的「學校」和「最喜歡的藝人」的Cramer關聯係數是否為0,
也就是彼此是否相關。、母比率差的檢定、母變異數比的檢定、Wilcoxon檢定
、Kaplan-Meier分析法:是推算存活率的方法。
第1章 問卷的基礎知識
- 隨機抽樣法:單純隨機抽樣法、分層隨機抽樣法、兩段隨機抽樣法、分層兩段隨機抽樣法。
- 非隨機抽樣法:介紹法、應徵法、街頭訪問。
- 數據分析的方法:探索型數據分析、驗證型數據分析。
第4章 主成份分析
- 主成份分析的過程
Step1.求主成份和主成份得分
Step2.確認分析結果的精確度
-- 可以利用「累計貢獻率」判斷主成份分析的結果好不好。
-- 第i主成份的貢獻率大致代表「該主成份涵蓋了多少分析數據所含的資訊」。
Step3.研究分析結果
第5章 因素分析
- 因素分析的注意事項
1.主成份分析的每個主成份有這些意義:第一主成份代表綜合能力。
其他主成份和分析者的意圖無關,是(以數學規則)自動求得的數值。
;而因素分析的共同因素並沒有這些既定的意義。
總之先分析,分析者「事後」才「主觀地」解釋每個共同因素的意義。
2.主成份分析有「第一主成份」和「其他主成份」的順序;
因素分析不一樣,每個共通因素都是平等的。
3.麻煩的是分析者必須在分析「之前」設定共同因素的各數,才能進行因素分析的計算。
6.其他因素也稱為獨特因素
7.計算因素分析時,通常針對每個變數把分析的數據標準化之後才計算。
8.以算式和簡圖表示因素分析的結構。
10.因素分析並不是為了找出共同因素的分析方法。而是確認「因素負荷量」數值的分析方法。
- 因素分析的步驟如下:
Step1.求旋轉前的因素負荷量
-- 因素負荷量有很多種計算方法,例如「主因素法」和
「最大概似估計法」(Maximum likelihood estimation,MLE)
-- 假設「任意共同因素之間的單相關係數為0」這種想法稱為「直交因素模型」(orthogonal)。
不採取這種假設的想法稱為「斜交因素模型」(oblique)。
-- 以往基於「比較容易計算」,通常採取直交因素模型,不過,現在因為:
電腦性能提升、就常理判斷,「任意共同因素之間的單相關係數為0」
這種直交因素模型的假設並無法實現。分析時慢慢改用斜交因素模型。
Step2.求旋轉後的因素負荷量
-- 旋轉有很多種,大致可以分為「直交旋轉」和「斜交旋轉」。
直交旋轉:
最大變異轉軸法(Varimax)有兩種分別是「原始最大變異轉軸法」(Varimax raw)、
「標準化最大變異轉軸法」(Varimax normalized)
四次方最大值法(Quartimax)
雙重四次方最大值(Biquartimax)
斜交旋轉:
Promax轉軸法
四次方最小值法(Quartimin)
雙重四次方最小值(Biquartimin)
共變數最小法(Covarimin)
Step3.解釋每個共同因素的意義
Step4.確定分析結果的準確度
Step5.求因素得分,掌握每個個體的特徵
- 最大概似估計法,因素負荷量著名計算除了之前介紹的主因素法之外,還有最大概似估計法。
- Promax轉軸法步驟如下:
Step1.以最大變異轉軸法旋轉
Step2.猜測「根據以往的經驗,母群體一定是這個模樣」,也就是推測
「真正的因素負荷量矩陣」,這個矩陣通常為目標矩陣。
Step3.轉軸(1)的軸,盡量接近(2)推測的目標矩陣
- 時代的潮流已經由「主因素法+最大變異轉軸法」轉向「最大概似估計法+Promax轉軸法」。
- 主因素法和最大概似估計法不同,沒有「母群體必須符合多變量常態分析」這麼嚴格的限制
附錄 各種分析方法
- 多變量分析:重迴歸分析、Logistic迴歸分析、群落分析、對應分析與數量化三類、
結構方程式模型(Structural Equation Modeling,SEM)
- 其他﹕統計的假設檢定:
母平均差的檢定(也就是「t檢定」)
例如:推測「東京男性上班族每個月零用錢的平均金額」和
「大阪男性上班族每個月零用錢的平均金額」是否相同
、獨立性檢定(也就是「卡方檢定」)
例如:推測母群體的「學校」和「最喜歡的藝人」的Cramer關聯係數是否為0,
也就是彼此是否相關。、母比率差的檢定、母變異數比的檢定、Wilcoxon檢定
、Kaplan-Meier分析法:是推算存活率的方法。
訂閱:
文章 (Atom)