ShuoCherng: 5月 2020

2020年5月31日星期日

文科生也看得懂的工作用統計學

文科生也看得懂的工作用統計學

第一章欲速則速！一口氣讀完統計學！
- 統計學可大致分成敘述統計學、推論統計學、貝氏統計學三大類。
還有一種多變量分析，用於處理兩個以上的變量。

- 傳統統計(頻率論)用於可預測發生頻率的事例。
反過來說，當資料很少甚或原本就沒有資料時，就很難預估。
相對地，貝氏統計學就算樣本資料很少，也可以估計，說得極端一點，
連一次都不曾發生過的事件，都可以估計其發生機率，這就是貝氏統計的特徵。
- 貝氏統計學的另一優點，就在於有新資料增加時，推論的機率也會隨之改變(精度更高)。
這個優點稱為貝氏修正。

第四章體驗常態分配
- 樣本平均數的分配已知特徵
1.樣本平均數的分配的平均數和母體平均數一致。
2.樣本平均數的分配的變異數為σ^2/n(σ為母體標準差)
3.不論母體分配為何，樣本數越大，「樣本平均數的分配」越趨近常態分配。

2020年5月25日星期一

擺脫挫折的統計學入門

擺脫挫折的統計學入門

第二部統計學基礎篇
第八章相關、迴歸、決定係數
8.2 迴歸分析
- 藉由迴歸分析可以瞭解某個變量會如何影響另一個變量。
- 由x決定y的關係，在統計學中稱作「以x解釋y」，x稱作解釋變數，y稱作被解釋變數，
而這種關係稱作y對x做迴歸。
8.3 決定係數：可以決定什麼呢？
- 殘差是實際值與迴歸直線上之估計值的落差。

- 相關係數的平方，也稱作決定係數。決定係數=1時，相關係數為正負1，是最強的相關關係，
散佈圖上的所有點都排列在同一條直線上，殘差為0。

- (1-決定係數)是以比值的形式表示「將迴歸直線模型納入考慮時，以估計值yi為中心之殘差的
分散程度」比「未將迴歸直線模型納入考慮時，原始y的分散程度」小多少。
故決定細數本身可用來表示在套用迴歸模型後，分散程度縮小的程度。
- 舉例來說，若(1-決定係數)為0.2，就表示將模型納入考慮時之殘差分散程度，
是為將模型納入考慮時之原始y分散程度的20%。此時的決定係數為0.8，故在代入模型之後，
可減少80%的分散程度。在統計學中，我們會說「這個迴歸直線模型可解釋80%的y變異數」。
也又是說，y之所以會出現變異，80%的原因是「來自於這條直線」。
- 當決定係數=1，也就是散佈圖上的點完全位於一條直線上時，這條直線可減少100%的變異數，
殘差=0，即資料的分散情形100%可由線性單迴歸解釋。

- 上圖中，(a)是相關係數為0.5時的散佈圖，(b)是相關係數為0.7時的散佈圖。
如圖所示，相關係數為0.5時，根本稱不上是中等程度的相關，而是幾乎找不到相關係數。
這是因為當相關係數=0.5時，決定係數=0.25。也就是說套入迴歸直線這個模型後所減少的變異數，
或者說模型可解釋的變異數只佔了25%，原始y的變異數還有75%仍殘留在迴歸直線的殘差中。
而當相關係數為0.7時，決定係數為其平方，也就是0.49，大約等於0.5，
故其回歸直線可解釋約一半的變異數。如圖所示，相關係數為0.7時，
比較接近所謂「中等程度的正相關」的概念。

第十章隨機變數與機率分配模型
10.1 隨機變數的概念

- 資料的平均 = (組別值x相對次數)的總和
- 資料的變異數 = [(組別值-平均)^2 x 相對次數]的總和
10.2 機率分配模型與常態分配、中央極限定理
10.2.2 常態分配模型與中央極限定理
- 中央極限定理的意思就是「若某個隨機變數是無數個彼此獨立之隨機變數的平均，
那麼這個隨機變數所服從的機率分布，就會是一個常態分佈」。
10.2.3 常態分配模型的性質

- 上圖左方的直方圖中，灰色部分的長條面積表示隨機變數的數值落在「某個範圍」內的機率。
當把組距切得非常小，使值方圖看不到一個個長條時，灰色部分得面積仍代表同樣的機率。
這種看不到長條得直方圖所表示的機率分布，稱作「連續型機率分布」，
而直方圖的每個長條上緣連起來的曲線，則稱作「機率密度函數」。
- 常態分布有以下這個很重要的性質：若隨機變數X服從期望值為μ，
變異數為σ^2的常態分配N(μ,σ^2)，那麼隨機變數X-μ/σ服從常態分布N(0,1)。

- 如上圖，所謂的隨機變數X-μ/σ，是將隨機變數X的每一個可能數值接減去μ再除以σ後，
得到的一個新的隨機變數。要注意的是，若隨機變數的期望值為μ，變異值為σ^2，
那麼，就算原本的隨機變數X不是常態分布，X-μ/σ的期望值也會是0，變異數也會是1。
- 常態分布的性質1：若隨機變數X服從常態分布，那麼，轉換後的隨機變數X-μ/σ會服從期望值為0，
變異數為1的常態分布。
- 期望值為0，變異數為1的常態分布，也就是N(0,1)也稱作標準常態分布。

第三部統計學進階篇
第十二章區間估計與檢定
12.1 區間估計
12.1.1 什麼是區間估計
- 常態分配的性質2：從服從常態分布N(μ,σ^2)之母體隨機抽出樣本X1,...,Xn，
則樣本平均會服從常態分布N(μ,σ^2/n)。
- 常態分布的這個性值一般稱作「機率分布的再現性」。
更為基本的描述是「當彼此獨立的兩個隨機變數皆服從常態分布時，
這兩個隨機變數的和也會服從常態分布」。
12.1.2 常態分配與區間估計
- 不偏變異數是經過調整，使其期望值與母體變異數相等的變異數。
「不偏」就是「沒有偏離」的意思。隨然不偏變異數有時會比母體變異數大，
有時會比母體變異數小，但較大和較小的機會是「平等」的。
不會發生每次算出的不偏變異數都比母體變異數大，或都比母體變異數小之類的事。
12.2 不偏變異數、t分配與區間估計
12.2.2 t分配與區間估計
- t統計量會服從的機率分配並不是標準常態分布，而是自由度為n-1的t分配(Student's t 分配)，
可寫作t(n-1)。t分布的機率密度函數與標準常態分布相當相似，
圖形以t=0為中心左右對稱。

12.3 檢定是「在某條件下的審判」
- 型二錯誤：虛無假說實際上是錯的，實驗者卻在計算抽樣資料之後，得到「不拒絕」虛無假說的結論。型二錯誤又稱為「固步自封的錯誤」。
型二錯誤的機率有時會以β來表示。
- 即使虛無假說為真，當我們在顯著水準為5%的情況下進行多次假說檢定時，
會有5%的檢定犯下型一錯誤，拒絕了不應拒絕的虛無假說，接受了不應接受的對立假說。
型一錯誤又被稱為「杞人憂天的錯誤」。型一錯誤(=顯著水準)有時會以α來表示。

2020年5月12日星期二

世界第一簡單統計學(因素分析篇)

世界第一簡單統計學(因素分析篇)
第1章問卷的基礎知識
- 隨機抽樣法：單純隨機抽樣法、分層隨機抽樣法、兩段隨機抽樣法、分層兩段隨機抽樣法。
- 非隨機抽樣法：介紹法、應徵法、街頭訪問。
- 數據分析的方法：探索型數據分析、驗證型數據分析。
第4章主成份分析
- 主成份分析的過程
Step1.求主成份和主成份得分
Step2.確認分析結果的精確度
-- 可以利用「累計貢獻率」判斷主成份分析的結果好不好。
-- 第i主成份的貢獻率大致代表「該主成份涵蓋了多少分析數據所含的資訊」。
Step3.研究分析結果
第5章因素分析

- 因素分析的注意事項
1.主成份分析的每個主成份有這些意義：第一主成份代表綜合能力。
其他主成份和分析者的意圖無關，是(以數學規則)自動求得的數值。
；而因素分析的共同因素並沒有這些既定的意義。
總之先分析，分析者「事後」才「主觀地」解釋每個共同因素的意義。
2.主成份分析有「第一主成份」和「其他主成份」的順序；
因素分析不一樣，每個共通因素都是平等的。
3.麻煩的是分析者必須在分析「之前」設定共同因素的各數，才能進行因素分析的計算。
6.其他因素也稱為獨特因素

7.計算因素分析時，通常針對每個變數把分析的數據標準化之後才計算。
8.以算式和簡圖表示因素分析的結構。

10.因素分析並不是為了找出共同因素的分析方法。而是確認「因素負荷量」數值的分析方法。
- 因素分析的步驟如下：
Step1.求旋轉前的因素負荷量
-- 因素負荷量有很多種計算方法，例如「主因素法」和
「最大概似估計法」(Maximum likelihood estimation,MLE)
-- 假設「任意共同因素之間的單相關係數為0」這種想法稱為「直交因素模型」(orthogonal)。
不採取這種假設的想法稱為「斜交因素模型」(oblique)。
-- 以往基於「比較容易計算」，通常採取直交因素模型，不過，現在因為：
電腦性能提升、就常理判斷，「任意共同因素之間的單相關係數為0」
這種直交因素模型的假設並無法實現。分析時慢慢改用斜交因素模型。

Step2.求旋轉後的因素負荷量
-- 旋轉有很多種，大致可以分為「直交旋轉」和「斜交旋轉」。
直交旋轉：
最大變異轉軸法(Varimax)有兩種分別是「原始最大變異轉軸法」(Varimax raw)、
「標準化最大變異轉軸法」(Varimax normalized)
四次方最大值法(Quartimax)
雙重四次方最大值(Biquartimax)
斜交旋轉：
Promax轉軸法
四次方最小值法(Quartimin)
雙重四次方最小值(Biquartimin)
共變數最小法(Covarimin)
Step3.解釋每個共同因素的意義
Step4.確定分析結果的準確度
Step5.求因素得分，掌握每個個體的特徵
- 最大概似估計法，因素負荷量著名計算除了之前介紹的主因素法之外，還有最大概似估計法。
- Promax轉軸法步驟如下：
Step1.以最大變異轉軸法旋轉
Step2.猜測「根據以往的經驗，母群體一定是這個模樣」，也就是推測
「真正的因素負荷量矩陣」，這個矩陣通常為目標矩陣。
Step3.轉軸(1)的軸，盡量接近(2)推測的目標矩陣
- 時代的潮流已經由「主因素法+最大變異轉軸法」轉向「最大概似估計法+Promax轉軸法」。
- 主因素法和最大概似估計法不同，沒有「母群體必須符合多變量常態分析」這麼嚴格的限制

附錄各種分析方法
- 多變量分析：重迴歸分析、Logistic迴歸分析、群落分析、對應分析與數量化三類、
結構方程式模型(Structural Equation Modeling,SEM)
- 其他﹕統計的假設檢定：
母平均差的檢定(也就是「t檢定」)
例如：推測「東京男性上班族每個月零用錢的平均金額」和
「大阪男性上班族每個月零用錢的平均金額」是否相同
、獨立性檢定(也就是「卡方檢定」)
例如：推測母群體的「學校」和「最喜歡的藝人」的Cramer關聯係數是否為0，
也就是彼此是否相關。、母比率差的檢定、母變異數比的檢定、Wilcoxon檢定
、Kaplan-Meier分析法：是推算存活率的方法。

2020年5月31日 星期日