2021年2月5日 星期五

常識統計學

常識統計學:拆穿混淆的假設、揪出偏差的數據、識破扭曲的結論


第一章 模式、模式、模式

- 一種獲得統計顯著性的方法是利用資料發現理論。
統計檢驗的假設是,研究人員首先提出一種理論,然後蒐集資料,以驗證理論,
然後彙報結果--這種結果可能具有統計顯著性,也可能不具顯著性。
許多人倒過來做,他們仔細研究資料,從中發現某種模式,然後編造出符合這種模式的理論。
在資料中搜尋模式的過程令人愉快,而且激勵人心,就現玩數獨或者解決神秘謀殺案一樣。
這些人從各個角度考察數據,分成性別、年齡和種族等類別,捨棄干擾模式的數據,
尋找任何有趣的現象,當他們發現某種模式時,他們開始思考其中的原因。
- 我們如何區分正確理論與胡謅?有兩種良方:常識新數據
- 當你搜刮資料、編造理論時,用同份資料檢驗理論是不明智的。
既然你編造這種理論是為了迎合資料,那麼這些資料當然會支持這種理論!
要檢驗就應當用不受資料採集污染的新資料

【缺乏思考的計算】
- 人口隨時間增長,許多人類活動也是如此,包括看電視的人數、吃橘子的人數以及死亡人數。
這些資料是不相關的,但它們存在統計相關性,因為它們都會隨著人口的增長而增長。
看電視並不會導致我們吃橘子,吃橘子也不會導致死亡。
在統計學中,相關性並不是因果關係的代名詞。
不管兩種事物的關係多麼密切,在做出判斷之前,我們都需要一種合理的解釋。

第二章 不再神奇的超級暢銷書

- 藉觀察人們的行為、蒐集而來的「觀測性資料」中,自我選擇偏誤非常普遍。
人們可以選擇自己的行為,因此他們的選擇也許反映了自身的特點。要想避免這種自我選擇偏誤,
可以進行對照實驗,即將人們隨機分配到不同小組裡,然後告訴他們應該怎麼做。

【具有誤導性的資料】
- 當我們比較出不同選擇的人,同時不去考慮他們為什麼做出這些選擇時,就會出現自我選擇偏誤
一些學生之所以選擇畢業率較低大學,可能是因為他們不太可能從其他大學畢業。選擇上大學的學生可能比選擇不上大學的學生更聰明,更有動力。
如果消除選擇因素,我們的結論可能更有說服力。比如學生被隨機分配到不同的大學或者被隨機推向社會。幸運的是,科學家不能為了蒐集資料、發表研究論文而毀掉人們的生活。遺憾的是,我們需要對那些可能存在自我選擇偏誤的資料保持警惕
為我們觀察到的現象尋找理論,另一個常見問題是倖存者偏差,因為我們無法看到不復存在的事物,對於老年人的研究不會包含中年去世的人。考察結束轟炸任務的飛機,當中不包含被擊落的飛機。對於入住某些酒店、搭乘某些航班或者訪問某些國家的人群的調查,不包含有過一次經歷、以後也不來的人。整理偉大公司的共同特點,不會包含擁有這些特點但不那麼成功、甚至已經破產的公司。
如果我們在觀察資料之前,列舉出我們認為重要的因素,並且找出擁有這些特點和沒有這些特點的公司,然後再去查看實驗結果,我們的結論將會更有說服力。

第三章 被誤傳的謀殺之都
- 當基數很小時,一個統計意外能產生巨大的影響
- 確認偏誤(Confirmation Bias)

第七章 辛普森悖論

- 之所以存在辛普森悖論,是因為某種干擾因素對群集數據產生了影響。
不過,這並不意味著分解資料永遠優於群集數據。
- 阿拉斯加航空公司在五個主要競爭機場中,都擁有優於另一家航空公司的準點飛行紀錄,但其總體準點紀錄則不如競爭對手,為什麼?因為阿拉斯加航空擁有許多非往西雅圖的航班,而西雅圖的天氣問題經常導致飛機延誤。
在每個年齡群體中,瑞典的女性死亡率都要低於哥斯達黎加,但瑞典擁有更高的女性總體死亡率,為什麼?因為瑞典擁有更多的老年女性(老年人擁有相對較高的死亡率)。
一項醫學研究發現,一種手術對於小型和大型腎結石的治療成功率,均高於另一種手術,但其總體成功率卻不如另一種手術,為什麼?因為它經常用於治療大型腎結石(大型腎結石治療成功率相對較低)。
- 群集數據可以更加準確地衡量誰是更好的打者。在其他一些情形中,干擾因素是真實的,忽略它們是一種危險作法。
- 當你聽到某種令人困惑的(甚至合理的)論斷時,應當考慮是否存在干擾因素
- 缺乏理論的資料僅僅是資料而已,缺乏資料的理論僅僅是理論而已。

第九章 勝者的詛咒

- 凱因斯經典論文<就業、利息和貨幣通論>(The General Theory of Employment,Interest and Money),顛覆了經濟理論。
這篇論文創造了一個全新的經濟學分支,叫做宏觀經濟學

第十一章  德州神槍手

- 資料群集現象無處不在,甚至存在於雜亂的數據之中。想要尋找某種解釋的人一定會找到一種解釋。不過,某種理論與資料群集現象相符並非具有說服力的證據。
人們發現的解釋需要言之有理,而且需要得到新資料的驗證
-  向足夠多的目標發射足夠多的子彈的人,一定會擊中某個目標。
檢驗數百種理論的人,一定會發現支持至少一種理論的證據。
這種證據不具有說服力,除非理論是合理的,而且能夠得到新資料的證實。

沒有留言:

張貼留言