2021年2月5日 星期五

常識統計學

常識統計學:拆穿混淆的假設、揪出偏差的數據、識破扭曲的結論


第一章 模式、模式、模式

- 一種獲得統計顯著性的方法是利用資料發現理論。
統計檢驗的假設是,研究人員首先提出一種理論,然後蒐集資料,以驗證理論,
然後彙報結果--這種結果可能具有統計顯著性,也可能不具顯著性。
許多人倒過來做,他們仔細研究資料,從中發現某種模式,然後編造出符合這種模式的理論。
在資料中搜尋模式的過程令人愉快,而且激勵人心,就現玩數獨或者解決神秘謀殺案一樣。
這些人從各個角度考察數據,分成性別、年齡和種族等類別,捨棄干擾模式的數據,
尋找任何有趣的現象,當他們發現某種模式時,他們開始思考其中的原因。
- 我們如何區分正確理論與胡謅?有兩種良方:常識新數據
- 當你搜刮資料、編造理論時,用同份資料檢驗理論是不明智的。
既然你編造這種理論是為了迎合資料,那麼這些資料當然會支持這種理論!
要檢驗就應當用不受資料採集污染的新資料

【缺乏思考的計算】
- 人口隨時間增長,許多人類活動也是如此,包括看電視的人數、吃橘子的人數以及死亡人數。
這些資料是不相關的,但它們存在統計相關性,因為它們都會隨著人口的增長而增長。
看電視並不會導致我們吃橘子,吃橘子也不會導致死亡。
在統計學中,相關性並不是因果關係的代名詞。
不管兩種事物的關係多麼密切,在做出判斷之前,我們都需要一種合理的解釋。

第二章 不再神奇的超級暢銷書

- 藉觀察人們的行為、蒐集而來的「觀測性資料」中,自我選擇偏誤非常普遍。
人們可以選擇自己的行為,因此他們的選擇也許反映了自身的特點。要想避免這種自我選擇偏誤,
可以進行對照實驗,即將人們隨機分配到不同小組裡,然後告訴他們應該怎麼做。

【具有誤導性的資料】
- 當我們比較出不同選擇的人,同時不去考慮他們為什麼做出這些選擇時,就會出現自我選擇偏誤
一些學生之所以選擇畢業率較低大學,可能是因為他們不太可能從其他大學畢業。選擇上大學的學生可能比選擇不上大學的學生更聰明,更有動力。
如果消除選擇因素,我們的結論可能更有說服力。比如學生被隨機分配到不同的大學或者被隨機推向社會。幸運的是,科學家不能為了蒐集資料、發表研究論文而毀掉人們的生活。遺憾的是,我們需要對那些可能存在自我選擇偏誤的資料保持警惕
為我們觀察到的現象尋找理論,另一個常見問題是倖存者偏差,因為我們無法看到不復存在的事物,對於老年人的研究不會包含中年去世的人。考察結束轟炸任務的飛機,當中不包含被擊落的飛機。對於入住某些酒店、搭乘某些航班或者訪問某些國家的人群的調查,不包含有過一次經歷、以後也不來的人。整理偉大公司的共同特點,不會包含擁有這些特點但不那麼成功、甚至已經破產的公司。
如果我們在觀察資料之前,列舉出我們認為重要的因素,並且找出擁有這些特點和沒有這些特點的公司,然後再去查看實驗結果,我們的結論將會更有說服力。

第三章 被誤傳的謀殺之都
- 當基數很小時,一個統計意外能產生巨大的影響
- 確認偏誤(Confirmation Bias)

第七章 辛普森悖論

- 之所以存在辛普森悖論,是因為某種干擾因素對群集數據產生了影響。
不過,這並不意味著分解資料永遠優於群集數據。
- 阿拉斯加航空公司在五個主要競爭機場中,都擁有優於另一家航空公司的準點飛行紀錄,但其總體準點紀錄則不如競爭對手,為什麼?因為阿拉斯加航空擁有許多非往西雅圖的航班,而西雅圖的天氣問題經常導致飛機延誤。
在每個年齡群體中,瑞典的女性死亡率都要低於哥斯達黎加,但瑞典擁有更高的女性總體死亡率,為什麼?因為瑞典擁有更多的老年女性(老年人擁有相對較高的死亡率)。
一項醫學研究發現,一種手術對於小型和大型腎結石的治療成功率,均高於另一種手術,但其總體成功率卻不如另一種手術,為什麼?因為它經常用於治療大型腎結石(大型腎結石治療成功率相對較低)。
- 群集數據可以更加準確地衡量誰是更好的打者。在其他一些情形中,干擾因素是真實的,忽略它們是一種危險作法。
- 當你聽到某種令人困惑的(甚至合理的)論斷時,應當考慮是否存在干擾因素
- 缺乏理論的資料僅僅是資料而已,缺乏資料的理論僅僅是理論而已。

第九章 勝者的詛咒

- 凱因斯經典論文<就業、利息和貨幣通論>(The General Theory of Employment,Interest and Money),顛覆了經濟理論。
這篇論文創造了一個全新的經濟學分支,叫做宏觀經濟學

第十一章  德州神槍手

- 資料群集現象無處不在,甚至存在於雜亂的數據之中。想要尋找某種解釋的人一定會找到一種解釋。不過,某種理論與資料群集現象相符並非具有說服力的證據。
人們發現的解釋需要言之有理,而且需要得到新資料的驗證
-  向足夠多的目標發射足夠多的子彈的人,一定會擊中某個目標。
檢驗數百種理論的人,一定會發現支持至少一種理論的證據。
這種證據不具有說服力,除非理論是合理的,而且能夠得到新資料的證實。

2021年2月2日 星期二

AI必修課:日本情感研究權威的人工智慧秒懂攻略

 AI必修課:日本情感研究權威的人工智慧秒懂攻略

第二章 人工智慧擅長與不擅長處理的事

- 聲音辨識系統會使用兩種技術以防止雜音造成錯誤判斷,一種是判斷人類說話時間區段的技術(聲音檢出),另一種則是去除混入雜音的技術(雜音去除)。

- 用比較專業的術語來講,聲音辨識是將輸入的訊號轉換成聲音特徵向量(將聲音的各種特徵數值化後的資料),再從一系列的聲音特徵向量推敲出對應的單字。

- 過去將聲音轉換成正確文字的過程可分為兩種模型,分別是「聲音模型」與「語音模型」。

- 聲音轉換成文字的過程是先分頭進行再匯合出結果。「聲音模型」就像是聲音的單字辭典,「語音模型」則是由上下文預測是那些單字組成。

- 隱馬可夫模型(HMM,Hidden Markov Model)

- 利用聲音模型或語言模型分別進行處理,想要正確預測出後面的單字仍有其極限。

- 語意網路(Semantic Network)在人工智慧發展初期便是著名的研究。

- 單字與其意義並不是任意存放在大腦記憶中,而是以聯想串聯起各單字所代表的概念,並將其意義相近的單字一起記憶下來。

- 潛在語意分析(LSA,latent semantic analysis)

第三章 人工智慧如何從資訊中學習?

- 機器學習大致上可以分為「監督式學習」、「非監督式學習」、「強化學習」等三種。

- 卷積式類神經網路(CNN,Convolutional Neural Network):CNN所使用的是誤差反向傳播法來調整權重,完成學習過程。

--卷積層(convolution layer)

--池化層(pooling layer)

--局部比對正規化層(LCN,local contract normalization)

--鏈結層(fullyconnected layer)

- 遞迴式類神經網路(RNN,Recurrent Neural Network):RNN是一種在聲音、語言、影片等序列式的資料處理上具有優勢的類神經網路。

- 波爾茲曼機

- AI三大家:深度學習的「類神經網路」、專家系統、遺傳演算法。

- 遺傳演算法(GA,Genetic Algorithm):GA常被應用在遊戲、股票交易、飛行路徑最佳化、飛機機翼大小最佳化等領域中。