2024年8月11日 星期日

雜訊:人類判斷的缺陷(上)

雜訊:人類判斷的缺陷
Daniel Kahneman, Olivier Sibony, Cass R. Sunstein

- 圖1:四個隊伍:B隊有偏誤(biased),因為這五發都沒射中靶心,而且都偏到同一個角落。
我們可以從這種偏誤的一致性得到這樣的預測:如果這個團隊中有人再射擊一次,
也會跟前五槍一樣落在同一個角落這種偏誤一致性也許有原因可循:該隊的步槍瞄準器可能歪掉了?

我們認為C隊有雜訊(noisy),因為彈著點很分散。由於彈著點幾乎都在靶心四周,所以沒有明顯錯誤。若是團隊中有人再射一槍,我們無法預測可能的落點。
因此,我們也無法從C隊的結果推想出任何有意思的假設。
我們只知道這一隊的人幾乎都是生手,但不知道為什麼這個隊伍的表現充滿雜訊。
- 場合雜訊(occasion noise)

第一部 尋找雜訊
03 單一決策
- 單一決策向來被視為與大型組織中可互相替代的人員經常做出的重複決策不同。
社會科學學者研究重複性決策,高風險的單一決策則是歷史學家和管理大師的研究範圍。
這兩種決策的研究方法截然不同。
重複決策的分析通常傾向利用統計學,社會科學家也會評估很多類似決策,
以辨識規模、規律性,並衡量準確性。相比之下,單一決策的討論通常會採用因果關係的觀點,而且是在事情發生之後才檢視,把焦點放在找出事情發生的原因。
歷史分析,如成功或失敗的管理案例研究,旨在了解一個本質上獨一無二的判斷是如何做出來的。
- 換言之,我們無法衡量單一決策的雜訊,然而我們可以透過反事實思維(counterfactual thinking)
肯定雜訊的存在。如某個射擊手的手不能保持穩定時,彈著點可能會落在其它地方,決策者及決策過程的雜訊,意味單一決策可能會有所不同。

第二部 你的頭腦也是一把尺
05 誤差的測量
- 偏誤和雜訊在誤差的作用,可以簡單的用所謂的誤差方程式來表達。
第一個等式把單次測量中的誤差分解成兩部分,
也就是你現在熟悉的偏誤(平均誤差),以及殘留的「雜訊誤差」
當誤差大於偏誤時,雜訊誤差為正值,誤差小於偏誤時,雜訊誤差為負值。雜訊誤差的平均值為零。
- 第一個誤差方程式沒有什麼新意:單次測試的誤差 = 偏誤 + 雜訊誤差
- 第二個誤差方程式是均方差,也就是我們現在介紹的總體誤差
利用簡單的代數即可顯示出,均方差等於偏誤的平方加上雜訊的平方
(請回想:雜訊是測量的邊準差,與雜訊誤差的標準差相同。)
因此:
- 總體誤差(均方差) = 偏誤^2 + 雜訊^2
- 而預測和估計的目標就是在準確度(accuracy)最高(偏誤最小)
精確度(precision)最高(雜訊最小)下接近真正的數值。
- 決策者必須考量多種選擇,並運用自己的價值觀做出最佳選擇。
但這些決策都必須以價值中立的預測為基礎,目標是準確(盡可能接近靶心),
而均方差就是衡量誤差最適當的方法。只要偏誤不會大幅增加,減少雜訊將能改善預測性判斷。

06 雜訊分析
- 誤差的兩個構成要素就是偏誤和雜訊。
- 如圖9的黑色箭頭所示,水準雜訊是2.4年,系統雜訊為3.4年。
這樣的差異代表系統雜訊要比個別法官平均嚴厲程度的差異來得要大。
這是雜訊的另一種成分,我們稱為型態雜訊(pattern noise)
- 依照誤差方程式把誤差分解成偏誤和雜訊的邏輯把系統雜訊分解為水準雜訊和型態雜訊。
- 系統雜訊的方程式:系統雜訊 = 水準雜訊^2 + 型態雜訊^2。
- 系統雜訊是指多人對同一個案件的判斷出現令人討厭的變異性。
我們已經找出系統雜訊的兩個主要成分:
   1.水準雜訊是不同法官判斷平均水準的變異。
   2.型態雜訊是法官對特定案件反應的變異。
- 在這個研究中,水準雜訊與型態雜訊的數量大致相等。
然而,我們認為型態雜訊必然包含一些場合雜訊,可以把場合雜訊當作隨機誤差。
- 水準雜訊就是不同法官呈現出不同的嚴厲程度。
型態雜訊是指不同法官對某一個被告更嚴厲或更寬容而出現意見分歧的狀況。
型態雜訊當中包含場合雜訊,這是指法官自己有不同的意見。

07 場合雜訊
- 群眾智慧效應
- 辯證性的自我重複抽樣法(dialectical bootstrapping)
- 賭徒謬誤(gambler's fallacy)

08 群體如何擴大雜訊
- 社會影響是個問題,因為它們「減少群體的多樣性,卻沒有減少集體誤差」。
諷刺的是,多項獨立意見妥善的總合起來,有可能達到驚人的準確度,不過即使只有一點點社會影響,都可能會產生一種羊群效應,破壞群體的智慧。

第三部 預測性判斷中的雜訊
- 我們需要一個衡量預測準確性的方法,藉此回答這個問題:預測與結果的共變異性(co-vary)為何?
如果人力資源部門經常評估新進人員的潛力,我們可以等幾年後再來看看員工表現,確認他們的潛力評級與績效評即有多大的共變異性。如預測準確,新進員工的潛力評級高,工作表現也會得到高度評價。
-有一種測量方法可以呈現這種直觀判斷,也就是和諧率(percent concordant)
和諧率可以回答一個更具體的問題:若隨機抽選兩名員工,
潛力評級較高的人績效評估也比較高的機率是多少?如果早期的評級是完美的,和諧率應該是100%。
- 舉個更簡單的例子,成年男性腳長(鞋碼)與身高的和諧率是71%。
如果你看兩個人,先看他們的頭,再看他們的腳,有71%的機率是較高的人有較大的腳。
- 和諧率是一個衡量共變異性的直觀指標。這種方法有很大的優點,但不是社會學家使用的標準指標。標準指標是相關係數(correlation coefficient,常用r表示)
當兩個變數正相關時,相關係數會在0與1之間。在前面的例子中,身高與腳長的相關係數為0.60。
- 客觀的無知(objective ignorance)

09 判斷與模型
- 你的估算就是所謂的臨床判斷(clinical judgment)。你考慮得到的訊息,或許很快計算一下,
並利用自己的直覺,最後得出判斷。
- 判斷的雜訊太多,因此沒有雜訊的判斷者模型,會比人類判斷者的預測更準確。
- 多元迴歸(multiple regression)
- 機器預測(mechanical prediction)

10 無雜訊的規則
- 很多機械方法都能勝過人類判斷,從簡單到近乎可笑的規則、到最複雜難解的機器演算法都是如此。會有這樣的突出表現有個關鍵的原因,那就是機械方法是沒有雜訊的。

- 相同權重的公式稱為非最適線性模型(improper linear model)。
Robyn Dawes的發現驚人之處在於,這些相等權重模型(equal-weighted model)的準確度與
「最適」(proper)迴歸模型差不多,而且遠遠優於人類的臨床判斷。
- 多元回歸計算出使平方誤差最小的「最佳」權重。但多元迴歸使得原始數據中的誤差最小。
因此,這裡的公式會自我調整,藉此預測數據中每個隨機偶然的因素。
例如:如果樣本中有些經理人擁有高度的技術技能,而這些經理人也因為不相關的原因表現得特別好,那麼這個模型就會誇大技術技能的權重。
- 要正確衡量一個模型的預測準確度,要看這個模型的新樣本中的表現,
也就是其交叉驗證相關性(cross-validated correlation)。

12 常態之谷
- 只要有因果關係,就有相關性。由此可見,凡是因果關係,我們應該能夠預測,
而相關性,也就是這種推論的準確性,則是用來衡量我們對因果關係的了解有多少。
- 運用統計學思維(statistical thinking):你關注的是全體,以及描述這些家庭的統計數字,包括平均數、變異數、相關性等等,你不是把焦點放在個別的案例上。
- 因果思維(casual thinking)會創造特定事件、人物、物體相互影響的故事。