2024年9月5日 星期四

雜訊:人類判斷的缺陷(下)

雜訊:人類判斷的缺陷
Daniel Kahneman, Olivier Sibony, Cass R. Sunstein

第四部 雜訊的發生
13 捷思法、偏誤與雜訊
- 如果許多人都有共同的偏誤,心理偏誤就會造成統計偏誤。
然而,在許多情況下,人們的偏誤各有不同。這些時候,心理偏誤會產生系統雜訊。
15 量表
- 水準雜訊是陪審員在整體嚴厲程度的變異。
型態雜訊是某個陪審員在某個案件的反應相對於自己審判結果平均值的變異。
- 我們可以把片段的整體變異分解成三個要素:
判斷的變異=公正懲罰的變異+(水準雜訊)^2+(型態雜訊)^2
- 量表的選擇對於判斷的雜訊量會造成非常大的差異,因為模糊的量表有雜訊。
- 以相對判斷取代絕對判斷有可能降低雜訊。
16 型態
- 型態誤差的產生,綜合著暫時因素與長期因素。
暫時因素包括我們描述為場合雜訊的因素,像是在重要時刻遇到法官心情不錯,或是法官當下剛好想到最近某些不幸的偶發事件。有些因素更為長期,像是雇主特別喜歡就讀某幾所大學的人,或是醫師特別傾向於建議感染肺炎的人住院。我們可以用一條簡單的等式表達單一判斷裡的誤差:型態誤差=穩定型態誤差+暫時(場合)誤差
-由於穩定型態誤差和暫時(場合)誤差是獨立、不相關的事件,因此我們可以延伸上述等式,分析它們的變異:(型態雜訊)^2 = (穩定型態雜訊)^2 +(場合雜訊)^2
- 而對專業判斷來說,變異是問題,雜訊是誤差。
這個類比的重點在於,判斷裡的型態雜訊並非隨機事件,我們不太可能解釋型態雜訊,即便是做出不同判斷的個人也無法解釋他們的判斷。

17 雜訊的來源
- 誤差可以拆解為偏誤和系統雜訊。
- 系統雜訊可以拆解為水準雜訊和型態雜訊。
- 型態雜訊可以拆解為穩定雜訊和場合雜訊。
第五部 提升判斷力
21 預測的挑選與總合
- 預測(以及預測出錯的時間與出錯原因)分析師對於偏誤和雜訊(也稱為預測得不一致或不可靠)分得一清二楚。大家都同意,在某些背景下,預測人員會有偏誤。例如,官方機構對預算的預測上就顯現不切實際的樂觀。平均而言,他們對經濟成長的預測高得脫離現實,赤字預測也低得不真實。實際上,他們不切實際的樂觀究竟是認知偏誤或政治考量的產物,根本無關緊要。
- 預測者也有雜訊。史考特·阿姆斯壯的參考書<預測原理>(Principles of Forecasting)就指出,即使在專家之間,「判斷性預測的一項誤差來源是不可靠性。
事實上,雜訊誤差的主要來源。場合雜訊是常見現象;預測者自己的意見都不一定前後一致。人與人之間的雜訊也很普遍;預測者彼此的意見會有分歧,即使他們都是專家也是一樣。
- 在數學上,平均法是減少雜訊的保證:具體而言,會使雜訊減少到「1-(1/判斷數量得平方根)」的水準。也就是說,如果你用100個判斷值求取平均值,就能減少90%的雜訊,而如果你用400個判斷值求取平均值,就能減少95%的雜訊,基本上會把雜訊消除。這條統計法則是群眾智慧法的引擎
- 由於平均法無法減少偏誤,它對總誤差(均方差)的影響取決於偏誤和雜訊在均方差裡的占比。所以,在判斷屬於獨立、因而比較不會包含共同的偏誤時,群眾智慧的效果最好。
實證上有充分的證據顯示,多個預測時的平均能大幅增加準確度,例如,股市分析裡經濟預測人員的「共識」預測。至於銷售預測、氣象預測和經濟預測,一群預測人員未經加權的平均值,表現優於大部分的個別預測值、有時勝過全部得個別預測值。
- 布里爾分數讚賞的是校準度和辨析度俱佳。要拿高分,你不只必須在平均值上正確(也就是有不錯的校準度),也必須願意採取立場,在預測上做出差異(也就是高辨析度)。布里爾分數遵循均方差的邏輯,因此分數越低越好:0代表完美。
23 績效評鑑量表的制定
- 系統雜訊如何拆解這三個要素(水準雜訊、型態雜訊和場合雜),結論因研究而異。

第六部 雜訊的最適水準
26 減少雜訊的成本
- 歧視也可能來自原始資料。如果演算法是根據有偏誤的數據庫訓練而成,它也會有偏誤。
以「預警性警務(predictive policing)演算法為例,這套演算法意在預測犯罪,通常是為了改善警務資源的配置。如果現存與犯罪有關的數據反映某些區域的警力過度部屬,或是某些類型罪刑的報案量相對高,那麼由此而來的演算法也會持續或加重歧視。只要訓練用的資料有偏誤,就相當有可能設計出把歧視編寫進去的演算法,無論這是出於有心或是無意。確實,以此而言,演算法可能更糟糕:由於它們會消除雜訊,因此會比人類判斷有更嚴重的偏誤。

綜述與結論 正視雜訊問題
- 系統雜訊可以拆解成水準雜訊型態雜訊。有些法官通常要比其他法官來的嚴厲,還有一些法官則比較寬容;優些預測者通常看好市場前景,有些則看壞;有些醫師開立的抗生素比其他醫師來得多。
水準雜訊是指不同個體平均判斷的變異。判斷尺度得模糊性就是水準雜訊的一個來源。像有可能這樣的文字描述或是數字(如「0到6分當中的4分」),每一個人的感受並不相同。水準雜訊是判斷系統裡誤差的重要來源,而且是採取干預措施來減少雜訊的重要瞄準目標。
- 系統雜訊還包括另一個占比通常更大的雜訊。無論兩個法官的平均判斷為何,他們對那些罪刑該判處較重的刑罰可能有不同的看法。他們的判刑決定在所有案件會產生不同的排序。我們稱這種變異為型態雜訊(用統計術語來說,就是統計交互作用statistical intercation。
- 型態雜訊的主要來源是穩定的:就是不同法官因為個人特質而對同個案件有判斷差異。有些差異法而反映人遵守的原則或價值觀,不管在做判斷時是否有覺察到這一點。例如,有一個法官可能在店內行竊的扒手特別是嚴厲,對違反交通規則的人則比膠寬容,另一個法官則剛好相法。有些潛藏人心的原則或價值觀可能相當複雜,法官人也許不會覺察。例如法官對於店內行竊的年長扒手會無意識地採取相對寬容的態度。最後,對某一個案件的高度個人化反應也是穩定的。如果法官發現被告自己的女兒很像,可能會出生在同情心,而背對告比較寬容。
- 這種穩定的型態雜訊反映出法官個人的獨特性:他們對每一個案件的反應就像個性一樣因人而異。人與人之間的微妙差異通常沒什麼不好,而且很有趣,然而如果是在一個假定應有一致性的系統當中,專業人士的個人差異就會變成問題。在我們調查的研究當中,個人差異產生的穩定型態雜訊通常是系統雜訊的最大來源。不過,法官對特定案件的獨特態度仍不是完全穩定的。型態雜訊含有一種暫時的成分,稱為場合雜訊

- 如果一位放射科醫師在不同的日子對同章醫療影像做出不同的診斷,或是指紋鑑識人員在某一個場合下鑑定指紋辨識的結果是吻合。這像這些例子一樣,當法官不記得之前承諾過某一個案件時,某一個不相干的特點對判斷所產生的影響,如法規支持的球隊獲勝,法官在量行時就會變得寬容,或是醫生在一天門診快結束時,比較可能會開鴉片指通要。
- 心理偏誤是系統偏誤或統計偏誤得一個來源。其實,心理偏誤也是雜訊的來源,只是不是那麼明顯。並非所有的判斷者都有同樣的偏誤,在偏誤程度不一、而且偏誤的影響取決於外部的環境之下,心理偏誤就會產生雜訊。例如,做雇用決策的一群經理人當中,有半數的人對女性有偏見,還有半數的人則偏好雇用女性,整體偏誤為零,但系統雜訊仍會造成很多錯誤的雇用決策。另一個例子則是第一印象的效應往往不成比例。這是一種心理偏誤。在隨機呈現證據的順序之下,這種心理偏誤會帶來場合雜訊。

沒有留言:

張貼留言