2020年4月1日 星期三

數據分析的力量 Google、Uber都在用的因果關係思考法

數據分析的力量 Google、Uber都在用的因果關係思考法
2018/02/26

- 對於「難以導出因果關係的問題」,能夠予以百分之百解決的最佳方法,在醫學與經濟學等學術領域
稱為RCT(Randomized Controlled Trial,隨機對照實驗),在商業領域則稱為A/B測試
- 假如不能使用在現實世界「實際進行實驗」的RCT,可以使用「自然實驗」(Natural Experiment)
,來導出因果關係,它的想法乃是「善加利用彷彿已做過實驗的狀況」。
例如以下方法:
1.善加利用「界線」的RD設計(Regression Discontinuity Design,不連續迴歸設計)
2.善加利用「階梯狀變化」的堆集分析(Bunching Analysis)
3.運用「數個期間的資料」之縱橫資料分析(Panel Data Method)

第1章 從資料導出因果關係為什麼並不容易?
* 難以證明因果關係的原因1:有可能是其他因素造成影響。
-- 難以證明「X對Y造成影響」之因果關係的最大原因,就是
無法排除「Y所以產生變化,或許是受到X以外的其他因素影響」這個可能性。
* 難以證明因果關係的原因2:有可能為反向因果關係。
-- 有些時候也可能為「反向因果關係」(Reverse Causality),意即實際上是「Y對X造成影響」。
* 因果關係不同於相關關係
-- 即使得知X與Y有相關關係,也無法以這項結果證明兩者有因果關係。
* 當X與Y有相關關係時可能發生的三種狀況
1.可能是X對Y造成影響
2.可能是Y對X造成影響
3.可能是V對X與Y雙方造成影響
舉例:
1.可能是廣告(X)對業績(Y)造成影響
2.可能是業績(Y)對廣告(X)造成影響
3.可能是其他的因素(V)對廣告(X)與業績(Y)雙方造成影響
- 大數據無法根本解決前述的因果關係問題。前面探討的「難以正確分析因果關係」之問題,
在統計學上稱為「偏誤」。偏誤(Bias)就是「透過分析得到的估計量之偏差」。
- 資料分析的目的,大多是探討「某因素(X)對結果(Y)有影響嗎?」亦即X->Y的因果關係。
- 「相關關係」是指X與Y互有關聯,與「因果關係」完全不同。
- 無論是經商還是制定政策,一旦誤判因果關係就會出現錯誤決策,從而損失龐大利益或浪費稅金。

第2章 在現實世界「實際進行實驗」――隨機對照試驗(RCT)
- 運用資料分析釐清因果關係的最佳方法就是「隨機對照試驗(RCT)(RCT,Randomized Controlled Trial)。在商業領域,RCT又稱為A/B測試(A/B testing),意指A組和B組進行比對。
- 因果關係帶來的效果,稱為「介入效果」(Treatment Effect),這原本是醫學名詞。
- 雖然我們無法測定一個人的介入效果,卻可以測定
平均介入效果」(ATE,Average Treatment Effect),亦即數個人的介入效果平均數。
- 關鍵概念為介入組與比較組。介入組(Treatment Group)顧名思義,就是受到介入的群組。
反之,比較組(Control Group)是指沒受到介入的群組。有些統計學教科書會譯為對照組或控制組。
- 藉由比較兩個群組來測定平均介入效果時所需的假設:如果沒受到電價上漲之介入(X),
比較組的平均用電量(Yc)與介入組的平均用電量(Yt)就會相同。
* RCT的鐵則1:妥善建立可透過分析測定因果關係的群組,而且一定要設置比較組。
* RCT的鐵則2:一定要隨機分組。
- 實際上該如何進行「隨機分組」?
簡單隨機化法(Simple Randomization)、集區隨機化法(Block Randomization)。
* RCT的鐵則3:各組的樣本數必須充足。
* RCT的優點1:可用科學證明因果關係。因此也能對專家以外的人進行較簡單易懂的說明。
* RCT的優點2:分析手法與結果具透明性,
* RCT的弱點:進行實驗時需要成本、勞力、各組織的合作。

第3章 善加利用「界線」的RD設計
- 如果無法使用RCT該怎麼辦?介紹「自然實驗」手法
- 近年來,經濟學領域相當盛行研究這個問題。所謂的「自然實驗」(Natural Experiment)便是其中一種「善加利用猶如做過實驗的狀況」,可運用在各種場合上的手法。由於這種手法是利用近似實驗的狀況,所以又稱為「準實驗」(Quasi-Experiment),本書則採用「自然實驗」這個名詞。
- 兩者相比,RCT的優點是,資料分析者可設計出最適合進行分析的實驗
反觀自然實驗的優點則是,即使不用RCT那樣的方式實施政策或商業上的介入,依然可以進行分析
- RD設計(Regression Discontinuity Design)又稱為「不連續迴歸設計」
關鍵概念在於不連續(Discontinuity),抑或是界線(Borderline)
- 要探索的因果關係為:醫療費用的自負額(X),是否會對醫療服務使用人數(Y)造成影響。
- RD設計的假設:如果自負額(X)未在界線上變動,醫療服務使用人數(Y)的平均數就不會在界線上發生跳躍。
- 換句話說,RD設計的假設是上圖虛線部分「無法觀察」的資料,因為沒辦法用資料證明這項假設是否是真的正確。分析者能夠做的,只有針對「這項假設應該成立吧」之議題進行討論。
- RCT只要進行隨機分組,比較各組分析因果關係所需的假設即成立,這點可用數學證明。
反觀RD設計等自然實驗手法,無法用數學證明真的成立,只能不斷進行討論。
- 運用RD設計時分析者該做的事:檢驗其他因素是否在界線上發生不連續的跳躍。
*什麼情況會使RD設計的假設不成立?
1. 如果自負額以外的因素,在七十歲時發生不連續的變化,影響到醫療服務使用人數,RD設計的假設就不成立。以年金為例,我們假設七十歲生日一過,年金給付額就會大幅提高。
2. 另一種會使RD設計的假設不成立的情況,就是資料主題能夠操縱圖中橫軸的變數,以前述的例子來說,就是患者能夠謊報自己的年齡。
因此,運用RD設計進行分析時,必須符合「資料主體無法恣意操縱橫軸的變數」之條件。
- 我們可將RD設計想成是在界線附近自然發生的RCT。
*RD設計有什麼弱點?
- RD設計的弱點就是:這個方法只能測定,關於「界線附近的人」之因果關係。
想透過分析求得的因果關係為:自負額(X)對醫療服務使用人數(Y)的影響。
但是我們能利用七十歲之界線以RD設計分析出來的因果關係,
只有「年齡接近七十歲的民眾對自負額有何反應」。
- 假設想測定的因果關係是:2008年8月電價調漲為兩倍(X)是否對電力使用量(Y)造成影響。
因此,這裡需要的假設就是:如果電價未在界線上發生變化(X),電力使用量(Y)就不會在界線上發生跳躍。
- 如同前面的說明,RD設計等自然實驗法「無法證明假設成立」,分析者只能提出「假設應該成立」的證據。

- RD設計的鐵則1:找出在「界線」上,僅一種因素(X)發生「不連續」變化的狀況。
- RD設計的鐵則2:檢查X以外的因素,有無在界線附近發生不連續的變化。
- RD設計的優點1:假設若成立,即可利用界線附近類似RCT的狀況。
- RD設計的優點2:分析具透明性,可用圖呈現主要結果,方便分析者以外的人理解。
- RD設計的優點3:由於商業與政策方面的各種場所、場面,均存在可運用RD設計的「界線」,這可說是無法實施RCT時的有效分析手法之一。
- RD設計的弱點1:RD設計需要的假設,無法證明成立,只能提出可能成立的根據,這點跟RCT相比是很大的弱點。
- RD設計的弱點2:RCT可針對全體受測者主張因果關係,反觀RD設計只能針對界線附近的資料主張因果關係,因此有些時候缺乏可用性。

第4章 善加利用「階梯狀變化」的堆集分析
- 推集分析(Bunching Analysis)是善用階梯變化探究因果關係的手法。
- 堆集分析關注的是橫軸變數的變動。反觀RD設計則是利用「無法操縱橫軸的變數」之狀況,兩者在這點上有很大的差異。
- 堆集分析的鐵則1:評估某個呈階梯狀變化的誘因(商品的價格或折扣、所得稅之類的稅金
、政府發放的輔助金等)能否用於分析。
- 堆集分析的鐵則2:必須確定呈階梯狀變化的,只有想透過分析釐清的因素(X)而已,
其他因素不會在級距的分界點附近發生不連續的變化。
- 堆集分析的鐵則3:分析誘因大幅變化的分界點上發生的堆集,檢驗人或企業對誘因的變化有何反應之因果關係。
- 堆集分析的優點1:只要分析所需的假設成立,便可利用界線附近類似RCT的狀況。
- 堆集分析的優點2:分析具透明性,可用圖視覺化呈現分析結果,方便分析者以外的人理解。
- 堆集分析的優點3:由於商業與政策方面的各種場所、場面,均存在「誘因呈階梯狀變化的狀況」,這可說是無法實施RCT時的有效分析手法之一。
- 堆集分析的弱點1:分析所需的假設,無法證明成立,只能提出可能成立的根據,這點跟RCT相比可說是很大的弱點。
- 堆集分析的弱點2:RCT可針對全體受測者分析因果關係,反觀堆集分析只能分析對呈階梯狀變化的誘因產生反應的主體(堆集的主體),因此有些時候缺乏可用性。

第5章 運用「數個期間的資料」的縱橫資料分析
- 若是沒有適合的界線就無法使用前兩章介紹的方法,因此介紹「縱橫資料分析」。
- 假設政府推動某項政策時,或是企業實施某項措施時,有的群組受到介入的影響,有的群組沒受到影響。在這種狀況下,就算資料分析者沒進行RCT之類的實驗,也會自然形成介入組與比較組。而且,只要有了雙方受到介入前後的資料,理應就能進行相當具說服力的因果關係分析。這就是縱橫資料分析的基本概念。
- 因此,這種分析方法又稱為差異中的差異法(Difference-in-differences methods)
另外,由於這種方法去除了各組不隨時間改變的固定效果,所以也稱為固定效果估計法(Fixed effect estimation)
- 縱橫資料分析需要的假設,即是以下要談論的「平行趨勢假設(Parallel Trend Assumption)」。
- 縱橫資料分析的假設:如果沒發生介入,介入組的平均結果(Yt)和比較組的平均結果(Yc)就會平行推移(平行趨勢假設)。
- 對雙方造成相同程度影響的因素,稱為共同衝擊(Common Shock),換言之,就算發生了某種衝擊
,只要雙方共同發生就不成問題。
- 如果能取得數個群組數個期間的資料,便有機會運用縱橫資料分析。
- 縱橫資料分析的鐵則1:先確定能否取得介入發生前後,介入組和比較組雙方的資料。
- 縱橫資料分析的鐵則2:檢驗「平行趨勢假設」是否成立。
- 縱橫資要分析的鐵則3:若判斷平行趨勢假設很可能成立,就將雙方的平均數推移製成圖表,測定介入效果的平均數。
- 縱橫資料分析的優點1:只要蒐集得到需要的資料,可應用範圍會比RD設計及堆集分析更大。
- 縱橫資料分析的優點2:分析具透明性,可用圖表視覺化呈現分析結果,方便分析者以外的人理解。
- 縱橫資料分析的優點3:RD設計與堆集分析的可分析對象範圍較小,反觀縱橫資料分析可針對隸屬於介入組的所有主體分析介入效果,這點上更勝一籌。
- 縱橫資料分析的弱點1:分析所需的假設無法證明成立,只能提出可能成立的根據,這點跟RCT相比可說是很大的弱點。
- 縱橫資料分析的弱點2:跟RD設計及堆集分析的假設相比,「平行趨勢假設」非常難成立
,實際上大多會被推翻。

第6章 實踐篇:如何將資料分析應用在經商或政策制定上?
- 大多數人每天的時間都被業務占去,實在很難自行分析資料。在這點上,資料分析專家能夠提供許多服務,例如掌握問題、檢驗該分析的問題、檢驗回答問題所需的資料、設計RCT或自然實驗,以及最後的分析和簡報,因此和他們建立合作關係便可解決許多問題。

第7章 進階篇:了解資料分析的不完全性與極限
- 假如資料本身有問題,分析手法在出色也難以解決問題。
- 分析結果的「外在效度」(External Validity)問題。
- 出版錯誤與夥伴關係偏誤問題。
--出版偏誤(Publication Bias)是指發生以下狀況的偏誤。假設某研究者要檢驗「X對Y造成的影響」之因果關係,分析之後發現「影響為零」,也就是說兩者毫無因果關係。這個結果本該是有用的科學發現才對。
- 介入存在「外溢效果」時的注意要點
--稱為介入的外溢效果(Spillover Effect),也就是說,原以為只有介入組能得到好處的介入,以某種形式影響到比較組。
如果介入存在外溢效果,比較組就不再是單純的比較組了。
如此一來,就算比較介入組與比較組的結果差異,也無法正確估計介入效果。
- 了解每種資料分析手法均存在不完全性與極限十分重要。
- 若從外在效度與內在效度這兩個角度來看,何種分析手法較為出色則視狀況而定。
- 資料分析的結果,存在「出版偏誤」與「夥伴關係偏誤」問題,若結果不如資料分析者或資料分析夥伴的預期,就有可能不會公開發表。
- 如果介入組受到的介入也會對比較組產生外溢效果,就必須注意。
- 如果介入會產生一般均衡效果,小規模實驗的結果就有可與大規模政策的結果不同,因此若要將RCT或自然實驗的成果推論到大規模的介入,就必須深思熟慮。

第8章 給想進一步學習的人:參考書籍介紹
- 本書省略了需要高階數理統計知識的分析手法(工具變數法、匹配法、合成對照群法
、離散選擇法、結構估計法等)。
- 本書的內容,在學術上屬於「計量經濟學」領域。在計量經濟學的書籍當中,
本書算是「聚焦於資料分析的實踐層面、學習計量經濟學的超級入門書」。
- 讀完入門書後的中階書(經濟學學院大學生程度)與高階書(研究所程度)。
學習這個階段的課程時,重要就是要挑選包含1.計量經濟學理論的理解
2.具體應用事例的介紹3.資料分析的練習這三個項目,且能均衡學習的教科書。

沒有留言:

張貼留言