醉漢走路 - 機率如何左右你我的命運和機會
2009/04/28
Leonard Mlodinow
第二章 表象不是真相
- 希臘數學家:阿基米德、丟番圖、歐幾里得、歐多克索斯、泰勒斯及畢達哥拉斯。
- 羅馬人西塞羅看輕幾何,卻說:「機率正是生命的指引」。
「希臘人給了幾何學家最尊貴的地位,因此對他們而言,任何的進展都不如數學那麼光輝。
可是羅馬認為這門學問的用處,頂多就是測量與計數。」
第三章 機會成就命運
- 一個問題只是另一個問題的變形,數學上稱為同態(homomorphism)。
- 蒙提霍爾問題
- 樣本空間(Sample Space)。Crdano:如果一個隨機過程中,所有結果發生的可能都相等,
有些是有利的(贏的),有些是不利的(輸的),那麼有利的結果發生的機率,
就等於有利的結果在所有可能的結果中所占的比例。所有可能發生的結果,就稱為樣本空間。
延伸閱讀:
- 機會遊戲之書(A Book on Game of Chance);Gerolamo Crdano。
- 算術演練(The Practice of Arithmetic);Gerolamo Crdano。
- 大術(Ars Magna);Gerolamo Crdano。
第四章 追蹤成功之路
- 新生代科學家反叛了亞里斯多德,改追隨伽利略,而且把這個領域發展得更深更遠,
超越了卡丹諾和伽利略,巴斯卡(Blaise Pascal)、笛卡兒、費馬。
- 巴斯卡三角形
- 巴斯卡的偉大創新之處,在於平衡得與失的方法,
這個概念就是今日我們所說的數學期望值(mathematical expectation)。
- 巴斯卡賭注常被視為賽局理論的創始;賽局理論就是針對賽局中的最佳決策做量化研究。
延伸閱讀:
- 沉思錄
- 關於骰子遊戲之所思;伽利略。
第五章 「小數法則」大陷阱
- 班佛定律(Benford's Law),由累積方式而得到的數並不隨機,而是偏向較小的數字。
- 1995年,喬治亞理工學院的數學家希爾(Ted Hill)提出班佛定律的證明。
- 很多類型的數據都遵守班佛定律,尤其是財務數據。
這個定律似乎專門是為了從大量的財務數據中發掘詐欺,而量身訂做的。
- 隨機性的「頻率詮釋」和「主觀詮釋」。
在頻率詮釋中,我們根據樣本出現的樣子來判斷;
而主觀詮釋中,我們根據的是樣本產生的方式。
根據主觀詮釋,如果我們不知道或無法預料產生一個數或一組數的過程會是什麼樣子,
這個數或這組數就是隨機的。
- 在不完美的真實世界擲骰子,根據「主觀詮釋」是隨機的,但根據「頻率詮釋」並不是。
因為骰子不完美,因此每面擲出的機會不一樣;
然而,因我們能力的侷限,我們沒辦法事先知道哪一面比較常出現。
- 雅各·白努利的黃金定理,在不同的專業上有少許差異,而有不同的名稱:
白努利定理、大數法則、弱大數法則。
- 白努利:「評價人的行為,不應該只看結果。」
延伸閱讀:
- 自然哲學的數學原理;牛頓。
第六章 正確解讀「陽性反應」
- 白努利定理關切的是,如果擲一枚公平的硬幣許多次,你能期望擲出多少次正面;
貝氏研究的則是如果觀察到擲出了某個數目的正面,你能多確定硬幣是公平的。
如何由觀察結果推論出事件本身的機率?
- 生活中大部分的經驗是:我們只能觀察相當少量的樣本,然後就要由這些觀測結果推出資訊,
並且針對造成這些結果的特性做出判斷。
- 事前機率(Prior Probability)、事後機率(Posterior Probability)。
- 檢察官謬誤(Prosecutor's Fallacy)
- 機率是根據固定的機率值做預測,統計是根據觀察數據推論出這些機率值。
- 已知一系列的量測數據,那麼你對於度量對象的實際值,能做出多精準的猜測?
這個猜測值與精確值有多靠近?
延伸閱讀:
- 分紅給付觀察;Richard Price
- 機率分析理論;Richard Price
第七章 誤差是常態
- 拉普拉斯和拉瓦謝、庫倫(Charles de Coulomb),改變了實驗物理這個領域。
基於天文學與實驗物理學的雙重需求,從十八世紀末到十九世紀初,
數學家花了很多工夫了解並量化隨機誤差。這些努力創造了一個新領域-數理統計。
這門數學提供了一套工具,可以詮釋由觀測及實驗得到的數據。
- 丹尼爾·白努利把天文觀測的隨機誤差比喻作弓箭手的偏差。
- 描述誤差定律的正確數學函式,即鐘形曲線。
- 鐘形曲線通常稱為常態分布,有時候也稱為高斯分布。
- 常態分布其實不是一條固定的曲線,而是一「族」曲線,
家族中每條曲線的位置與形狀,由兩個參數來決定。
第一個參數決定尖峰的位置。第二個參數決定曲線的延展寬度,這個參數稱為標準差。
- 常態分布正是誤差定律
- 棣美弗作出研究成果之後好幾十年,才有人認識到常態分布描述了量測誤差的分布情況,
這個人就是德國大數學家高斯(Karl Fridrich Gauss)。
- 拉普拉斯在1810年偶然讀到高斯的著作,才於法國科學院發表報告,
在這篇報告中,他證明了「中央極限定理」。
- 「中央極限定理」與「大數法則」是隨機理論當中最著名的兩個定理。
延伸閱讀:
- 機會論(The Doctrine of Chances);棣美弗(Abraham De Moivre)
第八章 混沌中的秩序
- 統計群體中的每個人,雖然各自隨機行動,卻往往顯示出一致而可預料的群體行為,
看起來像是有意識地在追求同一目標。
- 康德:「每個人都是在隨著自己的意向追隨目標,通常與其他人的目標相反;
然而,個體和人群,就像是隨著某個引導的繩索,朝著一個相當自然、
但對每個人卻都屬未知的目標邁進;所有人全都努力去助長這個目標,
即使他們意識到這個目標,也甚少看重。」
- John Graunt和William Petty,後人稱他們為統計學的創始者。
- Petty的研究工作,有時候被認為是古典經濟學的先驅。
- statistics(統計)這個英文名詞,來自德文字statistik,首次出現在<畢費爾德基礎普及教育>
一書1770年的英譯本中:「統計這門科學,教導我們當今世界所有現代國家的政治狀態。」
- 到了1882年,統計這個課題,已經演變成<韋氏大字典>鎖定一
「關於社會狀態、一國國民的情況、他們的健康、壽命、國內經濟、技術、
財產及政治實力、國土等等的大量資訊。」
- 鑑識經濟學
- 預測誤差(forecast error)
- 「叫座」驅策的行業,雖然完全無法預測,遵循的其實是一個完全不同的分布,
在這種分布中,平均數與標準差都沒有意義,因為根本沒有「典型」的表現。
- 機運的作用,在某種程度上也能控制,那就是要藉由不停的嘗試,才能提升成功的機率。
- 達爾文的表弟高騰(Francis Galton)的貢獻:相關係數。
- 皮爾生(Karl Pearson)發明卡方檢定。
早期的統計學家有時候只是畫個圖看看曲線是否鐘形的,以判定是否為常態分布。
可是要如何量化曲線配適的程度?
卡方檢定(chi-square test),可判定一組數據是否真正符合你所認知的分布。
- 卡方檢定運用廣泛,例如:
--檢驗三種麥片盒子,來決定哪一種較受消費者青睞。
如果沒有哪一種特別受到偏愛,那麼每一種盒子大約會有1/3的消費者選擇。
可實際的結果很少會分布得這麼均勻。運用卡方檢定,我們能夠決定,
勝出的盒子得到較多的選票,是因為消費者的偏愛,還是只是由於機率。
--假設有一藥廠,想試驗兩種用來預防急性器官排斥反應的治療方式,
卡方檢定可以用來決定兩種治療法的差異是否有統計顯著性。
--某家連鎖車租車公司計畫開設新的據點,他們的財務長估計有25%的客人需要小型車,
50%需要中型車,而大型車及其他類型車輛的需求各占12.5%,數據開始產生之後,
卡方檢定可以幫助財務長很快決定,究竟是他原先的估計正確,
還是這個新的據點不同於典型的分店,所以應該改變提供的車種組合。
- 波茲曼、馬克士威受了Quetelet的激發,創立了「統計物理學」。
延伸閱讀:
機率哲學隨筆;拉普拉斯
人類及其官能的發展;Adolphe Quetelet
英國文化史;Henry Tomas Buckle
統計改變了世界
第九章 模式的錯覺,錯覺的模式
- 顯著性檢定(significance test)是費雪(R.A.Fisher)在1920年代發展出來的。
- 顯著水準(significance level)
- 培根:「人的理解方式是,一旦採信了一種看法,就會蒐集所有可確認這種看法的事例,
即使反面的事例很多,也更具分量,仍通常不予理會、甚或拒不接受,以便使他們的看法屹立不搖。」
延伸閱讀:
統計,讓數字說話!
第十章 醉漢走路
- 雖然機遇確實扮演了一定的角色,但有一項成功的因子是可以控制的:
打擊的次數,嘗試的次數,抓住機會的次數。
- 就如IBM的先驅華生所說的:「如果你想成功,就加倍你的失敗率。」
2020年6月26日 星期五
2020年6月16日 星期二
大數據的另一章
大數據的另一章!資料分析3.0時代,靠分析讀懂你的客戶,讓企業贏得競爭優勢
The Analytics Revolution:
How to Improve Your Business By Making Analytics Operational In The Big Data Era
Bill Franks
Part01|分析革命已經開始
Chapter01 瞭解營運分析
- 國際分析研究所(International Institue for Analytics,IIA)建立的分析3.0框架。
-數據分析2.0:
- 專業分析人員在企業中部是演變為決策層的一員,就是對決策層有著直接的影響力。
專業分析人員不再是完全獨立於業務群體的幕後資源。
-數據分析3.0:
- 長期以來,客戶流失分析已經演進為尋找行為組合的特定模式,
這是因為行為組合比單一行為更具危險性。這一般稱作「路徑分析」(path analysis)。
如果一個客戶線上看到對帳單,首次了解手續費後請求取消手續費。這可能不是一件麻煩事。
但是,如果客戶透過致電客戶服務管道再次要求取消手續費,並且接下來又致電分支機構,
那麼對客戶的忽視就會加大其關閉帳戶的風險。
Part02|奠定分析基礎
Chapter04 想要預算?先制訂商業計畫
- 關注回報而非成本
最大化關注點:解決的業務問題、價值回報、差異性。
最小化關注點:需要的工具和技術、成本、持續改進。
- 很多企業會進行一個有針對性的概念驗證(proof of comcept,POC)作為第一步,
這是一個不錯的想法,但是別讓範圍有限的概念驗證作為終點。
只解決某個問題的一小部分並不能讓一個商業計畫獲得投資通過,特別是需要大量資金和人力的投資時。
- 展開新的營運分析的第一步不必走得太遠,第一步是要簡單證明這個新想法是有價值的。
一開始你並不需要一個完整的、生產就緒的流程,只要可足夠展示價值就行了,
然後利用累積的經驗去更加有效地設計和建立最終方案。
- 為了具備差異化潛力的分析來制訂商業計畫,而不是僅改善、提升現有的分析流程。
Chapter05 建立分析平台
- 基礎流程或政策問題的一個常見表象,就是它們對所涉及的技術的影響。
在很多案例中,看上去是技術問題,但其實不是。一定要區分開「技術問題是更大問題的表象」
與「技術確實是問題的誘因」兩種不同的情況。
- 資料倉儲學院(TDWI)
- 對大多數企業來說,使分析營運化不是一個技術問題,技術問題僅僅是潛在的政策和文化問題的表象。
- 除非即將到來的一項功能是絕對重要的,否則不要因將來可能出現的技術推延今天的投資決策。
Part03|分析營運化
Chapter07 資料分析
- CRISP-DM規定了傳統資料探勘過程的基本步驟。
- 另一個常見的模式是SAS研究所的SEMMA模式。
SEMMA代表「sample,explore,modify,modal,and assess」
(資料採樣、資料特徵探索、資料調整、模式研發和模式評價)。
- 在批次分析中用於預測對所有使用者的最佳推薦的演算法。
也可以用於預測對某一個目前正在瀏覽網頁的特定使用者的最佳推薦。
區別在於產生對目前特定使用者推薦的演算法使用的是最新資料。
- 大部分由大公司建立的分析過程都可以總結為兩個原則。
第一個是統計,其中包含了變異數分析(ANOVA)、迴歸分析以及顯著性檢驗。
第二個是預測,其中包含了傳統時間序列預測和投影預測技術。
這兩個分析原則已經無法滿足目前的要求,企業需要精通除統計和預測方法之外的更多分析原則。
像是模擬分析,蒙特卡羅(Monte Carlo)模擬是特別流行的方法。
- 最佳化分析原則也正得到越來越廣泛的使用。長久以來,最佳化都用於定價分析,
而近來其應用範圍得到了拓展。他透過分析變數和限制條件提供可能的最優方案。
蒙特卡羅模擬一一查看和量化各種可能的影響;最佳分析則從中找出最佳方案。
最佳方案通常用於重要變數可控制的情況。在定價分析中是可以控制商品的價格來獲得最優結果的,
而在退休計畫分析中,通膨率則是無法控制的,因此就不能使用這種方法。
- 為了處理資料流,「複雜事件處理原則(Complex Event Processing,CEP)」漸成主流,
CEP原則在資料流傳遞期間分析資料並快速做出決策,其也能夠同時運用大多數其他分析原則。
- 資料探勘、預測分析、人臉辨識演算法、圖形分析演算法、地理空間分析、文字分析、社群網路分析。
- 設計分析時,提出正確的問題比後面的其他工作對結果的影像更大。
- 分析結果往往取決於問題的定義、提問的內容、分析方案的設計,以及該方案一旦確立將為如何實施。與過程中的細節相比,選擇解決哪一個提問對結果的影響更大。
稍不注意,建立的分析可能就回答了錯誤問題的錯誤提問。
- 不可能探索到所有潛在的分析。當錯過了某些東西之後,總是會事後諸葛。
為此,不只記錄為什麼採取某些路徑,也記錄為什麼沒有選擇其他的路徑。
- 探索性分析允許一個寬泛的目標或有限的假說,而驗證性分析從一開始就高度集中並界線分明。
- 典型相關分析或迴歸分析可於確定那些路徑特徵與利息指標最相關。
在這種情況下,非統計學的路徑功能提供了新的資訊,可以用嚴格的統計方式進行分析。
統計方法增加了路徑分析的影響力。
- 提供解決方案,而不是分析說明。重點必須放在透過分析解決問題上。
證明一個過程是可行的,只關注結果而不是直接關注分析。
- 營運分析的發起人和使用者童常不了解或不關心分析,他們只想得到問題的解決方案。
如果不被問到風險,不必談論技術細節。
Chapter08 分析組織
- 資料科學家往往是電腦背景出身,使用Hadoop,用Python或R等語言寫程式。
傳統意義上的專業分析人員多半是統計、數學或運籌學背景,
使用的可能是關係式的分析伺服器環境,語言用的是SAS和SQL。
使用的平台或者語言不同,並不會改變背後的技能與思維方式。
- 認證分析專家(CAP,Certified Analytics Professional),該認證項目是由美國運籌管理協會
(INFORMS,Institute for Operations Research and the Management Sciences)贊助的。
- 分析完成之後,工作仍在進行。我們還得完成分析結果的行銷和推廣,建構營運過程支撐模式,
這樣才能儘可能大地發揮影響力。
- 專業分析人員是顧問、是導師、是教練,但不是因循守舊者,該表態就表態。
舉止不像專家,別人自然不會以專家視之。
The Analytics Revolution:
How to Improve Your Business By Making Analytics Operational In The Big Data Era
Bill Franks
Part01|分析革命已經開始
Chapter01 瞭解營運分析
- 國際分析研究所(International Institue for Analytics,IIA)建立的分析3.0框架。
-數據分析2.0:
- 專業分析人員在企業中部是演變為決策層的一員,就是對決策層有著直接的影響力。
專業分析人員不再是完全獨立於業務群體的幕後資源。
-數據分析3.0:
- 長期以來,客戶流失分析已經演進為尋找行為組合的特定模式,
這是因為行為組合比單一行為更具危險性。這一般稱作「路徑分析」(path analysis)。
如果一個客戶線上看到對帳單,首次了解手續費後請求取消手續費。這可能不是一件麻煩事。
但是,如果客戶透過致電客戶服務管道再次要求取消手續費,並且接下來又致電分支機構,
那麼對客戶的忽視就會加大其關閉帳戶的風險。
Part02|奠定分析基礎
Chapter04 想要預算?先制訂商業計畫
- 關注回報而非成本
最大化關注點:解決的業務問題、價值回報、差異性。
最小化關注點:需要的工具和技術、成本、持續改進。
- 很多企業會進行一個有針對性的概念驗證(proof of comcept,POC)作為第一步,
這是一個不錯的想法,但是別讓範圍有限的概念驗證作為終點。
只解決某個問題的一小部分並不能讓一個商業計畫獲得投資通過,特別是需要大量資金和人力的投資時。
- 展開新的營運分析的第一步不必走得太遠,第一步是要簡單證明這個新想法是有價值的。
一開始你並不需要一個完整的、生產就緒的流程,只要可足夠展示價值就行了,
然後利用累積的經驗去更加有效地設計和建立最終方案。
- 為了具備差異化潛力的分析來制訂商業計畫,而不是僅改善、提升現有的分析流程。
Chapter05 建立分析平台
- 基礎流程或政策問題的一個常見表象,就是它們對所涉及的技術的影響。
在很多案例中,看上去是技術問題,但其實不是。一定要區分開「技術問題是更大問題的表象」
與「技術確實是問題的誘因」兩種不同的情況。
- 資料倉儲學院(TDWI)
- 對大多數企業來說,使分析營運化不是一個技術問題,技術問題僅僅是潛在的政策和文化問題的表象。
- 除非即將到來的一項功能是絕對重要的,否則不要因將來可能出現的技術推延今天的投資決策。
Part03|分析營運化
Chapter07 資料分析
- CRISP-DM規定了傳統資料探勘過程的基本步驟。
- 另一個常見的模式是SAS研究所的SEMMA模式。
SEMMA代表「sample,explore,modify,modal,and assess」
(資料採樣、資料特徵探索、資料調整、模式研發和模式評價)。
- 在批次分析中用於預測對所有使用者的最佳推薦的演算法。
也可以用於預測對某一個目前正在瀏覽網頁的特定使用者的最佳推薦。
區別在於產生對目前特定使用者推薦的演算法使用的是最新資料。
- 大部分由大公司建立的分析過程都可以總結為兩個原則。
第一個是統計,其中包含了變異數分析(ANOVA)、迴歸分析以及顯著性檢驗。
第二個是預測,其中包含了傳統時間序列預測和投影預測技術。
這兩個分析原則已經無法滿足目前的要求,企業需要精通除統計和預測方法之外的更多分析原則。
像是模擬分析,蒙特卡羅(Monte Carlo)模擬是特別流行的方法。
- 最佳化分析原則也正得到越來越廣泛的使用。長久以來,最佳化都用於定價分析,
而近來其應用範圍得到了拓展。他透過分析變數和限制條件提供可能的最優方案。
蒙特卡羅模擬一一查看和量化各種可能的影響;最佳分析則從中找出最佳方案。
最佳方案通常用於重要變數可控制的情況。在定價分析中是可以控制商品的價格來獲得最優結果的,
而在退休計畫分析中,通膨率則是無法控制的,因此就不能使用這種方法。
- 為了處理資料流,「複雜事件處理原則(Complex Event Processing,CEP)」漸成主流,
CEP原則在資料流傳遞期間分析資料並快速做出決策,其也能夠同時運用大多數其他分析原則。
- 資料探勘、預測分析、人臉辨識演算法、圖形分析演算法、地理空間分析、文字分析、社群網路分析。
- 設計分析時,提出正確的問題比後面的其他工作對結果的影像更大。
- 分析結果往往取決於問題的定義、提問的內容、分析方案的設計,以及該方案一旦確立將為如何實施。與過程中的細節相比,選擇解決哪一個提問對結果的影響更大。
稍不注意,建立的分析可能就回答了錯誤問題的錯誤提問。
- 不可能探索到所有潛在的分析。當錯過了某些東西之後,總是會事後諸葛。
為此,不只記錄為什麼採取某些路徑,也記錄為什麼沒有選擇其他的路徑。
- 探索性分析允許一個寬泛的目標或有限的假說,而驗證性分析從一開始就高度集中並界線分明。
- 典型相關分析或迴歸分析可於確定那些路徑特徵與利息指標最相關。
在這種情況下,非統計學的路徑功能提供了新的資訊,可以用嚴格的統計方式進行分析。
統計方法增加了路徑分析的影響力。
- 提供解決方案,而不是分析說明。重點必須放在透過分析解決問題上。
證明一個過程是可行的,只關注結果而不是直接關注分析。
- 營運分析的發起人和使用者童常不了解或不關心分析,他們只想得到問題的解決方案。
如果不被問到風險,不必談論技術細節。
Chapter08 分析組織
- 資料科學家往往是電腦背景出身,使用Hadoop,用Python或R等語言寫程式。
傳統意義上的專業分析人員多半是統計、數學或運籌學背景,
使用的可能是關係式的分析伺服器環境,語言用的是SAS和SQL。
使用的平台或者語言不同,並不會改變背後的技能與思維方式。
- 認證分析專家(CAP,Certified Analytics Professional),該認證項目是由美國運籌管理協會
(INFORMS,Institute for Operations Research and the Management Sciences)贊助的。
- 分析完成之後,工作仍在進行。我們還得完成分析結果的行銷和推廣,建構營運過程支撐模式,
這樣才能儘可能大地發揮影響力。
- 專業分析人員是顧問、是導師、是教練,但不是因循守舊者,該表態就表態。
舉止不像專家,別人自然不會以專家視之。
訂閱:
文章 (Atom)