2021年11月20日 星期六

成長駭客行銷:引爆集客瘋潮的新實戰力

 成長駭客行銷:引爆集客瘋潮的新實戰力


- 行銷過去是以品牌為基礎,成長駭客則以投資報酬率和量化指標為導向。
黏著度(Stickiness):服務或產品的黏著度,可想像成用戶再次購買產品或推薦給別人的可能性。
- 不管哪個行業,成長駭客行銷心態全都適用:
確保服務不可或缺、尋找漏洞或發展不完全的利基市場、鼓勵口耳相傳,
並根據數據和用戶意見不斷優化。

- 關鍵字:
同類群組分析(Cohort Analysis)、病毒參數(Viral Coefficients)、跳出率(Bounce Rate)、
轉換率(Conversion Rate)、成長駭客(Growth Hacker)、成長駭客行銷(Growth Hacking)、
最低可行產品(Minimum Viable Product)產品市場配適((Product Market Fit)
銷售漏斗(Sales Funnel)。

2021年9月11日 星期六

消費者行為市場分析技術(下)

消費者行為市場分析技術:數據演算如何提供行銷解決方案
Marketing Analytics, 2nd edition, 
A practical guide to improving consumer insights using data techniques

麥可.格里斯比(Mike Grigsby)

第三篇 相互關係類型統計法
09 我的(消費者)市場概況如何?
- 欲展示各區隔市場,並證明彼此之間已有效區隔,需要用到的技術稱為「側寫」(profiling)
一般而言,這可顯示各重要變數(尤其是較次數和對行銷媒介的回應)的平均數或頻率,
快速衡量每個區隔市場的差異。
注意,區隔市場之間的差異越大,(對各區隔市場實施的)策略會越明顯。
- 依區隔市場顯示關鍵績效指標(KPI)平均數的方法很常見,但很多時候,其他指標更能展現差異。
使用比率的話,時常可以更快突顯差異,亦即將各區隔市場的平均數除以整體平均數。
舉例來說,區隔市場A的平均營收為1500,區隔市場B的平均為750,總平均(整體市場總計)為1000。
將區隔市場A的平均數除以整體平均數1500/1000=1.5,也就是說,區隔市場A的營收比總平均多50%。相較之下,區隔市場B為750/1000=0.75,表示該區隔市場對營收的貢獻比總平均少25%。依區隔市場對所有數據算出比率,很快就能看出其中落差,尤其是差異甚小的情況特別明顯。
- 再舉個例子,區隔市場A的回應率是1.9%,整體回應率為1.5%。
雖然兩者(單一區隔市場和整體)表面上只相差0.4%,但換算成比率的話就是1.9%/1.5%,
亦即區隔市場A比總平均大27%。我們之所以喜歡(也應該)選用比率,原因在此。
- 雖然看見各區隔市場之間的龐大差異已夠令人滿意,但側寫最饒富趣味的地方往往在於命名每個區隔市場。開始之前,請先體認一點:為區隔市場命名有助於區分各市場,區隔的市場越多,命名越顯得重要。
- 判別分析可以輕鬆完成這項任務。
(在SAS程式中對樣本套用proc discrim指令,就能得到方程式,
依各消費者劃入各區隔市場的機率予以評分,一旦定義好類別「區隔市場」,就能在方程式中放入合適的變數,預測消費者所屬的類別「區隔市場」,這是很常見的做法)。
- 市場區隔探究的是對消費者重要的因素,而非企業。
- 市場區隔可為市場研究、行銷策略、行銷傳播和市場經濟等方面提供洞見。
- 務必釐清每個區隔市場自成一格的原因。每個區隔市場都應有不同的策略,否則劃分為區隔市場將無意義。

10 市場區隔
- 市場區隔的各種方法:
商業準則、卡方自動交互作用偵測、階層式集群分析法、K平均演算法集群分析、潛在類別分析等。
- 市場區隔的目標是要增加淨利,而每個區隔市場的最終目的,則是要有效運用策略,
創造交叉銷售追加銷售的機會。
- 由分析中得出洞見,我們可以更認識每個區隔市場主要的痛點(pain point),
這也意味著我們可以對各市場對症下藥,
在適合的時機釋出適合的訊息,用足以打動人心的價格提供適當的產品選擇。
- 實際使用行為區隔程序:擬定策略、收集行為資料、製作/使用其他資料、執行選擇的演算法,以及側寫區隔市場。
- 區隔變數和側寫變數:
「區隔變數」是指建立區隔市場所使用的變數,剩下的變數則屬於「側寫變數」。
- 除此之外,其他(行為)變數都會以演算法檢測是否顯著,顯著者會保留下來,作為區隔變數。
總之請記住,只要不屬於區隔變數,即為側寫變數。
過度取樣(oversampling):強制提高特定數據代表性的一種取樣手法,使其樣本數比隨機取樣更多。
若簡單隨機取樣產生該特定數據的數量太少,即可採取過度取樣。
標準化:第一階段只是單純檢測每個變數是否「非常態」。
一般而言,此階段會計算每個變數的Z分數,或將各變數標準化,
接著刪去分數超過3.0標準差的觀察值
(常態分布下,三個標準差已涵蓋99.9%觀察值,因此超出者已屬於非常態)。
進入第二階段,需要使用K平均演算法檢測樣本是否為常態。
- 關鍵在於,比起逐一檢查每個變數是否異常,這種方法採取多自變數方式,
找到一群擁有非常態傾向的消費者。
因此我們需要刪除這些觀察項(消費者),不再繼續分析。
- 卡方自動交互作用偵測(chi-squared automatic interaction detection,CHAID)
- 卡方自動交互作用偵測會挑選依變數,接著檢視自變數,找出「區分」依變數效果最佳的自變數。
所謂效果「最佳」,是根據卡方檢測(chisquared test)的結果而論。
- RFM模型採用的是企業觀點,並非從消費者的角度出發。
- RFM模型只能試圖移動消費者版圖,無助於策略擬定。
- K平均演算法(k-means clustering)大概是最熱門的市場區隔(分析)的技術了。
SAS程式(使用proc fastclus)有相當強大的演算法。
- K平均演算法不具任何診斷功能,對於這些重要條件毫無任何協助,讓你憑著主觀的直覺全權決定。
-- 有幾點需要注意:
第一,K平均演算法方法以歐式距離平方根為依據,來決定觀察項的歸屬,因此並非統計屬性,而是數學性質的分析法。
第二,集群中心值(即集群)高度取決於資料集的順序。若將資料集重新排序,最後可能會得到天差地遠的區隔結果。
第三,此方法幾乎毫無診斷功能可言。
第四,由於群集呈現自然球形(因為是根據與中心值的距離,決定觀察值歸屬何處),集群的大小會很相似
這不太可能符合真實市場的情況。雖然K平均演算法又比RFM模型和卡方自動交互作用偵測更進一步,但顯然仍有許多缺陷。
- 市場數和顯著變數都不是K平均演算法能夠提供的資訊
- 「行為區隔」是採消費者的觀點,主要使用消費者交易和行銷媒介回應等資料
確切了解消費者看中的事情,其主要精神就是以消費者為核心。
所有策略行銷活動都適合使用「行為區隔」,包括:選擇目標客群、
訂定最佳折扣、了解消費者的通路偏好/決策歷程、釐清產品滲透率/品類管理等。
「行為區隔」不僅能協助行銷人員選擇目標市場,還能完成更多工作。
- 行為出自於動機,不管核心動機或經驗動機。
舉凡結帳、光臨店面、使用產品(滲透率)、開啟及點擊行銷媒介並給予回應,都是行為,
正是這些行為創造了財務成果、營收、成長、終身價值和利潤。
- 核心動機主要是無形的態度、品味和偏好、生活方式、金錢價值觀、通路偏好、益處或需求激發。
另外也有經驗動機,這是行為的次要成因,通常取決於品牌曝光。
這些都不是行為本身,但會觸發後續行為。這種次要成因包括:
忠誠度互動程度滿意度服務禮節速度
值得留意的是,RFM模型使用的最近一次消費和頻率
(互動程度指標)就屬於次要成因,而同樣會使用的金額相關指標,則是財務結果數據。
- 由此可知,RFM模型僅使用互動和財務等方面的資料,並未使用行為資料。
- 「行為區隔」和RFM模型有三點不同:「行為區隔」(通常)使用較多行為資料;
「行為區隔」使用這些資料的目的在於了解消費者行為;「行為區隔」會採取統計方法,
將各區隔市場做最大程度的區分。
簡單比較RFM模型卡方自動交互作用偵測K平均演算法潛在類別模型,即可窺得箇中意義。
RFM模型使用多個自變數(通常是三個變數),但無法處理多個依變數(即同時使用三種維度)。
RFM模型屬於數學性質的分析法,就統計而言並非理想選擇。
潛在類別分析(latent class analysis,LCA)可以大幅改善前述缺失,堪稱目前最先進的市場區隔技術。
- 潛在類別分析可找出理想的區隔市場數量、識別顯著變數,以及計算每一成員隸屬各個區隔市場的機率。簡言之,沒有任何事情需要主觀決定!
- 潛在類別分析是一種統計技術,而非數學性質的分析法(例如階層式分析或K平均演算法)。
- 潛在類別分析可以使用貝氏資訊準則(Bayes Information Criterion,BIC)LL(負對數概似值)錯誤率,為你提供診斷結果,在變數和資料集的基礎上,指出「最理想」的區隔市場。
- 潛在類別分析(LCA)是一種貝氏(最大概似)方法,具有統計本質。
由於消費者行為屬於一種機率(甚至是不理性的)現象,
因此使用統計分析法會比數學屬性的方法更為適切。
透過此方法提供的診斷功能,我們可以知道區隔市場的最佳數量,
也能了解哪些變數對市場區隔最為重要。

第四篇 攸關日常行銷的其他重要主題
11 統計檢定
- 試驗設計:以歸納方式建立統計測試,其中採用的刺激因素會隨機考量變異數、
信賴度等不同條件,並與控制組對照比較。
- 關於樣本規模的問題,建議考慮以下因素:
母體的標準差、希望的信賴水準(以檢測結果能否推斷母體的真實情形)、想檢測的敏感度,
以及預期回應。

12 結合大數據並採取大數據分析
- 歸因模式(attribution modelling)依行為區隔的結果,對各個接觸點施以加權。
策略上,若從產品組合的角度來看,我們可以從大數據中得知哪個接觸點對消費者具有價值。
因此,對於哪些消費者所重視的接觸點
(頁面、網站、網路、群組、社群、商店、部落格、具有影響力的名人等),我們就得多加注意。
- 不需要遍尋各種新奇的演算法,或是衍生出迥異的策略。
我們只需擁抱有關消費者行為的不同層次資訊,在分析時將所有相關因素納入考量。
對於此事,我們早就擁有相關的分析技術(存在好幾十年了)。
像是聯立方程式、結構方程式、向量自我迴歸等。
- 本書前幾個章節中,我們將廣義的統計分析技術區分成兩大類型:
依附方程式類型(一般迴歸、羅吉斯迴歸、存活分析模型)
以及相互關係類型的分析法(市場區隔、因素分析等)
以下演算法使用的語言進一步擴展了前述定義,共區分為監督式學習、非監督是學習和強化學習:
1. 監督式學習:有一個引導(目標)變數,而目的就是預測該變數。
這類技術包括迴歸和分類類型的方法,例如決策樹(decision tree)隨機森林(random forest)
K最近鄰演算法(K-nearest neighbour)邏輯迴歸等。
2. 非監督式學習:沒有引導變數。
市場區隔降維(dimension reduction)類型的方法都屬於此類,
例如集群分析類神經網路因素分析等。
3. 主要運用人工智慧(AI),在演算法中融入回饋迴圈。
類似馬可夫鏈(Markov)的處理程序,一般都可歸於這類技術,例如Q-learning。
- 從技術面來看,截至目前所介紹的方法都屬於迴歸或分類屬性,具線性本質,
可表示為BXi,其大多僅涉及明顯的變數。也就是說,變數就是該方法要量測的項目。
除了這類型之外,還有一種非線性的技術(假定使用潛在變數),稱為「類神經網路」。
舉凡依變數類型即相互關係類型的技術(分類形式),都可使用類神經網路。
- 傳統的計量經濟方法依然足以解決大部分市場分析問題。

2021年9月4日 星期六

消費者行為市場分析技術(上)

消費者行為市場分析技術:數據演算如何提供行銷解決方案
Marketing Analytics, 2nd edition, 
A practical guide to improving consumer insights using data techniques
麥可.格里斯比(Mike Grigsby)

第一篇 概述:行銷科學有哪些功用?
01 統計學概略回顧
- 集中趨勢量數:平均數(mean)、中位數(median)、眾數(mode)。
- 離散量數:全距(range)、變異數(variance)、標準差(standard deviation)。
- 常態分布是指「集中趨勢量數」為對稱態勢,而標準差則是描述分布情形。
- Z分數:描述觀察值距離平均數多少個標準差的一種度量值。可視為一種表示觀察值發生機率的量數。
- 變數關係:共變異數和相關係數。

02 消費者行為與行銷策略原則
- 想了解消費者行為,最好的方法就是從個體經濟學的「消費者議題」切入。
此議題可以概括為以下三個問題:
  1. (就商品/服務而言)消費者有哪些偏好?
  2. 消費者(在分配有限預算時)有哪些限制?
  3. 在資源有限的情況下,消費者會怎麼選擇?
- 典型的決策流程包括:確認需求、搜尋資訊、處理資訊、評估產品、購買、購後評估。
-- 需求確認:很多廣告的目的都是激發需求。不管是教育消費者認識真實需求(生存、滿足感),
還是告知消費者假性需求(別落人後,快跟上潮流!),激發需求是一切的開端。
-- 購後評估:忠誠度是從購買產品後才開始建立的。
- 消費者希望透過偏愛的管道,以符合價值的價格取得需要的產品;
而企業則需要忠誠度、消費者滿意度和業務成長。
- 麥可·波特詳細說明了激發競爭的各種因素
(簡單來說,企業競爭的目的是什麼?就是獲取消費者的忠誠度),
這些因素分別為:
  1. 買家的議價能力
  2. 供應商的議價能力
  3. 新進廠商的威脅
  4. 現有同業的競爭
  5. 替代品的威脅
- 根據以上所述,麥可·波特設計了三大基本策略:
  1. 企業可以打價格戰(當低價產品提供者)。
  2. 企業可以塑造差異,專注於高階產品。
  3. 企業也可以區隔市場,專心經營規模較小的利基市場。
- Michael Treacy & Fred Wiersema採用了麥可·波特的架構,
進一步深入探討。提出了三大策略(準則):
  1. 營運卓越(致力追求低成本)。
  2. 產品領導(專注發展較高階的差異化產品)。
  3. 貼近顧客(一種差異化/市場區隔策略)。

03 什麼是洞見?
- 洞見必須滿足以下條件:
  1. 含有新資訊
  2. 專注於了解消費者行為
  3. 量化因果關係
  4. 提供競爭優勢
  5. 傳達財務意義
-- 傳達財務意義:洞見應該要可以量測。
不管是投資報酬率、邊際貢獻或風險評估,洞見都應該多少隱含些財務意義。
如果無法具體衡量營收或滿意度有所提升,或是開銷有所減少,
就應該為分析的效力打上問號。
- 真正的分析洞見要能轉化為實際行動。

第二篇 依變數分析技術
04 刺激需求的因素?
- 一般統計技術可分為兩種:「依附方程式類型」及「相互關係類型」。
--依附方程式類型的統計技術,主要是在處理確切的方程式時使用(可能是確定型方程式或機率方程式);
相互關係類型的統計技術,則與方程式無關,而是關注變數之間的變化情形。
- 一般迴歸(普通最小平方法,ordinary least squares,OLS)的一變數方法,
了解(量化)季節性、廣告支出和價格,對銷量的影響(解釋銷量的變化如何受到前三者牽引)。
這種方式稱為「結構分析」,亦即試著理解資料產生流程的結構,
嘗試釐清價格、廣告支出和季節性可如何解釋或影響銷量的(大多數)變化,並予以量化。
- 一般迴歸:一種統計方法,其中依變量取決於一或多個自變數(以及誤差項)的變化。
- 模型建立後,我們就能判斷每個變數的重要程度(查看其係數或斜率),
以及變數是否顯著(根據變化程度判斷)
- 有個常見的適合度(goodness of fit)衡量方法,稱為R^2
R^2是指相關係數平方,在此案例中,即為實際銷量與預測銷量的相關係數。
相關係數可衡量強度和方向,R^2則可評估共享變異(解釋能力),結果可能是0%至100%。
- 談談顯著性吧,在行銷領域中,通常採用95%的信賴水準。還記得Z分數嗎?
95%信賴水準的Z分數是1.96,與p值小於0.05時相同。
所以t值(係數除以標準誤差)大於|1.96|,變數即可是為顯著。
- 所謂顯著性,是指變數影響力為0的機率低於5%,而且t檢定中,
變數的影響力表現有95%的標準常態分布觀察項,落於+/- 1.96的Z分數區間之內。
- t值(係數除以標準誤差)為2.72,大於1.96,因此可以判定此變數為顯著正相關。
- 現在談談適合度,只有這兩個變數的情況下,模型的效果究竟如何?
R^2是適合度的常見評估法,此案例中,該值為83%,也就是說,
實際與預測的銷量之間,有83%的變化一致;
換個方向來說,實際依變數有83%的變動情形,可從自變數來「解釋」
可以這麼理解:銷量變動中,有83%可以歸因於價格和廣告支出
- 虛擬變數(也稱為「二元變數」,亦即只有1或0兩種數值)。
這種變數時常俗稱為「斜率位移項」(slope shifter),
因為其可(「開啟」為1時)將斜率係數上下移動。
- 採用二元變數建構分析系統時,不可以用上所有數據。
舉例來說,若要建立季度模型,你必須拿掉其中一季的數據,否則模型無法有確切的解答
(實際上是試著以0相除),最後落入「虛擬變數陷阱(dummy trap)。
因此四個季中拿掉Q1,亦即各季的係數都會與Q1比較。意思就是Q1成了基準。
- 光有分析而不轉化成策略實際運用,就像電影中充斥著華麗特效,但缺乏劇情支撐,可說毫無意義。
- 衡量適合度的R^2大於95%,代表自變數解釋銷量變化的成效極佳。
- 一般迴歸的效用在於,這能考量其他所有變數,區分出每個自變數的影響。
換句話說,在其他所有變數維持不變的情況下,分次將每一個變數的影響量化。
-二元變數之所以俗稱為斜率移位器,原因在於,不管價格或廣告支出如何,
只要「開啟」Q4,銷量就會增加3.825。
- 除了體會量化的價值之外,更重要的,是要計算價格彈性。
- 彈性:無關規模或維度的一種指標,亦即一輸入變數的百分比變化,
會導致輸出變數產生多大程度的變動。
- 若使用迴歸方程式,彈性的計算方式為:價格係數X平均數量(銷量)的平均價格。
平均價格為1,102,實際銷售的平均數為63,因此價格彈性計算如下:
-0.0275X1102/63=-0.48
意思是,如果價格上升10%,銷量會減少約4.8%。此資訊具有豐富的策略意義
*迴歸有幾項假設必須遵循
- 第一項假設:主要界定函數形式,即依變數(前述的銷量)可表示為線性方程式
此一依變數取決於自變數(前述的季節性、價格和廣告),以及某些隨機誤差項。
- 第二項假設:主要界定誤差項,即誤差項的平均值為零
- 第三項假設:同樣是界定誤差項,即誤差項對所有自變數具有類似的變異量,
也就是有所謂的變異數同值(homoscedasticity),且某一期間的誤差項
與(後續)其他期間的誤差項不相關,亦即無序列相關(或自相關)關係
- 第四項假設:主要界定自變數,即在重複抽樣中,自變數保持不變。
- 第五項假設:同樣是界定自變數,即自變數之間沒有確切的關聯性,
亦即不具「完全共線性」(perfect collinearity)
- 以上假設必須全數符合,迴歸模型才能成立,也才可以解讀、無偏誤、有效率,且結果一致。
只要有任何假設不成立,代表模型必須有所調整,以抵銷假設不成立所衍生的結果。
- 簡單的檢測「序列相關」的方式稱為「杜賓-瓦森檢定」(Durbin-Watson test)。
如果檢定結果只有2.00左右,則無需擔心序列相關的問題。
- 要是違反「誤差項不得具有關聯性」的假設,標準誤差就會產生向下偏誤的現象,
亦即標準誤差比應有的數值更小。
換句話說,t值(顯著性衡量指標)會比實際情況更高(看似更為顯著),這個問題不容忽視
- 隨然大部分的序列相關問題,都會採計前一期的資料
(稱為「一階自我迴歸」或「AR(1)模型」,
但這並不代表沒有其他類型的序列問題。
這有一部份是取決於提供的資料類型。如果是每日數據,時常會使用AR(7)模型,
這意味者七期之前的資料,會比一期之前的資料具有更強的關聯性。
如果是每月數據,往往採用AR(12)模型,以此類推。
- 請記住杜賓-瓦森檢定只適合AR(1)。也就是說,要是使用每日數據,
每個星期一通常會與其他所有星期一相關,以此類推,
而這就是AR(7)類型的序列相關,並非AR(1)。
因此每日數據通常會採計七個之前的觀察項、每月數據會使用十二個之前的觀察項、
季度數據會採取四個之前的觀項,以此類推。
- 第一步:市場區隔
-- 潛在類別分析(LCA,Latent Class Analsis)儼然已成為黃金標準,是一種應用於市場區隔的分析技術。
事實證明,此方法遠優於一般技術(K平均演算法),尤其是在追求最大差異的區隔時,更是如此。
簡單來說:市場區隔之間的差異越大,越能針對每個市場量身打造獨特的行銷策略。
- 第二步:建構彈性模型
--彈性是邊際函數除以平均函數的值
數學上,「邊際」的整體概念為曲線的平均斜率,為一導數。
所以,若要計算整體的平均彈性,需知道價格函數(即需求曲線)中,從平均處測得的銷量導數。

05 誰最可能購買?
- 羅吉斯迴歸和一般迴歸兩者相似之處在於都是單一方程式中,由一或多自變數解釋一個依變數。
不同之處在於,一般迴歸具有連續依變數,而羅吉斯迴歸則是二元變數;
一般迴歸使用最小平方估計係數,而羅吉斯迴歸使用最大概似值
- 羅吉斯迴歸並非以「平方誤差總和最小化」(普通最小平方法;一般迴歸[OLS])計算係數,
而是透過網格搜尋計算法(grid search),計算最大概似估計法(maximum likelihood)
此外,對係數的解讀也不一樣。通常會使用勝算比(odds ratios),而且衡量適合度時,
並非比較預測和實際的依變數。
- 最大概似估計:(相對於普通最小平方法),目的是透過觀察某個樣本,
尋找可將概似函數最大化的估計式。
- 羅吉斯迴歸和一般迴歸的另一項差異,在於羅吉斯迴歸會對「羅吉斯」(logit),
而非依變數建立模型。所謂羅吉斯迴歸,是指事件/(1代表事件)的對數,
亦即事件發生機率的對數。相較之下,一般迴歸只是對依變數本身建立模型。
- 由於羅吉斯迴歸線,僅以0和1表示,因此自變數的效應會對依變數造成不同影響。
實際影響可表示如下:e^係數
這表示教育程度的係數為0.200,影響為:
e^0.200=1.225,亦即(2.71828^0.200)
- 這代表教育程度每增加一年,機率就會上升22.5%。這個數值稱為勝算比。
- 羅吉斯迴歸中,沒有像一般迴歸的R^2一樣的適合度衡量指標。
羅吉斯迴歸會以1和0表示依變數的發生機率。
很多時候,我們會使用混淆矩陣」(confusion matrix),若預測準確,即表示模型效果良好。
- 假設現在有10,000個觀察項。事件(購買)總數為6,750+1,750,也就是8,500。
模型預測的總數只有6,750+500,也就是7,250。
模型的整體準確度,是「正確預測且實際發生」的事件數,加上「正確預測但實際未發生」的事件數,
亦即6,750+1,000,也就是7,750/10,000=77.5%。
預測錯誤為500(模型預測會有500人發生事件,但其實並未發生)。
若須考量將宣傳資訊寄給錯誤對象的成本,這將是直效行銷的重要衡量指標。
- 有一個分析小秘訣能幫助我們判斷依變數(這裡是指銷量)是否含有任何異常觀察項。
還記得Z分數嗎?這是檢查觀察項是否「出界」的一種方法,快速又簡單。
Z分數的計算方式為:(觀察項-平均數)/標準差
- 正極端組(positive outlier),其值為1。以這個新變數作為另一個自變數,有助於尋找異常值。
- 提升圖(或稱增益圖)是一種常見的重要工具,尤其對直效即資料庫行銷尤為重要
- 提升/增益圖:協助解讀模型執行成效的視覺化工具,以十分位數為單位,
比較模型的預測能力和隨機情形
- 所謂「提升」,是指每個十分位數的回應人數除以平均(預期)的回應人數。
- 共線性:衡量變數之間關聯程度的一種指標。
- 若一或多個自變數之間的關聯程度,強過其任一變數與依變數之間的關聯程度,即具有共線性。
換言之,假設模型中有兩個自變數,若「X1與X2」的關聯程度比「X1與Y」或「X2與Y」更強,
表示自變數之間有不利的共線性。
- 共線性會導致幾個不良後果。雖然每個自變數的參數估計值始終無偏差,但標準誤差會太大。
意思是,在顯著性檢驗(參數估計值/估計值的標準誤差)中計算t值(或華德比率(wald ratio)時,
這些變數所呈現的顯著性,通常會比實際上還小,原因是標準誤差過大。
- 變異數膨脹因子(variance inflation factor,VIF)是最普遍常見的檢定方法,
你可以用羅吉斯迴歸,並加入變異數膨脹因子檢定測試。
- 基本上,這項測試可針對每個自變數,對其他所有自變數執行迴歸分析,產生一個數值。
此數值為1/(1-R^2)。
若此數值大於10.0(代表R^2大於90%),那麼根據經驗法則,某個變數具有嚴重的共線性,不得忽視。
- 我們並非是要檢定共線性是否存在(因為幾乎所有案例或多或少都有共線性),而是希望藉由檢定,
了解共線性是否過於嚴重,進而導致問題(稱為病態)。
- 如果變異數膨脹因子檢定顯示變數會造成問題,但又有充分理由將該變數納入分析,
則請檢驗其他變數(務必注意,拿掉變數並非首先考慮的應變措施。直接刪除變數是過於武斷,
且相當粗糙而簡略的分析方法)。
- 建模科學強調診斷程序,而建模藝術則會強調整體平衡和對業務的影響。
實際的商務環境有時會容許「不理想的統計數據」,以達到平衡企業運作的目的,就是這個道理!
- 脊迴歸(ridge regression,通常需使用Stein估計量),將共線性轉換成參數估計值的偏差。
縱使係數現在有所偏誤,但共線性其時可以大幅減少,這就是所謂的平衡。
- 雖然變異數膨脹因子檢定很實用,但在<迴歸診斷>之後,
條件指標(condition index)便成了共線性診斷的最新利器。
- 計算每個變數的條件指標,亦即最大特徵值(eigenvalue,稱為特徵根)除以各變數特徵值之後,
再取平方根(在相關矩陣中,特徵值是指每個主成份的變異數)。
- 無論是使用變異數膨脹因子檢定條件指標,都可得到變異數比例
透過變異數比例的值,我們可了解與各特徵值相關之係數的變異數百分比。
變異數比例高,代表與特徵值的關聯強。
- 迴歸對於線性、常態性等方面都有許多假設。例如說明一般迴歸時,曾提到無序列相關的假設
(尤其是對時間序列資料),而這項假設同樣也可套用到羅吉斯迴歸。
迴歸分析法多半適用大部分假設。介紹羅吉斯迴歸時,說明了共線性的檢測及矯正方法,
而這個在討論羅吉斯迴歸時順帶一提的方法,正好也適用於一般迴歸。
- 實務上只要使用任何迴歸分析法,就應該檢查每項假設,一旦發現假設不成立,也應該進一步檢驗,可以的話,再加以修正。不管是一般迴歸、羅吉斯迴歸,還是其他分析法,都要遵照這個流程。
- 羅吉斯迴歸沒有R^2統計量。這會導致認知混淆。
要記住(介紹一般迴歸時提到的)R^2,這是實際依變數和預測依變數之間共同的變異數比例。
兩者越多共同變異數表示預測依變數與實際依變數越相近。記住,一般迴歸會產生估計依變數,
但羅吉斯迴歸並不會產生估計依變數。實際依變數為0或1。
「羅吉斯」是事件/(1-事件)的自然對數,因此不會有所謂的「估計」依變項。
- 如果你不得不評估適合度,建議你對共變項截距對數概似值(log likelihood)
SPSS和SAS程式可分別僅對截距,以及同時對截距和共變項求-2LL
(負兩倍的對數概似值)。不妨把截距的-2LL,想成TSS(總平方和)
將截距的共變項-2LL,視為RSS(迴歸平方和)
如果你還是需要R^2,那麼可以利用RSS/TSS來達到同樣的效果。
- 資料的使用一般可分為三種:描述性(descriptive)預測性(predictive)時效性(prescriptive)分析
  • 描述性分析主要關注已發生的事;
  • 預測性分析會運用統計分析法,依指定的輸入變數變化(例如價格),計算輸出變數(例如銷量)的相應變動;
  • 時效性分析是一種試圖將某些數據(通常是獲利)最佳化的機制。
- 描述性資料(平均數、頻率、關鍵績效指標等)是必要步驟,但對分析而言通常不甚充足。無論如何,都應盡快進入預測性分析階段。
需要注意的是,這裡所謂的「預測」,並非指預測未來。
進行結構分析時,會使用模型來模擬市場,推估(預測)市場變化的前因後果
換句話說,使用迴歸分析,就能從價格的變動情況(預測)銷量變化。
- 邏輯迴歸使用(某種)t檢定檢驗每個自變數的顯著性。
- 一般迴歸和羅吉斯迴歸不同的是羅吉斯迴歸的依變數是二元(只有1和0兩種值),一般迴歸則為連續變數,而且在解讀羅吉斯迴歸的係數前,需先求得指數。由於依變數的二元性質,結果會產生異質變數(heteroskedasticity)
沒有(真正的)R^2,且「適合與否」與分類有關。
* 如何推估/預測購物籃
- 自變數可以是購物籃中購買的產品,能預測購買其他產品(依變數)的可能性。

06 消費者最有可能在何時買單?
- 「事件發生時間」是比「事件發生機率」更值得探索的行銷問題。
- 存活分析(survival analsis)能回答一個極為重要的特別問題:
事件(購買、回應、流失顧客等)什麼時候最容易發生?
比起事件(購買、回應、流失顧客等)發生的機率有多高?是更切身相關的問題。
- 透過比例風險模式(proportional hazards modelling)進行存活分析的案例,可追溯至
David Cox在1927年發表於<皇家統計學會雜誌>
(Journal of the Royal Statistical Society)的研究論文
<迴歸分析與生命表>(Regression models and life tables)
該文不僅為統計學科開創了新局,出版以來更是廣受引用。
- 存活分析是專為估計及了解事件發生前經過的時間而設計,其基本假設是每段時間之間彼此獨立,
不相互影響
- 存活分析關注的是事件發生前所經過的時間,對行銷來說,事件可以是回應、購買、
顧客投奔其他品牌等情形。
- 存活研究的本質上,有幾個特性是此方法所獨有的。
  1. 如同稍早所提,依變數是事件發生前經過的時間,因此分析中已經內建了時間。
  2. 設限觀察值。設限觀察值包含尚未發生事件的觀察值,以及研究中因故無法掌握動向的觀察值,
- 存活分析是一種迴歸分析,但有一些差異。其使用的不是最大概似法,而是部分概似法
現在依變數有兩個部分:
  1. 事件發生前經過的時間,
  2. 事件是否發生,因此需採用設限觀察值。
- Cox迴歸的主要重點不在於存活曲線,而是風險率(hazard rate)
「風險」幾乎可說是「存活曲線」的代名詞。可以將之想像成事件發生於某一時間點的瞬間機率。
- SAS程式可以執行存活模型(使用proc lifereg指令)風險模型(使用proc phreg指令)
- 要了解對事件發生時間(time-to-event endpoint,TTE)影響的百分比,
必須先對每個Beta係數取指數,亦即e^B。
- 描述性分析只能針對早已有所互動的客群強力推銷,很像RFM模型
(最近一次消費、消費頻率、消費金額)。
- 這個著力點看似不錯,但就和廣泛的描述性分析一樣,並未貢獻太多可利用的資訊。
為什麼某些消費者的價值比較高,他們能持續維持價值嗎?
有可能從他們身上汲取更多價值嗎?需要付出什麼代價?
有可能因為價值較低的消費者比較忠誠,或服務成本較低,而從他們身上獲取更多營收嗎?
每個消費者對行銷組合的哪一部分最敏感?
- 預測性分析使用自變數來預測下一次購買所需的時間,確實地將「終身價值」投射到(其屬於的)未來。由於造就「終身價值」的主要消費者行為是時間、購買金額和數量,因此需使用能預測事件發生時間的統計法(以一般迴歸預測「終身價值」的話,會忽略時間和購買量等因素)。
- 存活分析是專門為了研究「事件發生時間」這類問題,所設計的一種分析法。
此方法內建了時間因素,因此演算法中原本就存在未來觀點,
而一般(描述性)「終身價值」計算所隱含的武斷特質,在預測性分析中其實減少許多。
- 使用存活分析,判斷是哪些自變數促使消費者購買商品,情況會怎樣?
一旦購買前時間縮短,「終身價值」就會上升。
雖然存活分析可以預測消費者下次購買商品所需經過的時間,
但使用自變數來「改變」購買時間,才是其重要的策略價值。
綜合來說,描述性分析主要呈現以前發生的事,而預測性分析則能指出可能「未來』的因素。
- 若要以「終身價值」制定策略,需了解消費者價值的成因,包括消費者掏錢購買的原因、
拉長/縮短購物前時間的因素、在未來時間點購買的機率,諸如此類。
一旦徹底了解這些深入洞見,即可利用行銷手段(以自變數的形式呈現),從各消費者身上汲取更多價值。舉例來說,我們可以從中了解一些事實,像是某位消費者對價格變動很敏感,祭出折扣優惠則有機會縮短他下次購買的時間。
- 對每個分組套用存活分析模型後,即可產生自變數,並顯現其對依變數的影響。
在此範例中,依變數為購買前(平均)時間,自變數(定義行為分組的要素)則是折扣優惠、產品搭售、
節日宣傳、增加DM目錄及網路獨享優惠等。這些分組因素可依行為將
消費者分門別類,再透過存活分析模型,即可了解自變數在不同程度可以造就哪些不同策略。
- 除了行銷策略手段之外,存活分析還具有財務優化功能,尤其是營銷成本。
例如,假設A對折扣優惠有反應,我們就能計算及測試需要的(適度)折扣門檻,
吸引消費者提前上門購買商品,進而獲取預估的營收金額。
這麼做的話,最終能演變至成本/效益分析,促使行銷人員思考相關策略。
- (執行存活分析後)預測性終身價值比描述性終身價值,更能提供實用的精闢洞見。

07 追蹤資料迴歸分析:如何使用橫斷面的時間序列資料
- 針對某一時間點:橫斷面研究(Cross-Sectional Research)
- 不同時間點:縱斷面研究(Longitudinal Reasearch)
- 橫斷面通常會採取一般迴歸,期間通常會選擇自我迴歸(auto regression)。
- 橫斷面是指依消費者、分店、地理位置等條件來分析,
如此一來,各個橫斷面的時序資料,不管是銷量、媒介、促銷或其他刺激,都能擔任自變數。
追蹤資料迴歸分析的好處,在於其同時使用可說明橫斷面與時序影響的橫斷面和時序觀察項
- 將各地區及不同時序在銷售額、促銷、媒體等方面的差異列入考量,以呈現地理位置的變異情形
(可以是相通地區的銷售或相同消費者,諸如此類),這是時常透過分析加以探究的問題。
*什麼是追蹤資料迴歸分析?
- 資料大致可區分為橫斷面縱斷面資料而追蹤資料是指既為橫斷面,也具時序性質的多維度資料。
因此,分析追蹤資料時,等於同時採用了橫斷面和縱斷面資料。縱斷面資料依般可分為三種類型:
  1. 時序資料:從單一橫斷面擷取多個觀察項,例如股價、單週銷量摘要。
  2. 合併的橫斷面資料:自多個橫斷面收及兩個以上樣本,例如社會/人口問卷調查、地區或子市場的營收。
  3. 追蹤資料:自兩個以上橫斷面,匯集兩個以上觀察項,例如不同企業組織在不同時間點的時序資料、地區或子市場,在不同時間的彙總資料。
- 追蹤資料分析模式旨在描述不同時間的變化(橫斷面)。
- 橫斷面(又稱為群組或單位)是指觀察值樣本,像是分店、消費者、子市場、郵遞區號、
家戶等。換句話說,任何具有不同時間點多個觀察值的群組,都能做為追蹤資料使用。
- 追蹤資料迴歸分析具有恆定的斜率,但截距會依橫斷面(群組、單位、消費者、分店、地區)
或期間而變動。因此,這種模型本質上是一種一般迴歸虛擬變數模型。
- 追蹤資料迴歸分析的假設,即大部的解釋能力來自橫斷面和時序資料,並非自變數。

08 以方程式系統建立依變數類型的模型
- 聯立方程式使用兩種變數:預定變數(落遲的內生變數和外生變數)內生變數
- 聯立方程式有助於訂定最佳定價,以及了解產品牌之間的競食現象。

- 延伸閱讀:
- 計量經濟分析 Econometric Analysis,1993,William H. Greene
- 計量經濟模型、技術和應用 Econometric Models,Techniques and Applications,1996,Michael Intriligator & Ronald G. Bodkin & Cheng Hsiao
- 顧客洞見 Consumer Insight,2004,Merlin Stone & Alison Bond & Bryan Foss
- 計量經濟學的要素 Elements of Econometrics,1986,Jan Kmenta
- 多變量數據分析 Multivariate Data Analysis,1998,Joseph Hair
- 多變量統計分析 Multivariate Statistical Analysis,1991,Sam Kash Kachigan
- 計量經濟學原理 A Guide to Econometrics,1998,Peter Kennedy
- 先進行銷策略 Advanced Marketing Strategy,1991,Glenn L. Urban & Steven H. Star
- 市場分析 Marketing Analytics,2013,Stephan Sorger
- 市場策略 Marketung Strategy,1997,Steven P. Schnaars
- 消費者行為 Consumer Behavior,1995,James Engel & Roger Blackwell & Paul W. Miniard
- 競爭策略 1979,Michael Porter
- 行銷短視症 Marketing myopia,1960,Theodore Levitt
- Modeling elasticity,Canadian Journal of Marketing Research,2002,Grigsby
- 迴歸診斷 Regression Diagnostics,1980,David Belsley & Edwin Kuh & Roy Welsch
- 經濟學與消費者行為 Economics and Consumer Vehavior,1980,Angus Deaton & John Muellbauer
- 行銷管理學 Marketing Management,1967,Philip Kotler
- 戰略市場決策的區隔與定位 
Segmentation and Positioning for Strategic Marketing Decisions,1996,James Myers
- 市場區隔 Market Segmentation.1998,Michel Wedel & Wagner Kamakura
- 市場調查進階研究方法 Advanced Methods of MarketingResearch,1994,Richard P. Bagozzi
- 市場區隔 Market Segmentaion,1994,Art Weinstein
- 對潛在類別模型的非技術性介紹 A nontechical introduction to latent class models,2002
- 用具類的潛在類別模型:與K平均值得比較 
Latent class models fo clustering:a comparison with K-means,2002.
- 決策統計分析 Statistical Analysis for Decision Marking,1987,Marris Hamburg

2021年7月16日 星期五

統計學,最強的商業武器(商務篇)

 統計學,最強的商業武器(商務篇):把數據資料轉換成獲利能力的智慧

第1章 用於經營策略的統計學

- 對於相差懸殊的資料,有時先做「取對數」處理,再用於分析,結果會更為貼切。
- 對於解釋變數的組合也可能產生疑問。可藉由加入「相乘之值」(稱為交互作用)
作為解釋變數來分析的方式以獲得答案。
- 也有一種將解釋變數的平方值(稱作平方項)納入分析的技巧可用。
- 即使分析得不夠完整,「似乎能賺到30億日圓」的分析結果一值無法實現的狀態,
和開始採取行動「投入幾千萬日圓來嘗試驗證」這兩者,到底何者較為明智?
- 在進行與經營策略有關的分析時,做為分析對象的企業數量往往有限,
就算可能的解述變數多達一百個,也很難全都用上。因此,必須以逐步排除法等變數選擇演算法,
以及你自己的眼睛來做取捨,將影響獲利的重要解釋變數給挑出來
- 變異量成分分析(Components of Variance Analysis或Variance Components Analysis)
它可被理解為包含隨機效果(Random Effects)之混合效果模型(Mixed Effects Models)的一部分。
- 一般的多元迴歸分析屬於固定效果模型(Fixed Effects Models)

第2章 用於人事的統計學

- 羅吉斯迴歸結果的解讀:比值比(Odds Ratio)
對於像性別這種質化的解釋變數,會採取
當解釋變數符合某條件時,為優秀員工的機率大約會變成幾倍」的解讀方式。
而對於量化的,像人格五大特質的得分或支出的費用金額等以數字大小表示的解釋變數,
則要採取這些數值「每增加1,為優秀員工的機率大約會有增加為幾倍之傾向」的解讀方式。
- 95%的信賴區間代表的是,收集無限多數據應該就能得知的比值比「大概就在這個範圍內」。
此範圍的兩端若是都比1大,或反之都比1小的話,p值應該會小於0.05,亦即都表示了此結果
不太可能是單純由資料的變動性所造成」,是可信賴的。

第3章 用於行銷的統計學

- 「不考慮顧客需求,總之大量販賣相同產品,成本才能壓低」與
「曾對每位顧客的需求販賣對應產品,才容易銷售」這兩者的平衡,
在現代行銷中是以所謂「市場區隔(Segmentation)」的觀念來解決。
簡言之,就是將市場整體分割(區隔)成數個需求或生或風格相似的小群體(Segment),以思考行銷策略。
- 而考慮要集中火力針對這些區隔中的何者進行行銷這件事,也稱為目標市場選擇(Targeting)
- 一旦能決定出鎖定的顧客族群,並充分理解這些的人,接著便可考慮「要賣什麼,又要如何賣?
具體來說,「要賣什麼」指的就是所提供的商品及服務,
而在那之前應先於抽象層次「用一句話來解釋」自己打算賣的東西
亦即應先思考定位(Positioning)這點,也是現代行銷的準則之一。
- 行銷數據分析的步驟
  1. 設定分析的目標對象
  2. 包含應分析變數的資料收集
  3. 分析所得之資料
  4. 解讀與行動的規劃
- 多元迴歸分析也好,羅吉斯回歸也罷,都是基於出現在分析結果中的解釋變數
彼此之間無加乘效果或相互作用(在專業術語中稱之為交互作用)」
此一假設,來推估解釋變數和成果之間的關聯性。
- 例如:若有一批資料所畫出的圖表如上圖所示,那麼從這批資料能得到的多元回歸結果。
在此例中,女性的平均消費金額高於男性但未必呈現出年齡越大消費金額越高的傾向。
而男性雖然平均消費金額低於女性,可是隨著年另增加,消費金額卻有隨之升高的趨勢。
在這種情況下,會得到「若性別相同,年齡大的比較會買」且「若年齡相同,女性比較會買」的結果。
不過,實際上消費金額最高的市場區隔,是位於圖右上方的「60歲以上的男性」。
這是因為被忽略了基礎假設「解釋變數之間的交互作用」實際上真的存在的關係。
雖然光是年齡大這件事與消費金額沒有關聯性,但卻存在有「為男性且年齡大」的交互作用。
- 聚類分析所用的變數要能夠提示「怎樣的行銷策略可能有效」,或者更具體地說,
怎樣的產品、價格、通路、促銷是較為合理的
而一旦獲得足以為所有聚類命名的具說服力的分析結果,便要進行成果的比較。
換言之,像是做為成果的運動服飾之年平均消費金額,或者肯定與該成果相關的消費次數、
所購買的商品數量、單次的消費金額等解釋變數,都最好別用於聚類分析。
- 在市場區隔方面,基於交互作用的問題,「就算將所有具顯著影響力的解釋變數都組合起來,也不見得就能成為理想的市場區隔」,但在定位方面卻非如此。若能藉由可用一句話表達的定位,
將出現在分析中的所有解釋變數都改變成能讓成果提高的狀態,就是個非常好的策略。
- 之所以會有這樣的差異,應該是因為相對於市場區隔是在做「選擇」定位則是在「符合條件」
要「選擇」具有某種特徵的東西時,就等於「不選」不具該特徵的東西,
但要同時「符合」多種特徵並非不可能。
- 只不過一旦試圖同時符合太多條件,定位往往就會變得不夠清楚,而無法以一句話來表達,
那樣就本末倒置了。因此,首先要選出主要的行為控制因素,然後再思考有無容易同時符合的條件。
- 比值比迴歸係數p值等雖可做為大略的標準,提供思考策略時的線索,
但卻無法告訴我們「要製造出這種變化,到底有多少實際上的可能性」
這些所顯示的不過是「一旦製造出變化,可能產生多大影響」罷了。
- 為了判斷「是否為好的分歧」,有一些指標可以利用,像是資訊熵(Information Entropy)
吉尼係數(Gini Coefficient)卡方檢定值等,而這些指標的選用區別了不同的分析方法。
例如:使用資訊熵的,包括名為C4.5及C5.0的演算法,
CART(Classification And Regression Tree,分類與迴歸數)演算法則多半使用吉尼係數。
還有使用卡方檢定值的方法叫做CAID(Chi-Squared Automatic Interaction Detection)演算法。

第4章 用於營運管理的統計學

交叉驗證法(Cross Validation),就是將進行擬合的資料和檢驗其精準度用的資料隨機分群。
一般基於「用來訓練預測模型」之意,通常將前者稱為訓練資料,
而用來檢驗其精準度的後者稱作測試資料。
- 最常見的所謂10折(10-fold)交叉驗證,就是先將整體資料隨機分成10個群組。
然後以其中的9個群組為訓練資料,剩下的1個群組為測試資料的方法,
反覆進行10次,值到每個群組都當過一次測試資料為止,藉此驗證其精準度。

2021年6月26日 星期六

人工智慧在台灣:產業轉型的契機與挑戰

 人工智慧在台灣:產業轉型的契機與挑戰

Part 1 人工智慧

第二章 機器學習是什麼?

- 機器學習與統計最大的差別在於它們的目的。
統計學的目的在於基於樣本(Sample)找出真相(Universe)。
例如全台灣2,300萬人口,能不能只選出1,000人各問他們幾個問題,
就能夠了解全台灣所有人的生活型態、就業狀態及政治傾向?
機器學習目的是讓電腦從歷史資料裡,學到如何處理新的資料以解決問題。
例如能不能從醫生的X光判讀結果,學習到怎麼看新的X片?
能不能從一個人的刷卡及繳費行為,預測她若借十萬元會不會準時還款?

- 深度學習與其他方法有個根本上的差異,在於是否能夠
自動進行「特徵工程」(feature engineering)
- 在機器學習模型開發過程中,發想及定義這些衍生變數的過程,就叫做特徵工程
- 簡單用一句話來說,深度學習帶來的最大貢獻就是,自動化的特徵工程。
不但自動化,而且可以找出比人類所定義的衍生變數更好、預測力更強的特徵。
- 傳統機器學習從資料學到規則,比起專家系統更為準確,
但傳統機器學習,需要人們基於觀測值來定義特徵(衍生變數);
而深度學習連定義特徵(特徵工程)都幫我們做了。
而且一個深度學習模型,可以同時進行特徵工程以及規則學習,準確度還比以往更高。
- 無論選擇哪一種類型的題目,以及使用哪一種模型,資料都是專案成敗的關鍵
以最常用的監督式學習來說,若觀測值與決策的關聯性低、雜訊太高,或是資料量不夠大,
都會影響機器學習的準確度。

Part 2 人工智慧與產業發展

第五章 產業人工智慧化經驗談

- 根據國際研調機構顧能(Gartner)的一篇報告,資料分析可分為四個層次。
這四種階段,分別要回答不同問題
1.描述型分析是為了解釋「發生了什麼」
2.診斷型分析則是告知「為什麼發生」
通常將這兩種資料分析型態歸類於傳統商業智慧平台的能力,還不屬於人工智慧。
- 3.預測分析能解釋「未來是否發生」,與4.指示型分析說明「如何讓它發生」
就屬於人工智慧的範疇。因為預測和指示,是擁有人類智慧才能進行的工作。
描述型分析評估現況及了解問題,解釋型分析提供問題的初步判斷,
預測及最佳化提供改善和解決問題的工具。
- 描述型分析指的是利用統計及資料視覺化,將事實呈現出來,幫助觀看者正確評估情勢;
其中,一個重要但常被忽略的目的是,找出無法從原始資料中判讀出來的隱性資訊

- 零售業與金融業的共通日常決策問題之中,最常被關注的應該是發送廣告文宣。
針對某份文宣,篩選出哪些客戶可能較感興趣,畢竟發送文宣需要成本,同時也避免讓收件者反感而退訂。篩選客戶的演算法稱為推薦系統
- 在推薦系統之外,如何設計個人化文宣也是門學問。
個人化文宣指的是,內容並不完全由行銷團隊設計,而是透過以演算法,根據顧客的屬性及購買行為,來進行全自動的量身訂做。

- 在金融業中,人工智慧的應用可以大略分為五個面向:風險行銷服務市場作業流程
風險面向就是對未來風險盡可能的精準預測,這裡提到的風險,
主要是信用風險、市場風險、流動風險及作業風險等,
保險業的情境裡包含保險精算,銀行業的情境裡包含預測帳戶的盜用甚至買賣,以及信用卡盜刷等。
- 在行銷及服務面向發送廣告文宣個人化文宣設計就是一例。
同時,也可以將機器學習應用在商品及服務的改良
例如改良網頁及手機APP介面、信用卡的優惠設計、保單的參數組合、設計行銷活動,甚至到分行的抽號機制及座椅安排,都有許多發會的空間。
- 再進一步,以文字或語音客服機器人來提供理財顧問,或保單規劃的服務,也都在可預測的未來之中,大幅延伸金融業的客戶服務範圍。
- 對於金融市場的掌握度,無論是大眾熟知的投資工具,如股票、基金、ETF、債券,或是與總體經濟息息相關的利率、匯率,無論希望做某種程度的預測,或設計交易策略,或是設計衍生商品,或做市場撮合(market making),機器學習與深度學習都是重要的關鍵技術。

Part 3 迎向未來的準備

第九章 給白領工作者的建議
- 若要讓人工智慧發揮所長,企業必須容許及鼓勵實驗,允許各種嘗試與變化,要知道實驗可以幫助我們確認未知,但也可能會犯錯,甚至導致更差的成效,因次企業必須有容錯的機制及文化。
- 最理想的做法是,在實驗的各種變化中蒐集資料,建立更好的機器學習模型;
接著再以機器學習模型去導引更好的實驗設計,蒐集更多的資料,在實驗與人工智慧建模的反覆運用中,逐漸找到業務執行的最佳做法,同時也讓人工智慧更聰明,能夠為未來的需求做出指引。

2021年6月23日 星期三

SAS參考書

1.2005/09 華泰文化<SAS應用之資料處理> 林豐政編著
2.2015/10 <資料採礦運用 以SAS Enterprise Miner為工具> 李淑娟著
3.2018/02 清華大學出版社<The Little SAS Book中文版> Lora D. Delwiche,Susan J. Slaughter著
4.2012/09 梅霖文化<資料採礦運用 以SAS Enterprise Miner為工具> 曾淑峰著

2021年6月20日 星期日

數位「真」轉型:來自全球五大數位轉型銀行的實戰案例

數位「真」轉型:來自全球五大數位轉型銀行的實戰案例
Doing Digital: Lessons from Leaders

第一章 銀行為何需要進行數位轉型 
- 許多人可以有宏偉的想法,但是如果他們不能實現這些想法,那麼它們僅是一些想法,永遠不會成為任何事物。
- 銀行既有引擎又有車輛,但由於願景和領導力有限,因此它只是將一批馬栓在前面,這不是一匹跑得更快的馬;實際上,它是一批速度較慢的馬,因為它正拖著一輛重型車輛在後面轉來轉去。
重新思考基礎架構,修建道路和橋梁並重新改造系統,不要只將新功能添加到舊功能中,而希望它能奏效。
- 數位轉型需要對銀行的核心進行全面轉變,對銀行的文化、系統、組織和流程的核心做改變,
而不僅是活動和專案。
- 銀行知道他們需要進行數位轉型,但是許多銀行領導者,特別是執行長和董事長,卻不知道該做什麼,也不知道該怎麼做。他們不知道如何領導數位轉型,因此他們只懂做出一點數位改變。他們在專案、人員、計畫、系統和架構上投資了數十億美元,卻迴避了組織改造、文化變革、管理重組、系統重建更換核心系統等重大問題,原因在於後者既冒險又困難,而且這些領導者並不瞭解面對數位革命是他們必須做的。擁有這些領導者的銀行將在未來十年內不復存在,但他們不會消失,但是會被能確實做到這一點的銀行所併購。
 
第二章 轉型規劃 
- 如果你總是總是按著自己一直以來的方式做事情,那麼你就總是只能獲得一值擁有的那些...甚至還會少一些。
- 銀行數位轉型失敗的原因之一,是因為如果負責轉型的單位不是組織的核心,核心組織不會希望他們成功,且不斷地攻擊他們。或許,更重要的是,這個新部門的員工是業務的另一邊,而且往往並不是真正瞭解核心業務的領域。他們做了許多看起來很吸引人的事,但並沒有真正推動業務發展。
所以業務單位必須負責這項轉型,不能有人站在旁邊不參與。
 
第五章 數位轉型值得嗎?
- 數位轉型核心:
1.獲客
--藉由更廣泛的通路增加獲客率
--降低獲客成本
2.交易
--少紙化
--創造即時滿足客戶需求
--降低成本
3.參與
--推動增加「黏著度」的客戶行為
--透過情境行銷進行交叉銷售
--增加每位客戶的收益
4.生態系統
--從管路企業到平台企業
--資料
--以洞察力為導向

- 如果你改變的是系統,而不是改變組織架構,你將無法生存。
如果你在系統上投資,但不改變核心系統架構,你將無法生存。
如果你單純為了降低成本,而不是為了更好的用戶體驗而使用科技,則你將無法生存。
- 關鍵因素是如果你不把數位視為銀行架構和文化的轉型專案,
反而把它當作一個系統專案或一個通路來對待,那麼你將無法生存。

2021年6月12日 星期六

認識資料科學的第一本書

認識資料科學的第一本書
Data Analytics Made Accessible

Ch01|資料分析概觀

- 資料類型:
名目資料(Nominal)、次序資料(Ordinal)、區間資料(Interval)、比值資料(Ratio Data)。

Ch02|商業智慧

- 客戶關係管理
  1. 極大化行銷活動的回報
  2. 增進客戶留存率(流失分析)
  3. 極大化客戶價值(交叉、追加銷售)
  4. 找出高價值客戶,並滿足他們
  5. 管理品牌形象
- 零售業
  1. 最佳化不同區域的庫存水準
  2. 改善商店陳列與銷售宣傳
  3. 為季節效應安排最佳物流
  4. 減少因有限賞味期的損失
- 銀行業
  1. 自動化借貸申請流程
  2. 偵測詐欺交易
  3. 極大化客戶價值(交叉、追加銷售)
  4. 運用預估做出最佳現金準備
- 金融服務
  1. 預測債券與股票價格的變動
  2. 評估事件影響對市場造成的移動
- 保險業
  1. 預估索賠成本以利更好的商業規劃
  2. 決定最佳利率計畫
  3. 對特定客戶進行最佳行銷
  4. 發現並避免詐欺行為
- 電信業
  1. 客戶流失管理
  2. 行銷與產品規劃
  3. 網路故障管理
  4. 詐騙管理

Ch04|資料探勘

- 分類技術的共同衡量標準便是預測精確度。
預測精確度 = (正確預測) / 預測合計
- 混淆矩陣(Confusion Matrix)

- TP,True Positive:當一個真的正類資料點被分類為正值。
- TN,True Negative:當一個真的負類資料點被分類為負值。
- FP,False Positive:當一個真的正類資料點被分類為負值。
- FN,False Negative:當一個真的負類資料點被分類為正值。
- 預測精確度 = (TP+TN)/(TP+TN+FP+FN)

Ch06|決策樹

-決策樹基於諸多理由,可說是最受歡迎的資料探勘技術:
1.決策樹對於分析人員與管理者而言,都一樣容易了解與使用。它亦具有高度預測準確度。
2.決策樹會從所有可用的決策制定變數中,自動選擇最相關的變數
3.決策樹容許資料品質的問題,並且不需要使用者準備太多資料
4.即使非線性關係,決策樹也能處理得很好
- 較受歡迎的演算法有:C5CARTCHAID
- 決策樹演算法基於三項主要元素而有所不同:
  1. 分支準則(Splitting Criteria)
  2. 停止條件
  3. 修剪

Ch07|迴歸 Regression

- 迴歸模型的精確度,全然依賴使用的資料集,而不是依賴演算法或其他工具。
- 羅吉斯回歸(Logistic Regression)模型使用機率分數作為因變數的預測值。
羅吉斯回歸取用因變數的勝算(odds)自然對數(以logit來表示),以此建立一個連續標準,
作為因變數的轉換版本。
- 迴歸模型的不足:
1.迴歸模型無法掩蓋不良資料品質的問題,如果資料沒有好好整理,移除遺失的數值,
或是不符合常態分配,其效用便會打折。
2.迴歸模型受共線性問題而拖累。
3.如果迴歸模型中包含大量變數,模型也可能變得笨重、難以信賴。所有加入模型中的變數,
不論其對模型預測能力的貢獻如何,皆會反應在迴歸方程式中。迴歸模型並沒有自動修剪的概念
4.迴歸模型不會自動處理非線性,使用者得自行想像需要加入何種額外條件才能改善迴歸模型的適合度。
5.迴歸模型只適合數值資料,而不適合類別資料。不過還是可以藉由建立多個帶有是/否值的新變數,來處理類別變數。

Ch08|類神經網路 ANN,Artificial Neural Network

- 類神經網路之所以受歡迎,是因為它們最終將能夠達到高度預測精準度。
在執行起來也相對簡單,並沒有任何資料品質的問題
然而ANN需要許多資料進行訓練,才能發展出好的預測能力。
- ANN的好處:
1.ANN的使用限制並不多。它可以自行處理(辨識/模型)高度非線性的關係
而無須使用者或分析師做太多事情。
2.他們可以處理各種問題類型,包括分類、群集、關聯...等。
3.ANN可容許資料品質問題,並不會限制資料必須遵守嚴格的常態與/或獨立假設。
4.他們可以兼具處理數值與類別變數
- ANN的缺點:
1.它們被視為黑盒子解決方案,缺乏解釋力
2.處理大量的變數可能十分困難(特別是豐富的名目屬性)。
3.訓練ANN需要大量的資料集。

Ch09|群集分析 Cluster Analysis

Ch10|關聯規則探勘 Association Rule Mining

- 常用的演算法為Apriori,Eclat,FP-Growth

Ch11|文字探勘 Text Mining

- 詞彙文件矩陣(Term Document Matrix)

Ch12|單純貝式分析 Baive-Bayes

Ch13|支援向量機 SVM,Support Vector Machines

- SVM演算法的核心乃是核方法(Kernel Methods)。
- SVM的優點:
1.即使特徵數量比起實例數量大很多,也能夠運作良好。它能運用在含有大量特徵空間的資料集上
例如過濾垃圾郵件的例子,其中有大量的單字是垃圾訊息中會出現的潛在特徵。
2.即使最佳決策邊界為非線性曲線,SVM會轉換變數以建立新的維度。
- SVM的限制:
1.它只在實數(Real Number)上運作良好。
2.它只能處理二元分類問題。不過我們可以建立一系列階層式SVM來解決此限制。
- SVM適用於文字探勘,例如過濾垃圾郵件以及詐騙偵測

Ch14|網路探勘

- 網路探勘可區分為三種不同類型:網路使用探勘網路內容探勘網路架構探勘

- 使用模式可透過「點選流分析(Clickstream Analysis)」來進行分析,也就是依點擊順序的模式以及造訪網站時停留的位置以及時間長度,來分析網路活動。
- 網路使用探勘有許多商業上的應用。它可依據先前學習的規則與用戶特寫,(1)協助預測使用者行為,並可協助決定客戶的生命週期價值。藉由觀察網站中各頁面的(2)關聯規則,也有助於設計跨產品間的交叉行銷策略。網站使用分析可協助(3)評估促銷活動,觀察使用者是否受網站吸引,並使用與活動相關的頁面。網站使用探勘可依據用戶的興趣與特寫,(4)對用戶展現動態的資訊。這包括依據用戶存取模式,對用戶群組發布特定的線上廣告與優惠券。

Ch15|社群網路分析

- 影像力流模式(Influence Flow Model)

2021年6月5日 星期六

Bank4.0:金融常在,銀行不再?

 Bank4.0:金融常在,銀行不再?

- 在過去的40年期間,我們從認定實體分行是唯一可以取得銀行服務的通路,轉換到
多通路(Multi-Channel),再轉換到全通路(Omni-Channel),
最終成為數位的全通路(Digital Omni-Channel),客戶最終只會使用數位通路來取得銀行服務。
- 如果現在的銀行只是將分行及人員轉型以數位化的方式執行,你將會錯失最後機會。
銀行業需要重新設計以適應科技無所不在的世界,銀行想與客戶保持相關的唯一途徑,
就是創造符合客戶目的之體驗,顯然仍以分行為基礎逐步演化的方法是不夠的。

第一章 回到第一原理

- 賈伯斯深信科技的力量唯有人們開始使用,才得以發揮。
- 未來的銀行家將完全不同於今日的銀行家,未來的銀行家將會是科技專家,讓客戶在數位的環境中體驗銀行服務。
- 你在山腰上看到的風景,跟在山腳下是非常不一樣的。那些爬到山頂上的人,心態已經不一樣了;
未來三十年,這世界的變化會遠遠超過大家的想像力。
- 馬雲提出的經商建議:要記得:問題越大,機會越大。在危機中找到轉機。

第二章 監管者的兩難

- 想要萬事順利,卻只付出最小的失敗代價,這個機率坦白來說是零。
事實上,在銀行4.0的模式裡,最可能出的差錯就是我們用糟糕的方式監管他,
或是我們無法在未來證明這個產業的價值,好讓我們的機構保持全球競爭力。

第三章 內嵌式銀行業務系統

- 挑戰者/金融科技銀行與傳統銀行最根本的差別,在於他們的使命-挑戰者/金融科技銀行想要徹底簡化銀行業務體驗,但傳統銀行似乎更傾向要你選擇他們銀行的產品,而非競爭對手的產品。

第四章 從產品、通路到體驗

- 接下來五年左右,對金融服務收益與成長能力而言,下列幾種工作至關重要:
  1. 數據科學家
  2. 機器學習專家
  3. 體驗設計師/體驗創作人(storyteller)
  4. 行為心理學家
  5. 區塊鏈整合工程師
  6. 合規與風險管理程式工程師
  7. 社群行銷專家
  8.  身分代理機構
- 挑戰者/金融科技公司的組織架構一反傳統,注重的關鍵績效指標是活躍用戶每日投入使用程度
累積性的活動,例如顧客歷年的貸款紀錄,以及與去年同期相較的成長
他們公司整體規模成長的目的,是為了在網路擴張的同時也能加速網路觸及客戶的速度。
- 這使得我們在面對新的銀行4.0組織架構時,該想的不是種標示出各種策略性業務單位的圖表,
而是橫跨整個組織的各項核心能力,在一種矩陣式架構裡共同分擔任務、達成客戶目標等等。
平心而論,今日典型的銀行要想改組成這種架構,是極為艱鉅的挑戰。

第六章 金融科技和科技金融:是敵是友?

- 在大多數銀行家的DNA裡根本沒有創新這種東西,
在他們的職涯中,所受的訓練都是要辨識風險並規避風險,但創新卻是要冒小風險
接受快速且便宜的失敗,然後從這些錯誤中汲取教訓,以迅速找到正確答案。
- 很多時候在銀行的文化裡,新措施所帶來的改變會被視為一中威脅,
所以銀行就會出現如同免疫系統攻擊病毒般的反應加以抵抗。
- 銀行需要面對和處理其根本缺陷:欠缺執行速度和專注力。說到底,我們還是要回到一個事實,
那就是如果你想在銀行內獲得快速、便宜的創新,那麼就應該改變內部文化,才能有效地善用技術合作夥伴。

第七章 人工智慧在銀行業務的角色

- 銀行應用AI的能力面向和誘因

第九章 適應或死亡

- 多年來,數百家銀行都已設立創新部門,但當創新部門的負責人因為有更好的工作而離開,
這些部門就只能逐漸凋零,或者因為與銀行的文化不和而收掉。
這裡的問題不在於創新團隊不適合銀行文化,而是銀行的免疫系統努力抵制新事物,
但這樣做不利於改變。銀行把改變視為風險,而風險正是銀行最不想承擔的東西。
- 我們不能用我們製造問題時的思維來解決問題。

第十章 結論:銀行4.0的發展路線圖

- 長期以來,產品部門一直是人們爭奪預算並定義產品結構的地方。
抵押貸款、信用卡和活期儲蓄存款(CASA)都消失了,上述產品與其相關部門轉型成更具吸引力、
更容易操作的用戶體驗,而不是將分行的實體申請表轉換成電子表單。如果你的組織結構被爭奪預算的產引團隊主導,該如何把體驗當成第一優先?這是不可能的。
- 銀行在與科技金融和金融科技玩家爭奪營收和客戶關係時,產品本身不會創造關係或信任,
但你提供服務的能力才會。

2021年5月23日 星期日

行銷資料科學

 行銷資料科學|大數據x市場分析x人工智慧

PART 1 概論篇

Chapter 01 何謂行銷資料科學
- 何謂資料科學?

- 行銷資料科學家的工作包括:

  1. 產生規範性見解-包含戰略和戰術見解,以提高行銷效率。
  2. 探索性資料分析。
  3. 度量和方法選擇。
  4. A/B測試。
  5. 為管理層和其他專業人員提供諮詢,培訓和協助,幫助他們處理和理解各項組織數據。

- 行銷資料科學家所需的技能包括:

  1. SQL
  2. 資料視覺化
  3. 熟悉Python或R語言
  4. 能夠預測與建立模型(統計和機器學習方法)
  5. 人際關係技能-能和資料工程師、業務管理和其他人員協同合作

Chapter 02 行銷資料的類型、來源與管理

- 研究資料


- 資料的整理

--遺漏值的填補

1.數值變數:常使用的方法是以線性迴歸的方式來預測遺漏值,
稱為「預測均值匹配」(PMM,Predictive Mean Matching)。
2.二元變數:羅吉斯迴歸(Logistic Regression)進行預測。
3.超過二元以上的分類變數:貝氏多元迴歸(Bayesian Polytomous Regression)來處理。

Chapter 03 行銷資料科學技術概念
- 資料蒐集
- 網路結構探勘(Web Structure Mining)檢視網站的設計,一般可透過網路爬文技術,
利用R或Python等語言來開發爬蟲工具。
- 網路使用探勘(Web Usage Mining)企圖發現使用者的瀏覽特徵

- 資料分析

--資料轉換(Data Transformation):主要再進行資料減縮與投影(Data Reduction and Projection)
在操作上,使用降維(Dimensionality Reduction)技術,來減少所考慮變數的有效數量。
--選擇資料探勘方法(Choosing the Data Mining Method):
分類(Classification)分群(Clustering)關聯(Association)等分析方法。

* 常見的機器學習演算法



- Apriori演算法是關聯規則學習或是關聯分析(Associative Analysis)的經典演算法之一。
在行銷資料科學領域,稱為購物籃分析(Market Basket Analysis)。
關聯分析主要透過「支持度(Support)」和「信賴度(Confidence)」來對商品項目之間關聯性進行篩選。在進行關聯分析時,通常會先設定最小支持度(Min Support)與最小信賴度(Min Confidence),
另外還會考量提升度(Lift)

- 類神經網路(ANN,Artificl Neural Network)

--激發函數(Activation Function)

--前向傳播法(Forward Propagation)

--反向傳播法(Backward Progagation)

- 支持向量機(SVM,Support Vector Machine)
   -線性可分支持向量機
   -非線性可分支持向量機
      --核函數(Kernel Function)、特徵空間(Feature Space)
 
Chapter 04 整合行銷資料科學與行銷研究

- 行銷研究主要將資料分成「初級資料」與「次級資料」。初級資料的蒐集方式,又可分成:

調查法(Survey Research)、實驗法(Experimentation)、觀察法(Observation)、深度訪談法(Depth Interview)。


PART 2 大數據篇

Chapter 06 大數據行銷分析工具

- 大數據行銷分析工具


- 行銷分析階層

- 行為側寫(Marketing Profiling)則是將「側寫」這樣的概念與技術運用到行銷領域,
做法則是透過數據分析來描繪消費者的圖像。
- 行為定向(Behavioral Targeting)是指網站和廣告商使用一系列技術蒐集與分析個人的搜尋
與瀏覽行為等資訊。

* 推薦系統

--內容過濾(Content-Based Filtering)主要基於客戶「過去」對某些商品和服務的偏好,
提出推薦。舉例來說,A顧客購買A產品,而A產品與B產品有相似性,此時,系統就自動推薦B產品給A顧客。
--協同過濾則是使用「同類客戶」來進行客戶偏好的預測,來進行推薦,以下是常見的類型:
  1. 使用者基處的協同過濾(User-Based Collaborative Filtering Recommendation)
  2. 項目基礎的協同推薦(Item-Based Collaborative Filtering Recommendation)
  3. 模型基礎的協同推薦(Model-Based Collaborative Filtering Recommendation)

- 成交路徑(Path to Purchase)

- 網站分析(Web Analytics)目前主要有兩種方法:

1. 日誌分析(Log Analysis)即分析使用者瀏覽器與網站伺服器互動歷程中,所產生的網站日誌檔(web log files)以判斷點擊數(hits)網頁檢視(page views)網站停留時間(time on site)等,以了解網站的使用狀況與經營成效。

2. 加入網頁標籤,在每一網頁插入Jave Script告知第三方分析服務的伺服器(如:Google Analytics),
某些頁面已被瀏覽器所讀取。

--要分析或比較網頁內容好不好,有許多的衡量指標可參考,常見的指標除了上述提到的點擊數(hits)、網頁檢視(page views),還包括訪問量(Visits)訪客(Visitor)新訪客(New Visitor)重複訪客(Repeat Visitor)等等。

--如果企業或網站負責人沒有後續的配套措施與相對應的行動,有人就戲稱這就好像到大醫院花錢做了一堆電腦斷層或核磁共振,找到病因之後,卻不做後續治療,讓前面的網站分析做白工了。

- 歸因分析(Attribution Analytics)

--行銷人可以使用歸因分析來規劃未來的行銷活動,透過分析哪些行銷活動(媒體、廣告...等)
最具有成本效益和影響力,以提升廣告支出回報率(Return on Ad Spend,ROAS)或者
取得有效的名單(Cost Per Lead,CPL)等。

-- 網路廣告的快速資增長,企業也同步獲得更多的數據來追蹤廣告的有效性,並且發展出更多評估廣告效果的方式,例如每次點擊成本(Cost Per Click,CPC)每千次曝光成本(Cost Per 1000 impression,CPM)每次完成行動成本(Cost Per Action,CPA)點擊轉換率(Conversion Rate,CVR)...等。

- 趨勢分析(Trend Analytics)

  1.  定性法(Qualitative Method):判斷法、調查法。
  2. 定量法(Quantitative Method):時間序列分析法、因果分析法(迴歸模式、計量經濟模式)


PART 3 行銷篇

Chapter 07 市場分析與行銷資料科學

- 文章字詞矩陣(DTM,Document Term Matrix)

- 輿情分析
深度類神經網路(卷積式網路Convolutional Neural Network,如CNN,RCNN,Resnet)。
--利用機器學習找出關鍵性的預警貼文:單純貝氏(Naive Bayes)

- 行銷漏斗(The Marketing Funnel)模型

--過濾性:能通過一階層的過濾,稱為「轉換率」(Conversion Rate) ;
反之則是「流失率」(Churn Rate) 。
-- 提高轉換率的方法,研究顧客的每一個可能的「接觸點(touch point)」是個很棒的切入方式。
「接觸點」意指顧客會接觸到企業產品或服務的任何機會,從消費者尚未購物的平常生活即已開始,到實際接觸的購買體驗,一直到售後的各種可能場景。

- RFM模型可協助公司找出「新客(近期曾經前來公司消費的客人)」、「常客(經常前來消費的客人)」,以及「貴客(消費金額大的重要客人」。


Chapter 08 STP 理論與行銷資料科學

- 企業在經過評估各種市場區隔後,接下來就是從中選定一個或多個「區隔市場」,以作為目標市場。依據哈佛大學教Derek F.  Abell的研究,在目標市場選擇策略中,可以選用以下五種方式來進行。

  1. 單一市場集中化(Single-Segment Concentration)
  2. 選擇性專業化(Selective Segment Specialization)
  3. 產品專業化(Product Specialization)
  4. 市場專業化(Market Specialization)
  5. 全市場涵蓋(Full Market Coverage)


Chapter 10 價值溝通與行銷資料科學
- 行銷管理學裡,將傳統行銷方式區分成所謂的「推式策略(Push)」與「拉式策略(Pull)」兩大類。

- 拉式策略(Pull):意指企業透過於廣告、銷售促進等方式,引發消費者的購買慾望,將消費者「拉」到企業手上;推式測略(Push):則是由企業藉由人員推銷、銷售促進等方式,將產品透過一層層的配銷通路,「推」到最終消費者的手上。

- Inbound Marketing可譯為「集客式行銷」。是一種透過內容行銷(Content Marketing)、社交媒體行銷(Social Medial Marketing)、搜尋引擎優化(Search Engine Optimization,SEO)等技術,吸引消費者主動上門的行銷策略。
- Outbound Marketing議為「推播式行銷」,是指企業透過電視、電話、報紙、電台、看板、
郵件等工具,主動將產品訊息傳播給消費者,並促使消費者在心中建立起對企業的印象。

PART 4 策略篇
Chapter 11 行銷資料科學與策略

- 關於資料科學的分析,常見的分類有以下三種:

  1. 描述性分析(Descriptive Analytics)
  2. 預測性分析(Predictive Analytics)
  3. 指式性分析(Precriptive Analytics)

- 「描述性分析」能解釋已經發生的事,協助企業分析出消費者是誰?或是買了些什麼?
- 「預測性分析」能協助企業解決可能發生的事
例如分析出消費者可能還會購買什麼?進而提前給予消費者相關的產品資訊。
- 「指示性分析」則能指導實際執行時該如何做
舉例來說,當消費者走到某商圈時,手機會主動收到適合自己的附近店家折價券。
- 除此之外,尚有提出「診斷性分析(Diagnostic Analytics)」、
自動化分析(Automating Analytics)」。

分析1.0

- 屬於「傳統分析時代(Traditional Analytics)」,其中統計分析以「敘述性分析(Descriptive)」為主,
亦即「分析過去的事」。分析的資料屬於內部且較小量的結構化資料。
- 在企業部分,分析的目的,在透過分析展現營運效率與增進內部決策有效性。舉例來說,
公司建立各種營運報表,如:營業額、毛利率、淨利率等營運指標,皆是屬於分析1.0時代。

分析2.0

- 屬於大數據時代,統計分析以「預測性分析(Predictive)」為主,亦即「使用過去資料預測未來」。

分析3.0

- 屬於資料經濟時代,以「指示性分析(Prescriptive)」為主,亦即「運用模型發展最佳行動」。
分析資料以結合大量結構化與非結構化資料為主。

- 顧客流失(Customer Curn)分析的應用包含:

  1. 顧客獲得(Customer Acquisition)
  2. 顧客關係發展(Relationship Development)
  3. 顧客留存(Customer Retention)
  4. 顧客流失率分析(Customer Churn Rate Analytics)


2021年3月5日 星期五

AI行銷學:為顧客量身訂做的全通路轉型策略

 AI行銷學:為顧客量身訂做的全通路轉型策略
Make It All About Me: Leveraging Omnichannel and AI for Marketing Success

前言  朝全通路轉型的六項修練

第一項修練  辨識顧客並取得行銷許可
第二項修練  蒐集資料
- 顧客資料多貼近顧客?
   1.顧客提供的資料:提交的資料(sumitted data)或檔案資料(profile data)
   2.有關顧客行為的資料:行為資料(behavioral data)
   3.有關顧客想法或感覺的資料:情緒資料(emotional data)
1.提交的資料:顧客告訴我們什麼?
- 提交的資料有個缺點,那就是顧客在提交資料中的陳述往往與實際情況不同。
- 要領:創造提供資料的誘因、使提供資料的流程便利容易、使用遊戲化手法來激勵用戶提供更多資料。

2.行為資料:顧客做了什麼?
(1).交易、電子郵件與點擊資料 
(2).行銷活動資料 
(3).來自網站的行為資料 
(4).來自客服中心及聊天室的資料 
(5).物聯網(來自裝置的資料)
- 要領:在顧客未登入時蒐集網站上的行為資料、鼓勵登入、保留登入帳戶、創造一個用戶喜愛同時也能取得資料的服務(例如:IMDB、Nike+)、實體商店的行為資料(建立會員制蒐集資料、使用顧客的手機來蒐集資料、行動的銷售點系統)、把資料蒐集內建在產品中(例如:Netflix、Spotify)、來自其他組織的行為資料。

3.情緒資料:顧客有什麼感覺?
(1)問卷調查 
(2)情感分析(sentiment analysis)
- 透過第三方增補資料:鄧白氏(Dun & Bradstreet)、益博睿(Experian)
- 來自其他網站的「入市潛在顧客」(in-market)資料

- 全通路整合與顧客檔案
- 蒐集資料的成熟度面貌
第三項修練  資料分析與人工智慧
- 持續對所有顧客進行評分,標記(tagging)最相似的客群,並根據這個洞察充實自動系統裡每位顧客的紀錄。藉由這種做法,顧客關係管理團隊就能變得更加迎合顧客的需求。
- 使用資料分析來辨識每位顧客的「下一步最佳行動」(Next Best Action)
*各種分析*
*描述性分析(Descriptive Analytics)
包括傳統統計學,但它在商業中可能涉及在試算表上計算、查詢資料庫、產生商業智慧數據儀表板,而這些全都提供「後見之明」的觀點。
商業智慧經常會把資料總合成關鍵績效指標,再由使用者透過人為的方式深入探究,期望可以從中找出相關的型態。
視覺化工具也可以視為描述性分析的一個層面,因為它能幫助探索與了解目前或歷史的資料。
從簡單、靜態的圖表(可由試算表得出的圓形圖、直方圖等),到高度互動且動態展現的多維度資料,皆屬視覺化的範圍,它能讓你穿梭其中,感受如同虛擬實境般的體驗。

*前瞻分析(forward-looking analysis)並不是新技術,到目前為止它主要涉及的是預測,這是一種根據以往趨勢與型態為主的「總體層級」預測方法:營收、獲利、顧客留存率等等朝什麼方向發展?
這種預測可以提供概括性的了解,有助於整體規劃,但無助於客製化溝通與互動所需要的詳細資訊。

*預測性分析也是從歷史資料著手,不過機器學習演算法會自動探索資料,找出和特定商業結果有關的型態與關係,例如一位顧客購買某類產品的傾向。
這些型態是行銷人員可以使用的洞察,而演算法也會產生可以直接採取行動的「模型」,模型能夠評估任何現狀或是全新情境,並自動預估結果,至於預測模型所得出每個情況的簡單評估通常是代表一種傾向或評分。

*指示行分析(Prescriptive Analytics)會把一個預測模型產生的結果(例如代表一個預測結果發生可能性的「評分」轉化為一個可直接行動的決策,做法是把這個評分結合商業邏輯,藉此決定每個情況的最佳作法。(例如是否推出行銷活動?應該推薦什麼商品?以及應該採用哪個通路?)
由於預測性分析和指示行分析都仰賴機器學習,因此可以將它們視為人工智慧的範疇。在書中通常只用「人工智慧」這個詞來概括代表這些進階的分析。

*進階分析(advanced analysis,其實指的是演變而成的整個技術)可應用在任何擁有資料的產業領域(風險、財務、網路規劃、營運、供應鏈等等),只要透過分析,便能在決策中注入智慧,得出更好的結果。即使是和行銷有關的應用領域也很廣泛:銷售分析、行銷組合歸因與規劃(marketing mix attribution and planning)、品項規劃(assortment planning)等等,全都可以應用進階分析和機器學習來進行改造。

*人工智慧能力:演算法與模型*
- 你的市場或客群有哪些區隔?有什麼特徵和檔案資料可以用來區別每位顧客,讓你能將他們都視為各具特色的個體?這是跟「誰」(who?)有關的基本提問,而針對每位顧客,你需要了解:
--什麼?(what)他們對什麼訊息有反應?他們會購買什麼產品?
怎麼樣的溝通內容最能有效吸引他們到商店購買?
--如何?(how)他們選擇如何和你互動,亦即他們透過什麼通路和你互動?
如果他們購買的是服務型產品,他們如何使用?他們如何付款?
--何時?(when)他們偏好何時與你互動?他們在一天當中的哪個時間最能接受你的溝通訊息?
長期來看,他們何時移動至顧客生命週期的不同階段,而在他們的購買旅程中,那些點對你而言最為關鍵?

*人工智慧模型與演算法的主要能力*
*分類(classification)可以幫助你做出區別。
例如區別產品的購買者與非購買者。你可以用它來預測誰會購買(或不夠買),分類演算法也可能會產生典型的購買者和非購買者大致的樣貌,而這些資料是最能區別的特徵。

*評分(scoring)可以預測某件事發生的可能性:
一位顧客可能的回應、是否購買、是否終止使用一項服務等等。
雖然就某種程度而言,這與分類工作相同,但它會針對每位顧客或每種情況給出一個評分,
供你做出相關的決策。例如對顧客排序並進行比較。

*群集或自動市場區隔(auto-segmentation)演算法可以幫助你辨識「自然產生的」客群,
並描繪出這些群集的樣貌。

*關聯分析(association analysis)可以辨識出往往會同時發生的項目,這經常應用在辨識出一起購買的商品,因而時常稱為「購物車分析(basket analysis)
這種分析可能產出像「當一起購買A產品和B產品時,購買C產品的可能性為72%」這樣的規則。你可以使用這個方法作為交差銷售推薦的基礎,這種關聯性分析的資料基礎不僅限於單一交易購買的產品,它也可以檢視這位顧客購買的所有產品。

*序列偵測(sequence detection)與關聯分析類似,但它辨識的是一堆商品或一系列事件在一段期間的發生順序。
這類演算法能夠偵測出產生良好結果(例如購買或升級)的型態,使你得以建立通往好成果的「捷徑」,或是辨識出導向壞結果(例如取消合約)的路徑,並設法避開這些路徑。
它可以用在很多領域,例如辨識隱引領顧客至購買網站的造訪途徑,或是發出早期警訊(例如顧客終止使用某項服務)的訓序列事件。

*預測(forecasting)或估計(estimation)會針對未來將發生的某件事提供一個預測數值,
例如一位顧客會在一項新產品或服務上的消費量,或是顧客終身價值。

- 人工神經網路(neural network)模型和決策樹(decision tree)模型都可用來評分。
人工神經網路模型在模仿人類下意識決策的應用領域特別有效,例如影像處理與型態辨識
不過,它們在行銷領域也有用處,因為它們能產生一個連續系列的評分,因而足以做到
細緻的個人區別
- 決策樹是以樹狀架構得出決策的模型,決策樹的模型會產生一種並不精細的「塊狀」評分分類,
而被歸類為同個塊狀的所有案例彼此之間也沒有區別。
- 人工神經網路模型可以做到精細區別,但高度不透明;
決策樹模型具有高透明性,但缺乏精細度。
- 其他進階方法包括拿人工神經網路模型得出的結果來訓練某個決策樹模型(而非使用歷史的回應資料來訓練),因此便能幫助了解人工神經網路模型如何得出決策,亦即消除或降低人工神經網路模型的不透明性。

- 機器學習能促成一種資料導向的方法,它使用群集演算法(clustering algorithms),並客觀的根據實際資料來自動產生市場區隔模型。稱此為「自動市場區隔」(auto-segmentation)
- 以自動市場區隔建立的群集模型則是動態的,它們將自動區分既有顧客或新顧客至最吻合的市場,並持續重新評估既有顧客,追蹤他們在各市場區隔之間的漂移。
- 資料準備特徵工程。在機器學習演算法開始運作前,通常需要進行資料準備,而這會涉及一般會遇到的問題,例如辨識與處理資料品質,或是可能導致對演算法構成挑戰或偏誤結果的數值分配不均。有些方法可以幫助確保演算法去學習那些不常發生的結果的型態,例如超採樣(oversampling)和低採樣(undersampling),基本上,超採樣就是要演算法多注意那些不常發生的結果,低採樣則是要演算法少去注意那些經常發生的結果。

- 將優化法應用在行銷活動與顧客互動時會考量以下條件,包括:
每個個別顧客的預測行為(他們對各種推薦產品或行銷訊息做出回應的傾向、可能購買的傾向、通路偏好等等);參數(例如不同類型顧客互動的成本);限制條件(例如通路容量、整體預算);
目標(例如使顧客回應率或營收最大化)。
而一個數學優化引擎會運算這整個情境,得出一份在限制條件下獲得最佳整體成果(指達成目標方面)的計畫,實際上就是對每位顧客的最適推薦產品或互動。

- 在顧客關係的任何一個點上,你可以對他們採取很多行動,當中有些行動無疑是推薦產品
然而其他行動並不直接聚焦在銷售,它們可能會是:
對顧客的抱怨做出道歉或補償;搶先調整某項服務的費用,雖然降低當期的營收,
但有助於提高顧客忠誠度潛在的顧客終身價值(customer lifetime value)
提供免費訓練、指導或資訊,幫助顧客從購買的產品上獲得更大的效益等等。

- 從何處著手?挑選容易實現的目標
它配合行銷目標嗎?它能帶來價值嗎?它可能帶來什麼價值?這個分析方法的困難度高嗎?
需要什麼資料?分析結果容易應用在行動上嗎?
- 資料分析與人工智慧的成熟度面貌
第四項修練  溝通與服務
- 你的溝通訊息未必要聚焦在是當作出合適的產品推薦,而是應該設計成為顧客提供更多價值的適當服務訊息,不意圖銷售任何東西。
這也是許多組織聚焦在建立「下一步最佳行動」的顧客關係,而非「下一個最佳推薦產品」的原因。
- 零售業的顧客生命週期三階段與關鍵時點
- 不要浪費折扣在那些通常以全價購買而不會追問的顧客身上,除非你試圖對他們交叉銷售一項新類型的產品。
*維繫階段:1.紅利點數即將失效 2.淨推薦評分(Net Promoter Score,NPS) 
3.重新取得行銷許可 4.挽回顧客的優惠措施
- 以顧客為中心的戰術成熟度
- 由資料中的特定條件引法的一次性行動稱為「觸發行動」(triggered actions),
例如觸發電子郵件、觸發訊息或觸發溝通流程(trigger flows,在顧客生命週期的同個時點上有多個相關的溝通相互同時發生)。

*拼湊專屬的行銷技術堆疊
-顧客關係管理、行銷自動化平台、多通路行銷樞紐(MMH,Multichannel marketing Hub)、
需求面平台(DSP,Demand-Side Platform)、內容管理系統(CMS,Content Management System)、
社群媒體管理(SMM,Social Media Menagement)、影響力人士關係管理系統(IRM,Influencer Relationship Management)、數位資產管理(DAM,Digital Asset Management)、
行銷資源管理(MRM,Marketing Resource Management)
- 溝通與服務的成熟度面貌
第五項修練  績效分析
*低成熟度:銷售與品牌業績表現
- 銷售數字、市場占有率、品牌知名度、品牌認知
*中成熟度:通路與行銷活動
- 人潮、曝光、網站造訪、頁面瀏覽、互動與觸及量、購物車規模、轉化率、提升度、銷售模型
*高成熟度:顧客面指標
- 新顧客增加量、顧客流失率、顧客終身價值與顧客忠誠度
- 其他顧客指標:荷包占有率(荷包占有率是指目前顧客在特定產品或服務類別的預算花在你的事業上的比例)、
每筆名單成本(cost per lead,CPL)、顧客獲取成本、維繫顧客的成本(cost of retention)
*以顧客為中心的指標優劣
- 淨推薦評分
- 品牌的淨推薦評分=推薦者所占的比例(%)-批評者所占的比率(%)
- 顧客推薦的價值
- 評量品牌認知
- 能見度:展示關鍵績效指標與傳送報告。
如果你的員工只能看到他們部份工作的果實,那麼他們最終可能只注重那些工作。
- 提高關鍵績效指標的能見度十分重要,讓無關緊要的評量指標失去能見度也很重要。

*設下標準
-我們的績效比預算高還是低?
-我的表現比同事好嗎?無論是個人之間的比較,或分店之間的比較,
和公司裡擁有相同職責與績效目標的人或單位相互比較都具有激勵作用。
-在部門層級,這種標準有助於促進團隊精神與團結。然而,在個人層級就必須審慎使用,
因為如果公司需要員工彼此合作,就必須確保個別員工在達成自己的績效數字時,
不會因為只聚焦在個人之間的互相競爭而導致達到次佳的結果。
-我們的表現比上週好嗎?

*過度數字導向的陷阱
-太過純粹聚焦在數字目標的第一個危險是,過度聚焦在期望成效以外的目標;
其次,可能會創造出員工沒有動機或空間互相協助的工作環境。
-另一種潛在危險是,數字無法呈現組織的本質。舉例來說,如果你的顧客體驗高度取決於員工滿意度(顧問業即為一例),過度聚焦在每月預算可能會導致一個不愉快的工作環境,
而產生的連鎖效應是:不滿的員工導致不滿的顧客,因而更難達成下一個月的績效數字。
- 績效分析的成熟度面貌
第六項修練  組織與管理
- 數量型事業(volume-based business)
- 目標客戶行銷(account-based business)
- 目標與獎勵應該反映最有益於長期顧客獲利能力的因素,不可在無意間鼓勵個別銷售通路內的局部優化(次佳化),卻犧牲全組織的最優化。
- 組織與管理的成熟度面貌