ShuoCherng: 7月 2021

統計學，最強的商業武器(商務篇)：把數據資料轉換成獲利能力的智慧

第1章用於經營策略的統計學

- 對於相差懸殊的資料，有時先做「取對數」處理，再用於分析，結果會更為貼切。
- 對於解釋變數的組合也可能產生疑問。可藉由加入「相乘之值」(稱為交互作用)

作為解釋變數來分析的方式以獲得答案。
- 也有一種將解釋變數的平方值(稱作平方項)納入分析的技巧可用。
- 即使分析得不夠完整，「似乎能賺到30億日圓」的分析結果一值無法實現的狀態，

和開始採取行動「投入幾千萬日圓來嘗試驗證」這兩者，到底何者較為明智？
- 在進行與經營策略有關的分析時，做為分析對象的企業數量往往有限，

就算可能的解述變數多達一百個，也很難全都用上。因此，必須以逐步排除法等變數選擇演算法，

以及你自己的眼睛來做取捨，將影響獲利的重要解釋變數給挑出來。
- 變異量成分分析(Components of Variance Analysis或Variance Components Analysis)，

它可被理解為包含隨機效果(Random Effects)之混合效果模型(Mixed Effects Models)的一部分。
- 一般的多元迴歸分析屬於固定效果模型(Fixed Effects Models)。

第2章用於人事的統計學

- 羅吉斯迴歸結果的解讀：比值比(Odds Ratio)：

對於像性別這種質化的解釋變數，會採取

「當解釋變數符合某條件時，為優秀員工的機率大約會變成幾倍」的解讀方式。

而對於量化的，像人格五大特質的得分或支出的費用金額等以數字大小表示的解釋變數，

則要採取這些數值「每增加1，為優秀員工的機率大約會有增加為幾倍之傾向」的解讀方式。
- 95%的信賴區間代表的是，收集無限多數據應該就能得知的比值比「大概就在這個範圍內」。
此範圍的兩端若是都比1大，或反之都比1小的話，p值應該會小於0.05，亦即都表示了此結果

「不太可能是單純由資料的變動性所造成」，是可信賴的。

第3章用於行銷的統計學

- 「不考慮顧客需求，總之大量販賣相同產品，成本才能壓低」與

「曾對每位顧客的需求販賣對應產品，才容易銷售」這兩者的平衡，

在現代行銷中是以所謂「市場區隔(Segmentation)」的觀念來解決。
簡言之，就是將市場整體分割(區隔)成數個需求或生或風格相似的小群體(Segment)，以思考行銷策略。
- 而考慮要集中火力針對這些區隔中的何者進行行銷這件事，也稱為目標市場選擇(Targeting)。
- 一旦能決定出鎖定的顧客族群，並充分理解這些的人，接著便可考慮「要賣什麼，又要如何賣？」
具體來說，「要賣什麼」指的就是所提供的商品及服務，

而在那之前應先於抽象層次「用一句話來解釋」自己打算賣的東西，
亦即應先思考定位(Positioning)這點，也是現代行銷的準則之一。
- 行銷數據分析的步驟

設定分析的目標對象
包含應分析變數的資料收集
分析所得之資料
解讀與行動的規劃

- 多元迴歸分析也好，羅吉斯回歸也罷，都是基於出現在分析結果中的解釋變數

「彼此之間無加乘效果或相互作用(在專業術語中稱之為交互作用)」
此一假設，來推估解釋變數和成果之間的關聯性。

- 例如：若有一批資料所畫出的圖表如上圖所示，那麼從這批資料能得到的多元回歸結果。

在此例中，女性的平均消費金額高於男性但未必呈現出年齡越大消費金額越高的傾向。

而男性雖然平均消費金額低於女性，可是隨著年另增加，消費金額卻有隨之升高的趨勢。
在這種情況下，會得到「若性別相同，年齡大的比較會買」且「若年齡相同，女性比較會買」的結果。不過，實際上消費金額最高的市場區隔，是位於圖右上方的「60歲以上的男性」。

這是因為被忽略了基礎假設「解釋變數之間的交互作用」實際上真的存在的關係。
雖然光是年齡大這件事與消費金額沒有關聯性，但卻存在有「為男性且年齡大」的交互作用。
- 聚類分析所用的變數要能夠提示「怎樣的行銷策略可能有效」，或者更具體地說，

怎樣的產品、價格、通路、促銷是較為合理的。
而一旦獲得足以為所有聚類命名的具說服力的分析結果，便要進行成果的比較。

換言之，像是做為成果的運動服飾之年平均消費金額，或者肯定與該成果相關的消費次數、

所購買的商品數量、單次的消費金額等解釋變數，都最好別用於聚類分析。
- 在市場區隔方面，基於交互作用的問題，「就算將所有具顯著影響力的解釋變數都組合起來，也不見得就能成為理想的市場區隔」，但在定位方面卻非如此。若能藉由可用一句話表達的定位，

將出現在分析中的所有解釋變數都改變成能讓成果提高的狀態，就是個非常好的策略。

- 之所以會有這樣的差異，應該是因為相對於市場區隔是在做「選擇」，定位則是在「符合條件」。

要「選擇」具有某種特徵的東西時，就等於「不選」不具該特徵的東西，

但要同時「符合」多種特徵並非不可能。

- 只不過一旦試圖同時符合太多條件，定位往往就會變得不夠清楚，而無法以一句話來表達，

那樣就本末倒置了。因此，首先要選出主要的行為控制因素，然後再思考有無容易同時符合的條件。
- 比值比或迴歸係數及p值等雖可做為大略的標準，提供思考策略時的線索，

但卻無法告訴我們「要製造出這種變化，到底有多少實際上的可能性」。
這些所顯示的不過是「一旦製造出變化，可能產生多大影響」罷了。
- 為了判斷「是否為好的分歧」，有一些指標可以利用，像是資訊熵(Information Entropy)及

吉尼係數(Gini Coefficient)、卡方檢定值等，而這些指標的選用區別了不同的分析方法。
例如：使用資訊熵的，包括名為C4.5及C5.0的演算法，

CART(Classification And Regression Tree,分類與迴歸數)演算法則多半使用吉尼係數。
還有使用卡方檢定值的方法叫做CAID(Chi-Squared Automatic Interaction Detection)演算法。

第4章用於營運管理的統計學

- 交叉驗證法(Cross Validation)，就是將進行擬合的資料和檢驗其精準度用的資料隨機分群。

一般基於「用來訓練預測模型」之意，通常將前者稱為訓練資料，
而用來檢驗其精準度的後者稱作測試資料。
- 最常見的所謂10折(10-fold)交叉驗證，就是先將整體資料隨機分成10個群組。

然後以其中的9個群組為訓練資料，剩下的1個群組為測試資料的方法，
反覆進行10次，值到每個群組都當過一次測試資料為止，藉此驗證其精準度。

2021年7月16日 星期五

統計學，最強的商業武器(商務篇)

2021年7月16日星期五