2021年6月12日 星期六

認識資料科學的第一本書

認識資料科學的第一本書
Data Analytics Made Accessible

Ch01|資料分析概觀

- 資料類型:
名目資料(Nominal)、次序資料(Ordinal)、區間資料(Interval)、比值資料(Ratio Data)。

Ch02|商業智慧

- 客戶關係管理
  1. 極大化行銷活動的回報
  2. 增進客戶留存率(流失分析)
  3. 極大化客戶價值(交叉、追加銷售)
  4. 找出高價值客戶,並滿足他們
  5. 管理品牌形象
- 零售業
  1. 最佳化不同區域的庫存水準
  2. 改善商店陳列與銷售宣傳
  3. 為季節效應安排最佳物流
  4. 減少因有限賞味期的損失
- 銀行業
  1. 自動化借貸申請流程
  2. 偵測詐欺交易
  3. 極大化客戶價值(交叉、追加銷售)
  4. 運用預估做出最佳現金準備
- 金融服務
  1. 預測債券與股票價格的變動
  2. 評估事件影響對市場造成的移動
- 保險業
  1. 預估索賠成本以利更好的商業規劃
  2. 決定最佳利率計畫
  3. 對特定客戶進行最佳行銷
  4. 發現並避免詐欺行為
- 電信業
  1. 客戶流失管理
  2. 行銷與產品規劃
  3. 網路故障管理
  4. 詐騙管理

Ch04|資料探勘

- 分類技術的共同衡量標準便是預測精確度。
預測精確度 = (正確預測) / 預測合計
- 混淆矩陣(Confusion Matrix)

- TP,True Positive:當一個真的正類資料點被分類為正值。
- TN,True Negative:當一個真的負類資料點被分類為負值。
- FP,False Positive:當一個真的正類資料點被分類為負值。
- FN,False Negative:當一個真的負類資料點被分類為正值。
- 預測精確度 = (TP+TN)/(TP+TN+FP+FN)

Ch06|決策樹

-決策樹基於諸多理由,可說是最受歡迎的資料探勘技術:
1.決策樹對於分析人員與管理者而言,都一樣容易了解與使用。它亦具有高度預測準確度。
2.決策樹會從所有可用的決策制定變數中,自動選擇最相關的變數
3.決策樹容許資料品質的問題,並且不需要使用者準備太多資料
4.即使非線性關係,決策樹也能處理得很好
- 較受歡迎的演算法有:C5CARTCHAID
- 決策樹演算法基於三項主要元素而有所不同:
  1. 分支準則(Splitting Criteria)
  2. 停止條件
  3. 修剪

Ch07|迴歸 Regression

- 迴歸模型的精確度,全然依賴使用的資料集,而不是依賴演算法或其他工具。
- 羅吉斯回歸(Logistic Regression)模型使用機率分數作為因變數的預測值。
羅吉斯回歸取用因變數的勝算(odds)自然對數(以logit來表示),以此建立一個連續標準,
作為因變數的轉換版本。
- 迴歸模型的不足:
1.迴歸模型無法掩蓋不良資料品質的問題,如果資料沒有好好整理,移除遺失的數值,
或是不符合常態分配,其效用便會打折。
2.迴歸模型受共線性問題而拖累。
3.如果迴歸模型中包含大量變數,模型也可能變得笨重、難以信賴。所有加入模型中的變數,
不論其對模型預測能力的貢獻如何,皆會反應在迴歸方程式中。迴歸模型並沒有自動修剪的概念
4.迴歸模型不會自動處理非線性,使用者得自行想像需要加入何種額外條件才能改善迴歸模型的適合度。
5.迴歸模型只適合數值資料,而不適合類別資料。不過還是可以藉由建立多個帶有是/否值的新變數,來處理類別變數。

Ch08|類神經網路 ANN,Artificial Neural Network

- 類神經網路之所以受歡迎,是因為它們最終將能夠達到高度預測精準度。
在執行起來也相對簡單,並沒有任何資料品質的問題
然而ANN需要許多資料進行訓練,才能發展出好的預測能力。
- ANN的好處:
1.ANN的使用限制並不多。它可以自行處理(辨識/模型)高度非線性的關係
而無須使用者或分析師做太多事情。
2.他們可以處理各種問題類型,包括分類、群集、關聯...等。
3.ANN可容許資料品質問題,並不會限制資料必須遵守嚴格的常態與/或獨立假設。
4.他們可以兼具處理數值與類別變數
- ANN的缺點:
1.它們被視為黑盒子解決方案,缺乏解釋力
2.處理大量的變數可能十分困難(特別是豐富的名目屬性)。
3.訓練ANN需要大量的資料集。

Ch09|群集分析 Cluster Analysis

Ch10|關聯規則探勘 Association Rule Mining

- 常用的演算法為Apriori,Eclat,FP-Growth

Ch11|文字探勘 Text Mining

- 詞彙文件矩陣(Term Document Matrix)

Ch12|單純貝式分析 Baive-Bayes

Ch13|支援向量機 SVM,Support Vector Machines

- SVM演算法的核心乃是核方法(Kernel Methods)。
- SVM的優點:
1.即使特徵數量比起實例數量大很多,也能夠運作良好。它能運用在含有大量特徵空間的資料集上
例如過濾垃圾郵件的例子,其中有大量的單字是垃圾訊息中會出現的潛在特徵。
2.即使最佳決策邊界為非線性曲線,SVM會轉換變數以建立新的維度。
- SVM的限制:
1.它只在實數(Real Number)上運作良好。
2.它只能處理二元分類問題。不過我們可以建立一系列階層式SVM來解決此限制。
- SVM適用於文字探勘,例如過濾垃圾郵件以及詐騙偵測

Ch14|網路探勘

- 網路探勘可區分為三種不同類型:網路使用探勘網路內容探勘網路架構探勘

- 使用模式可透過「點選流分析(Clickstream Analysis)」來進行分析,也就是依點擊順序的模式以及造訪網站時停留的位置以及時間長度,來分析網路活動。
- 網路使用探勘有許多商業上的應用。它可依據先前學習的規則與用戶特寫,(1)協助預測使用者行為,並可協助決定客戶的生命週期價值。藉由觀察網站中各頁面的(2)關聯規則,也有助於設計跨產品間的交叉行銷策略。網站使用分析可協助(3)評估促銷活動,觀察使用者是否受網站吸引,並使用與活動相關的頁面。網站使用探勘可依據用戶的興趣與特寫,(4)對用戶展現動態的資訊。這包括依據用戶存取模式,對用戶群組發布特定的線上廣告與優惠券。

Ch15|社群網路分析

- 影像力流模式(Influence Flow Model)

沒有留言:

張貼留言