2021年6月26日 星期六

人工智慧在台灣:產業轉型的契機與挑戰

 人工智慧在台灣:產業轉型的契機與挑戰

Part 1 人工智慧

第二章 機器學習是什麼?

- 機器學習與統計最大的差別在於它們的目的。
統計學的目的在於基於樣本(Sample)找出真相(Universe)。
例如全台灣2,300萬人口,能不能只選出1,000人各問他們幾個問題,
就能夠了解全台灣所有人的生活型態、就業狀態及政治傾向?
機器學習目的是讓電腦從歷史資料裡,學到如何處理新的資料以解決問題。
例如能不能從醫生的X光判讀結果,學習到怎麼看新的X片?
能不能從一個人的刷卡及繳費行為,預測她若借十萬元會不會準時還款?

- 深度學習與其他方法有個根本上的差異,在於是否能夠
自動進行「特徵工程」(feature engineering)
- 在機器學習模型開發過程中,發想及定義這些衍生變數的過程,就叫做特徵工程
- 簡單用一句話來說,深度學習帶來的最大貢獻就是,自動化的特徵工程。
不但自動化,而且可以找出比人類所定義的衍生變數更好、預測力更強的特徵。
- 傳統機器學習從資料學到規則,比起專家系統更為準確,
但傳統機器學習,需要人們基於觀測值來定義特徵(衍生變數);
而深度學習連定義特徵(特徵工程)都幫我們做了。
而且一個深度學習模型,可以同時進行特徵工程以及規則學習,準確度還比以往更高。
- 無論選擇哪一種類型的題目,以及使用哪一種模型,資料都是專案成敗的關鍵
以最常用的監督式學習來說,若觀測值與決策的關聯性低、雜訊太高,或是資料量不夠大,
都會影響機器學習的準確度。

Part 2 人工智慧與產業發展

第五章 產業人工智慧化經驗談

- 根據國際研調機構顧能(Gartner)的一篇報告,資料分析可分為四個層次。
這四種階段,分別要回答不同問題
1.描述型分析是為了解釋「發生了什麼」
2.診斷型分析則是告知「為什麼發生」
通常將這兩種資料分析型態歸類於傳統商業智慧平台的能力,還不屬於人工智慧。
- 3.預測分析能解釋「未來是否發生」,與4.指示型分析說明「如何讓它發生」
就屬於人工智慧的範疇。因為預測和指示,是擁有人類智慧才能進行的工作。
描述型分析評估現況及了解問題,解釋型分析提供問題的初步判斷,
預測及最佳化提供改善和解決問題的工具。
- 描述型分析指的是利用統計及資料視覺化,將事實呈現出來,幫助觀看者正確評估情勢;
其中,一個重要但常被忽略的目的是,找出無法從原始資料中判讀出來的隱性資訊

- 零售業與金融業的共通日常決策問題之中,最常被關注的應該是發送廣告文宣。
針對某份文宣,篩選出哪些客戶可能較感興趣,畢竟發送文宣需要成本,同時也避免讓收件者反感而退訂。篩選客戶的演算法稱為推薦系統
- 在推薦系統之外,如何設計個人化文宣也是門學問。
個人化文宣指的是,內容並不完全由行銷團隊設計,而是透過以演算法,根據顧客的屬性及購買行為,來進行全自動的量身訂做。

- 在金融業中,人工智慧的應用可以大略分為五個面向:風險行銷服務市場作業流程
風險面向就是對未來風險盡可能的精準預測,這裡提到的風險,
主要是信用風險、市場風險、流動風險及作業風險等,
保險業的情境裡包含保險精算,銀行業的情境裡包含預測帳戶的盜用甚至買賣,以及信用卡盜刷等。
- 在行銷及服務面向發送廣告文宣個人化文宣設計就是一例。
同時,也可以將機器學習應用在商品及服務的改良
例如改良網頁及手機APP介面、信用卡的優惠設計、保單的參數組合、設計行銷活動,甚至到分行的抽號機制及座椅安排,都有許多發會的空間。
- 再進一步,以文字或語音客服機器人來提供理財顧問,或保單規劃的服務,也都在可預測的未來之中,大幅延伸金融業的客戶服務範圍。
- 對於金融市場的掌握度,無論是大眾熟知的投資工具,如股票、基金、ETF、債券,或是與總體經濟息息相關的利率、匯率,無論希望做某種程度的預測,或設計交易策略,或是設計衍生商品,或做市場撮合(market making),機器學習與深度學習都是重要的關鍵技術。

Part 3 迎向未來的準備

第九章 給白領工作者的建議
- 若要讓人工智慧發揮所長,企業必須容許及鼓勵實驗,允許各種嘗試與變化,要知道實驗可以幫助我們確認未知,但也可能會犯錯,甚至導致更差的成效,因次企業必須有容錯的機制及文化。
- 最理想的做法是,在實驗的各種變化中蒐集資料,建立更好的機器學習模型;
接著再以機器學習模型去導引更好的實驗設計,蒐集更多的資料,在實驗與人工智慧建模的反覆運用中,逐漸找到業務執行的最佳做法,同時也讓人工智慧更聰明,能夠為未來的需求做出指引。

2021年6月23日 星期三

SAS參考書

1.2005/09 華泰文化<SAS應用之資料處理> 林豐政編著
2.2015/10 <資料採礦運用 以SAS Enterprise Miner為工具> 李淑娟著
3.2018/02 清華大學出版社<The Little SAS Book中文版> Lora D. Delwiche,Susan J. Slaughter著
4.2012/09 梅霖文化<資料採礦運用 以SAS Enterprise Miner為工具> 曾淑峰著

2021年6月20日 星期日

數位「真」轉型:來自全球五大數位轉型銀行的實戰案例

數位「真」轉型:來自全球五大數位轉型銀行的實戰案例
Doing Digital: Lessons from Leaders

第一章 銀行為何需要進行數位轉型 
- 許多人可以有宏偉的想法,但是如果他們不能實現這些想法,那麼它們僅是一些想法,永遠不會成為任何事物。
- 銀行既有引擎又有車輛,但由於願景和領導力有限,因此它只是將一批馬栓在前面,這不是一匹跑得更快的馬;實際上,它是一批速度較慢的馬,因為它正拖著一輛重型車輛在後面轉來轉去。
重新思考基礎架構,修建道路和橋梁並重新改造系統,不要只將新功能添加到舊功能中,而希望它能奏效。
- 數位轉型需要對銀行的核心進行全面轉變,對銀行的文化、系統、組織和流程的核心做改變,
而不僅是活動和專案。
- 銀行知道他們需要進行數位轉型,但是許多銀行領導者,特別是執行長和董事長,卻不知道該做什麼,也不知道該怎麼做。他們不知道如何領導數位轉型,因此他們只懂做出一點數位改變。他們在專案、人員、計畫、系統和架構上投資了數十億美元,卻迴避了組織改造、文化變革、管理重組、系統重建更換核心系統等重大問題,原因在於後者既冒險又困難,而且這些領導者並不瞭解面對數位革命是他們必須做的。擁有這些領導者的銀行將在未來十年內不復存在,但他們不會消失,但是會被能確實做到這一點的銀行所併購。
 
第二章 轉型規劃 
- 如果你總是總是按著自己一直以來的方式做事情,那麼你就總是只能獲得一值擁有的那些...甚至還會少一些。
- 銀行數位轉型失敗的原因之一,是因為如果負責轉型的單位不是組織的核心,核心組織不會希望他們成功,且不斷地攻擊他們。或許,更重要的是,這個新部門的員工是業務的另一邊,而且往往並不是真正瞭解核心業務的領域。他們做了許多看起來很吸引人的事,但並沒有真正推動業務發展。
所以業務單位必須負責這項轉型,不能有人站在旁邊不參與。
 
第五章 數位轉型值得嗎?
- 數位轉型核心:
1.獲客
--藉由更廣泛的通路增加獲客率
--降低獲客成本
2.交易
--少紙化
--創造即時滿足客戶需求
--降低成本
3.參與
--推動增加「黏著度」的客戶行為
--透過情境行銷進行交叉銷售
--增加每位客戶的收益
4.生態系統
--從管路企業到平台企業
--資料
--以洞察力為導向

- 如果你改變的是系統,而不是改變組織架構,你將無法生存。
如果你在系統上投資,但不改變核心系統架構,你將無法生存。
如果你單純為了降低成本,而不是為了更好的用戶體驗而使用科技,則你將無法生存。
- 關鍵因素是如果你不把數位視為銀行架構和文化的轉型專案,
反而把它當作一個系統專案或一個通路來對待,那麼你將無法生存。

2021年6月12日 星期六

認識資料科學的第一本書

認識資料科學的第一本書
Data Analytics Made Accessible

Ch01|資料分析概觀

- 資料類型:
名目資料(Nominal)、次序資料(Ordinal)、區間資料(Interval)、比值資料(Ratio Data)。

Ch02|商業智慧

- 客戶關係管理
  1. 極大化行銷活動的回報
  2. 增進客戶留存率(流失分析)
  3. 極大化客戶價值(交叉、追加銷售)
  4. 找出高價值客戶,並滿足他們
  5. 管理品牌形象
- 零售業
  1. 最佳化不同區域的庫存水準
  2. 改善商店陳列與銷售宣傳
  3. 為季節效應安排最佳物流
  4. 減少因有限賞味期的損失
- 銀行業
  1. 自動化借貸申請流程
  2. 偵測詐欺交易
  3. 極大化客戶價值(交叉、追加銷售)
  4. 運用預估做出最佳現金準備
- 金融服務
  1. 預測債券與股票價格的變動
  2. 評估事件影響對市場造成的移動
- 保險業
  1. 預估索賠成本以利更好的商業規劃
  2. 決定最佳利率計畫
  3. 對特定客戶進行最佳行銷
  4. 發現並避免詐欺行為
- 電信業
  1. 客戶流失管理
  2. 行銷與產品規劃
  3. 網路故障管理
  4. 詐騙管理

Ch04|資料探勘

- 分類技術的共同衡量標準便是預測精確度。
預測精確度 = (正確預測) / 預測合計
- 混淆矩陣(Confusion Matrix)

- TP,True Positive:當一個真的正類資料點被分類為正值。
- TN,True Negative:當一個真的負類資料點被分類為負值。
- FP,False Positive:當一個真的正類資料點被分類為負值。
- FN,False Negative:當一個真的負類資料點被分類為正值。
- 預測精確度 = (TP+TN)/(TP+TN+FP+FN)

Ch06|決策樹

-決策樹基於諸多理由,可說是最受歡迎的資料探勘技術:
1.決策樹對於分析人員與管理者而言,都一樣容易了解與使用。它亦具有高度預測準確度。
2.決策樹會從所有可用的決策制定變數中,自動選擇最相關的變數
3.決策樹容許資料品質的問題,並且不需要使用者準備太多資料
4.即使非線性關係,決策樹也能處理得很好
- 較受歡迎的演算法有:C5CARTCHAID
- 決策樹演算法基於三項主要元素而有所不同:
  1. 分支準則(Splitting Criteria)
  2. 停止條件
  3. 修剪

Ch07|迴歸 Regression

- 迴歸模型的精確度,全然依賴使用的資料集,而不是依賴演算法或其他工具。
- 羅吉斯回歸(Logistic Regression)模型使用機率分數作為因變數的預測值。
羅吉斯回歸取用因變數的勝算(odds)自然對數(以logit來表示),以此建立一個連續標準,
作為因變數的轉換版本。
- 迴歸模型的不足:
1.迴歸模型無法掩蓋不良資料品質的問題,如果資料沒有好好整理,移除遺失的數值,
或是不符合常態分配,其效用便會打折。
2.迴歸模型受共線性問題而拖累。
3.如果迴歸模型中包含大量變數,模型也可能變得笨重、難以信賴。所有加入模型中的變數,
不論其對模型預測能力的貢獻如何,皆會反應在迴歸方程式中。迴歸模型並沒有自動修剪的概念
4.迴歸模型不會自動處理非線性,使用者得自行想像需要加入何種額外條件才能改善迴歸模型的適合度。
5.迴歸模型只適合數值資料,而不適合類別資料。不過還是可以藉由建立多個帶有是/否值的新變數,來處理類別變數。

Ch08|類神經網路 ANN,Artificial Neural Network

- 類神經網路之所以受歡迎,是因為它們最終將能夠達到高度預測精準度。
在執行起來也相對簡單,並沒有任何資料品質的問題
然而ANN需要許多資料進行訓練,才能發展出好的預測能力。
- ANN的好處:
1.ANN的使用限制並不多。它可以自行處理(辨識/模型)高度非線性的關係
而無須使用者或分析師做太多事情。
2.他們可以處理各種問題類型,包括分類、群集、關聯...等。
3.ANN可容許資料品質問題,並不會限制資料必須遵守嚴格的常態與/或獨立假設。
4.他們可以兼具處理數值與類別變數
- ANN的缺點:
1.它們被視為黑盒子解決方案,缺乏解釋力
2.處理大量的變數可能十分困難(特別是豐富的名目屬性)。
3.訓練ANN需要大量的資料集。

Ch09|群集分析 Cluster Analysis

Ch10|關聯規則探勘 Association Rule Mining

- 常用的演算法為Apriori,Eclat,FP-Growth

Ch11|文字探勘 Text Mining

- 詞彙文件矩陣(Term Document Matrix)

Ch12|單純貝式分析 Baive-Bayes

Ch13|支援向量機 SVM,Support Vector Machines

- SVM演算法的核心乃是核方法(Kernel Methods)。
- SVM的優點:
1.即使特徵數量比起實例數量大很多,也能夠運作良好。它能運用在含有大量特徵空間的資料集上
例如過濾垃圾郵件的例子,其中有大量的單字是垃圾訊息中會出現的潛在特徵。
2.即使最佳決策邊界為非線性曲線,SVM會轉換變數以建立新的維度。
- SVM的限制:
1.它只在實數(Real Number)上運作良好。
2.它只能處理二元分類問題。不過我們可以建立一系列階層式SVM來解決此限制。
- SVM適用於文字探勘,例如過濾垃圾郵件以及詐騙偵測

Ch14|網路探勘

- 網路探勘可區分為三種不同類型:網路使用探勘網路內容探勘網路架構探勘

- 使用模式可透過「點選流分析(Clickstream Analysis)」來進行分析,也就是依點擊順序的模式以及造訪網站時停留的位置以及時間長度,來分析網路活動。
- 網路使用探勘有許多商業上的應用。它可依據先前學習的規則與用戶特寫,(1)協助預測使用者行為,並可協助決定客戶的生命週期價值。藉由觀察網站中各頁面的(2)關聯規則,也有助於設計跨產品間的交叉行銷策略。網站使用分析可協助(3)評估促銷活動,觀察使用者是否受網站吸引,並使用與活動相關的頁面。網站使用探勘可依據用戶的興趣與特寫,(4)對用戶展現動態的資訊。這包括依據用戶存取模式,對用戶群組發布特定的線上廣告與優惠券。

Ch15|社群網路分析

- 影像力流模式(Influence Flow Model)

2021年6月5日 星期六

Bank4.0:金融常在,銀行不再?

 Bank4.0:金融常在,銀行不再?

- 在過去的40年期間,我們從認定實體分行是唯一可以取得銀行服務的通路,轉換到
多通路(Multi-Channel),再轉換到全通路(Omni-Channel),
最終成為數位的全通路(Digital Omni-Channel),客戶最終只會使用數位通路來取得銀行服務。
- 如果現在的銀行只是將分行及人員轉型以數位化的方式執行,你將會錯失最後機會。
銀行業需要重新設計以適應科技無所不在的世界,銀行想與客戶保持相關的唯一途徑,
就是創造符合客戶目的之體驗,顯然仍以分行為基礎逐步演化的方法是不夠的。

第一章 回到第一原理

- 賈伯斯深信科技的力量唯有人們開始使用,才得以發揮。
- 未來的銀行家將完全不同於今日的銀行家,未來的銀行家將會是科技專家,讓客戶在數位的環境中體驗銀行服務。
- 你在山腰上看到的風景,跟在山腳下是非常不一樣的。那些爬到山頂上的人,心態已經不一樣了;
未來三十年,這世界的變化會遠遠超過大家的想像力。
- 馬雲提出的經商建議:要記得:問題越大,機會越大。在危機中找到轉機。

第二章 監管者的兩難

- 想要萬事順利,卻只付出最小的失敗代價,這個機率坦白來說是零。
事實上,在銀行4.0的模式裡,最可能出的差錯就是我們用糟糕的方式監管他,
或是我們無法在未來證明這個產業的價值,好讓我們的機構保持全球競爭力。

第三章 內嵌式銀行業務系統

- 挑戰者/金融科技銀行與傳統銀行最根本的差別,在於他們的使命-挑戰者/金融科技銀行想要徹底簡化銀行業務體驗,但傳統銀行似乎更傾向要你選擇他們銀行的產品,而非競爭對手的產品。

第四章 從產品、通路到體驗

- 接下來五年左右,對金融服務收益與成長能力而言,下列幾種工作至關重要:
  1. 數據科學家
  2. 機器學習專家
  3. 體驗設計師/體驗創作人(storyteller)
  4. 行為心理學家
  5. 區塊鏈整合工程師
  6. 合規與風險管理程式工程師
  7. 社群行銷專家
  8.  身分代理機構
- 挑戰者/金融科技公司的組織架構一反傳統,注重的關鍵績效指標是活躍用戶每日投入使用程度
累積性的活動,例如顧客歷年的貸款紀錄,以及與去年同期相較的成長
他們公司整體規模成長的目的,是為了在網路擴張的同時也能加速網路觸及客戶的速度。
- 這使得我們在面對新的銀行4.0組織架構時,該想的不是種標示出各種策略性業務單位的圖表,
而是橫跨整個組織的各項核心能力,在一種矩陣式架構裡共同分擔任務、達成客戶目標等等。
平心而論,今日典型的銀行要想改組成這種架構,是極為艱鉅的挑戰。

第六章 金融科技和科技金融:是敵是友?

- 在大多數銀行家的DNA裡根本沒有創新這種東西,
在他們的職涯中,所受的訓練都是要辨識風險並規避風險,但創新卻是要冒小風險
接受快速且便宜的失敗,然後從這些錯誤中汲取教訓,以迅速找到正確答案。
- 很多時候在銀行的文化裡,新措施所帶來的改變會被視為一中威脅,
所以銀行就會出現如同免疫系統攻擊病毒般的反應加以抵抗。
- 銀行需要面對和處理其根本缺陷:欠缺執行速度和專注力。說到底,我們還是要回到一個事實,
那就是如果你想在銀行內獲得快速、便宜的創新,那麼就應該改變內部文化,才能有效地善用技術合作夥伴。

第七章 人工智慧在銀行業務的角色

- 銀行應用AI的能力面向和誘因

第九章 適應或死亡

- 多年來,數百家銀行都已設立創新部門,但當創新部門的負責人因為有更好的工作而離開,
這些部門就只能逐漸凋零,或者因為與銀行的文化不和而收掉。
這裡的問題不在於創新團隊不適合銀行文化,而是銀行的免疫系統努力抵制新事物,
但這樣做不利於改變。銀行把改變視為風險,而風險正是銀行最不想承擔的東西。
- 我們不能用我們製造問題時的思維來解決問題。

第十章 結論:銀行4.0的發展路線圖

- 長期以來,產品部門一直是人們爭奪預算並定義產品結構的地方。
抵押貸款、信用卡和活期儲蓄存款(CASA)都消失了,上述產品與其相關部門轉型成更具吸引力、
更容易操作的用戶體驗,而不是將分行的實體申請表轉換成電子表單。如果你的組織結構被爭奪預算的產引團隊主導,該如何把體驗當成第一優先?這是不可能的。
- 銀行在與科技金融和金融科技玩家爭奪營收和客戶關係時,產品本身不會創造關係或信任,
但你提供服務的能力才會。