顯示具有 資訊科技 標籤的文章。 顯示所有文章
顯示具有 資訊科技 標籤的文章。 顯示所有文章

2024年1月21日 星期日

造局者:思考框架的威力

造局者:思考框架的威力
Framers: Human Advantage in an Age of Technology and Turmoil

第1章  決策[建立思考框架和能否做出好決策,息息相關]
- 提升建立思考框架的能力,有賴於開放心胸,擁抱許多不同的思考框架。
策略一:不斷充實自己的框架庫。
策略二:透過「認知採集」的過程,培育好奇心;
而如果實在已經別無他法,策略三則是要敢跳進認知上的未知領域。
- 多元性是思考框架對社群、國家和文明的重要性。
我們該追求的目標是框架的多元性:培養差異、歌頌差異,而不是希望大家對世界都抱持同質的觀點。我們需要勇敢一點,好讓自己能看到色彩繽紛,而不是像個色盲。

第2章    建立思考框架[建立思考框架是人類的核心能力,AI無法模仿]
- 就算是地球的地圖投影,也會因為將球體投射成2D平面的方式各有不同,而有許多不同的地圖畫法,各有其優缺點。所以,「哪種地圖最好?」這個問題本身並沒有意義,而會因為使用的情境與目的,
而有不同的答案。
- 至於思考框架也是如此,並沒有什麼「最正確的」思考框架,都是看情況、看目的而定。
- 2014年春天,伊波拉病毒在西非爆發,國際組織也立刻找來許多專家進行研究、全力圍堵。
當時處理這項危機的兩大國際組織就是聯合國的世界衛生組織(WHO)以及無國界醫師(MSF)這個國際援助組織。這兩個組織的專家都很清楚,這場戰鬥最重要的武器就是資訊。
然而,雖然當時兩者手中的資料數據完全相同,得出的結論卻完全相反。
這裡並不是他們的分析出了問題,而是因為用了不同的思考框架
各自對疫情的背景環境與未來傳播規模,有不同的看法。
- 新冠肺炎時亦同,所有國家都取得同樣的資料數據,但因為對新冠肺炎的思考框架不同,就會定出不同選項、採取不同行動,而這就影響了危機爆發後的結果。以英國與紐西蘭為例,就可以看出不同的思考框架會帶來怎樣不同的結果。
- 同樣的資料,卻因為不同的思考框架,而有了不同的行動,而結果也全然不同。
思考框架能協助我們前往想抵達的地方,但我們得先選定方向。

第3章  因果關係[人類會推斷因果,而又常常出錯;但這其實是好事]
第4章  反事實[想像另一個現實,能讓我們在這個現實表現得更好】
- 反事實就是讓我能夠看得比現實更遠的方式。
要是無法想像「本來可能如何」、「現在已經如何」、「未來可能如何」,
我們就會永遠受困在當下,只能討論「現在如何」。
- 反事實思維並不等於隨心所欲做白日夢,也不是智識上的插科打諢、隨意搞笑。
不同於讓議事隨意流動、自由聯想,要做到反事實的思考,需要專注、需要目標導向,
反事實是要用來了解世界、做好行動的準備。
反事實也需要依賴在我們思考框架中對因果關係的理解,好讓我能夠在想像中讓時間前進或後退,
又會是取出某個情境發生的事,想像它發生在另一個情境時會如何。
- 而「反事實思維」與「因果推論」這兩項要素也能夠相輔相成。
沒有因果關係,各種事件只會向汪洋大海淹沒我們,卻毫無意義;
沒有反事實思維,則會讓我們受困在現實,無從選擇。
- 反事實之所以這麼有用,是因為能夠提醒我們還有各種選項,讓我們能看得更廣,而不是執著在某個選項。我想像及篩選不同選項的時候,同時也會思考因果關係;但相對的,光是思考單一因果關係的時候,卻無法激發我們的想像力。正因如此,「能夠想像出平行現實」就成了建立成功思考框架的核心要素。

第5章  限制條件[為無限加上限制,反而有助於引爆創意和創造力]
- 三大原則之一:可變性原則、最小變動原則、一致性原則。
第6章  另啟思考框架 [有時候就是該切換框架,或是創造新的思考框架]
- 另啟思考框架有三R:Repertoire(現有框架庫)、Repurpose(借用並調整)、Reinvent(重新發明)
第7章  學習[擴充框架庫、勤於認知採集、實行白紙策略]
- 多元性的優勢不是來自於數量,而是來自於差異。找出七百個類似的想法,不如找出七個不同想法來的有價值;就像是如果一個工具箱能有七種不同的工具(錘子、起子、板手之類),絕對會比裝了七百把錘子的工具箱更實用。
- 認知採集(Conitive Foraging):不一定是為了取得新的思考框架,但就是去尋找對這個世界的嶄新思考方式與觀點。
這裡就是要積極探尋各種新想法、新體驗與新觀點,就像是用認真嚴肅的態度來發展我們的好奇心,
而目標則是要在自己現有的領域之外,取得多元的觀點、不同的視角、豐富的概念。
- 「認知採集」就是:不斷去尋找自己不熟悉的體驗,包括認識新朋友、閱讀題材廣泛的各種書刊、造訪自己平常不會去的地方。這些都是為了培養出開放、好奇的心胸。
這代表需要結識不在自己原本領域的人,這不是為了能得到新朋友的幫助,而是為了接觸到新知,刺激自己的心智。
- 芝加哥大學布斯商學院的社會學家伯特(Ronald Burt)研究組織中的個人,希望了解資訊會如何影響一個人的績效表現。伯特把公司裡的兩種典型人物拿來做比較,分別稱為「詹姆士」和「羅伯特」。詹姆士代表的是內向型的人,遵守規則、注重效率。他們的社交網路會塞進許許多多類似而冗贅的資訊。相反的,羅伯特代表的人會和許多其他領域有連結,喜好多元資訊,會尋找各種新觀點。羅伯特們能夠跨越所謂的結構洞(structural hole,會讓各個組織與領域彼此孤立),這些人都是認知採集者,會接觸到多元多樣的思維方式,也就常能用新觀點來看事物。他們之所以會去建立和維持人際關係,並不是為了解決某項特定的問題,而是因為覺得光是「接觸到其它觀點及視角」就已經很有價值。
- 想預測未來,最好的辦法就是去發明未來。-電腦科學先驅凱依(Alan Kay)
- 擴充框架庫裡的框架樣式、勤於認知採集、實行白紙策略,分別適用於不同的情況。
其中的差異可以這麼比擬:擴充框架庫就像是去讀相關的書籍;認知採集則是廣泛閱讀各種不同學科的書籍刊物和文章;至於白紙策略則是熱情擁抱所有知識。
- 官僚制度常常聽不到這些「企業裡的卡珊德拉」的高聲吶喊-有些員工早已預見災難,也提出可能的糾正措施,卻總是被無視。英特爾傳奇共同創辦人葛洛夫(Andy Grove)認為這種員工對企業的成功至關重要,還特地在自己的回憶錄花了整整一章來談這些「大有幫助的卡珊德拉」,讚揚這些人「帶來新觀點」。
- 沙子掉到牡蠣裡,並不會產出珍珠。

第8章  多元性 [擁抱變化、運用教育、鼓勵遷徙、容許摩擦]
第9章  警惕 [我們要避免思想僵固;我們需要機敏的心智]
- 建立思考框架,其實是結合了兩種截然不同的程序。
第一種是要建構和應用思考框架,指的是要運用因果關係、反事實與限制條件這三要素
這種程序能讓人迅速找出有用的選項,並且準備迅速採取行動。我們的人生大半都是應用思考框架,
而且這也很合理:在大致熟悉的情境中,這種方式可以最有效率的幫助我們做出決策。
- 至於第二種程序,則是要切換到不同的思考框架,也就是另啟思考框架。
這件事的風險遠遠更高,但因為能讓我們對現實有新的選擇,也可能讓我們得以找出新方式來應對挑戰。在局勢穩定、條件如常的時候,通常不需要另啟思考框架。
但如果情境有所不同,另啟思考框架就常常是很優秀的策略。

衍生閱讀:
1.人類大命運:從智人到神人
2.雜訊
3.快思慢想
4.民約論

2021年9月11日 星期六

消費者行為市場分析技術(下)

消費者行為市場分析技術:數據演算如何提供行銷解決方案
Marketing Analytics, 2nd edition, 
A practical guide to improving consumer insights using data techniques

麥可.格里斯比(Mike Grigsby)

第三篇 相互關係類型統計法
09 我的(消費者)市場概況如何?
- 欲展示各區隔市場,並證明彼此之間已有效區隔,需要用到的技術稱為「側寫」(profiling)
一般而言,這可顯示各重要變數(尤其是較次數和對行銷媒介的回應)的平均數或頻率,
快速衡量每個區隔市場的差異。
注意,區隔市場之間的差異越大,(對各區隔市場實施的)策略會越明顯。
- 依區隔市場顯示關鍵績效指標(KPI)平均數的方法很常見,但很多時候,其他指標更能展現差異。
使用比率的話,時常可以更快突顯差異,亦即將各區隔市場的平均數除以整體平均數。
舉例來說,區隔市場A的平均營收為1500,區隔市場B的平均為750,總平均(整體市場總計)為1000。
將區隔市場A的平均數除以整體平均數1500/1000=1.5,也就是說,區隔市場A的營收比總平均多50%。相較之下,區隔市場B為750/1000=0.75,表示該區隔市場對營收的貢獻比總平均少25%。依區隔市場對所有數據算出比率,很快就能看出其中落差,尤其是差異甚小的情況特別明顯。
- 再舉個例子,區隔市場A的回應率是1.9%,整體回應率為1.5%。
雖然兩者(單一區隔市場和整體)表面上只相差0.4%,但換算成比率的話就是1.9%/1.5%,
亦即區隔市場A比總平均大27%。我們之所以喜歡(也應該)選用比率,原因在此。
- 雖然看見各區隔市場之間的龐大差異已夠令人滿意,但側寫最饒富趣味的地方往往在於命名每個區隔市場。開始之前,請先體認一點:為區隔市場命名有助於區分各市場,區隔的市場越多,命名越顯得重要。
- 判別分析可以輕鬆完成這項任務。
(在SAS程式中對樣本套用proc discrim指令,就能得到方程式,
依各消費者劃入各區隔市場的機率予以評分,一旦定義好類別「區隔市場」,就能在方程式中放入合適的變數,預測消費者所屬的類別「區隔市場」,這是很常見的做法)。
- 市場區隔探究的是對消費者重要的因素,而非企業。
- 市場區隔可為市場研究、行銷策略、行銷傳播和市場經濟等方面提供洞見。
- 務必釐清每個區隔市場自成一格的原因。每個區隔市場都應有不同的策略,否則劃分為區隔市場將無意義。

10 市場區隔
- 市場區隔的各種方法:
商業準則、卡方自動交互作用偵測、階層式集群分析法、K平均演算法集群分析、潛在類別分析等。
- 市場區隔的目標是要增加淨利,而每個區隔市場的最終目的,則是要有效運用策略,
創造交叉銷售追加銷售的機會。
- 由分析中得出洞見,我們可以更認識每個區隔市場主要的痛點(pain point),
這也意味著我們可以對各市場對症下藥,
在適合的時機釋出適合的訊息,用足以打動人心的價格提供適當的產品選擇。
- 實際使用行為區隔程序:擬定策略、收集行為資料、製作/使用其他資料、執行選擇的演算法,以及側寫區隔市場。
- 區隔變數和側寫變數:
「區隔變數」是指建立區隔市場所使用的變數,剩下的變數則屬於「側寫變數」。
- 除此之外,其他(行為)變數都會以演算法檢測是否顯著,顯著者會保留下來,作為區隔變數。
總之請記住,只要不屬於區隔變數,即為側寫變數。
過度取樣(oversampling):強制提高特定數據代表性的一種取樣手法,使其樣本數比隨機取樣更多。
若簡單隨機取樣產生該特定數據的數量太少,即可採取過度取樣。
標準化:第一階段只是單純檢測每個變數是否「非常態」。
一般而言,此階段會計算每個變數的Z分數,或將各變數標準化,
接著刪去分數超過3.0標準差的觀察值
(常態分布下,三個標準差已涵蓋99.9%觀察值,因此超出者已屬於非常態)。
進入第二階段,需要使用K平均演算法檢測樣本是否為常態。
- 關鍵在於,比起逐一檢查每個變數是否異常,這種方法採取多自變數方式,
找到一群擁有非常態傾向的消費者。
因此我們需要刪除這些觀察項(消費者),不再繼續分析。
- 卡方自動交互作用偵測(chi-squared automatic interaction detection,CHAID)
- 卡方自動交互作用偵測會挑選依變數,接著檢視自變數,找出「區分」依變數效果最佳的自變數。
所謂效果「最佳」,是根據卡方檢測(chisquared test)的結果而論。
- RFM模型採用的是企業觀點,並非從消費者的角度出發。
- RFM模型只能試圖移動消費者版圖,無助於策略擬定。
- K平均演算法(k-means clustering)大概是最熱門的市場區隔(分析)的技術了。
SAS程式(使用proc fastclus)有相當強大的演算法。
- K平均演算法不具任何診斷功能,對於這些重要條件毫無任何協助,讓你憑著主觀的直覺全權決定。
-- 有幾點需要注意:
第一,K平均演算法方法以歐式距離平方根為依據,來決定觀察項的歸屬,因此並非統計屬性,而是數學性質的分析法。
第二,集群中心值(即集群)高度取決於資料集的順序。若將資料集重新排序,最後可能會得到天差地遠的區隔結果。
第三,此方法幾乎毫無診斷功能可言。
第四,由於群集呈現自然球形(因為是根據與中心值的距離,決定觀察值歸屬何處),集群的大小會很相似
這不太可能符合真實市場的情況。雖然K平均演算法又比RFM模型和卡方自動交互作用偵測更進一步,但顯然仍有許多缺陷。
- 市場數和顯著變數都不是K平均演算法能夠提供的資訊
- 「行為區隔」是採消費者的觀點,主要使用消費者交易和行銷媒介回應等資料
確切了解消費者看中的事情,其主要精神就是以消費者為核心。
所有策略行銷活動都適合使用「行為區隔」,包括:選擇目標客群、
訂定最佳折扣、了解消費者的通路偏好/決策歷程、釐清產品滲透率/品類管理等。
「行為區隔」不僅能協助行銷人員選擇目標市場,還能完成更多工作。
- 行為出自於動機,不管核心動機或經驗動機。
舉凡結帳、光臨店面、使用產品(滲透率)、開啟及點擊行銷媒介並給予回應,都是行為,
正是這些行為創造了財務成果、營收、成長、終身價值和利潤。
- 核心動機主要是無形的態度、品味和偏好、生活方式、金錢價值觀、通路偏好、益處或需求激發。
另外也有經驗動機,這是行為的次要成因,通常取決於品牌曝光。
這些都不是行為本身,但會觸發後續行為。這種次要成因包括:
忠誠度互動程度滿意度服務禮節速度
值得留意的是,RFM模型使用的最近一次消費和頻率
(互動程度指標)就屬於次要成因,而同樣會使用的金額相關指標,則是財務結果數據。
- 由此可知,RFM模型僅使用互動和財務等方面的資料,並未使用行為資料。
- 「行為區隔」和RFM模型有三點不同:「行為區隔」(通常)使用較多行為資料;
「行為區隔」使用這些資料的目的在於了解消費者行為;「行為區隔」會採取統計方法,
將各區隔市場做最大程度的區分。
簡單比較RFM模型卡方自動交互作用偵測K平均演算法潛在類別模型,即可窺得箇中意義。
RFM模型使用多個自變數(通常是三個變數),但無法處理多個依變數(即同時使用三種維度)。
RFM模型屬於數學性質的分析法,就統計而言並非理想選擇。
潛在類別分析(latent class analysis,LCA)可以大幅改善前述缺失,堪稱目前最先進的市場區隔技術。
- 潛在類別分析可找出理想的區隔市場數量、識別顯著變數,以及計算每一成員隸屬各個區隔市場的機率。簡言之,沒有任何事情需要主觀決定!
- 潛在類別分析是一種統計技術,而非數學性質的分析法(例如階層式分析或K平均演算法)。
- 潛在類別分析可以使用貝氏資訊準則(Bayes Information Criterion,BIC)LL(負對數概似值)錯誤率,為你提供診斷結果,在變數和資料集的基礎上,指出「最理想」的區隔市場。
- 潛在類別分析(LCA)是一種貝氏(最大概似)方法,具有統計本質。
由於消費者行為屬於一種機率(甚至是不理性的)現象,
因此使用統計分析法會比數學屬性的方法更為適切。
透過此方法提供的診斷功能,我們可以知道區隔市場的最佳數量,
也能了解哪些變數對市場區隔最為重要。

第四篇 攸關日常行銷的其他重要主題
11 統計檢定
- 試驗設計:以歸納方式建立統計測試,其中採用的刺激因素會隨機考量變異數、
信賴度等不同條件,並與控制組對照比較。
- 關於樣本規模的問題,建議考慮以下因素:
母體的標準差、希望的信賴水準(以檢測結果能否推斷母體的真實情形)、想檢測的敏感度,
以及預期回應。

12 結合大數據並採取大數據分析
- 歸因模式(attribution modelling)依行為區隔的結果,對各個接觸點施以加權。
策略上,若從產品組合的角度來看,我們可以從大數據中得知哪個接觸點對消費者具有價值。
因此,對於哪些消費者所重視的接觸點
(頁面、網站、網路、群組、社群、商店、部落格、具有影響力的名人等),我們就得多加注意。
- 不需要遍尋各種新奇的演算法,或是衍生出迥異的策略。
我們只需擁抱有關消費者行為的不同層次資訊,在分析時將所有相關因素納入考量。
對於此事,我們早就擁有相關的分析技術(存在好幾十年了)。
像是聯立方程式、結構方程式、向量自我迴歸等。
- 本書前幾個章節中,我們將廣義的統計分析技術區分成兩大類型:
依附方程式類型(一般迴歸、羅吉斯迴歸、存活分析模型)
以及相互關係類型的分析法(市場區隔、因素分析等)
以下演算法使用的語言進一步擴展了前述定義,共區分為監督式學習、非監督是學習和強化學習:
1. 監督式學習:有一個引導(目標)變數,而目的就是預測該變數。
這類技術包括迴歸和分類類型的方法,例如決策樹(decision tree)隨機森林(random forest)
K最近鄰演算法(K-nearest neighbour)邏輯迴歸等。
2. 非監督式學習:沒有引導變數。
市場區隔降維(dimension reduction)類型的方法都屬於此類,
例如集群分析類神經網路因素分析等。
3. 主要運用人工智慧(AI),在演算法中融入回饋迴圈。
類似馬可夫鏈(Markov)的處理程序,一般都可歸於這類技術,例如Q-learning。
- 從技術面來看,截至目前所介紹的方法都屬於迴歸或分類屬性,具線性本質,
可表示為BXi,其大多僅涉及明顯的變數。也就是說,變數就是該方法要量測的項目。
除了這類型之外,還有一種非線性的技術(假定使用潛在變數),稱為「類神經網路」。
舉凡依變數類型即相互關係類型的技術(分類形式),都可使用類神經網路。
- 傳統的計量經濟方法依然足以解決大部分市場分析問題。

2021年6月20日 星期日

數位「真」轉型:來自全球五大數位轉型銀行的實戰案例

數位「真」轉型:來自全球五大數位轉型銀行的實戰案例
Doing Digital: Lessons from Leaders

第一章 銀行為何需要進行數位轉型 
- 許多人可以有宏偉的想法,但是如果他們不能實現這些想法,那麼它們僅是一些想法,永遠不會成為任何事物。
- 銀行既有引擎又有車輛,但由於願景和領導力有限,因此它只是將一批馬栓在前面,這不是一匹跑得更快的馬;實際上,它是一批速度較慢的馬,因為它正拖著一輛重型車輛在後面轉來轉去。
重新思考基礎架構,修建道路和橋梁並重新改造系統,不要只將新功能添加到舊功能中,而希望它能奏效。
- 數位轉型需要對銀行的核心進行全面轉變,對銀行的文化、系統、組織和流程的核心做改變,
而不僅是活動和專案。
- 銀行知道他們需要進行數位轉型,但是許多銀行領導者,特別是執行長和董事長,卻不知道該做什麼,也不知道該怎麼做。他們不知道如何領導數位轉型,因此他們只懂做出一點數位改變。他們在專案、人員、計畫、系統和架構上投資了數十億美元,卻迴避了組織改造、文化變革、管理重組、系統重建更換核心系統等重大問題,原因在於後者既冒險又困難,而且這些領導者並不瞭解面對數位革命是他們必須做的。擁有這些領導者的銀行將在未來十年內不復存在,但他們不會消失,但是會被能確實做到這一點的銀行所併購。
 
第二章 轉型規劃 
- 如果你總是總是按著自己一直以來的方式做事情,那麼你就總是只能獲得一值擁有的那些...甚至還會少一些。
- 銀行數位轉型失敗的原因之一,是因為如果負責轉型的單位不是組織的核心,核心組織不會希望他們成功,且不斷地攻擊他們。或許,更重要的是,這個新部門的員工是業務的另一邊,而且往往並不是真正瞭解核心業務的領域。他們做了許多看起來很吸引人的事,但並沒有真正推動業務發展。
所以業務單位必須負責這項轉型,不能有人站在旁邊不參與。
 
第五章 數位轉型值得嗎?
- 數位轉型核心:
1.獲客
--藉由更廣泛的通路增加獲客率
--降低獲客成本
2.交易
--少紙化
--創造即時滿足客戶需求
--降低成本
3.參與
--推動增加「黏著度」的客戶行為
--透過情境行銷進行交叉銷售
--增加每位客戶的收益
4.生態系統
--從管路企業到平台企業
--資料
--以洞察力為導向

- 如果你改變的是系統,而不是改變組織架構,你將無法生存。
如果你在系統上投資,但不改變核心系統架構,你將無法生存。
如果你單純為了降低成本,而不是為了更好的用戶體驗而使用科技,則你將無法生存。
- 關鍵因素是如果你不把數位視為銀行架構和文化的轉型專案,
反而把它當作一個系統專案或一個通路來對待,那麼你將無法生存。

2021年2月2日 星期二

AI必修課:日本情感研究權威的人工智慧秒懂攻略

 AI必修課:日本情感研究權威的人工智慧秒懂攻略

第二章 人工智慧擅長與不擅長處理的事

- 聲音辨識系統會使用兩種技術以防止雜音造成錯誤判斷,一種是判斷人類說話時間區段的技術(聲音檢出),另一種則是去除混入雜音的技術(雜音去除)。

- 用比較專業的術語來講,聲音辨識是將輸入的訊號轉換成聲音特徵向量(將聲音的各種特徵數值化後的資料),再從一系列的聲音特徵向量推敲出對應的單字。

- 過去將聲音轉換成正確文字的過程可分為兩種模型,分別是「聲音模型」與「語音模型」。

- 聲音轉換成文字的過程是先分頭進行再匯合出結果。「聲音模型」就像是聲音的單字辭典,「語音模型」則是由上下文預測是那些單字組成。

- 隱馬可夫模型(HMM,Hidden Markov Model)

- 利用聲音模型或語言模型分別進行處理,想要正確預測出後面的單字仍有其極限。

- 語意網路(Semantic Network)在人工智慧發展初期便是著名的研究。

- 單字與其意義並不是任意存放在大腦記憶中,而是以聯想串聯起各單字所代表的概念,並將其意義相近的單字一起記憶下來。

- 潛在語意分析(LSA,latent semantic analysis)

第三章 人工智慧如何從資訊中學習?

- 機器學習大致上可以分為「監督式學習」、「非監督式學習」、「強化學習」等三種。

- 卷積式類神經網路(CNN,Convolutional Neural Network):CNN所使用的是誤差反向傳播法來調整權重,完成學習過程。

--卷積層(convolution layer)

--池化層(pooling layer)

--局部比對正規化層(LCN,local contract normalization)

--鏈結層(fullyconnected layer)

- 遞迴式類神經網路(RNN,Recurrent Neural Network):RNN是一種在聲音、語言、影片等序列式的資料處理上具有優勢的類神經網路。

- 波爾茲曼機

- AI三大家:深度學習的「類神經網路」、專家系統、遺傳演算法。

- 遺傳演算法(GA,Genetic Algorithm):GA常被應用在遊戲、股票交易、飛行路徑最佳化、飛機機翼大小最佳化等領域中。

2020年9月19日 星期六

世界第一簡單機器學習

 世界第一簡單機器學習

2019年4月

第1章 怎麼做迴歸?

- 正規化的方法分為兩種,Ridge迴歸盡可能減少大數值的係數,和Lasso迴歸增加數值趨近零的係數。    

第2章 怎麼進行識別?    

- 模型的輸出為權重w的函數,所以當w改變,誤差的值也會不同。遇到這樣的問題,我們可用梯度下降法(Gradient Descent)來求解。

- 由所有的訓練資料D計算梯度的方法,稱為批量梯度下降法(Batch Gradient Descent);將D分割成適當的大小,以此為單位計算梯度的方法稱為小批量梯度下降法(Mini-batch Gradient Descen);由D隨機選出一個資料,僅以此資料計算梯度的方法,稱為隨機梯度下降法(Stochastic Gradient Descent)

- ID3是演算法是建立決策樹的最基本步驟

- 亂度Entropy和資訊量

- 將原資料的亂度減去分割後的資料亂度,得到詢問可獲得的資訊量,該量成為資訊增益量Gain

- 關於資料集算度的計算方法,除了上述的亂度(Entropy)之外,還有一種方法是以下面的式子計算吉尼係數(Gini Cofficient)

Gini(D)=1-Pyes^2-Pno^2

- 奧卡姆剃刀(Occam's Razor),目的是「選擇符合資料且最單純的假說」

- 決策樹會過於適應訓練資料容易發生過度學習(Overfitting)

第3章 評估結果    

- 要掌握機器學習未知資料時的性能。其中,最簡單的方法是,將手邊的資料分割成訓練用和評估用。稱為分割學習法,機器在學習時先不使用評估資料,等到要計算準確率時才使用。這樣一來就能模擬遇到未知資料的情況。  

- 會影響訓練結果的超參數(Hyperparameter),比如線性迴歸中正則化須的權重數、決策樹訓練的樹木深度等等。調查配置訓練的超參數是否妥當,這個過程就稱為檢驗。若在檢驗作業中使用評估資料的話,評估用資料就不能算是未知資料了。

- 所以,使用分割學習法來評估性能時,一開始應該將資料分成訓練用、檢驗用、評估用三部分


- 對資料進行分割,資料的分割份數稱為折數(fold),通常會採用10折交叉驗證。

- 評估用資料元素數為1的分割法,另外稱為留一法(Leave-one-out)。

- 準確率是在評估資料中,正確辨識類別的資料比例。為了簡化說明,舉例二分類識別問題的評估法。這是有沒有罹患某種疾病、是不是垃圾信件等問題。符合預設條件的訓練資料為正例(positive)、不符合的資料為負例(negative)。

- 混淆矩陣(Confusion Matrix)


- 只有準確度是不夠的:未罹患疾病的人數遠比罹患疾病的人數還多的情況,也就是資料中的負例比正例多很多的意思。比如1000人中僅1人罹患疾病的極端情況,使用全部判定為負的分類器,這樣準確率會是0.999。為了能夠區分這樣的情況,我們需要以其他指標來評估機器學習的結果。

- 根據上表,準確度Accuracy= TP+TN / TP+FN+FP+TN (正解數除以全部資料數就是準確率)。

- 精確度Precision,這是分類器判定為正時,可以多麼相信該結果的指標。

Presision = TP / TP+FP (正確判定為正的數量除以分類器判定為positive的數量就是精確度)。

舉例:被判定罹患某種疾病且該診斷為正的正確比例

- 召回率Recall=TP / TP+FN (正確判定為正的數量除以所有正例的數量就是召回率)。

例:對象資料中的所有病患中,有多少人被正確診斷罹患疾病

- 精確度和召回率往往是此消彼長的關係,一邊數值高,另一邊數值就低。

舉例來說,罹患某疾病的症狀很明顯時,分類器才判定為正的精確率會高,不過這樣了話會忽略掉輕微症狀,造成召回率變低。相反地,優先提高召回率,稍微有一些症狀就判定為正,使用這樣的分類器,會導致雖然漏掉病患的情況減少,但可能造成很多沒有生病的人需要接受精密檢查。

- 於是,我們會用下面的式子定義綜合判斷精確率和召回率的指標F值

F-measure = 2 X Precision x Recall / Precision + Recall

- 若是三種類別的情況,混淆矩陣會變成3x3。由混淆矩陣求出各類別的性能,平均後的數值為巨觀平均(Macro Average);由類別計算TP、FP、FN、TN相加後,除以資料數的數值為微觀平均(Micro Average)

第4章 深度學習    

- 卷積神經網路(Convolutional Neural Network)

- 前饋式神經網路(Feedforward Neural Network)

- softmax函數

- 反向傳播法(Backpropagation)

- 自動編碼器(Autoencoder)

- rectified liner函數,使用此函數的單元稱為ReLU(Rectified Linear Unit)。

- 使用Keras資料庫,Keras封裝了常用的TensorFlow深度學習庫,能夠做到更高階的敘述,可用簡潔的程式碼編寫深度學習的典型問題。

第5章 整體學習Ensemble Learning    

裝袋法Bagging    

隨機森林Random Forest    

- 裝袋法、隨機森林是藉由改變使用的資料集,或者改變分類器的構成條件,做成不同的分類器。與此相對,不斷加入專門減少錯誤的分類器,形成反應不同的分類器集合,稱為提升法。

提升法Bossting    

- AdaBoost(Adaptive Boosting):以變更權重的資料集訓練下一個的分類器,依序形成不同的分類器。後面做成的分類器會優先識別上一個分類器錯誤判斷的資料,具有與上一個分類器不同且能夠彌補弱點的效果。

- 另外一種方式是使用損失函數。以提升法結果作成的複合分類器,可用來定義損失函數。其中,追分的分類器會選擇損失函數值減少最多的。這種方式的提升法稱為梯度提升Gradient Boosting

- 機器學習工具Weka內建diabets.arff資料。

第6章 非監督式學習

6.1.1 集群分析

6.1.2 階層式集群分析(Hierarchical Clustering)

- 群集間的相似度可用下面的方法定義:單一連結(Single Linkage)完全連結法(Complete Linkage)中心法(Centroid Method)Ward法

- k-means法EM演算法

EM演算法基本步驟跟k-means法相同,一開始先用亂數決定隨機的平均向量和共變異數矩陣(Covariance Matrix),這相當於在特定空間中隨意的場所放置隨意的常態分佈。

6.2 矩陣分解

- 假定用戶與商品之間存在幾項潛在因素。潛在因素是指,在分組用戶、商品時類似視點的條件,像是「女性」、「居住地」、「喜歡甜食」等等。但是,這些是在沒有監督的情況下從資料中選出,所以未必每個都能如此解釋。

- 交替最小平方法(Alternating Least Squares)。

- 非負矩陣分解(NMF)

- 分解機模型(Factorization Machine)

6.3 分割式集群分析(Partitional Clustering)


2020年3月21日 星期六

圖解 AI 人工智慧大未來

圖解 AI 人工智慧大未來:關於人工智慧一定要懂得 96 件事

- 透過形式主義的手法可以用數學重現人類的理論邏輯思考,
延伸閱讀<數學原理>懷海德(Alfred North Whitehead)與伯特蘭·羅素(Bertrand Russell)。

Chapter 2 自我學習的人工智慧
- 所謂監督式學習就是同時提供問題與答案讓人工智慧學習問題解決的方法。
- 強化學習讓人工智慧依照點數的增減來做自我評估,
如此,就會讓人工智慧朝著增加點數的方向學習。

Chapter 4 深度學習的誕生
- 類神經網路有別於傳統人工智慧技術,歷經長達60年的淬鍊,終於開始發揮它真正的價值,
也就是「深度學習」的誕生。
- 反向傳播法(Backpropagation)卷積神經網路(Convolutional Neural Network)
自動編碼器(Autoencoder)這三個技術是深度學習的研究基礎。
類神經網路的「調節計算」與「反向傳播」技術
- 克服單層感知器限制的是「反向傳播」技術的開發,透過與神經網路多層化的連結,
克服了原本「只能處理現應分割問題」的缺陷。
- 感知器在突觸間「加權計算」的研究上很受到矚目,但當要處理的規模變大時,
感知器就很難找出最適當的加權(也稱為權重),而用來解決此問題的方法也就是「反向傳播」技術。
- 首先確認類神經網路某一組輸入值對應的輸出值,與正確解答間的誤差為何。修正誤差時,
從輸出層反向對輸入層的加權計算做修正,因此稱為「反向傳播」。
- 傳遞錯誤訊息的人會給予較低的權重(降低點數),而對傳遞接近正確訊息的人給予
較高的權重(增加點數),一直修正到最初傳遞訊息的人(輸入層的突觸)為止。
- 反向傳播法技術並不是萬能的,其用來修正誤差的方式也只適用「監督式學習」,
而且無法有效處理4層以上的類神經網路。也就是說,其有效處理的部分只有3層的類神經網路。
實現多層次類神經網路的「卷積神經網路」
- 單層突觸無法解決的問題必須靠多層突觸解決,也就是說,藉由層次的增加,
讓處理資料的運用可以更「廣」也更「深」。卷積神經路時現類神經網路的多層化,
讓人工智慧得以做到影像辨識。
- 類神經網路的各層扮演著諸如「角度分析」、「曲線分析」、「直線分析」工作的角色,
最後再將各種特徵做綜合比較並重現類似人類辨識的能力。
突破多層次限制的「自動編碼」技術
- 為處理4層以上卷積神經網路無法有效運作問題,解決的方法就是利用「自動編碼器」技術,
就由「編碼」(壓縮)與「解碼」(解壓縮)的方式帶來了出奇的效果。
- 「自動編碼器」技術的另一個重點是資料編碼。編碼就是把整體的符號數變少,
也就是做資料的「壓縮」。事實上,「做壓縮」就等於是「辨識特徵」,不但可以刪除不必要的資料,
也可以減少傳遞錯誤資料的可能性。
深度學習的誕生與特徵取出能力
- 「深度學習」也可以說是把人工智慧用在,篩選、擷取和分析「卷積神經網路中」
每一層資料的特徵。這項革命性技術讓原本只能由人力輸入的參數設定(特徵擷取),
改為透過機器學習來處理

藉由深層強化學習提升「辨識力」
- 深度學習與強化學習結合就變成「深度強化學習」。所謂的強化學習,就是要讓人工智慧
反覆錯誤中學習並給予過給予獎勵來接近市場目標的學習方法,
主要運用在遊戲或路徑搜尋等在特定環境行動的人工智慧。
- 而「深層強化學習」的最大特點就是深度學習的特徵擷取
擅長影像辨識的「卷積神經網路」
- 在多層次類神經網路中,最具代表性的就是「卷積神經網路」(CNN,Convolutional Neural Network),特別適用於影像辨識CNN的特點就是擅長強調特徵處理。採用「卷積」的處理方式,會把影像的特徵(如形狀、顏色、樣式等)先做分類,然後再強調特徵的部分,之後再藉由特徵來比較判斷
「此特徵是屬於什麼影像」。換句話說,卷積處理可以除去不必要的資料。
- 卷積神經網路除了「卷積處理」外,還有另一個「池化」(Pooling)技術,也就是先確認影像特徵
(如形狀、顏色、樣式等)的組合方式,然後再統整為一個資料來處理。在把影像切割成細小像素再組合的部分與卷積的方式一樣,但在影像處理上是不同的。「池化」是把影像的解析度降低處理,而「卷積」只是把特徵的為小部分保留組合起來,並不會改變影像的解析度。

機器翻譯的革命技術「循環神經網路」
- 「循環神經網路」(RNN:Recurrent Neural Network)擅長處理自然語言,
「循環」就像是雞生蛋、蛋生雞的關係,結果就是原因的一種循環。這和程式語言的「遞迴」概念相同。人工智慧在理解句子時,最大的問題就是單字的意思會隨句子變化。
譬如把「我養貓」分成「我」、「養」、「貓」,每個字有自己的意思,
而字與字之間的組合也有其關係性,全部合起來就構成一整句的意思。這裡就出現了所謂的循環性:
如果不知道單個字的意思就不知道彼此的關聯,而不知道彼此的關聯就不知道單個字的正確意思。
將單字與文章的意思「向量化」
- 藉由「循環神經網路」讓人工智慧可以翻譯出更流暢的自然語言,為了更進一步提升其翻譯能力,
開始了將單字與句子含意「向量化」的研究。
人工智慧藉由可自由使用的資源而持續進化
- 深度學習帶給人工智慧研究的衝擊因研究成果採用開放原始碼形式而更加快速。
譬如Google所提供的TensorFlow,透過Open Source(開放原始碼)的軟體函式庫,無論是誰都可以自由使用或是將其商業化。其他像是日本新創公司Preferred Networks提供Chainer、加州大學柏克萊分校釋出的Caffe等軟體框架(Framework)或函示庫,也紛紛採用開放原始碼方式。

2019年12月29日 星期日

創智慧-理解人腦運作,打造智慧機器

創智慧-理解人腦運作,打造智慧機器
Jeff Hawkins & Sandra Blakeslee

第二章 神經網路模式
- 「自體聯結記憶」(auto-associative memories)模式,是建構在簡單的神經元上,它們互相連結,當刺激超越特定閾值時,就會激發,只不過它們相互連結的方式不同,還多加了很多回饋。它不像後向傳遞網路,只把訊息往前送,這個自體聯結記憶模式將每個神經元的輸出送回原來的輸入,有點像跟你自己打電話。這個回饋迴路引出了一些有趣的特質,當某個行為型態被送進人工神經元時,它們會形成對這個型態的記憶,這個自體聯結神經網路會把這些型態與它們本身連結起來,所以稱之為自體聯結記憶模式。
- 這個自體聯結記憶模式不像其他的神經網路模式,它可以儲存一序列的型態,或是具有順序的型態。這個特質是因為它在回饋中加了延宕反應時間,因為有這個延宕的差異,你就能將一序列的型態,如一段旋律,呈現給自體聯結記憶模式的神經元,它便可以記住這個序列。
- 這個問題不在於我們有沒有足夠的資料或是正確的資料,我們需要的是換個角度來看。有了合適的架構,那些細節才有意義,也才能被歸納到正確的位置。

第三章 人類的大腦
- 最低的功能區域就是初始感覺區(primary sensory area),這是外界感覺訊息到達皮質的第一站。這裡所做的處理是針對訊息最原始、最基本的部分。例如,視覺訊息經由初始視覺區的V1進入皮質,V1注意的是低層次的視覺特質,如微小的邊緣部分、縮小比例的動作部分、雙眼視差(binocular disparity)、最基本的顏色與明暗對比的訊息。V1再把訊息送到V2、V4和IT,以及其它一大堆地方,而這每一個區域都能特化的或抽象的來處理訊息。如在V4區的細胞處理中等複雜的物體,像是分辨不同顏色(紅或藍)的星形。另一個區域叫IT,它專攻於處理物體的動作。視覺皮質再往上的等級就是你表徵視覺記憶的功能區,所以你會認得出臉、動物、工具、身體部位等等。

- 所有的神經元都有共同的地方,除了圓圓的細胞體外,還有像細鐵絲一樣的分枝叫軸突(axons)和樹突(dendrites)。當一個神經元的軸突接觸到另一個神經元的樹突時,形成一個小的連結點叫突觸(synapse),突觸就是一個細胞的神經衝動影響另一個細胞行為的地方。一個神經的訊號到達突觸時,可以使下一個細胞比較容易發射或比較不容易發射,因此突觸可以是促進的或是抑制的。突觸的強度會因兩端細胞的行為而改變,最簡單的突觸改變型態是當兩個神經元幾乎同時活化(發射)時,這兩個神經元中間連結的強度就增加,這叫海伯學習定律(Hebbian learning)。

第四章 記憶
- 皮質用的是先前儲存的記憶來解決問題以及產生行為,而非計算出問題的答案。電腦也有記憶,它儲存在硬碟及記憶晶體中。然而,新皮質的記憶跟電腦記憶至少有四個基本的差異:
1.新皮質儲存的是序列的型態
2.新皮質是自體聯結的回憶出型態
3.新皮質是以不變的結構形式儲存型態(不變表徵invariant representations)
4.新皮質以階層性儲存型態

第五章 智慧的新架構
- 人類的皮質很大,可以儲存很多記憶,它不停地預測你即將所見、所聽與所感,只是大多為潛意識的,你並不自覺。這些預測就是我們的思想,當這些預測與感覺輸入結合起來時,它就是我們的知覺,我把這個看法稱作智慧的記憶-預測架構(the memory-prediction framework)。

- 從改變迅速、距空間專一性、只辨識微小特徵的V1細胞,到持續的發射、非空間專一性的物體辨識IT細胞。IT細胞告訴我們在我們的視野中有一張臉出現,這個細胞一般被稱為面孔細胞(face cell),會持續的發射,不管這張臉是斜的、倒反的或被遮住了一半,它是臉孔不辨表徵的一部分。
- 訊息可以透過回饋系統從階層高處流往階層低處。有很多的神經軸突束從高階的IT流往低階的V4、V2和V1,此外,在視覺皮質區,回饋的神經連結網路跟向前的輸送連結一樣緊密,甚至更密。
- 但是當你開始瞭解到大腦的基本核心功能是做預測時,你就需要將回饋加到你的模式中,大腦必須能夠將訊息送回到一開始接受輸入的區域,因為做預測需要加入比較現在正在發生什麼以及你預期將要發生什麼;現在正在發生的是向上送的輸入,你預期將要發生的是向下流的預測。
- 初始聽覺區(A1區域)所能接受的型態差異是非常大的。一個字可以有不同的口音、不同的聲調、不同的速度,但是到更高階的皮質時,這些低階的特徵都無關緊要了,一個字就是一個字,不管在聲學上的差異有多大。

- 往下送的訊息填補了目前輸入的訊息,做出預測下一步會經驗到什麼。
- 高階的皮質是在掌管全貌,而低階的區域則是活躍的在處理快速變化的小細節。

- 假如皮質能開口,它會說:「我經驗到很多不同型態,有的時候我無法預測下一個出現的型態,但是這幾組型態絕對是彼此有關係的,它們總是一起出現,我可以很有信心的就在它們之間以逸代勞。只要我看到它們其中之一,我就可以推論它們一整組都存在。我往上呈報給上一級長官之道的不是個別型態的名字,而是這一整組的番號。
- 所以大腦可說是儲存「序列的序列」,皮質的每一區學習序列,發展出我所謂的「名字」或「序名」來稱呼它所學到的序列,然後把這個名字傳給皮質階層中它的上一級。
- 所以現在你可以正式開始工作了。你要在所有的輸入型態中找序列。分類和找序列這兩者是創造不變表徵的兩個必要條件,皮質的每一個區域都在做這樣的事。
- 當一個輸入是模擬兩可的,如上面既紅又橘的色紙,這時形成序列的功夫就回本了。即使你不確定它是偏紅還是偏橘,你仍必須為它挑選個桶子。假如你知道這一系列輸入最可能的序列是什麼的話,你就可以利用這個知識去分類這模稜兩可的輸入。假如你認為它們是RRGPOG序列的一員,因為你前面已經看到兩個紅色的、一個綠色的、一個紫色的,你可能會認為下一張色紙的顏色應該是橘色的,然而當收到下一張卻不是橘色的-即使它是介紅、橘之間,而且可能更偏向紅色-但是因為你熟悉並期待RRGPOG序列的關係,所以你會把它歸到橘色的桶子裡,你利用已知序列的情境資訊來解決模擬兩可。
- 請注意,序列的記憶使你不但能分辨目前輸入的模擬兩可性,同時也預測了接下來的輸入應該是什麼。
- 在皮質區,由下而上的分類及由上而下的序列是不停的在交互作用,一生都不停的在改變,這就是學習的本質。事實上,皮質的所有區域都很有彈性,可以被經驗所改變,形成新的分類及新的序列正是你記憶這個世界的方式。
- 在人工智慧及機械視覺的研究領域裡,很多人都聽過形態分類(pattern classification)這個名詞,讓我們來看一下這個歷程跟在皮質中有什麼不同。為了要使機器能辨識物體,研究者通常是創造一個樣版,例如,一個咖啡杯的樣子或某種杯子的原型,然後教導電腦將輸入與樣板配合。假如配合得很接近,電腦便認為它找到了一個咖啡杯;但是我們的大腦並沒有樣版,而且每一個皮質區所接受的輸入也不像圖片,你不會記得你視網膜所看到東西得快照,或是你的耳蝸會或皮膚形態的快照,皮質的階層性使得物體的記憶分布在各階層間,它們並不是單獨存在某一個點上。同時,因為每一個皮質都形成不變的記憶,一個典型皮質所學習到的是不變表徵的序列,它本身就是不變記憶的序列,在大腦裡你找不到咖啡杯或任何物體的相片存檔。

- 我的目的是讓你看到皮質區內的細胞如何學習和回憶形態序列,這正是形成不變表徵和做預測最重要的元素。

- 第六層細胞代表著皮質區域認為要發生的事,是特定的預測,假如一個第六層細胞可以說話,它可能會說:「我是代表某種事物的神經柱中的一份子。以我個人的情形,我的神經柱代表了音樂D-A音程,其它神經住代表其它的東西。我只能替我的皮質區域說話,當我變得活化時,就表示我的神經柱認為音程D-A正在發生或正要發生,我可能會因為從耳朵近來從下而上的輸入而活化,結果引發在我神經柱中的第四層細胞活化了整個神經柱;或者,我的活化也可能代表我們辨認出旋律,所以預測到下一個音程。不管哪一個方式,我的工作是告訴低層皮質區域我們認為正要發生的事,我代表了我們對世界的解釋,不管這個解釋是真的或只是我的想像。
- 在你清醒的每一個時刻,大腦皮質的每一區域,都在比較由上到下驅動的預期神經柱以及由下到上驅動的觀察神經柱,這兩組比對結果香蕉的地方就是我們所知覺到的。
- 資深神經網路科學家葛羅斯堡(Stephen Grossberg)把這叫做「摺疊」的回饋(folded feedback),我則比較喜歡「想像」(imaging)。

第七章 意識和創造力
- 智慧可以由三個時期來看,每一個都用到記憶和預測。
第一個時期是物種用DNA作為記憶媒體。個體無法在有生之年學習和適應,只能將以DNA為基礎的世界記憶透過基因傳給子孫。
第二個時期是當自然界發明了能夠快速形成記憶並可以被修改的神經系統。至此,個體可以學習世界結構中中意的事物,在有生之年根據外在改變,修正行為。但是個體除了透過直接觀察的方式以外,仍然無法將知識傳給後代。新皮質的產生和擴張是在這個時期,但是並沒有闡明解釋它。
第三也是最後一個時期是人類所獨有,它開始於語言的發明和新皮質的擴大。人類在有生之年可以學習很多外在世界結構,也可以很有效的利用語言將這些知識傳給其他人。我花了一生中很多的時間來搜尋大腦的結構,以及這個結構如何產生思想和智慧;透過這本書,我將我所學到的傳遞給你,而這些科學家又是從在他們前面的科學家身上習得他們一生累積的知識,就這樣世代相習而相襲,我能夠吸收關於前人的想法與觀察,並加入自己的看法,沒有知識的傳承,人類的文明不可能如此進步。
- 創造力並非一種非凡的特質,並非需要很高的智慧和天份。創造力可以簡單得的定義為用類比的方式去預測,這是皮質上各區域都在做的事,這也是你只要醒者就不停在做的事。
創造力的發生乃是沿著一條連續得巨軸:從日常生活簡單地預測知覺(比如說聽到同一首歌,但調子不同),到困難的天才型作為(用前所未有的方式創作一首交響曲);前者發生在皮質的感覺區,後者則在皮質的最高階。在最基本的層次,日常生活裡的知覺預測行為其實跟蓋世、罕見的天才發現是很相似的,只是每天的預測行為太普遍了,以致我們忽略了它。
- 它用的是類比過去的經驗去預測未來。我們一般雖不認為這種行為是有創造力的行為,但是仔細想一想,它的確是。
- 創造力是透過類比做預測,因為它四處可見我們反而不容易注意到它的存在。
- 不過,當我們的記憶-預測系統在一個抽象的高層次運作時,當它用不尋常的類比做出一個不尋常的預測時,我們是真的認為我們是有創意的。
- 創造力是可以訓練的嗎?是的,絕對可以。我發現在解決問題時有很多能培養找到有用類比的方法。第一,你必須誠實的假設這個問題是有解的,很多人太容易就放棄了,
你必須有信心,解決之道正在等著你去發現。你一定要鍥而不捨的持續想這些問題。
第二,你必須讓你的心智漫遊晃蕩,你必須給大腦時間和空間去發現答案。找到一個問題的答案精確的說其實就是發現一個儲存在你皮質當中,可堪與目前待解的問題相比的
形態。假如你陷在問題中出不來,記憶-預測模式建議你應該找不同的方式來看這個問題,以增加從你過去經驗中看出類比的可能。假如你只是坐著在那裡猛盯著問題看,你是走不遠的;請將這些問題的部分拿來重新安排,用幾個不同的方式來呈現它。
- 假如你陷在問題中,沒有進展,最好先離開一陣子,先去做別的事情,然後再從頭開始,換一個新的方式去解釋這個問題。假如你這樣做個許多次,'遲早你會發現重點,豁然開朗。它可能要花上幾天或幾星期,但終有一天你會突然開竅。你的目標是尋找過去類似的情境經驗使你可以得出類比來,但是想要成功,你必須常常去思考這個問題,同時做些別事情,使皮質有機會找出一個類似的記憶。
- 直到今天,我還聽到有人說電腦應該適應使用者,這其實不見得總是對的,我們的大腦喜歡一致性和可預測的系統,但千萬別忘了我們也喜歡學習新的技術。


傑夫•霍金斯談大腦科學將如何改變電腦| TED Talk











2019年9月16日 星期一

機器學習:探索人工智慧關鍵

機器學習:探索人工智慧關鍵

Chapter 1 為什麼我們對機器學習感興趣

Chapter 2 機器學習、統計、資料分析
- 監督式學習:藉由輸入一組數值產生預估的輸出值在統計學中稱為迴歸(regression)分析,
若採用線性模型則稱線性迴歸。在機器學習中,迴歸是一種監督式學習(supervised learning)。
就像一名主管可以為我們提供每輛汽車相關資訊(輸入值)及其價格(輸出值)。當我們透過查看目前在市場上銷售的汽車資訊,可以同時觀察到汽車的屬性和價格之間的關係。

Chapter 3 圖形模式辨識
- 降低維度(Dimensionality Reduction):減少輸入資料內屬性(attribute)數量的方法。在一個應用程式中,一些輸入資料可能不具備有用資訊,或是多個輸入資料可能只是以不同方式提供相同的資訊。
減少輸入資料的數量可降低學習模型的複雜性,使訓練更加簡單。有兩種降低維數的方法,
即透過「特徵選擇法」(feature selection)「特徵萃取法」(feature extraction)
- 特徵萃取(Feature Extraction):一種降低維度的方法,其結合了幾個原始輸入並以定義更多新的訊息特徵。我們在原始特徵中藉由計算以定義新的特徵。這些新特徵的數量較少,但仍保留原始特徵中的資訊。這些少量的新合成特徵比任何原始屬性更好詮釋資料,甚至有時可以詮釋為隱藏或抽象的概念。
- 特徵選擇(Feature Selection):一種捨棄無法提供資訊的訊息,只保留具備資訊之資料的方法。
我們保留重要特徵,丟棄不重要的特徵,它基本上是一個選擇子集合的過程,我們希望選擇一組能夠獲得最佳效能的最小輸入屬性的子集合。

Chapter 4 神經網路與深度學習
Chapter 5 學習分群和建議
Chapter 6 學習採取行動
Chapter 7 我們接下來應該怎麼做?
- 機器學習是資料探勘(Data mining)應用中最重要的一個步驟,資料需要預先準備,同時也要解讀探勘後的結果。
- 資料科學(Data Science)領域所涵蓋的範圍主要議題為「機器學習」、「高性能計算」和「資料隱私與安全」三個領域。
- 當所蒐集與分析的資料量越來越大時,我們在許多不同領域所做的決策會越來越以資料為導向
(Data-Driven),並更加自動化,這時也要關注去識別化過程和所做決定的含義。
- 機器學習是達到人工智慧目標的途徑之一。藉由一組資料集合進行學習或是重複強化學習(reinforcement learning)。
- Generalization 通用化:模型是否訓練完善可以從模型是否能夠發現原有資料集內沒有發現的要素來判斷,這是機器學習的核心。在考試中,老師會詢問課堂上沒有教過的為題,基於學生在應對些新問題上的表現,來衡量學生的理解程度。學生若只能解決在課堂上已教過的問題是不夠的。
- Generative model生成模型:生成模型是先定義資料的產生方式,我們會事先推想產生此項資料的隱性因素,以及更高層級的隱藏因素。例如道路濕滑會導致車輛意外(隱藏因素為道路濕滑),而下雨有可能導致道路濕滑(更高層級的隱藏因素為下雨)。
- Model 模型:將輸入資料和輸出資料之間的關係以公式表達。其結構是固定的,但也具有可修改的參數。對參數進行調整,使不同參數值的相同模型可以對不同的資料進行訓練,進而建構不同工作的不同關係。
- Online Analytical Processing(OLAP)線上分析處理:用於從資料倉儲中提取資訊的資料分析軟體。
資料分析處理是由用戶驅動,用戶在資料過程前設定某些假設,並使用資料分析處理工具來檢視資料是否支持這些假設。而機器學習多由資料所驅動,在自動進行資料分析的過程中,可能會發現用戶以前沒有發現的相關性。
- Outlier Detection異常值檢測:異常值指部正常或特別的情境,與樣本中的其他情境非常不同。
我們在某些應用中,對通用規則外的異常值特別關注,例如詐欺偵測。


2017年9月21日 星期四

區塊鏈:金融科技與創新

區塊鏈:金融科技與創新

- 密碼學中的雜湊函數(Hash)和數位簽章(digital signature)對構建一個加密數位貨幣系統非常關鍵。
- 零知識證明(zero-knowledge proofs)被應用到對比特幣網路的拓展和修改中。
- 比特幣網路最開始使用的雜湊函數SHA-256。
- 乙太幣應用:市場預測(prediction markets)、智慧資產(smart property)、
託管支付(escrowed payments)、微支付管道(micropayment channels)、混合服務(mixing services)。


2017年8月18日 星期五

比特幣 過去.現在與未來

比特幣 過去.現在與未來

- 密碼學貨幣Cryptography
- 哈希演算法SHA-256(Secure Hash Algorithm)和非對稱加密、奧地利學派和貨幣理論。
- 比特幣挖礦、交易、支付、傳播、衍生市場。
- 密碼學、經濟學、政治學、貨幣學、電腦技術。
- 如何獲得比特幣:開動挖礦機挖掘、從交易平台買入、用產品和服務換取。
- 衍生閱讀:創新的擴散、失控、貨幣的非國家化、貨幣生產的倫理、美國貨幣史
- 同樣的東西放在那裡,人們各自看到的是不相同的,至於他看到的是什麼,
完全取決於他過去的知識累積和他的思考層次,僅此而已,所以很多爭論是沒有必要的。

2017年8月6日 星期日

從人到人工智慧,破解AI革命的68個核心概念

從人到人工智慧,破解AI革命的68個核心概念
2017/05/06

- 人工智慧三巨頭-類神經網路(Neural Network,NN)專家系統(Expert System)
遺傳演算法(Genetic Algorithm,GA)
- 深度學習(Deep Learning)是運用類神經網路的技術之一。
深度學習是「只要將資料輸入類神經網路,它就能自行抽出特徵」的人工智慧。
- 卷積神經網路(Convolutional Neural Network)
它的特性是,將輸入的資料切成各種大小的片段,抽出特徵,使其成為多層次
架構的中間層。例如輸入車子的圖像,它會抽出細部的模式,乃至大的構造和整體輪廓等。
- 機器學習(Machine Learning)分為監督式學習(Supervised Learning)和非監督式學習(Unsupervised Learning)。
- 強化學習(Reingorment Learning)-指引學習方向是稱為獎勵的概念,獎勵是對結果的估計值。
如何定義獎勵,決定了學習的方向。
- 蒙地卡羅搜尋樹(Monte Carlo tree search,MCTS)
- 深度Q網路(Deep Q-network,DQN)是將深度學習與強化學習之一的Q學習組合而成。
-最陡下降法(Steepest Descent Method)-是利用類神經網路的誤差倒傳遞,運用於學習的收斂演算法。


2017年7月19日 星期三

人工智慧來了

人工智慧來了
李開復

- 深度學習三巨頭:Geoffrey Hinton,Yoshua Bengio,Yann LeCun
- 卷積神經網路(Convolutional Neural Network,CNN)
- 蒙地卡羅樹搜尋(Monte Carlo tree search,MCTS)
- 深度學習和增強學習技術
- 技術本身不是問題,問題在於制度是否保證每個人都獲益。




2017年2月27日 星期一

寫給PM、RD與設計師看的設計需求分析

寫給PM、RD與設計師看的設計需求分析
2016/09/02
CHAPTER 1 脈絡驅動設計簡介
- 設計可分為三種:臨時設計、計劃設計、工程設計。
CHAPTER 2 階層式設計
- 技術設計、使用者介面設計、資料庫設計、整合設計。
- 六塊模型設計(six-box model of design)

- 脈絡設計:脈絡設計必須去解釋IT開發的企業需求。
脈絡設計的元素有任務、用戶群組、資料表、以及任務與任務之間的訊息。
- 整合設計:整合設計定義了比較詳細的設計範圍。
使用者介面設計是針對個別應用程式或服務(服務的使用者為另一支程式)來分別設計的。
資料庫的設計是對個別資料庫個別設計的。
技術設計可以是個別針對每個應用程式或服務來進行設計。
 CHAPTER 3 現有方法與實作方式的再利用
- 大部分的測試項目是在測試程式上完成的,其他有些錯誤的發生是因為將應用程式搬到
生產系統時的版本或配置設定錯誤造成的。
CHAPTER 9 資料庫設計
- 資料的結構取決於你想要用它來做什麼。
- 資料庫設計並非是個抽象的活動,它必須密切考量資料是如何地被使用、
以及資料對外部世界的意義為何。
- 整體事務的目標應該只用一到兩句話寫下來,另外要列出重要的假設(如他人的合作)、限制條件(如金錢與時間)、機會以及風險等。



2017年1月4日 星期三

金融科技概論

金融科技概論
2016/06/01

第一部分 金融科技的發展與演進
第 1 章 金融科技發展的環境
- The Six Innovation Clusters (World Economic Forum,WEF 2015)
支付(Payments)、保險(Insurance)、存貸(Deposit & Lending)、籌資(Capital Rasing)、
投資管理(Investment Management)和市場資訊供給(Market Provisioning)。
- 金融科技範圍:大數據、雲端科技、機器學習、行動支付、自動化投資理財顧問、
區塊鏈技術、生物辨識、介面設計、軟體研發、物聯網、無線通訊業務等。
- 數位金融人才必備三大能力:資料分析、科技創新、數位行銷。

第二部分 金融科技實務
第 2 章 金融科技業務
第 3 章 物聯網金融業務
第 4 章 網路與行動銀行
第 5 章 直銷銀行
- 金融脫媒(Disintermediation)

第 6 章 互聯網金融
- 互聯網金融主要的三大發展架構:
1.支付
2.資訊處理
-利用大數據技術:如關鍵字搜尋、比對、雲端計算等,建立回饋系統及評分模型,
協助金融業以快速低成本的方式,提高行銷活動及風險管理的精確度,
還能減少資訊不對稱的情形。
3.價值轉移與資源分配
- 大部分的金融機構都是金融互聯網,僅將網路作為一個工具,以提升效率,降低成本;
但互聯網金融則是透過大數據分析,了解及推測客戶屬性與需求後,再提供客製化服務,然後再擴大範圍至其他金融服務!
- 透過大數據分析與雲端計算,提供模組式差異化產品與服務:
金融商品與服務主要的核心是定價(利率與手續費)信用(放款額度)風險管理;想要能完整周延地進行規劃、執行、檢核及管理,就需要大量的數據分析,作為各項業務管理決策的依據。數據的來源相當多樣化,如客戶基本資料(Demographic Data or Qualitative Data)(性別、年齡、職業、年資、收入等)、交易型資料(Quantitative Data)金融交易資訊,(如信用卡用卡行為、存款、放款、退票、支付、繳款等),金融機構都會進行蒐集,並運用各種類型的分析技術:如資料採礦(Data Mining)、資料倉儲(Data Warehousing)、大數據(Big Data)、顧客關係管理(CRM)等,從中進一步發掘及洞察各類顧客洞見(Customer Insight),並利用數據開發預測模型,作為大量處理信用額度風險管理產品訂價的系統工具,依據不同預測結果去規劃差異化策略,提供客製化的服務。
- 互聯網金融透過支付、大數據與雲端計算、網路社群網路、搜尋、行動商務等網路工具,提供金融支付、資訊交換服務,以達到價值轉移的目的。目前常見的互聯網金融有以下幾種業務類型:P2P融資、群眾募資(Crowdfunding)、網路微型貸款、行動支付、虛擬貨幣、第三方支付及大數據金融等。
- 風險訂價策略(Risk-base Pricing),依據徵信機構(Credit Bureau)取得的借款人的信用資料,以及借款人的所得資料,透過風險評估模型及數據分析,計算出借款人發生違約的機率,也就是風險損失率(Default Risk),來決定其借款利率。

第 7 章 支付工具-信用卡
- 信用卡是一種由發卡銀行(Issuing Bank)或信用卡公司依照客戶的信用狀況與財務能力,核發給持卡人(Cardholder)一張有信用額度(Credit Line or Credit Limit)的卡片,持卡人使用信用卡消費購物時可以不需要先支付現金,只需於帳單付款日(Payment Date)期限到時再進行環款即可。
- 信用卡發卡銀行主要收費及收益項目:
1.年費(Annual Fee) 2.循環信用利息(Revolving Interest) 3.簽帳交易手續費(Interchange Fee)
4.分期付款利息或手續費收入(Spending-by-Installment & Statement-by-Installment Interest or Fee) 5.預借現金的手續費(Cash Advance Fee) 6.逾期違約金(Late Fee or Late Charge) 7.逾期滯納金及催收費用(Delinquent Fee or Collection Fee)
- 信用卡交易體系,主要參與者:
1.信用卡持卡人(Cardholder) 2.特約商店(Merchant) 3.發卡銀行(Issuing Bank) 
4.收單銀行(Acquiring Bank) 5.交易授權與帳務清算中心(Transaction Authorization and Billing Settlement) 6.跨國交易授權/信用卡國際組織(VISA,Mastercard for International Transaction Authorization)
- 行動支付的運作模式:1.透過銀行存款帳戶支付 2.透過行動電話帳單支付
3.透過第三方支付公司帳戶或儲值票證支付
- 手機信用卡的技術應用:
1.TSM(Trusted Service Manager)信託服務平台
2.HCE (Host Card Emulation)主機板模擬-Google提出的簡化版行動支付
3.Token代碼服務技術-Apple Pay的基礎
3.1-卡片確認後,一組綁定裝置與經過重組的信用卡卡號DAN(Device Account Number)會被儲存在手機上的安全晶片內。
第8章 支付工具-電子票證即比特幣
- 比特幣共識演算法,全球42家銀行組成區塊鏈聯盟R3。
第9章 行動支付-第三方支付


第三部分 金融科技的行銷管理策略
第10章 金融科技的產品與定價策略
- 從銀行的角度而言,個人金融商品可分兩類:資產類(Asset)及負債類(Liability)。
資產類包括貸款類商品,包含擔保/抵押類貸款如房貸、車貸,及無擔保貸款如信貸、信用卡及現金卡等;簡單說,銀行把錢借給客戶的這類產品,都屬於資產類商品。
而負債類包含存款、保險、財富管理所持有的證券(Security)部位,如股票、債券及基金等;凡是由客戶拿錢跟銀行購買投資商品或存錢,都屬於負債類商品。
- 貸款利率的組成要素1.資金成本 2.作業成本(變動成本Variable Cost及固定成本Fix Cost)
3.風險成本:因貸款利率因人而異,稱之為風險性利率或風險性定價(Risk-Based Pricing)
- 銀行估計風險成本,即客戶違約的機率方式:
一、客層分級(Segmentation)
-將客戶依照不同的分類標準,分成幾個族群,銀行信用或風險管理部門根據不同族群過去借貸的歷史資料中分析發生預期或壞帳的機率,再按照這樣的歷史數據去預估未來幾年的年化風險損失率,行銷部門將損失率加上資金成本與作業成本,就可以訂出不同客群的風險訂價利率(Risk-Based Pricing)。
- 風險訂價利率考量因素:客戶的還款意願、客戶的還款能力
二、信用評分卡定價(Credit Scorecard)
- 信用評分系統又可稱為信用評分卡(Credit Scorecard),一般應用於消費金融(Consumer Banking)及信用卡(Credit)業務,主要又分為兩種類型:申請評分卡(Application Scorecard,A Card)以及行為評分卡(Behavior Scorecard);企業金融對於公司的評等也採用類似的概念,稱為信用評等(Credit Rating)
- 信用評分卡的建置,通常是利用統計學上的迴歸分析(Regression Analysis)多變量分析(Multivariate Statistical Analysis)等技術來發展,透過蒐集足夠的歷史資料,進行分析統計,然後預估未來趨勢,
並將發展成穩定的模型,作為實際進行風險評估的管理工具。
- FICO Score:Fair Isaac Company公司所發展出來。
- 財團法人金融聯合徵信中心(Joint Credit Information Centr,JCIC)。
- FICO評分模型中所關注的主要因素有五類:
1.償還紀錄 2.信用帳戶數 3.使用信用的年限 4.新開立的信用帳戶 5.正在使用的信用類型
第13章 金融科技的銷售與促銷策略
第12章 大數據與社群行銷



2016年12月14日 星期三

新數位力:解密數位時代脫穎而出的關鍵

新數位力:解密數位時代脫穎而出的關鍵
2015/10/30

第1章 數位精技(Digital Mastery)是什麼?
- 數位力、領導力
第一篇 打造數位能力
- 許多企業總把數位科技和數位優勢畫上等號,但數位行家關心的不是科技的本身,
而是如何透過科技來創造差異化。
- 藉由數位能力的三大層面創造差別化優勢:
創造撼動人心的客戶體驗
激發核心營運流程的爆發力
業務模式再造
- 業務模式再造的五種典型
1.產業的再造 2.產品或服務的替換 3.新數位業務誕生 4.重塑價值傳遞模式 5.重設價值主張
第二篇 建立領導能力
第5章 構築數位願景
- 數位願景通常會由以下三個角度中擇一切入:
1. 重新規劃客戶體驗 2.重新設計營運流程 3.重新打造業務模式
第6章 鼓勵企業全員投入
第7章 數位轉型治理
第8章 建立科技領導力
- 科技領導力的關鍵在於結合業務和IT領導人的技能和觀點,讓他們齊力推動轉型。
- 有領導魅力的領袖人才,這個人不但得極富影響力,能在高階主管會議中備受重用,
還要能捲起袖子研讀資料表格、設計分析模型並樂在其中。
第三篇 回到辦公室:給企業領導人的數位轉型指南
第9章 設定數位挑戰
第10章 聚焦投資方向
- 數位投資區分為:1.基礎投資 2.維護型投資 3.投資回報導向型投資 4.前期創新投資
第11章 組織總動員






2016年12月6日 星期二

了解人工智慧的第一本書

了解人工智慧的第一本書
松尾豐
2016/08/11

- Google收購了由多倫多大學教授Geoffrey E. Hinton成立的新創企業DNNResearch
以及英國的DeepMind Technologies。

第一章 何謂人工智慧:專家與社會大眾的認知落差
<與機器競賽>
<皇帝新腦:有關電腦、人腦及物理定律>
(The Emperor's New Mind:Concerning Computer,Minds,and the Laws of Physics)
<人工智慧:現代與方法> (Artificial Intelligence:A Modern Approach)
<創智慧:理解人腦運作,打造智慧機器> (On Intelligence)
第一級:把純粹的控制程式稱為「人工智慧」
第二級:典型的人工智慧
第三級:加入機器學習的人工智慧
第四級:加入深入學習的人工智慧
- 人工智慧研究的分類

第二章 「推論」與「探索」的時代:第一次人工智慧熱潮
- 探索樹、河內塔、機器人的行動規劃

第三章 只要輸入「知識」就會變聰明:第二次人工智慧熱潮
- 專家系統、表達知識、本體論、華生

第四章 「機器學習」悄悄地在擴大地盤:第三次人工智慧熱潮
- 統計自然語言處理(statistical natural language processing)
- 所謂的「學習」就是「分類」,分類方式:
最鄰近法(nearest neighnor)、簡單貝式分類法(Naive Bayes)、決策樹(Decision Tree)、
支援向量機(Support Vector Machine)、神經網路(Neural Network)
- 透過神經網路辨識手寫文字

- 誤差倒傳遞(EBP,error back propagation):一再重複同樣的流程,以慢慢提升辨識的精準度。
- 學習固然花時間,但預測只要一瞬間

第五章 打破寂靜的「深度學習」:第三次人工智慧熱潮
- 深度學習(deep learning):電腦可以根據資料,自行創造出特徵量。
- 深度學習與以往的機器學習大不相同的地方有二:
(1)一層層逐漸學習下去
(2)使用了自動編碼器(auto encoder)當成「資料壓縮器」。

- 把有相關性的東西湊成一組,再用它來抽取高層次的特徵量。
- 自動編碼器利用本來應該由老師提供的、相當於正確答案的部分,並輸入原本的資料,藉以預測所輸入的資料本身。而且也會形成各種特徵量。這形同是利用有師學習的方式進行無師學習。
- 增加深度輸入

- 只要預先掌握這個世界上「相關事象」的相關狀況,在學習處理現實問題時,速度就會變快。因為,既然有相關,那麼在背景中,應該隱藏著某種現實的結構在其中才是。
- 深度學習的出現,至少在圖片與聲音的領域中,帶來了讓電腦自動得知
應該如何根據資料做特徵表達」的可能性。

終章 逐漸轉變的世界:對產業與社會的影響以及戰略
- 十至二十年之後可能消失與留下的職業

- 人才充沛是逆轉王牌:
計算機協會(ACM)、電機電子工程師學會(IEEE)、
國際人工智慧協會(AAAI)、日本人工智慧學會(JSAI)



2016年9月27日 星期二

人工智慧的未來

人工智慧的未來:揭露人類思維的奧祕
2015/08/01

-隱藏式馬可夫層級模型(hierarchical hidden Markov models,HHMMs):
它包括一個層級模型,每個更高層級都比其下較低層級的概念更加抽象。
以語音辨識為例,層級包含最底層的聲頻等基本模式,
然後是音位,再來是詞語和詞組(經常被辨識成詞語)。
有些語音辨識系統能理解自然語言命令的含意,
所以像名詞和動詞詞組的結構這些較高層級也包含在內。
每個模式辨識模組能辨識來自較低概念層級模式之線性序列。
每個輸入都有權重、大小和大小可變性等參數。

-隱藏式馬可夫模型
-演化(遺傳)演算法(evolution (genetic) algorithm)


2016年7月31日 星期日

Big Data:驅動大企業的幕後推手

Big Data:驅動大企業的幕後推手
2015/01/13

- 大數據商業模式成熟度指標:業務監控、業務探查、業務優化、數據賺錢、業務轉型
- 新的分析演算法:
支援向量機 Support Vector Machines
隨機森林 Random Forest
集成方法 Ensemble Methods
冠軍/挑戰者  Champion/Challenger
混淆矩陣 Confusion Matrix
小波轉換 Wavelet Transformation
文字探勘 Text Mining
情感分析 Sentiment Analysis
特性選擇 Feature Selection


2016年7月15日 星期五

大數據時代

大數據時代
2014/05/25

第一章 大數據概述
-IBM,Oracle,EMC,Microsoft,HP,Splunk,Clustrix,Junar,DataSift
-語音資料處理、影片資料處理、語意辨識、圖像資料處理

第二章 大數據時代已經到來
- 資料感知技術、資料傳輸技術、
資料處理技術(海量資料儲存、資料探勘、圖像影片智慧分析)、資料安全技術
- IBM 3A5步:掌控資訊(Align)、獲悉洞悉(Anticipate)、採取行動(Act)、學習和轉型;
二是全面的解決方案,主要包括Hadoop系統、串流計算(Stream Computing)、資料倉儲(Data Warehouse)和資料整合與治理(Information Integration and Governance)。

第四章 大數據顛覆媒體行業
- 用戶資料資訊的生態體系中有資料提供商資料交易市場資料分析用戶定向提供商
資料管理廣告投放效果跟蹤的幾部分參與者。
- 搜尋廣告vs內容廣告

第九章 資料科學
- 用資料的方法來研究科學vs用科學方法來研究資料
- 用資料的方法來研究科學問題,並不意味著就不需要模型了。
只是模型的出發點不一樣,不是從基本原理的角度去找模型。
就拿圖像處理的例子來說,基於基本原理的模型需要描述人的視覺化系統以及它與圖像之間的關係,
而通常的方法則可以是基於更為簡單的數學模型,如函數逼近的模型。
- 分析資料的第一步是賦予資料一定的數學結構,包括:
度量結構、網路結構、代數結構、拓樸結構、函數結構
- 資料科學的教育體系
1. 數學的基礎知識(微積分、線性代數、概率論...)
2. 計算機科學的基本知識(程式語言、資料庫、資料結構、視覺化技術...)
3. 演算法方面的基本知識(數值代數、函數逼近、蒙特卡羅法..)
4. 資料的模型(迴歸、分類、聚類、參數估計...)
5. 專業課程(圖像處理、時間序列、影片處理、自然語言處理、文本處理、推薦系統...)
6. 其他專業課(生物資訊學、金融資料分析...)
- 未來的科研和教育體制應該由兩條主線組成:
1.基本原理 (物理學、化學、機械工程、生命科學、材料科學、天體物理、地球科學...)
2.以資料為主線(統計學、資料探勘、生物資訊學、天體資訊學...)

第十章 資料技術:當前進展及關鍵問題
- 資料探勘就是利用人工智慧統計學模式識別等技術,從大量的、含有雜訊的實際資料中提取其中隱含的、事先不為人知的有效資訊的過程。


2016年6月15日 星期三

大數據的力量

大數據的力量
2014/07/25

第一章 破解大數據興起之謎   
- 風險資本對大數據產業的青睞:
Cloudera,Palantir Technologies,Rocket Fuel,10gen,Nimble Storage
- IT廠商和諮詢公司引導大數據:IBM,McKinsey,Gartner
- Volume(量很大)、Variety(數據的型態更多樣)、Velocity(數據產生和處理的速度極快)、
Value(更大的價值)

第二章 感受大數據迎面衝擊  
2-2 變革教育與人力資源管理觀念
Coursera-美國史丹福大學的兩名電腦科學家創辦(達芙妮‧科勒和安德魯‧恩格),
edX-哈佛大學和麻省理工學院合資創辦,
Udacity-由史丹佛大學的人工智慧專家賽巴斯蒂安‧特龍創辦。
2-8 促進金融業務創新
- FICO是透過支付歷史、欠款金額和使用信用卡時間長度等信用報告進行評分,
在Fair Isaac公司的推廣下,已經成為美國最常用的信用評級方法。
- Lenddo,Neo Finance,Affirm,平安集團(眾安線上財產保險公司)

第三章 爭奪大數據戰略資源   
3-1 戰略儲備 ─ 商業巨頭擁「數」自重
- 百度,阿里巴巴,騰訊,新浪,Facebook,亞馬遜,

第四章 追蹤大數據領軍者動向  
4-1 SAS ─ 高性能數據分析研發的重鎮
4-2 IBM ─ 一切智慧的王者
- Congnos,SPSS,Netezza,InfoSphere BigInsights,Watson
4-3 SAP ─ 企業資源管理的巨擘
- 數據倉庫及數據倉庫解決方案主要是由記憶體計算的明星產品-即時數據平台HANA,以及分析型數據庫SAP Sybase IQ和交易型數據庫Sybase ASE構成,而企業資訊管理主要由SAP Information StewardSAP NetWave、企業內容管理(ECM)來處理。
- SAP BusinessObjects business intelligence(BI)、SAP BusinessObjects Explorer and SAP Data Services
4-4 天雲趨勢 ─ 大數據開發的新銳力量
4-5 維富友 ─ 淘寶雙十一狂歡的背後英雄

第五章 引爆大數據人才戰爭   
5-1 大數據人才徵集令
- CTO負責的是企業的核心技術,比如製造型企業的生產技術
CIO的職責在於提供符合企業現實情況和未來發展方向的資訊技術
CDO則掌握企業內部最核心的數據資源,負責數據分析工作
- 數據科學是一門交叉學科,涉及數學、統計學、電腦科學、數據視覺化技術以及具體行業的專業知識等
- 當今業界許多數據科學家畢業於電腦科學數學經濟學和任何數據和計算精密型的領域。
- 數據科學家最基本、最通用的技能是寫代碼。用所有相關方面都能聽懂語言進行溝通,另一個是用數據講故事的特殊能力,透過口頭表達和視覺效果。
5-2 呼喚創新的教育培訓變革
- 員工可以透過數據庫技術分散式計算技術數據挖掘技術機器學習技術視覺化技術等知識和技能的培訓在專業技能上得到強化。
- 分散式計算技術(Hadoop技術等)在MapR,Cloudera,Hortonworks等均提供大量相關培訓課程。
- 北京航空航太大學軟體學院開設了大數據技術與應用高級班,招收已具有一定技術背景的IT從業者,力求為未來的大數據市場率先培養一批熟練掌握HDFS,Hadoop,MapReduce,Hbase等大數據技能,並擅長海量數據的採集、儲存、管理、挖掘與分析等經驗的人才。

5-3 開發數據寶藏的創業精神
- 大數據的開發可以分為兩類:1.數據驅動的應用:比如傳統上來講要依靠數據得以運轉的部門所需要的,如金融機構、零售商、物流企業等,基礎數據是其正常運作的基礎;
2.數據產品,即透過數據的再次開發形成嶄新的用途,如亞馬遜電子商務網站的推薦功能,就是在分析購物者行為數據的基礎上做出的有效推薦。

第六章 揭祕大數據關鍵技術   
6-1 智慧之道 ─ 數據挖掘技術
- 數據挖掘的任務主要是關聯分析、分群分析、分類、預測、時序模式和偏差分析等。
6-2 高效之道 ─ 分散式計算技術
6-3 即時之道 ─ 記憶體計算
6-4 投向更廣闊的技術視域 ─ 雲端運算、物聯網、行動運算