2019年9月16日 星期一

機器學習:探索人工智慧關鍵

機器學習:探索人工智慧關鍵

Chapter 1 為什麼我們對機器學習感興趣

Chapter 2 機器學習、統計、資料分析
- 監督式學習:藉由輸入一組數值產生預估的輸出值在統計學中稱為迴歸(regression)分析,
若採用線性模型則稱線性迴歸。在機器學習中,迴歸是一種監督式學習(supervised learning)。
就像一名主管可以為我們提供每輛汽車相關資訊(輸入值)及其價格(輸出值)。當我們透過查看目前在市場上銷售的汽車資訊,可以同時觀察到汽車的屬性和價格之間的關係。

Chapter 3 圖形模式辨識
- 降低維度(Dimensionality Reduction):減少輸入資料內屬性(attribute)數量的方法。在一個應用程式中,一些輸入資料可能不具備有用資訊,或是多個輸入資料可能只是以不同方式提供相同的資訊。
減少輸入資料的數量可降低學習模型的複雜性,使訓練更加簡單。有兩種降低維數的方法,
即透過「特徵選擇法」(feature selection)「特徵萃取法」(feature extraction)
- 特徵萃取(Feature Extraction):一種降低維度的方法,其結合了幾個原始輸入並以定義更多新的訊息特徵。我們在原始特徵中藉由計算以定義新的特徵。這些新特徵的數量較少,但仍保留原始特徵中的資訊。這些少量的新合成特徵比任何原始屬性更好詮釋資料,甚至有時可以詮釋為隱藏或抽象的概念。
- 特徵選擇(Feature Selection):一種捨棄無法提供資訊的訊息,只保留具備資訊之資料的方法。
我們保留重要特徵,丟棄不重要的特徵,它基本上是一個選擇子集合的過程,我們希望選擇一組能夠獲得最佳效能的最小輸入屬性的子集合。

Chapter 4 神經網路與深度學習
Chapter 5 學習分群和建議
Chapter 6 學習採取行動
Chapter 7 我們接下來應該怎麼做?
- 機器學習是資料探勘(Data mining)應用中最重要的一個步驟,資料需要預先準備,同時也要解讀探勘後的結果。
- 資料科學(Data Science)領域所涵蓋的範圍主要議題為「機器學習」、「高性能計算」和「資料隱私與安全」三個領域。
- 當所蒐集與分析的資料量越來越大時,我們在許多不同領域所做的決策會越來越以資料為導向
(Data-Driven),並更加自動化,這時也要關注去識別化過程和所做決定的含義。
- 機器學習是達到人工智慧目標的途徑之一。藉由一組資料集合進行學習或是重複強化學習(reinforcement learning)。
- Generalization 通用化:模型是否訓練完善可以從模型是否能夠發現原有資料集內沒有發現的要素來判斷,這是機器學習的核心。在考試中,老師會詢問課堂上沒有教過的為題,基於學生在應對些新問題上的表現,來衡量學生的理解程度。學生若只能解決在課堂上已教過的問題是不夠的。
- Generative model生成模型:生成模型是先定義資料的產生方式,我們會事先推想產生此項資料的隱性因素,以及更高層級的隱藏因素。例如道路濕滑會導致車輛意外(隱藏因素為道路濕滑),而下雨有可能導致道路濕滑(更高層級的隱藏因素為下雨)。
- Model 模型:將輸入資料和輸出資料之間的關係以公式表達。其結構是固定的,但也具有可修改的參數。對參數進行調整,使不同參數值的相同模型可以對不同的資料進行訓練,進而建構不同工作的不同關係。
- Online Analytical Processing(OLAP)線上分析處理:用於從資料倉儲中提取資訊的資料分析軟體。
資料分析處理是由用戶驅動,用戶在資料過程前設定某些假設,並使用資料分析處理工具來檢視資料是否支持這些假設。而機器學習多由資料所驅動,在自動進行資料分析的過程中,可能會發現用戶以前沒有發現的相關性。
- Outlier Detection異常值檢測:異常值指部正常或特別的情境,與樣本中的其他情境非常不同。
我們在某些應用中,對通用規則外的異常值特別關注,例如詐欺偵測。