從資料中挖金礦:找到你的獲利處方籤
2010/03/12
- 資料採礦是一種行為的總稱,其中存在著許多分析技巧,根據分析的目的不同而被選擇使用:
分類-群集分析(Cluster),決策樹分析(Desision Tree),自我組織映射圖(Self-OrganizingMap,SOM)
發現關聯-關聯法則(Association Rule)
預測-迴歸分析(Regression Analysis),類神經網路(Neural Network)
- 傳統上統計分析其一個弱點是,必須先建構分析才有辦法開始蒐集資料。在這個過程中會篩選資料,但畢竟資料蒐集需要時間,於是會有時間上的落差。
- 資料量和演算能力就像是車子的兩輪,缺了一個就無法適當的利用資料。
- 可使用的資料在質與量的大幅提升,使得資料採礦偏向預測未來,有別與傳統統計分析偏向於對既有定律的事後驗證。
- 資料採礦雖然可以發現各種情況下的各種定律,卻不會說明其中原因。
-資料採礦的步驟
先決定想知道什麼 / 資料的蒐集方法 / 某些資料在使用上的困難 / 捨棄不需要的資訊 /
線索在哪裡? / 先從單一資料下手 / 失敗經驗有助於往後的分析 / 下一個屬性 / 異常值的處理 /
根據單一屬性設定假說的極限 / 發現橫跨好幾個屬性的隱藏定律
- 過度培育決策樹會造成「過度學習」
沒有留言:
張貼留言