2016年7月15日 星期五

大數據時代

大數據時代
2014/05/25

第一章 大數據概述
-IBM,Oracle,EMC,Microsoft,HP,Splunk,Clustrix,Junar,DataSift
-語音資料處理、影片資料處理、語意辨識、圖像資料處理

第二章 大數據時代已經到來
- 資料感知技術、資料傳輸技術、
資料處理技術(海量資料儲存、資料探勘、圖像影片智慧分析)、資料安全技術
- IBM 3A5步:掌控資訊(Align)、獲悉洞悉(Anticipate)、採取行動(Act)、學習和轉型;
二是全面的解決方案,主要包括Hadoop系統、串流計算(Stream Computing)、資料倉儲(Data Warehouse)和資料整合與治理(Information Integration and Governance)。

第四章 大數據顛覆媒體行業
- 用戶資料資訊的生態體系中有資料提供商資料交易市場資料分析用戶定向提供商
資料管理廣告投放效果跟蹤的幾部分參與者。
- 搜尋廣告vs內容廣告

第九章 資料科學
- 用資料的方法來研究科學vs用科學方法來研究資料
- 用資料的方法來研究科學問題,並不意味著就不需要模型了。
只是模型的出發點不一樣,不是從基本原理的角度去找模型。
就拿圖像處理的例子來說,基於基本原理的模型需要描述人的視覺化系統以及它與圖像之間的關係,
而通常的方法則可以是基於更為簡單的數學模型,如函數逼近的模型。
- 分析資料的第一步是賦予資料一定的數學結構,包括:
度量結構、網路結構、代數結構、拓樸結構、函數結構
- 資料科學的教育體系
1. 數學的基礎知識(微積分、線性代數、概率論...)
2. 計算機科學的基本知識(程式語言、資料庫、資料結構、視覺化技術...)
3. 演算法方面的基本知識(數值代數、函數逼近、蒙特卡羅法..)
4. 資料的模型(迴歸、分類、聚類、參數估計...)
5. 專業課程(圖像處理、時間序列、影片處理、自然語言處理、文本處理、推薦系統...)
6. 其他專業課(生物資訊學、金融資料分析...)
- 未來的科研和教育體制應該由兩條主線組成:
1.基本原理 (物理學、化學、機械工程、生命科學、材料科學、天體物理、地球科學...)
2.以資料為主線(統計學、資料探勘、生物資訊學、天體資訊學...)

第十章 資料技術:當前進展及關鍵問題
- 資料探勘就是利用人工智慧統計學模式識別等技術,從大量的、含有雜訊的實際資料中提取其中隱含的、事先不為人知的有效資訊的過程。


沒有留言:

張貼留言