6月 20, 2011

資料倉儲(Data Warehouse), Data Mining(資料探勘)

傳統 DB 的設計,主要用於交易資料的記錄,沒辦法支援即時性決策需求,而且跟決策有關的資訊也都散布在各 DB 之中,會有資料不一致、重複的狀況發生,加上沒有歷史資料,所以無法用來做預測分析。

Data Warehouse 因此產生,其特色:

1. 主題導向性:在 DW 中所存的資料,是以特定主題為導向(營收/銷售)
而非傳統 DB 用來支援交易流程。

2. 資料整合性:因為 DW 設計用來支援多維度的決策,需要廣度深度兼具,
所以要整合企業內外、不同時間、不同來源的各種資料。

3. 時間差異性:在 DW 中的資料會包含不同時期(5~10年)的歷史資料。
以供進行趨勢分析,但是傳統 DB 只會保存短期的交易資料。

4. 不變動性性:在 DW 中的資料,一旦存入之後,就不再更改,通常只會唯讀。
之後週期性的更新資料。

5. 資料一致性:因為資料來自不同 DB 會有格式、單位的差異,為了往後查詢
要先經過「 萃取(Extract) 轉換(Transform) 載入(Load) 」

[ 資料超市 Data Mart ]

較小的資料,從 Data Warehouse 中複製出部份集合,專門用來支援特定部門、
特定地區、使用者,Data Warehouse 可以視需求適時複製出多份 Data Mart。
像是會計用的 Mart,以某個更局部的主題為導向。
優點:導入期較短、成本也比較低,可以快速建立。

[ 線上即時分析 OLAP ]

主要架構在 Data Warehouse 上,提供多角度、多維度的分析,提供決策用途,
內建許多分析程式,在傳統的 DB 中,要提供這些分析報告,要用大量的 SQL 查詢,
而 OLAP 有 UI 可讓使用者自己決定分析維度。

1. 切片 (Slice)
將資料視為一個立方體,將三維資料切片,固定單一維度。
例如固定時間在 2011年,觀察 (通路 銷量) 二個維度。

2. 切丁 (Dice)
提供縮小範圍檢視,仍維持原有維度。

3. 下拉 (Drill Down)
從原本宏觀的角度,拉到微觀角度。

4. 上轉 (Roll Up)
從微觀拉遠變成宏觀。

5. 旋轉 (Rotation)
也稱為樞扭,不同管理者所在意的觀點不同。

[ 線上即時交易 OLTP ]

使用電腦進行交易的即時處理,在線上發生的交易資料,立刻用電腦
處理資料的輸入作業。舊有的 TPS 較偏向批次作業,而 OLTP 在此
進行改良,結合 DB/網路可以應付資料量大、交易頻繁的情境上。
交易發生的同時,就能同步更新相關資訊。特色有:

1. 基礎作業處理,支援操作階層
2. 使用者為一般職員
3. 資料即時處理

沒有留言:

張貼留言