商業上﹕利用所有可能的數據快速而正確的做出決策﹔用戶是業務領域的專家,而不是計算機專業人員﹔企業數據每1年翻一番﹐需要有一種有效的訪問這些數據的方法。
技術上﹕計算機的計算能力越來越便宜﹔存儲介質價格的下跌﹔網絡帶寬的增長,網絡的傳輸能力越來越便宜﹔整個企業的計算機環境越來越複雜﹐
各個時代各個不同廠家的應用系統同時存在﹔新的應用要訪問其他應用的數據。
數據倉庫相對於OLTP來說﹐更加是業務驅動(business-driven)的而不是技術驅動的(IT-driven)﹐需要和最終用戶不斷的交流﹐建立的過程可能永遠不會結束。
要點﹕
1) 數據倉庫中應該包含細節數據(清理過的)。
2) 用戶能看到的任何數據都應該在元數據中有對應的描述。
3)考慮當數據量迅速增長到一臺服務器放不下時﹐數據倉庫中的數據在各個服務器總如何分配﹐按主題﹑地理位置﹑還是時間﹖這些策略對整個數據倉庫的性能影響很大。
4) 當選用數據倉庫設計工具時應注意﹕工具支持的元數據格式是否與數據倉庫支持的元數據格式相容﹖不同工具的元數據格式之間能否自由轉換﹖
5) 最終用戶對數據倉庫的使用方式對數據倉庫的性能影響很大﹐在設計數據倉庫模型時為了提高性能應將用戶對數據倉庫的使用方式考慮在內。
技術上
硬件平臺﹕數據倉庫的硬盤容量通常要是操作數據庫硬盤容量的2-3倍。通常大型機具
有更可靠的性能和和穩定性﹐也容易與歷史遺留的系統結合在一起﹔而PC服務器或UNIX服務器更加靈活﹐容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題
﹕是否提供並行的I/O吞吐﹖對多CPU的支持能力如何﹖
數據倉庫DBMS﹕他的存儲大數據量的能力﹑查詢的性能﹑和對並行處理的支持如何。
網絡結構﹕數據倉庫的實施在那部份網絡段上會產生大量的數據通信﹐需不需要對網絡結構進行改進。
實現上
建立數據倉庫的步驟﹕
1)
收集和分析業務需求
2)
建立數據模型和數據倉庫的物理設計
3) 定義數據源
4)
選擇數據倉庫技術和平臺
5)
從操作型數據庫中抽取﹑淨化﹑和轉換數據到數據倉庫
6)
選擇訪問和報表工具
7)
選擇數據庫連接軟件
8)
選擇數據分析和數據展示軟件
9) 更新數據倉庫
數據抽取﹑清理﹑轉換﹑和移植
1)
數據轉換工具要能從各種不同的數據源中讀取數據。
2)
支持平面文件﹑索引文件﹑和legacy
DBMS。
3)
能以不同類型數據源為輸入整合數據。
4)
具有規範的數據訪問接口
5)
最好具有從數據字典中讀取數據的能力
6)
工具生成的代碼必須是在開發環境中可維護的
7)
能只抽取滿足指定條件的數據﹐和源數據的指定部份
8)
能在抽取中進行數據類型轉換和字符集轉換
9)
能在抽取的過程中計算生成衍生字段
10)
能讓數據倉庫管理系統自動調用以定期進行數據抽取工作﹐或能將結果生成平面文件
11)
必須對軟件供應商的生命力和產品支持能力進行仔細評估
M-GENE的特色
1.
安裝快速﹐不必花上幾個月時間。
2. 支持叢集(Cluster)分佈運算﹐讓貴企業不必一次投入大筆預算在硬件上﹐可以逐步升級。
3.
讓數據庫瞬間具有向下鑽取﹑和多維多角度分析的能力﹔決策者對有興趣的數據﹐立即向下進行鑽取﹔
也可以從各種不同角度(多維)進行向下鑽取﹐輕易完成交叉分析。
4.
讓數據庫瞬間具有跟網絡環境連接的能力﹐以極小的功夫做到信息共享。
5.
極度友善的使用接口﹐完全圖形化的設計﹔即使沒有計算機使用經驗的人﹐經過短時間的培訓﹐馬上可以輕易上手。
|