welcome to EzWorkingSkills/ComputerSkills

M-GENE數據倉庫系統功能簡介

市場基因資料分析系統作為一個OLAP（On-Line Analytical Processing)系統﹐它將業務資料通過一定的方式整合﹑匯總﹐並通過圖像﹑表格等方式展現出來﹐給決策者提供直觀的結果。我們以資料倉庫的方式來處理資料﹐並以Web形式來顯示結果。

我們的產品我們具有多項核心技術﹐系統建構在完全模塊化的架構下﹐系統功能可以隨時增加和更新。N-Tier多層分佈式的設計﹐讓系統可以無限擴充升級﹐並支持各種不同作業環境。基於TCP/IP﹐以瀏覽器為接口﹐大大簡化客戶端安裝和系統維護的複雜性。可以輕易與第三方的軟件﹐像公司的內部網或第三方辦公室自動化（OA）軟件結合。

我們產品分為三大部份﹕
	1.數據倉庫建構工具
	數據倉庫的建構是一個分析系統的基礎建設﹐沒有好的倉庫管理﹐未來再加入新的分析功能時﹐系統將很難負擔。我們目前完成的數據倉庫架構﹐可以負擔幾百G的資料沒有問題。利用資料讀入﹑資料存儲﹑資料初加工和資料導出等功能強大的子系統,幫助企業建構一個存取和分析都極為方便的數據倉庫。資料讀入模塊具有建構和修改多維數據庫的能力。靈活的預處理模塊可以大幅降低系統實時運算的負擔。

2.報表生成和分析工具

企業一旦建好數據倉庫﹐便需要一個可以按企業自己需求產生各類報表的報表產生器。我們的報表產生器不僅可以產生企業固定需要用的表,還有多項引入國外先進的分析報表﹐例如80/20法則分析﹐十字圖分析等。分析用的計算模塊效率強大﹐可以進行分佈式運算。分析接口具有向下挖掘和多維角度挖掘的能力。報表與報表之間可以互相連接﹐每張報表的結果都可以作為另張報表的條件輸進去﹐對上張表的結果進行持續性監控。

M-GENE數據倉庫提供用戶用于決策支持的當前和歷史數據﹐這些數據在傳統的操作型數據庫中很難或不能得到。數據倉庫技術是為了有效的把操作形數據集成到統一的環境中以提供決策型數據訪問﹐的各種技術和模塊的總稱。所做的一切都是為了讓用戶更快更方便查詢所需要的信息﹐提供決策支持。

	3.用戶權限管理工具
	具有發佈數據庫資料的功能,對每張報表的每個字段都可以設定用戶權限﹐達到信息共享﹑嚴密管制的最高境界。

	數據倉庫的組成
	數據抽數據淨化數據載入信息發佈系統操作型數據和外界數據數據集市報表查詢, EIS工具 OLAP 工具數據挖掘工具操縱平臺元數據管理平臺

	數據倉庫數據庫
	是整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。相對於操縱型數據庫來說其突出的特點是對海量數據的支持和快速的檢索技術。

數據抽取工具

把數據從各種各樣的存儲方式中拿出來﹐進行必要的轉化﹑整理﹐再存放到數據倉庫內。對各種不同數據存儲方式的訪問能力是數據抽取工具的關鍵﹐應能生成COBOL程序﹑MVS作業控制語言（JCL）﹑UNIX腳本﹑和SQL語句等﹐以訪問不同的數據。數據轉換都包括﹐刪除對決策應用沒有意義的數據段﹔轉換到統一的數據名稱和定義﹔計算統計和衍生數據﹔給缺值數據賦給缺省值﹔把不同的數據定義方式統一。

元數據

元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類﹐技術元數據和商業元數據。技術元數據是數據倉庫的設計和管理人員用于開發和日常管理數據倉庫是用的數據。包括﹕數據源信息﹔數據轉換的描述﹔數據倉庫內對象和數據結構的定義﹔數據清理和數據更新時用的規則﹔

源數據到目的數據的映射﹔用戶訪問權限﹐數據備份歷史記錄﹐數據導入歷史記錄﹐信息發佈歷史記錄等。

商業元數據從商業業務的角度描述了數據倉庫中的數據。包括:業務主題的描述﹐包含的數據﹑查詢﹑報表﹔

元數據為訪問數據倉庫提供了一個信息目錄（information directory）﹐這個目錄全面描述了數據倉庫中都有什麼數據﹑這些數據怎麼得到的﹑和怎麼訪問這些數據。是數據倉庫運行和維護的中心﹐數據倉庫服務器利用他來存貯和更新數據﹐用戶通過他來了解和訪問數據。

	訪問工具
	為用戶訪問數據倉庫提供手段。有數據查詢和報表工具﹔應用開發工具﹔管理信息系統（EIS)工具﹔OLAP）工具﹔數在線分析（據挖掘工具。

數據集市（Data Marts）

為了特定的應用目的或應用範圍﹐而從數據倉庫中獨立出來的一部份數據﹐也可稱為部門數據或主題數據（subject area）。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手﹐以後再用幾個數據集市組成一個完整的數據倉庫。需要注意的就是再實施不同的數據集市時﹐同一含義的字段定義一定要相容﹐這樣再以後實施數據倉庫時才不會造成大麻煩。

	數據倉庫管理﹕
	安全和特權管理﹔跟蹤數據的更新﹔數據質量檢查﹔管理和更新元數據﹔審計和報告數據倉庫的使用和狀態﹔刪除數據﹔複製﹑分割和分發數據﹔備份和恢復﹔存儲管理。

	信息發佈系統﹕
	把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。基於Web的信息發佈系統是對付多用戶訪問的最有效方法。

	為什麼要建立數據倉庫﹕
	商業上﹕利用所有可能的數據快速而正確的做出決策﹔用戶是業務領域的專家,而不是計算機專業人員﹔企業數據每1年翻一番﹐需要有一種有效的訪問這些數據的方法

為什麼要建立數據倉庫﹕

商業上﹕利用所有可能的數據快速而正確的做出決策﹔用戶是業務領域的專家,而不是計算機專業人員﹔企業數據每1年翻一番﹐需要有一種有效的訪問這些數據的方法。

技術上﹕計算機的計算能力越來越便宜﹔存儲介質價格的下跌﹔網絡帶寬的增長,網絡的傳輸能力越來越便宜﹔整個企業的計算機環境越來越複雜﹐ 各個時代各個不同廠家的應用系統同時存在﹔新的應用要訪問其他應用的數據。

數據倉庫相對於OLTP來說﹐更加是業務驅動（business-driven）的而不是技術驅動的（IT-driven）﹐需要和最終用戶不斷的交流﹐建立的過程可能永遠不會結束。

要點﹕

1) 數據倉庫中應該包含細節數據（清理過的）。
2) 用戶能看到的任何數據都應該在元數據中有對應的描述。
3)考慮當數據量迅速增長到一臺服務器放不下時﹐數據倉庫中的數據在各個服務器總如何分配﹐按主題﹑地理位置﹑還是時間﹖這些策略對整個數據倉庫的性能影響很大。
4) 當選用數據倉庫設計工具時應注意﹕工具支持的元數據格式是否與數據倉庫支持的元數據格式相容﹖不同工具的元數據格式之間能否自由轉換﹖
5) 最終用戶對數據倉庫的使用方式對數據倉庫的性能影響很大﹐在設計數據倉庫模型時為了提高性能應將用戶對數據倉庫的使用方式考慮在內。

技術上

硬件平臺﹕數據倉庫的硬盤容量通常要是操作數據庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩定性﹐也容易與歷史遺留的系統結合在一起﹔而PC服務器或UNIX服務器更加靈活﹐容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題 ﹕是否提供並行的I/O吞吐﹖對多CPU的支持能力如何﹖

數據倉庫DBMS﹕他的存儲大數據量的能力﹑查詢的性能﹑和對並行處理的支持如何。

網絡結構﹕數據倉庫的實施在那部份網絡段上會產生大量的數據通信﹐需不需要對網絡結構進行改進。

實現上

建立數據倉庫的步驟﹕

1) 收集和分析業務需求
2) 建立數據模型和數據倉庫的物理設計
3) 定義數據源
4) 選擇數據倉庫技術和平臺
5) 從操作型數據庫中抽取﹑淨化﹑和轉換數據到數據倉庫
6) 選擇訪問和報表工具
7) 選擇數據庫連接軟件
8) 選擇數據分析和數據展示軟件
9) 更新數據倉庫

數據抽取﹑清理﹑轉換﹑和移植

1) 數據轉換工具要能從各種不同的數據源中讀取數據。
2) 支持平面文件﹑索引文件﹑和legacy DBMS。
3) 能以不同類型數據源為輸入整合數據。
4) 具有規範的數據訪問接口
5) 最好具有從數據字典中讀取數據的能力
6) 工具生成的代碼必須是在開發環境中可維護的
7) 能只抽取滿足指定條件的數據﹐和源數據的指定部份
8) 能在抽取中進行數據類型轉換和字符集轉換
9) 能在抽取的過程中計算生成衍生字段
10) 能讓數據倉庫管理系統自動調用以定期進行數據抽取工作﹐或能將結果生成平面文件
11) 必須對軟件供應商的生命力和產品支持能力進行仔細評估

M-GENE的特色

1. 安裝快速﹐不必花上幾個月時間。
2. 支持叢集（Cluster）分佈運算﹐讓貴企業不必一次投入大筆預算在硬件上﹐可以逐步升級。
3. 讓數據庫瞬間具有向下鑽取﹑和多維多角度分析的能力﹔決策者對有興趣的數據﹐立即向下進行鑽取﹔ 也可以從各種不同角度（多維）進行向下鑽取﹐輕易完成交叉分析。
4. 讓數據庫瞬間具有跟網絡環境連接的能力﹐以極小的功夫做到信息共享。
5. 極度友善的使用接口﹐完全圖形化的設計﹔即使沒有計算機使用經驗的人﹐經過短時間的培訓﹐馬上可以輕易上手。