數據倉庫是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數據集合,它用于支持企業(yè)或組織的決策分析處理。企業(yè)數據倉庫的建設,是以現有企業(yè)業(yè)務(wù)系統和大量業(yè)務(wù)數據的積累為基礎。數據倉庫不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營(yíng)的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應的管理決策人員,是數據倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數據倉庫建設是一個(gè)工程,是一個(gè)過(guò)程。我公司在儀化公司數據倉庫規劃、設計、實(shí)施、管理與運維支持中積累了豐富的經(jīng)驗,可以根據客戶(hù)需求規劃建設各種規模的數據倉庫。
數據倉庫特點(diǎn):
¨面向主題:操作型數據庫的數據組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進(jìn)行組織的。
¨集成的:數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經(jīng)過(guò)系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
¨相對穩定的:數據倉庫的數據主要供企業(yè)決策分析之用,所涉及的數據操作主要是數據查詢(xún),一旦某個(gè)數據進(jìn)入數據倉庫以后,一般情況下將被長(cháng)期保留,也就是數據倉庫中一般有大量的查詢(xún)操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
¨反映歷史變化:數據倉庫中的數據通常包含歷史信息,系統記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應用數據倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對企業(yè)的發(fā)展歷程和未來(lái)趨勢做出定量分析和預測。
數據倉庫系統是一個(gè)信息提供平臺,他從業(yè)務(wù)處理系統獲得數據,主要以星型模型和雪花模型進(jìn)行數據組織,并為用戶(hù)提供各種手段從數據中獲取信息和知識。
從功能結構化分,數據倉庫系統至少包含數據獲取、數據存儲、數據訪(fǎng)問(wèn)三個(gè)關(guān)鍵部分。
數據倉庫體系結構:
¨數據源:是數據倉庫系統的基礎,是整個(gè)系統的數據源泉。通常包括企業(yè)內部信息和外部信息。
¨數據的存儲與管理:是整個(gè)數據倉庫系統的核心。數據倉庫的真正關(guān)鍵是數據的存儲和管理。數據倉庫的組織管理方式?jīng)Q定了它有別于傳統數據庫,同時(shí)也決定了其對外部數據的表現形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數據倉庫的核心,則需要從數據倉庫的技術(shù)特點(diǎn)著(zhù)手分析。針對現有各業(yè)務(wù)系統的數據,進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數據倉庫按照數據的覆蓋范圍可以分為企業(yè)級數據倉庫和部門(mén)級數據倉庫(通常稱(chēng)為數據集市)。
¨OLAP(聯(lián)機分析處理)服務(wù)器:對分析需要的數據進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現趨勢。
¨前端工具:主要包括各種報表工具、查詢(xún)工具、數據分析工具、數據挖掘工具以數據挖掘及各種基于數據倉庫或數據集市的應用開(kāi)發(fā)工具。其中數據分析工具主要針對OLAP服務(wù)器,報表工具、數據挖掘工具主要針對數據倉庫。
數據倉庫管理:安全和特權管理;跟蹤數據的更新;數據質(zhì)量檢查;管理和更新元數據;審計和報告數據倉庫的使用和狀態(tài);刪除數據;復制、分割和分發(fā)數據;備份和恢復;存儲管理。
信息發(fā)布系統:把數據倉庫中的數據或其他相關(guān)的數據發(fā)送給不同的地點(diǎn)或用戶(hù)?;赪eb的信息發(fā)布系統是對付多用戶(hù)訪(fǎng)問(wèn)的最有效方法。
技術(shù)實(shí)現
¨硬件平臺:數據倉庫的硬盤(pán)容量通常要是操作數據庫硬盤(pán)容量的2-3倍。通常大型機具有更可靠的性能和和穩定性,也容易與歷史遺留的系統結合在一起;而PC服務(wù)器或UNIX服務(wù)器更加靈活,容易操作和提供動(dòng)態(tài)生成查詢(xún)請求進(jìn)行查詢(xún)的能力。選擇硬件平臺時(shí)要考慮的問(wèn)題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?
¨網(wǎng)絡(luò )結構:數據倉庫的實(shí)施在那部分網(wǎng)絡(luò )段上會(huì )產(chǎn)生大量的數據通信,需不需要對網(wǎng)絡(luò )結構進(jìn)行改進(jìn)。
建立數據倉庫的步驟
1)收集和分析業(yè)務(wù)需求
2)建立數據模型和數據倉庫的物理設計
3)定義數據源
4)選擇數據倉庫技術(shù)和平臺
5)從操作型數據庫中抽取、凈化、和轉換數據到數據倉庫
6)選擇訪(fǎng)問(wèn)和報表工具
7)選擇數據庫連接軟件
8)選擇數據分析和數據展示軟件
9)更新數據倉庫
數據抽取、清理、轉換、和移植
1)數據轉換工具要能從各種不同的數據源中讀取數據
2)支持平面文件、索引文件
3)能以不同類(lèi)型數據源為輸入整合數據
4)具有規范的數據訪(fǎng)問(wèn)接口
5)最好具有從數據字典中讀取數據的能力
6)工具生成的代碼必須是在開(kāi)發(fā)環(huán)境中可維護的
7)能只抽取滿(mǎn)足指定條件的數據,和源數據的指定部分
8)能在抽取中進(jìn)行數據類(lèi)型轉換和字符集轉換
9)能在抽取的過(guò)程中計算生成衍生字段
10)能讓數據倉庫管理系統自動(dòng)調用以定期進(jìn)行數據抽取工作,或能將結果生成平面文件
11)必須對軟件供應商的生命力和產(chǎn)品支持能力進(jìn)行仔細評估