數(shù)據(jù)倉庫在移動通信企業(yè)經(jīng)營分析系統(tǒng)中的應(yīng)用
移動通信業(yè)是典型的數(shù)據(jù)密集型行業(yè),隨著通信體制改革的深化,移動通信業(yè)的競爭也日趨激烈。與其他行業(yè)相比,移動通信行業(yè)擁有更多的有關(guān)用戶的數(shù)據(jù)。誰能正確地分析這些數(shù)據(jù)所得到有用的信息,誰就能更好地向用戶提供服務(wù),也就能夠發(fā)現(xiàn)更多的商機(jī),從而在競爭中獲勝。數(shù)據(jù)倉庫可以將移動通信企業(yè)的這些數(shù)據(jù)變?yōu)橛杏玫男畔碇С譀Q策,因此,數(shù)據(jù)倉庫在移動通信業(yè)中有重要的應(yīng)用價值。
本文引用地址:http://cafeforensic.com/article/157869.htm現(xiàn)在絕大多數(shù)的企業(yè)都在走經(jīng)營分析信息化這條路,但光有綜合業(yè)務(wù)自動化系統(tǒng)或者決策支持系統(tǒng)卻沒有完善的數(shù)據(jù)支持都屬于粗放型經(jīng)營分析,只算是達(dá)到了企業(yè)經(jīng)營分析的自動化,還不能算是經(jīng)營分析信息化??梢酝ㄟ^移動通信業(yè)邏輯數(shù)據(jù)模型,建立一個集中的、一致的和可擴(kuò)展的數(shù)據(jù)倉庫系統(tǒng),以保證移動通信企業(yè)運(yùn)用先進(jìn)的經(jīng)營分析系統(tǒng)建立戰(zhàn)略性的競爭優(yōu)勢。
1 數(shù)據(jù)倉庫的概念及技術(shù)
1.1 數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫之父Bill Inmon對數(shù)據(jù)倉庫所下的定義是:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。這個定義概括了數(shù)據(jù)倉庫的實質(zhì)。從存儲方式和技術(shù)方面,數(shù)據(jù)庫領(lǐng)域著名的學(xué)者韓家煒教授給出另外一個描述:數(shù)據(jù)倉庫是一種多個異種數(shù)據(jù)源在單個站點以統(tǒng)一的模式組織的存儲,以支持管理決策??梢?,數(shù)據(jù)倉庫是一個支持決策的過程,它有這樣一些特性:面向主題的、集成的、穩(wěn)定的、隨時間變化的,多個異種數(shù)據(jù)源在單個站點以統(tǒng)一的模式組織存儲的。
1.2 數(shù)據(jù)倉庫技術(shù)
1.2.1 數(shù)據(jù)處理
數(shù)據(jù)倉庫的數(shù)據(jù)處理(ETL)包括數(shù)據(jù)的抽取、清理、轉(zhuǎn)換與加載。把數(shù)據(jù)從操作型環(huán)境轉(zhuǎn)換到數(shù)據(jù)倉庫環(huán)境的數(shù)據(jù)抽取要實現(xiàn)技術(shù)上的變化。這種變化不僅指的是一種DBMS的變化,還包含源于操作系統(tǒng)的變化、硬件的變化、數(shù)據(jù)結(jié)構(gòu)的變化。
把數(shù)據(jù)從操作型環(huán)境載入到數(shù)據(jù)倉庫環(huán)境時,如果數(shù)據(jù)以一種非集成狀態(tài)到達(dá)數(shù)據(jù)倉庫,它就不能被用來支持?jǐn)?shù)據(jù)的企業(yè)視圖。數(shù)據(jù)的企業(yè)視圖是體系結(jié)構(gòu)設(shè)計環(huán)境的本質(zhì)之一。
數(shù)據(jù)并非只是注入數(shù)據(jù)倉庫,它在數(shù)據(jù)倉庫中也有自己的生命周期。到了一定時候,數(shù)據(jù)將從倉庫中清除。數(shù)據(jù)清理問題是數(shù)據(jù)倉庫設(shè)計人員無法回避的基本設(shè)計問題之一。從某種意義上講,數(shù)據(jù)根本不是從數(shù)據(jù)倉庫中清除,而僅是上升到更高的綜合級。
1.2.2 數(shù)據(jù)倉庫的數(shù)據(jù)模型
一個企業(yè)數(shù)據(jù)模型建造時不考慮現(xiàn)存的操作型系統(tǒng)與數(shù)據(jù)倉庫之間的差別,企業(yè)數(shù)據(jù)模型只包含原始數(shù)據(jù)。要建造一個單獨的現(xiàn)存數(shù)據(jù)模型,需要從企業(yè)數(shù)據(jù)模型開始。當(dāng)企業(yè)數(shù)據(jù)模型用于操作型系統(tǒng)時,幾乎不用做什么改動。但是,企業(yè)數(shù)據(jù)模型用到數(shù)據(jù)倉庫中要做相當(dāng)多的改動。首先要做的是除去純粹用于操作型環(huán)境的數(shù)據(jù);然后在企業(yè)數(shù)據(jù)模型的鍵碼結(jié)構(gòu)中增加時間元素;導(dǎo)出數(shù)據(jù)加到企業(yè)數(shù)據(jù)模型中,在那里導(dǎo)出數(shù)據(jù)作為公用并只計算一次,而不重復(fù)計算;最后,操作型系統(tǒng)中的數(shù)據(jù)關(guān)系在數(shù)據(jù)倉庫中就轉(zhuǎn)變?yōu)椤叭斯りP(guān)系”。
有3個層次的數(shù)據(jù)建模:高層建模(ERD,實體關(guān)系層),中間層建模(DIS,數(shù)據(jù)項集),底層建模(物理層)。
1.2.3 數(shù)據(jù)倉庫的性能特性
確定性能特性是設(shè)計的重要一步,在數(shù)據(jù)倉庫的情況下,意味著決定數(shù)據(jù)的粒度與分割。
粒度 粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。在早期建立的操作型系統(tǒng)中,粒度是用于訪問授權(quán)的。當(dāng)詳細(xì)的數(shù)據(jù)被更新時,幾乎總是把它存放在最低粒度級上。但在數(shù)據(jù)倉庫環(huán)境中,對粒度不作假設(shè)。在數(shù)據(jù)倉庫環(huán)境中粒度之所以是主要的設(shè)計問題,是因為它深深影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,以及數(shù)據(jù)倉庫所能回答的查詢類型。在數(shù)據(jù)倉庫中的數(shù)據(jù)量大小與查詢的詳細(xì)程度之間要作出權(quán)衡。
分割 人們常說,如果粒度和分割都做得很好的話,數(shù)據(jù)倉庫設(shè)計和實現(xiàn)的幾乎所有其他問題都容易解決。但是,假如粒度處理不當(dāng)并且分割也沒有認(rèn)真地設(shè)計與實現(xiàn),這將使其他方面的設(shè)計難以真正實現(xiàn)。對當(dāng)前細(xì)節(jié)數(shù)據(jù)進(jìn)行分割的總體目的是把數(shù)據(jù)劃分成小的物理單元。數(shù)據(jù)分割的重要性在于小的物理單元能為操作者和設(shè)計者在管理數(shù)據(jù)時提供比對大的物理單元更大的靈活性。
物理I/O 物理設(shè)計因素的中心在于物理I/O(輸入/輸出)。對性能來說I/O事件如此重要是因為存儲器和計算機(jī)之間的數(shù)據(jù)傳輸速度比計算機(jī)運(yùn)算速度要慢大約2~3個數(shù)量級。計算機(jī)內(nèi)部運(yùn)算速度以毫微秒計,而數(shù)據(jù)的傳輸速度是以毫秒計。因此,物理I/O是主要影響性能的因素。為了提升性能,應(yīng)在系統(tǒng)中盡量減少物理I/O。
評論