基奇PCA的貝葉斯網(wǎng)絡(luò)分糞器研究
1 引言
近幾年來,貝葉斯網(wǎng)絡(luò)已成為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中的一個主要工具,在分類、聚類、預(yù)測和規(guī)則推導(dǎo)等方面取得了良好的應(yīng)用效果。從歷史數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)絡(luò)可采用基于依賴分析的方法。
常用的有:用Polytree表示概率網(wǎng)的方法、從完全圖刪除邊的方法等。這種方法需要進行指數(shù)級的CI測試以發(fā)現(xiàn)依賴關(guān)系,當結(jié)點集較大時,其計算效率低,所以大多數(shù)此類算法都假設(shè)結(jié)點有序;但這種假設(shè)可能會影響最后學(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)的正確性。對于稀疏網(wǎng)絡(luò)和具有較大樣本數(shù)據(jù)集的系統(tǒng),這種方法非常有效。
針對基于依賴分析方法的這一缺點,在網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)之前應(yīng)用主元分析方法將數(shù)據(jù)降維,減少網(wǎng)絡(luò)結(jié)點數(shù)目,可提高算法效率、簡化網(wǎng)絡(luò)結(jié)構(gòu)。
2 數(shù)據(jù)處理及離散化
現(xiàn)實數(shù)據(jù)庫中的數(shù)據(jù)常存在數(shù)據(jù)不一致、數(shù)據(jù)丟失等現(xiàn)象,所以在運用數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)前要對數(shù)據(jù)進行預(yù)處理。此外,對于連續(xù)性數(shù)據(jù)(如溫度、濕度、長度等),直接建立貝葉斯網(wǎng)絡(luò)模型計算復(fù)雜度大,從連續(xù)數(shù)據(jù)中很難正確學(xué)習(xí)到變量間的關(guān)系。因此首先將數(shù)據(jù)標準化,再將標準化后的連續(xù)變量離散化,用離散化后的數(shù)據(jù)進行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)。這里采用模糊離散化方法,對數(shù)據(jù)集的每個屬性分別進行離散化,每個屬性都有3個標度:5標度、7標度、9標度可以選擇。算法步驟如下:
(1)隨機初始化隸屬度矩陣:
3 基于PCA的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法
主元分析PCA(Principal Component Analysis)是通過可逆線性變換,將數(shù)據(jù)集轉(zhuǎn)換為由維數(shù)較少的特征成分表示的、包含原數(shù)據(jù)集所有信息或大部分信息的技術(shù)。通過PCA技術(shù),可以將復(fù)雜數(shù)據(jù)簡化,因此它現(xiàn)已被廣泛應(yīng)用于數(shù)據(jù)挖掘、模式識別、信號評估、信號探測、圖像編碼等領(lǐng)域。主元分析的原理如下:
評論