基于Alpha-NMF的AD樣本分類及特異性基因選擇方法
1.2 Alpha-NMF算法
Alpha-NMF算法是NMF算法的一種改進(jìn),它是針對信號處理所提出的一種新的算法。
Alpha-NMF算法的數(shù)學(xué)模型為:
2 非負(fù)矩陣分解在基因表達(dá)譜數(shù)據(jù)中的應(yīng)用
2.1 數(shù)據(jù)預(yù)處理
文中所選的實(shí)驗(yàn)數(shù)據(jù)為基因表達(dá)綜合數(shù)據(jù)庫(GEO)中23組大腦海馬區(qū)域(HIP)和23組內(nèi)嗅區(qū)皮質(zhì)(EC)的AD樣本,54 675個基因表達(dá)數(shù)據(jù);其中海馬區(qū)域的基因數(shù)據(jù)集由13個control AD樣本和10個affected AD樣本組成,內(nèi)鼻皮質(zhì)區(qū)域的基因數(shù)據(jù)集由13個control AD樣本和10個affectedAD樣本組成。由于基因表達(dá)譜數(shù)據(jù)的復(fù)雜性,在進(jìn)行聚類分析前必須先進(jìn)行預(yù)處理和數(shù)據(jù)轉(zhuǎn)換等過程。本文先采用小波變換(wave let transform,WT)方法對數(shù)據(jù)進(jìn)行降噪,然后通過微陣列顯著性分析(significance analysis of microarrays,SAM)工具箱篩選出顯著變化的上下調(diào)基因。
2.2 Alpha-NMF算法應(yīng)用于基因表達(dá)譜數(shù)據(jù)
Alpha-NMF算法被提出后,至今還設(shè)被應(yīng)用于基因表達(dá)數(shù)據(jù)中,通過大量的實(shí)驗(yàn),證明了Alpha-NMF算法能夠有效的應(yīng)用到該領(lǐng)域中,相比傳統(tǒng)NMF算法,其算法穩(wěn)定性和分類準(zhǔn)確率明顯較高。
基因表達(dá)譜數(shù)據(jù)的Alpha-NMF混合模型如圖1所示。Y表示mxn維基因表達(dá)譜數(shù)據(jù),每一行表示一個樣本集,每一列表示一個基因在不同條件下的表達(dá)水平。yij表示第j個基因在條件i下的表達(dá)水平。通常nm。本文引用地址:http://cafeforensic.com/article/193834.htm
任一樣本yi可以表示為:
也就是說每一個樣本可以近似看做是非負(fù)矩陣X的行向量的非負(fù)線性組合,組合系數(shù)是矩陣A對應(yīng)行向量的分量。把分解后的矩陣X的每一行稱為一個集合基因。矩陣A的第k列為X的第k個集合基因的系數(shù),若矩陣X能表征原始數(shù)據(jù)的局部特征,則系數(shù)矩陣A與樣本類別緊密相關(guān),即類別c1對于特征k的貢獻(xiàn)大,而c2對于特征k的貢獻(xiàn)小。對于每一個集合基因(圖2為HIP數(shù)據(jù)經(jīng)Alpha-NMF算法,α=0.5時分解后相關(guān)系數(shù)為0.97集合基因的柱狀圖),若元素的值相對較大,說明其對應(yīng)的基因j與AD緊密相關(guān)。
3 實(shí)驗(yàn)結(jié)果與分析
首先采用WT-SAM方法分別對HIP和EC數(shù)據(jù)進(jìn)行預(yù)處理,篩選后的基因數(shù)分別為13 587個、6 567個,再對數(shù)據(jù)進(jìn)行菲負(fù)化處理,然后通過Alphs-NMF算法進(jìn)行分解,利用分解后的A矩陣進(jìn)行聚類,本文采用k均值聚類方法對A的行向量進(jìn)行聚類,得到一聚類結(jié)果。對于矩陣X,設(shè)定一閾值,篩選出集合基因中大于該閾值的信息基因。
評論