一種脫機手寫簽名認證方法
1 引言
手寫簽名認證方法屬于生物測定技術。簽名認證與其他生物測定技術相比,具有難以模仿、區(qū)分性較高、尊重隱私權、信息獲取高效等優(yōu)點,在特征的可搜集性、人體傷害可接受性和魯棒性方面都很突出,具有廣闊的應用前景。但與其他生物測定方法相比,手寫簽名認證的識別率并不是很高,尤其是脫機中文手寫簽名認證。因為在脫機簽名認證中,丟失了書寫過程中的動態(tài)信息,使可利用的信息減少,增加了鑒別的難度。另外,有些高超的偽造簽名模仿得惟妙惟肖,有時即使是人類專家進行鑒定,識別率也可能會很低。這里針對脫機中文簽名,提出一種主成分特征提取和徑向基神經網絡相結合的脫機手寫簽名認證方法。
2 主成分特征提取
假設x是一個N×1的隨機向量,即x的每個元素xi都是一個隨機變量。x的均值可用L個樣本向量估計:
而其協(xié)方差矩陣可由式(2)估計:
協(xié)方差矩陣是N×N的實對稱矩陣。對角元素是各個隨機變量的方差,非對角元素是它們的協(xié)方差。用矩陣A定義一個線性變換,它可由任意向量x通過式(3)得一個新向量y:
式中,A的行向量就是Cx的特征向量。
這里為了方便,對這些行向量按使得其對應的特征值遞減的順序排列。變換后的向量y是具有零均值的隨機向量,其協(xié)方差矩陣與x的協(xié)方差矩陣的關系為:
由于A的行向量是Cx的特征向量,所以Cy是對角陣且其對角元素為Cx的特征值。于是:
從而λk也是Cy的特征值。因為Cy的非對角元素都是零,所以y個元素之間都是不相關的。于是線性變換A去掉了變量間的相關性。此外,λk是第k個變換后的變量yk的方差。可通過略去對應于較小特征值的一個或多個特征向量給y降維。令B為M×N的矩陣(MN),B是通過丟棄A的下面N-M行,并假定m=0構成的,這樣,變換向量變小(即成為M×1維):
MSE只是與被舍棄的特征向量對應的特征值之和。通常,特征值幅度差別很大,可忽略其中一些較小值而不會引起很大誤差。
進行模式分類時.理論上可將一幅MxN圖像的M×N個灰度特征作為分類依據,但這樣會引起算法運算時間過長而失去意義,系統(tǒng)也因此崩潰。如何對這M×N個灰度特征進行主要特征提取,用提取出的k個灰度特征表征該圖像而使算法不會引起很大誤差。根據以上論述得知,這樣做可行。
對一幅M×N的簽名罔像,首先將圖像進行局部區(qū)域劃分,即將圖像劃分成4×4或者8×8的小塊,這樣一幅圖像就被劃分成L個小塊,即:
然后將每一個小塊的16(或64)個灰度值看成一個N×1的隨機變量.假設x是一個N×1的隨機向量,x的每一個元素都是用上面的一個小塊的16(或64)個灰度值構成的隨機變量。實際x是一個16(或64)×L的矩陣,x的協(xié)方差矩陣由式(10)估計:
通過求得Cx的特征值來表征圖像的灰度主成分特征。將求得的特征值與先前的M×N個灰度特征相比,已明顯減少。這里取前10個最大的特征值作為特征分類依據,由于后面的特征值很小,對其忽略不會引起太大誤差。
3 徑向基函數(shù)神經網絡及其分類器設計
徑向基函數(shù)神經網絡RBFNN(Radial Basis FunctionNeural Network)起源于數(shù)值分析中的多變量插值的徑向基函數(shù),它不僅具有任意精度的泛函逼近能力和最優(yōu)泛函逼近特性,而且具有較快的收斂速度。這里利用徑向基函數(shù)神經網絡構成一個分類器實現(xiàn)簽名真?zhèn)蔚恼J證采用高斯核函數(shù)作為徑向基函數(shù),形式為:
式中,Zi是核函數(shù)的中心,δi為核函數(shù)的寬度,可控制基函數(shù)的徑向作用范圍,即方差。
而第i個隱結點的輸出定義為:
式中,wi是第i個隱結點到輸出層結點的權值,θ是輸出層結點的閾值。
一般常利用K均值聚類算法確定各基函數(shù)中心及相應的方差,網絡權值的確定用局部梯度下降法修正。由于K均值聚類方法要事先給出聚類個數(shù)K,且聚類結果對K 值大小都很敏感,不同K值的聚類學習結果往往大相徑庭,因此,如何確定K值是一個難題。這里不采用上述的K均值聚類方法,而采用文獻[4]中的一種根據相似性閾值和最小距離原則的簡單聚類方法確定RBF網絡的中心。其主要步驟為:
(1)設待分類的模式集為{x1,x2…xn},選定類內距離門限T;
(2)seed=RandomSelect(x);∥從對象集合x中,任選一對象Seed;
(3)Dist1,2=Compute Distance(seed,x2);∥計算下一模式特征矢量x2到Seed的距離;
(4)若Dist1,2>T,則建立新的一類ω2,其中心Z2=x2,若Dist1,2≤T,則x2∈ω1;
(5)假設已有聚類中心Z1?Z2…Zk,計算尚未確定類別的特征矢量xi到各聚類中心Zj(j=1,2…,k)的距離dij。如果dij>T,則 xi作為新的一類ωk+1的中心,Zk+1=xi,否則,如果dij=mindij,則判斷xi∈ωg,檢查是否所有的模式都劃分完類別,如都劃分完則結束,否則返同(5),
上述算法采用規(guī)格化的Euclidean計算公式度量兩個對象間的距離。具體公式定義如下:
在包含有N個對象的m維單位空間(各屬性取值均采用規(guī)格化處理)中,對象間的平均距離為
。對象間的平均距離與對象的個數(shù)及維數(shù)有關。在一定空間內,待分類的對象個數(shù)越少,各對象的維數(shù)越大,各對象間的距離就越大;反之,對象數(shù)量越大,各對象的維數(shù)越小,則各對象間的距離就越小。
在包含有N個對象的m維單位空間(各屬性取值均采用規(guī)格化處理)中,對象間的平均距離為以此為標準,并按照“各聚類中對象問的距離不應超過此標準,各聚類間距離不應低于此標準”的規(guī)則進行聚類學習。采用此方法得到的聚類類別數(shù)即為將要確定的隱層神經元數(shù)。
整個RBF網絡的學習步驟為:
(1)設由上述聚類算法得到的RBF網絡隱層單元數(shù)為K,最大允許誤差ε,置所有可調參數(shù)(權)為均勻分布的較小數(shù)(0~1或-1~1之間的隨機數(shù))。置初始誤差E為0,學習率η為0~1之間的小數(shù)。網絡訓練后達到的精度Emin為一個正小數(shù)。
(2)采用上面根據相似性閾值和最小距離原則的簡單聚類方法確定基函數(shù)的中心Zi及δi方差,
(3)按梯度下降法調整網絡權值W直至誤差Eε,才結束。
4 實驗結果
徑向基神經網絡由主成分特征提取出的10特征值作為輸入節(jié)點,而隱含層節(jié)點個數(shù)則根據每組訓練樣本的不同(參見上述算法)確定,輸出層只有一個神經元,該神經元的輸出就是簽名圖像的對應分類(真假兩類)。
實驗中共采集11個人的660個簽名。每人有30個真簽名和其他人模仿的30個假簽名。圖1和圖2是部分訓練和測試樣本,圖1和圖2的前兩個簽名為作者簽名,其他為假冒簽名。
在每個人的60個簽名中,42個簽名(其中真簽名21個,假簽名21個)作為訓練樣本,剩下的18個真假簽名作為測試樣本,因為有11個人的11組簽名,所以認證工作也分成11次,即1次進行1個人訓練簽名樣本的訓練和測試樣本的測試。把這些樣本送入RBF神經網絡進行分類驗證,實驗結果見表1:
5 結論
提出一種基于主成分特征提取和徑向基神經網絡相結合的脫機手寫簽名認證方法。首先為了減少運算量,對經過預處理的簽名灰度圖像進行降維,即采用主成分特征提取的方法降低圖像維數(shù),同時過濾掉高頻干擾信號,突出簽名的主要特征,得到適合計算機識別的低維圖像,然后在簽名的分類認證中,基于徑向基神經網絡的驗證方法可以在合理的時間內,以較少的主成分個數(shù)得到較好的識別效果。因為國內尚未出現(xiàn)統(tǒng)一的簽名數(shù)據庫,實驗在自行采集的小型簽名數(shù)據樣本進行,對更大型的數(shù)據庫的認證識別是今后需做的工作。
評論