3-DES算法的FPGA高速實現(xiàn)
摘要:介紹3-DES算法的概要;以Xilinx公司SPARTANII結(jié)構(gòu)的XC2S100為例,闡述用FPGA高速實現(xiàn)3-DES算法的設計要點及關(guān)鍵部分的設計。
關(guān)鍵詞:3-DES FPGA 高速實現(xiàn)
引 言
從技術(shù)角度講,網(wǎng)絡安全除了依賴安全的網(wǎng)絡通信協(xié)議及應用協(xié)議外,更多地取決于網(wǎng)絡設備如交換機、路由器等所提供的加/解密功能。目前,基于DES算法的加/解密硬件仍在廣泛應用于國內(nèi)衛(wèi)星通信、網(wǎng)關(guān)服務器、機頂盒、視頻傳輸以及其它大量的數(shù)據(jù)傳輸業(yè)務中。
然而,隨著密碼分析技術(shù)的不斷發(fā)展,超期服役的DES算法已被攻破,隨即美國商業(yè)部提出采用以Rijndael算法的AES作為新一代的加密算法。在不對原有應用系統(tǒng)作大的改動的情況下,3-DES算法有了很大的生存空間,被大量用來替換已不安全的DES算法。所以對3-DES算法的高速實現(xiàn),仍具有一定的實際應用意義。
1 3-DES算法介紹
1999年,NIST將3-DES指定為過渡的加密標準。3-DES是DES的一個更安全的變形(關(guān)于DES算法的詳細資料,可見參考文獻[1]、[2])。DES算法運算的框圖如圖1。其中S盒是3-DES(DES)算法的心臟,靠它實現(xiàn)非線性變換。
dk(x)表示用DES算法對64位的位串的加密和解密,密鑰為K;則64位的密文c是通過執(zhí)行下面的運算得到的:
其中K1、K2、K3是56位的DES密鑰。
從密文c導出明文x的3-DES的解密過程是加密過程的反過程,其描述如下:
其結(jié)構(gòu)如圖2。
為了獲得更高的安全性,三個密鑰應該是互不相同的。這樣,本質(zhì)上就相當于用一個長為168位的密鑰進行加密。多年來,它在對付強力攻擊時是比較安全的。對安全性需要不那么高的數(shù)據(jù),K1可以等于K3。在這種情況下,密鑰的有效長度為112位。
在通常使用的所有64位的分組密碼中,3-DES是最安全的;但是,如果用軟件來實現(xiàn),它也是這些分組密碼中最慢的。通過硬件設計,3-DES的性能勝過大多數(shù)其它用軟件實現(xiàn)的分組密碼。
2 FPGA實現(xiàn)設計
本設計采用實驗室現(xiàn)有試驗開發(fā)板上Xilinx公司SPARTANII結(jié)構(gòu)的XC2S100作為算法載體,在其中實現(xiàn)控制器和三個DES模塊以及密鑰的生成,通過控制器實現(xiàn)加、解密功能。從上邊的介紹可以看到,3-DES(DES)算法沒有大量的復雜數(shù)學計算(如乘、帶進位的加、模等),在加/解密過程和密鑰生成過程中僅有邏輯運算和查表運算。這些特點為采用FPGA進行高速設計提供了契機。
2.1 DES模塊的設計結(jié)構(gòu)
每個DES模塊的實現(xiàn)是用一個輪函數(shù)實現(xiàn)的16份拷貝通過深度細化的流水線處理來完成的,以獲得最高的性能。
采用循環(huán)全部打開和流水線結(jié)構(gòu)來設計。循環(huán)全部打開后,實現(xiàn)全部16輪結(jié)構(gòu)并串在一起,只要一個時鐘周期就可以完成一個數(shù)據(jù)塊的加密或解密;通過多占很大的空間來換得速度上的大幅度提高,然后再在每輪的中間加上寄存器來實現(xiàn)流水線。在第一時鐘周期,第一塊數(shù)據(jù)經(jīng)過第一輪處理存入寄存器1中。在下一個時鐘周期,寄存器1中的結(jié)果經(jīng)過第二輪處理存入寄存器2中;同時,第二塊數(shù)據(jù)可以經(jīng)過第一輪處理存入寄存器1。這樣,多塊數(shù)據(jù)實現(xiàn)了同時處理。另外,在設計中通過使用16個寄存器,使得加/解密速度可以提高近16倍。在DES模塊的每一輪中設計3級流水線,盡管這樣增加了48個周期的時延,但卻進一步提高了整體處理的速度性能;同時,將數(shù)據(jù)加/解密部分和密鑰生成部分分開單獨設計,可以減少相鄰流水線級間的邏輯層數(shù)目。
2.2 S盒設計
通過時間分析發(fā)現(xiàn),S盒在整個設計中占了很大的比重。S盒性能的提高對于整個設計性能會有很大的改善,因此S盒是整個設計優(yōu)化的重點。
DES的8個S盒分別是一個滿足特殊性能的6~4位的變換。在VHDL或Verilog語言中,可以直接用CASE語句來實現(xiàn)。這是最簡單的實現(xiàn)方法,但是HDL語言都屬于高級語言,它們強烈依賴于編譯器的優(yōu)化能力,往往對設計者來說,涉及得越少、編程越簡單,代碼效率越不高,這對于高速實現(xiàn)來說是不可取的。在實現(xiàn)過程中通過分析工具也發(fā)現(xiàn),依賴于編譯器的實現(xiàn)不但復雜,而且占用大量的空間。這樣,S盒成了速度的瓶頸,為此,采用ROM來實現(xiàn)。XC2S100的LUT可以配置為161位的ROM,把輸入的6位作為地址,對應的地址空間里存放的就是輸出的4位,從而實現(xiàn)了6~4位的查找表LUT,所需時間只是FPGA中CLB的傳輸時間加上傳輸線上的延時,如圖3。
2.3 密鑰生成器設計
密鑰生成器的設計是獨立于DES輪函數(shù)運算實現(xiàn)的,采用3級流水線來與輪函數(shù)中的流水線相平衡,單輪的實現(xiàn)如圖4。
其中,3級流水線由移位寄存器(SR)和1個觸發(fā)器(FF)構(gòu)成,在SR中完成兩級流水線,在FF中實現(xiàn)第三級。XC2S100的LUT中的每個查找表LUT可以用來生成1~16個移位寄存器,而且在一個單獨的可配置邏輯功能塊CLB中連接8個移位寄存器來構(gòu)成一個128位的移位寄存器。
圖5 3-DES實現(xiàn)的結(jié)構(gòu)
2.4 3-DES的實現(xiàn)
將上述所設計的三份DES模塊在FPGA中組合,實現(xiàn)如圖5所示的完整連接。整個時延約為單個DES模塊的三倍。
結(jié) 語
我們在Xilinx的開發(fā)平臺Foundation 4.2i下用Verilog HDL完成設計,并進行了綜合和仿真;成功下載到我們實驗室的試驗板上的XC2S100中,用VC++ 6.0編寫了測試程序;在Windows98下運行,均 能正確實現(xiàn)加/解密功能。在試驗板上晶振為25MHz的情況下,大致評測出加密速度為520Mb/s。
評論