色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 基于FPGA的TMR方法改進策略

          基于FPGA的TMR方法改進策略

          作者: 時間:2011-09-08 來源:網(wǎng)絡(luò) 收藏
          2

          本文引用地址:http://cafeforensic.com/article/150248.htm

            2.1 與Scrubbing結(jié)合

            由于本身不具備錯誤模塊修復(fù)能力,若僅一個模塊出現(xiàn)錯誤時,系統(tǒng)功能不受影響,但如果在另一個模塊出現(xiàn)錯誤前不能對已出現(xiàn)的錯誤模塊進行修復(fù),那么冗余會失效。所以當出現(xiàn)一個錯誤的時候,必須及時地對出錯的模塊進行修復(fù)。

            隨著動態(tài)可重構(gòu)技術(shù)的發(fā)展,出現(xiàn)了Scrubbing這種對進行配置的。由于對于空間電子系統(tǒng)來說影響最嚴重的是SEU等軟故障,而軟故障可以通過重構(gòu)來解決,所以周期性地對配置存儲器進行刷新可以實現(xiàn)對這類錯誤的修復(fù)。

            Scrubbing和TMR配合使用對防止SEU的產(chǎn)生可以起到很好的效果。但很多研究同樣只考慮到單個錯誤的影響,而忽略了多個SEU同時出現(xiàn)的可能性。理論上一個快速的刷新率可以保證某一時間內(nèi)只有一個錯誤的存在。然而實際中錯誤的出現(xiàn)是隨機的,這意味著任何刷新率都不能保證在一個刷新周期內(nèi)最多只出現(xiàn)一個錯誤。在實際中使用這種方法時,必須通過復(fù)雜的實驗過程對SEU出現(xiàn)的概率進行估計。選取Scru-bbing的刷新率的經(jīng)驗原則是使刷新率比估算的出錯率高一個數(shù)量級。而現(xiàn)在隨著的規(guī)模越來越大,用來裝載整個配置位流的時間會達到幾百毫秒,刷新率更得不到保障,且系統(tǒng)功耗增大。

            隨著部分TMR的實現(xiàn),可以設(shè)計出具有檢錯和定位功能的表決器,當某個模塊出錯時,表決器的信號直接觸發(fā)重構(gòu)功能,動態(tài)地只對出錯部分的電路進行重構(gòu)。這樣可以解決Scrubbing時間和功耗的問題,并為防止錯誤積累提供了解決途徑。

            為了防止表決器出錯,表決器可以采用對輻射不敏感的器件來實現(xiàn)而替代SRAM的材料,這樣提高了表決器的穩(wěn)健性。文獻也提出了一種的表決器。它不再使用多數(shù)表決器對三個冗余模塊的輸出進行表決,而是將三個冗余模塊相應(yīng)的輸出通過三態(tài)緩沖器和少數(shù)表決器后分別由的三個輸出管腳輸出,最后在印刷電路板(PCB)上“線或”為一個信號。少數(shù)表決器電路負責(zé)判斷本冗余模塊的信號是否是少數(shù)

            值,如果是少數(shù)值,則相對應(yīng)的緩沖器輸出高阻,如果不是,則使相應(yīng)的信號正常輸出。

            Readback是在Scrubbing的基礎(chǔ)上發(fā)展起來的。它是指將配置數(shù)據(jù)回讀與最初的配置數(shù)據(jù)進行比較,發(fā)現(xiàn)錯誤后進行重構(gòu)。文獻中使用了這樣的方法,另外它還采用了糾錯碼來保護配置數(shù)據(jù)。每一個配置幀的數(shù)據(jù)被12位的see-dec漢明碼保護,而且FPGA中每個基本單元的識別碼都不一樣,通過ICAP(InternalConfiguration Access Port)回讀配置文件后,糾錯碼可以給出錯位的位置。

            Scrubbing可以在不中斷電路工作的情況下修復(fù)SEU在LUT、布線矩陣和CLB中所造成的功能錯誤。但是它不能改變LUT中觸發(fā)器中的內(nèi)容,所以它也就不能重置寄存器的狀態(tài)。當存儲單元的值發(fā)生了翻轉(zhuǎn),此時只能通過系統(tǒng)復(fù)位來得到修復(fù)。然而系統(tǒng)復(fù)位將使系統(tǒng)功能中斷,嚴重影響系統(tǒng)的性能。

            2.2 小粒度TMR技術(shù)

            隨著部分動態(tài)重構(gòu)技術(shù)的出現(xiàn),產(chǎn)生了小粒度的TMR方法??梢砸暂^小的粒度為步長,采用合理的布局與布線實現(xiàn)TMR以達到要求的資源開銷并得到最大的可靠性。文獻中對在出現(xiàn)多個錯誤的情況下不同粒度TMR的容錯性能進行了實驗分析,結(jié)果表明小粒度TMR比以整個系統(tǒng)為粒度進行TMR的效果好。

            在全局TMR不可行的情況下(例如資源有限),小粒度TMR是一個較好的選擇,可以在使用較少資源的情況下提高系統(tǒng)的可靠性。由于不是對所有的模塊都采用冗余措施,所以在實現(xiàn)的時候必須著重于對那些可以相對更高地提高系統(tǒng)可靠性的模塊應(yīng)用TMR技術(shù)。此時表決器的數(shù)量和位置也是一個需要考慮的問題。由于采用三模冗余的模塊前后需要額外的布線,而邏輯電路和布線資源都對SEU敏感,所以這樣的結(jié)果會降低系統(tǒng)可靠性。如圖2所示,圖中陰影部分是對SEU敏感的,由圖可以看出(c)中敏感的部分比(b)中多,這是由于表決器和額外的布線造成的。所以需要限制三模冗余電路和未采用三模冗余的電路的轉(zhuǎn)變,這樣可以通過集中使用三模冗余技術(shù)而提高系統(tǒng)可靠性。

            

            為了選擇需要進行三模冗余的模塊并進行合理的布局布線,將系統(tǒng)出現(xiàn)的錯誤分為持續(xù)性錯誤和非持續(xù)性錯誤。持續(xù)性的錯誤是指由SEU產(chǎn)生的改變了電路內(nèi)部狀態(tài)的錯誤;非持續(xù)性錯誤是指可以通過FPGA重構(gòu)而消除的錯誤,而持續(xù)性錯誤在重構(gòu)后依然存在。

            結(jié)合以上的分析,實施部分TMR的優(yōu)先級別如下:

            第一級是會產(chǎn)生持續(xù)性錯誤的部分。

            第二級是會導(dǎo)致能產(chǎn)生連續(xù)性錯誤電路部分出錯的電路,以降低TMR和非TMR之間的轉(zhuǎn)換為準則。

            第三級是會產(chǎn)生持續(xù)性錯誤電路的前向部分,同樣以降低TMR和非TMR之間的轉(zhuǎn)換為準則。

            第四級是與會產(chǎn)生持續(xù)性錯誤電路部分獨立的部分。

            可以通過靜態(tài)的分析來對電路進行劃分。這里存在的問題是在標準的全局TMR中,所有的輸入、輸出以及時鐘都進行了三模冗余,而使用部分TMR時,對I/O以及時鐘的冗余有可能不能被實現(xiàn)。和沒有采用TMR的邏輯電路一樣,沒有進行TMR的時鐘和I/O同樣可以產(chǎn)生不能被檢測的錯誤。

            由實驗結(jié)果來看,由于此方法主要著重于能產(chǎn)生持續(xù)性錯誤的電路部分,所以當所使用的冗余資源增多時,持續(xù)性的錯誤出現(xiàn)的幾率很快的降低,最終幾乎全部被克服掉。所以采用部分TMR可以在資源和可靠性間達到平衡,在最小限度影響可靠性的條件下,最大限度地提高資源利用率。

            另外,一個翻轉(zhuǎn)有可能改變配置存儲器中控制布線的配置位,而使得兩個不同冗余模塊間的連線短路,這樣一個翻轉(zhuǎn)影響了TMR中不止一個模塊,導(dǎo)致輸出錯誤。而配置資源中的90%都用來控制布線,所以這個問題是需要考慮的。產(chǎn)生這種錯誤的可能性還依賴于TMR的布局,而TMR的布局直接依賴于多數(shù)表決器的數(shù)量。當表決器增多時,模塊之間需要額外的連接,所以各模塊必須靠得很近,這樣使得一次翻轉(zhuǎn)導(dǎo)致模塊之間短路的可能性增加。為了降低會影響TMR穩(wěn)健性的產(chǎn)生改變布線的錯誤的可能性,必須最大可能地減少各個模塊之間的連接。如果多數(shù)表決器的數(shù)量可以被降下來,那么模塊之間的連接可以減少。

            解決這個問題的方法是采用較大粒度的TMR以降低它們之間的連接,且表決器只應(yīng)用在電路輸出部分。但同時又出現(xiàn)了一個新的問題,例如為對存儲單元的狀態(tài)進行修復(fù),Xilinx提出了將表決器應(yīng)用在有寄存器的地方并加入反饋以糾正翻轉(zhuǎn)對寄存器中值的影響的XTMR方法,如果內(nèi)部的表決器被去掉,那么出錯部分存儲單元的錯誤將得不到糾正,所以重構(gòu)后它與其他模塊工作的狀態(tài)不同步。

            文獻中解決這個問題的方法是通過從外部存儲器中讀取存儲的工作狀態(tài)。但是這個方法需要三個模塊離線后才能進行狀態(tài)的存儲和重置進而達到同步。顯然可行性不高,尤其是對實時性要求高的電路。

            針對此問題,文獻提出了一種同步技術(shù),該技術(shù)TMR系統(tǒng)中采用狀態(tài)寄存器復(fù)制機制,并在三個冗余模塊之間引入數(shù)據(jù)通路來傳輸狀態(tài)寄存器的數(shù)據(jù)。當某一個冗余模塊發(fā)生故障被局部重構(gòu)后,能夠通過接受主控制器的令牌,從正常模塊復(fù)制狀態(tài)寄存器的數(shù)據(jù)來完成同步而及時地恢復(fù)工作。該方法縮短了故障模塊從修復(fù)到重新加入系統(tǒng)工作的時間,從而減小發(fā)生故障積累的概率,提高冗余系統(tǒng)的可靠性。

            另一種方法是預(yù)測其他模塊最快會達到的狀態(tài),然后對重構(gòu)后的模塊進行狀態(tài)的預(yù)置。這時只需使要重構(gòu)的模塊停止工作而不影響其他兩個模塊的工作,當工作模塊的狀態(tài)和預(yù)置的狀態(tài)同步時,三個模塊又一起工作。此時狀態(tài)選擇是一個問題,這個狀態(tài)到達的頻率必須很高,而且會在較快時間內(nèi)到達,另外多個狀態(tài)可以提高效率但同時會使預(yù)置信號寬度增加。

            如果寄存器中狀態(tài)不可預(yù)測,例如寄存器鏈和加法器,那么不能使用這個方法,所以這種方法需要以提高其適應(yīng)性。在TMR各模塊布線時,盡量將它們相隔有一定的距離,這樣也可以降低一個模塊出現(xiàn)錯誤后對其他模塊造成影響的可能性。



          關(guān)鍵詞: 改進 策略 方法 TMR FPGA 基于

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉