從抗輻射到耐輻射:如何打造強韌耐輻射系統(tǒng)
微電子或集成電路 (IC) 是許多前沿應(yīng)用的核心,其工藝進步直接影響各種應(yīng)用的創(chuàng)新。但在機器人、太空探索、航空航天、核電站、精密檢測、醫(yī)學(xué)成像、甚至環(huán)境保護和食品安全等應(yīng)用中,工藝的先進性并不是全部,“輻射”是這些領(lǐng)域的 IC 需要解決的核心問題。輻射可能會導(dǎo)致機器人發(fā)生故障,使醫(yī)學(xué)成像不準(zhǔn)確,或者工業(yè)應(yīng)用機器出現(xiàn)停轉(zhuǎn)等等。
本文引用地址:http://cafeforensic.com/article/202111/429731.htm對于 IC 設(shè)計師來說,在所有上述應(yīng)用中,宇宙空間應(yīng)該說是最具挑戰(zhàn)性的應(yīng)用場景。失去地球大氣層的保護,電子系統(tǒng)在阿爾法 ( Alpha ) 和貝塔 ( Beta ) 粒子、伽馬 ( Gamma ) 和 X 射線以及銀河宇宙輻射等高能(電離)輻射面前,相當(dāng)脆弱,所以能夠抗衡此類輻射的航空級IC 代表了防輻射IC 技術(shù)的塔尖。
電離輻射有足夠的能量讓電子脫離軌道。如果這個電子代表存儲器中的一個數(shù)位或總線接口上的一個值,該值就可能被改變或“翻轉(zhuǎn)”。這種狀況有多種叫法,包括單粒子效應(yīng) (SEE)、單粒子翻轉(zhuǎn)或單粒子閂鎖。無論具體叫什么,如果錯誤的數(shù)位發(fā)生翻轉(zhuǎn),例如應(yīng)用代碼中的指令或寄存器中的控制數(shù)位,整個系統(tǒng)就會崩潰。
耐輻射 (Radiation-tolerant)和抗輻射加固 (Radiation-hardened)的區(qū)別
為了在宇宙空間中運行,電子系統(tǒng)需要具有防范輻射風(fēng)險的能力。某些 IC 制造商采用標(biāo)準(zhǔn)半導(dǎo)體晶圓中加入防護襯底的方式提供“ 加固 ( hardened ) ”組件。雖然抗輻射加固 IC 具有更強的耐輻射能力,但卻不能徹底免疫。與此同時,因為抗輻射芯片設(shè)計要求更復(fù)雜且產(chǎn)量更低,因而價格也明顯更加昂貴。
此外,即便所需要的組件可以被設(shè)計成抗輻射加固IC,因為其投產(chǎn)速度的滯后性,也阻礙了航天器設(shè)計人員對抗輻射加固 IC 選用。
在遭遇電離輻射時,除了采用抗輻射加固IC的設(shè)計方法提供抗輻射能力,設(shè)計人員還可以通過運用器件和設(shè)計方法進行檢測并予以糾正。
這就是所謂的耐輻射。
這種方法的主要優(yōu)勢在于,可以將大量組件都制作成耐輻射組件。例如,眾多存儲器技術(shù)采用糾錯碼技術(shù)來檢測和糾正存儲器內(nèi)的位翻轉(zhuǎn)。
三重模塊冗余
如果寄存器內(nèi)發(fā)生了位翻轉(zhuǎn),或由存儲器檢索的數(shù)據(jù)在總線接口傳輸?shù)倪^程中發(fā)生了翻轉(zhuǎn),對此類事件進行檢測則極為復(fù)雜。開發(fā)者通常使用三重模塊冗余技術(shù) (triple modular redundancy, TMR)來檢測和糾正此類性質(zhì)的事件。通過TMR,主要電路采用完全相同的設(shè)計提供并行三冗余,由“票決”電路比較這些相同路徑的輸出,按少數(shù)服從多數(shù)的原則決定輸出。(參見圖 1)
如果其中一條電路遭遇影響輸出的事件,其輸出將不同于其余兩條電路的輸出。如果只使用兩條完全相同的電路進行比較,輸出不同將提示有事件發(fā)生,但無法辨別具體發(fā)生在哪條電路上。
哪個輸出是正確的?使用三條電路,可以確定正確的輸出(可以進行合理假設(shè),在兩條電路上發(fā)生完全相同的 SEE 的概率基本為零)。
開發(fā)者隨即可以采納多數(shù)輸出或重新評估設(shè)備運行。大量 OEM 廠商對自己的設(shè)計采用定制 IC,因此為了實現(xiàn) TMR,他們在電路板上并行布局 IC 的三個副本并追加一個投票器 IC。
圖1 采用三模冗余的情況下,使用“票決”電路對并行的三個相同的電路開展評估,確保電路產(chǎn)生正確(大多數(shù))輸出
任務(wù)關(guān)鍵型 TMR
TMR 在對系統(tǒng)性能影響最?。ㄖ笗r延)的情況下提供高度的可靠性。然而,這種可靠性顯然有其代價。它增大了系統(tǒng)的占板面積、功耗和費用。鑒于各條電路的重要性并不均等,理想情況下,開發(fā)者希望僅在必要時使用 TMR。
以溫度傳感器為例。不常發(fā)生的數(shù)據(jù)點錯誤不會影響整體監(jiān)測性能,因為樣本可以隨時間平均,因此不必承擔(dān)三個傳感器或三個監(jiān)測電路帶來的附加費用。
除了在電路板上為電路創(chuàng)建三個副本以外,還有一種替代方法是在賽靈思 XQR Versal ACAP或自適應(yīng) SoC 等航天級可編程器件中實現(xiàn)電路。賽靈思軟硬件一體化可編程邏輯方法讓設(shè)計人員能夠在單個芯片中實現(xiàn)復(fù)雜的 TMR。無需并行布局三個 IC,單個可編程邏輯器件就能將三條電路和票決電路集成在一起。(參見圖 2)
圖2 如圖所示的賽靈思 XQR 航天級器件能將使用 TMR 的任務(wù)關(guān)鍵型電路實現(xiàn)在單個芯片中
使用可編程邏輯的主要優(yōu)勢在于設(shè)計人員能夠根據(jù)需要實現(xiàn) TMR。借助這種方法,任務(wù)關(guān)鍵型模塊能夠在無需復(fù)制非重要模塊的情況下,以最高可靠性實現(xiàn),從而避免推高成本和功耗。
此外,因為 ACAP 或 FPGA 中的自適應(yīng)系統(tǒng)并非定制 IC 那樣在功能上是固定的,所以設(shè)計人員在推出新特性時可以避免因重新開發(fā)新 IC 而造成的延誤或成本。
隨著 AI 和機器學(xué)習(xí)技術(shù)不斷演進發(fā)展,成為電子系統(tǒng)不可或缺的組成部分,自適應(yīng)靈活性也正在變得越來越重要。這意味著當(dāng)新的 AI 推斷模型出現(xiàn)時,就可以通過軟件更新的方式來更新硬件系統(tǒng)。此外,這種更新還能用于在軌系統(tǒng),在部署后進一步提高它們的效率和性能。這是直到近期才具備的功能。
擦除
可編程邏輯和定制 IC 之間的差異在于 ACAP/FPGA 需要配置。通過配置,可以定義可編程器件的功能。配置數(shù)據(jù)存儲在基于 SRAM 的單元中,也被稱作配置 RAM 或簡稱 CRAM。因此,CARM 可能受輻射事件的影響,可能會改變可編程器件的既定“特性”。
擦除是一種用來保護配置存儲器單元的方法。器件有專門一部分通過使用校驗和分析,不斷對 CRAM 做逐幀檢查。如果檢測到輻射事件,就啟動重配置。器件“擦除”(即重新加載)被電離輻射損壞的配置幀。在糾正輻射事件后,再繼續(xù)處理。
需要注意的是,只有受影響的幀才需要擦除,整個系統(tǒng)則繼續(xù)不中斷地運行。此外,ACAP/FPGA 也能采用“盲擦除”。在采用盲擦除時,器件不會檢查是否有輻射事件發(fā)生,而是通過定期進行重配置,確保其處在已知的良性狀態(tài)下。這種方法非常可靠,因為它強制刷新 CRAM,甚至是在非必要時。
在之前的幾代產(chǎn)品中,賽靈思 CRAM 防范單事件翻轉(zhuǎn)的擦除機制是通過外接 IC實現(xiàn)的,而如今,該功能已經(jīng)作為一項功能,集成在 FPGA 的可編程邏輯中,或 ACAP 的專用處理器中。
就其本質(zhì)而言,電子產(chǎn)品不具備與生俱來的耐輻射能力。但是卻可以通過先進的設(shè)計方法,讓系統(tǒng)自動識別并改變輻射事件,提高系統(tǒng)的總體耐輻射能力,從而大幅提升可靠性和恢復(fù)能力。通過采用自適應(yīng)平臺,設(shè)計人員可以運用三重模塊冗余技術(shù)和擦除技術(shù),優(yōu)化系統(tǒng)成本,降低占板面積和功耗。
評論