基于多IP核復(fù)用SoC芯片的可靠性研究
1 引言
本文引用地址:http://cafeforensic.com/article/189633.htm隨著半導(dǎo)體工藝技術(shù)的發(fā)展, 愈來愈復(fù)雜的IP核可集成到單顆芯片上, SoC (片上系統(tǒng))技術(shù)正是在集成電路( IC) 向集成系統(tǒng)( IS)轉(zhuǎn)變的大方向下產(chǎn)生的。采用SoC 技術(shù), 可將微處理器、模擬IP核、數(shù)字IP核和存儲(chǔ)器等集成在單一SoC芯片上, 因而具有很多優(yōu)勢: 采用IP核復(fù)用技術(shù)可大幅度縮短芯片的研發(fā)周期和費(fèi)用; 采用IP核復(fù)用技術(shù)能極大改善功耗開銷, 降低風(fēng)冷要求,并可大幅度減少印制板上部件數(shù)和管腳數(shù); 由于以前板級連線全部集成到芯片中, 從而帶來整機(jī)的可靠性的大幅度提高; 可以縮短整機(jī)的研發(fā)時(shí)間和研發(fā)費(fèi)用等。
由于各類IP核質(zhì)量參差不齊, 到目前為止, IP核的接口標(biāo)準(zhǔn)和質(zhì)量標(biāo)準(zhǔn)還未完全統(tǒng)一, IP 核質(zhì)量評估手段還需完善, SoC 芯片集成的IP核越多, 其可靠性降低的風(fēng)險(xiǎn)就越大, 因而非常必要研究多IP核復(fù)用SoC的可靠性, 多IP核復(fù)用SoC 的可靠性受處理器、外圍模塊IP核、多IP核間通信的可靠性的影響。
2 SoC芯片可靠性研究
可靠性技術(shù)的實(shí)現(xiàn)都是以容錯(cuò)為基礎(chǔ), 容錯(cuò)技術(shù)主要是依靠資源的冗余和系統(tǒng)重構(gòu)資源的組織來完成。冗余主要包括硬件冗余、軟件冗余、時(shí)間冗余、信息冗余等。硬件冗余是在常規(guī)的硬件功能設(shè)計(jì)之外再另加一些備用的附加的硬件, 當(dāng)常規(guī)硬件發(fā)生錯(cuò)誤時(shí)備用硬件起作用, 使系統(tǒng)仍然能夠正常工作; 軟件冗余是增加一些額外的用于檢錯(cuò)糾錯(cuò)的程序, 當(dāng)運(yùn)行出錯(cuò)時(shí)程序能夠自行進(jìn)行檢錯(cuò)糾錯(cuò); 時(shí)間冗余是為某一指令或一段程序開辟額外的時(shí)間讓其重復(fù)執(zhí)行; 信息冗余是增加信息的多余度, 使其自己具有檢錯(cuò)糾錯(cuò)的能力。
從以下三個(gè)方面對多IP復(fù)用SoC 進(jìn)行了可靠性研究: 處理器的可靠性、多IP核間通信的可靠性、IP核工作異常狀態(tài)檢測。
2. 1 片上處理器的可靠性
處理器的可靠性直接決定著SoC 芯片的可靠性。從Cache容錯(cuò)、寄存器文件錯(cuò)誤保護(hù)、觸發(fā)器的錯(cuò)誤保護(hù)等方面進(jìn)行了研究來提高處理器的可靠性, 并分析對整個(gè)SoC 芯片可靠性的影響。
2. 1. 1 Cache容錯(cuò)
在電路中加一個(gè)Cache Contro ller 模塊, 在該模塊中實(shí)現(xiàn)對Cache的管理。其中錯(cuò)誤檢測的方法采用2 位的奇偶校驗(yàn)位, 1位作為奇校驗(yàn), 1位作為偶校驗(yàn), 在讀Cache的同時(shí)進(jìn)行校驗(yàn)。如果校驗(yàn)出錯(cuò), 則強(qiáng)迫Cache 不命中, 并從外部存儲(chǔ)去獲取數(shù)據(jù)。CACH E的控制結(jié)構(gòu)如圖1所示。
圖1
2. 1. 2 寄存器文件的錯(cuò)誤保護(hù)
采用1、2奇偶校驗(yàn), 同時(shí)采用( 32. 7) BCH 校驗(yàn)和進(jìn)行容錯(cuò)。寄存器文件錯(cuò)誤保護(hù)原理如圖2所示。
2. 1. 3 觸發(fā)器的錯(cuò)誤保護(hù)
采用TMR三模冗余的方式進(jìn)行容錯(cuò)。觸發(fā)器錯(cuò)誤保護(hù)中,通過比較器來進(jìn)行表決以輸出正確的數(shù)據(jù)輸出。TMR ( Tr ip le-M odu la r- Redundancy)的原理是將同一份信息保存在三份物理存儲(chǔ)空間中。讀取的時(shí)候比較三份內(nèi)容, 如果不完全相同, 就取兩個(gè)一致的值為真值。在控制器通過總線向內(nèi)存寫入數(shù)據(jù)(WR 有效) 時(shí), 每一比特?cái)?shù)據(jù)通過三態(tài)門同時(shí)寫到三個(gè)對應(yīng)的比特存儲(chǔ)單元中。當(dāng)總線向內(nèi)存請求數(shù)據(jù)( RD有效) 時(shí), 三份同時(shí)存儲(chǔ)的內(nèi)容到達(dá)比較器, 比較器邏輯按照前述規(guī)則輸出數(shù)據(jù)內(nèi)容及是否發(fā)生2 /3判決的標(biāo)記。這是一種在系統(tǒng)結(jié)構(gòu)上通過增加冗余資源的方法來掩蓋故障造成的影響, 使得即使出錯(cuò)或發(fā)生故障, SoC芯片的功能仍不受影響, 仍能夠正常執(zhí)行預(yù)定任務(wù)的技術(shù)。
圖2
觸發(fā)器的錯(cuò)誤保護(hù)中采用TMR三模冗余寄存器的方式進(jìn)行容錯(cuò)。觸發(fā)器錯(cuò)誤保護(hù)中, 通過比較器來進(jìn)行表決以輸出正確的數(shù)據(jù)輸出。這種容錯(cuò)設(shè)計(jì)中, 當(dāng)有一個(gè)以下冗余寄存器出錯(cuò)時(shí)可以輸出正確結(jié)果, 當(dāng)兩個(gè)以上的冗余寄存器出錯(cuò)時(shí)就會(huì)輸出錯(cuò)誤的結(jié)果。觸發(fā)器文件的錯(cuò)誤保護(hù)原理如圖3所示。
圖3
評論