電子電路中偶發(fā)故障的成因與探查方法
批量生產(chǎn)的電子產(chǎn)品在投入市場應(yīng)用后,常會有個別出現(xiàn)一些偶發(fā)故障,退回到廠家實驗室后,施加各種應(yīng)力進(jìn)行故障激發(fā)試驗,卻又不能故障再現(xiàn);還有一種情況是研制的有限臺數(shù)樣機(jī)產(chǎn)品,長時間拷機(jī)運行中,個別臺次有很低概率的偶發(fā)故障,或者可自行恢復(fù),或者經(jīng)過人工重啟后也能恢復(fù),但人為施加各種應(yīng)力進(jìn)行試驗,卻不能再現(xiàn)?;蛘呒词构收显佻F(xiàn)了,卻需要超常規(guī)高應(yīng)力的激發(fā),在現(xiàn)實工況中,這種應(yīng)力又根本不會存在,這樣的實驗方法即使有故障再現(xiàn),也缺乏技術(shù)支持的說服力。
本文引用地址:http://cafeforensic.com/article/202305/446372.htm在生產(chǎn)檢驗階段,批量較大的產(chǎn)品,限于制程過程成本,不太可能做到逐臺的全性能檢驗,只能采用抽樣的方式,抽取少量的樣機(jī)進(jìn)行全性能參數(shù)的測試(大多數(shù)機(jī)器做主要參數(shù)測試即可),然后將抽樣樣機(jī)的測試結(jié)果與預(yù)期設(shè)計性能指標(biāo)對比,如果都在指標(biāo)要求范圍內(nèi),則批次性放行。但是這種貌似合理的方法里,卻蘊藏著一個大隱患,就是小概率隱患的機(jī)器抽樣時抽不到的問題。
如何確認(rèn)單臺產(chǎn)品工作狀態(tài)的穩(wěn)定性,以及多臺產(chǎn)品批次生產(chǎn)質(zhì)量控制的一致性這兩個問題呢?這兩項是產(chǎn)品質(zhì)量可靠性的核心問題。這兩個問題的成因、機(jī)理、檢測方法,是本文研究的主題。
1 方法描述
下面用類比的方法來解釋偶發(fā)故障問題的機(jī)理。假設(shè)1 個班級,有50 個孩子,兩周后要去市里參加統(tǒng)考,如果100% 的孩子統(tǒng)考都及格則重獎老師。作為老師,一般會先出1 套模擬試卷做摸底測驗,如果摸底的結(jié)果是50 個孩子都及格,那兩周后的市統(tǒng)考是不是也一定能保證100% 及格呢?答案自然是不能肯定的。雖然都及格了,但50 個孩子的分?jǐn)?shù)從60~100 分都有,按照常識判斷,60~65 分的孩子統(tǒng)考不及格的風(fēng)險概率就會大一些。可是這幾個孩子就一定會不及格嗎?答案是也不一定。
每個孩子的實際水平會是一個基數(shù),考試的次數(shù)足夠多,其分?jǐn)?shù)就會圍繞這個基數(shù)波動,這個基數(shù)就是多次考試結(jié)果的均值μ,用(圖1)來解釋,A 孩子多次考試的均值μa = 64,B 孩子的均值為μb = 72,當(dāng)A 某次考試的種種隨機(jī)原因影響,則有一定的小概率跌到60分以下;而B 因為實際水平均值在72 分,即使發(fā)生一些隨機(jī)因素影響,即便考砸的后果也能在65 分以上。
圖1
A 和B 這兩類不及格的原因會有所區(qū)別,A 會因為成績均值水平偏低(μa = 64)和隨機(jī)概率事件(如題型變化、心理變化等)引起的波動導(dǎo)致小概率性不及格;B 則基本不太會因為常規(guī)隨機(jī)小概率事件影響導(dǎo)致不及格,但它有另一種隱患,就是可能會因為發(fā)生大的特定意外(如發(fā)燒、牙疼、情感受挫等)而不及格。
因此,為了確保參加市統(tǒng)考的50 個孩子都能及格,就可以針對可能不及格的因素,針對性地做好預(yù)防,對A 類孩子強(qiáng)化補課,補課把分?jǐn)?shù)都提高到80 分以上;對B 類孩子呵護(hù)有加,防止考前發(fā)生大的意外,比如封閉管理,清淡飲食,禁止激烈對抗性運動等。做好這兩點,隨機(jī)小事件不至于導(dǎo)致不及格,個別大意外不會發(fā)生或者即使發(fā)生也不讓它影響到考試,批量統(tǒng)考不及格問題便迎刃而解。
依據(jù)如上道理,做類比分析,1 臺產(chǎn)品里,假設(shè)有50 個參數(shù),每個參數(shù)類比于1 個孩子的成績,參數(shù)的類型有電壓、電流、溫度、扭矩、流量、壓力等,每個參數(shù)在工作中多少總有點波動,但設(shè)計師在產(chǎn)品設(shè)計上對這些波動也會有一定的容忍度,這個容忍度的邊界便是及格線60 分。在廠區(qū)里拷機(jī)的時候設(shè)備一切正常,可以理解成摸底考試的每個參數(shù)都在60 分以上。
但到了客戶現(xiàn)場后,工況條件有所變化,這些參數(shù)工作時會有所波動,原來在廠區(qū)A 類的參數(shù)(類比A類的孩子)因現(xiàn)場隨機(jī)工況導(dǎo)致波動偶發(fā)偏大,參數(shù)低于60 分臨界值的小概率偶發(fā)故障就可能發(fā)生了。隨機(jī)事件在現(xiàn)場是不可消除的,解決方法是提高A 類孩子的均值分?jǐn)?shù),即使有隨機(jī)事件減分的影響,也不至于低于及格線,便可降低整機(jī)的故障概率了。
而遠(yuǎn)離臨界值余量比較大的B 類參數(shù)(類比為B類的孩子),常規(guī)的一般性波動,不會造成小概率的偶發(fā)故障,但有可能因為突發(fā)大事件工況導(dǎo)致B 類參數(shù)也會超出臨界值,如電機(jī)的突然啟停、突然的沖擊振動等。解決方法是抑制大事件的幅度、處理大事件耦合過來的影響程度、提高受擾部分的抗擾能力,便可降低B 類問題的故障概率。
理解了如上的原理,針對偶發(fā)故障的探查方法就可以得出如下幾條思路:
1)對于現(xiàn)場的偶發(fā)故障,故障機(jī)器返廠回實驗室后,不必再把故障復(fù)現(xiàn)作為首選工作方案,因為這種小概率偶發(fā)故障有可能根本復(fù)現(xiàn)不了,就好像A類的孩子,摸底考三五份試卷,不一定肯定會低于60 分,考上千份試卷或許可能有一兩次不及格,但時間成本、試驗費用,又不能接受。
2)根據(jù)故障現(xiàn)象,分析可能導(dǎo)致此問題的被懷疑參數(shù);
3)查出每個被懷疑參數(shù)的臨界值(電學(xué)參數(shù)可查閱信號接收入口端的電壓或電流容限[1]);
4)若故障機(jī)器不方便返廠,甚至可以找1 臺跟故障機(jī)器在設(shè)計方案、器件型號和廠家、工藝幾方面完全相同的機(jī)器,對被懷疑的問題參數(shù)(數(shù)據(jù)或波形)進(jìn)行測量;
5)將測試結(jié)果與臨界值(類比于60 分及格線)做對比,評估出其大概分?jǐn)?shù),定性分析看是否在臨界值以上的余量是否夠大;
6)對測量出的在常態(tài)工作下參數(shù)分值都高出60 分余量不多的參數(shù),進(jìn)行專項整改,提高其常態(tài)均值。然后做批量驗證,如果偶發(fā)小概率故障不再出現(xiàn)的話,整改方案則可評審?fù)ㄟ^。完美避開故障再現(xiàn)不能實現(xiàn)的難題。這個做法類比對應(yīng)針對A 類孩子的做法;
7)檢查產(chǎn)品中的功能模塊、以及產(chǎn)品周邊配套的設(shè)備,是否有瞬態(tài)啟停的大功率工況。搭建模擬實驗環(huán)境,人為制造這種工況,在相應(yīng)工況下,測試余量較大的被懷疑相關(guān)參數(shù),檢查波動時是否有低于或接近于臨界值的情況,如果有,則針對這種工況下的參數(shù)進(jìn)行整改,整改后,做單臺測試,模擬干擾工況下,該參數(shù)波動值都能遠(yuǎn)離臨界值,整改方案則可評審?fù)ㄟ^。這個做法類比針對B 類孩子的做法。
2 量化分析
通過對參數(shù)數(shù)據(jù)的風(fēng)險評估,判斷偶發(fā)故障是否由該參數(shù)引起,僅靠定性判斷既缺乏說服力,也讓技術(shù)決策比較困難。因此需要有定量的分析方法。以信號電壓參數(shù)波動導(dǎo)致出現(xiàn)偶發(fā)故障示例來說明量化分析的步驟,以便據(jù)此判斷是否由此參數(shù)導(dǎo)致的偶發(fā)故障、也可根據(jù)分析結(jié)果預(yù)測實際產(chǎn)品的偶發(fā)故障概率值。
1)首先測試該波形,然后隨機(jī)取樣,取樣值數(shù)量應(yīng)具備統(tǒng)計參考價值,可根據(jù)統(tǒng)計參考價值和實際操作的時間和人力成本綜合決定,推薦適當(dāng)多取一點,也可根據(jù)統(tǒng)計采樣樣本量的計算公式來[2],按照顯著性水平5%,置信水平95%,計算得出適用的樣本數(shù)量。
2)取樣后,計算電壓值的均值μ 和標(biāo)準(zhǔn)差σ;
3)計算電路參數(shù),確認(rèn)電路對該輸入電壓要求的臨界值Vmax、Vmin 的具體值,這個值要結(jié)合具體電路確定,如5 V CMOS 數(shù)字芯片,輸入信號管腳的高電平臨界判定電壓一般為0.7×Vcc=3.5 V,常規(guī)標(biāo)稱值為4.9~5 V,最大允許值為Vcc+0.5 V,意指該管腳允許輸入的電壓應(yīng)該在(3.5 V,5.5 V)之間,超出這個區(qū)間,則有可能損壞或者電平信號出錯;
4)對比計算參數(shù)和電壓臨界值參數(shù),如3)中示例,至少需要滿足如下條件:
5)如果不滿足4)的條件,則需對該電路的紋波進(jìn)行整改,反復(fù)迭代,最終滿足要求。計算的過程可以借助EXCEL 或者統(tǒng)計分析軟件的強(qiáng)大計算功能來完成,以節(jié)省人力。
6)根據(jù)2)計算出的均值μ 和標(biāo)準(zhǔn)差σ 的結(jié)果,在不整改的情況下,看臨界值在統(tǒng)計分布中的位置,利用正態(tài)分布的計算方法[3],可以計算出超出臨界值的發(fā)生概率,由此推斷出現(xiàn)場工況下的偶發(fā)故障概率。
3 案例應(yīng)用
某產(chǎn)品電源電壓紋波大,是偶發(fā)故障的疑似根源,波形如圖2。
圖2
圖2 為5 V 的電源紋波波形圖(該圖為交流耦合測試結(jié)果),通過功能分析,產(chǎn)品偶發(fā)故障疑似與此電源的波動相關(guān),于是測試該波形。結(jié)合電路分析,導(dǎo)致偶發(fā)故障的是下降的尖峰電壓,因為信號電壓直接跟隨電源電壓而波動,本應(yīng)該輸出高電平信號,卻因為下沖的電源電壓導(dǎo)致輸出端的高電平電壓低,發(fā)送到接收端時可能識別不出來。以紋波電壓為研究對象,按照本文第三章的方法進(jìn)行測試分析。
1)以下沖的尖峰為研究對象,結(jié)合工程經(jīng)驗,這些突出的尖峰一般是開關(guān)電源的MOSFET 開和關(guān)瞬間形成的,預(yù)估定義下沖200 mV 以內(nèi)的波動為電路的隨機(jī)事件引發(fā),超出200 mV 的為開、關(guān)瞬態(tài)導(dǎo)致,而開關(guān)瞬態(tài)形成的尖峰組事件也符合隨機(jī)事件的特征,以時間軸為抽樣點,連續(xù)抽取下沖超出200 mV 的每個尖峰的電壓值,并記錄采樣數(shù)據(jù)1 000 個。
2)計算該下沖電壓的均值μ 和標(biāo)準(zhǔn)差σ(因為是下降電壓,低于基線電壓,因此是個負(fù)數(shù));
3)計算電路參數(shù),確認(rèn)對電源Vcc 要求的低電平臨界值Vcc min;
4)對比計算參數(shù)和Vcc 臨界值參數(shù),應(yīng)滿足如下條件(由本節(jié)2)中可知,此公式中μ、σ 均為負(fù)值):
5)若不滿足4)的條件,則需對紋波進(jìn)行整改抑制。
反復(fù)整改迭代直到滿足的要求。
4 結(jié)束語
總結(jié)起來,本文的核心描述了偶發(fā)故障的兩個成因和解決方法,總結(jié)如下:
1)超出臨界值余量不多的參數(shù),即在及格線以上附近波動的參數(shù)是偶發(fā)故障的根源之一,這里命名為“60分原理”,針對這類參數(shù)進(jìn)行整改提升,使參數(shù)值達(dá)到80,甚至90 分以上即可。這樣,可以繞開故障再現(xiàn)的難題,在隱患產(chǎn)品正常工作的情況下,卻可以定位到問題點、找到解決問題的目標(biāo)對象和措施。量化值判斷的方法和故障概率的評估可運用正態(tài)分布的原理和計算方法作為指導(dǎo)。
2)另一種引起偶發(fā)故障的根源是產(chǎn)品內(nèi)大功率模塊、以及周邊配套的大功率設(shè)備,在瞬態(tài)啟停的工況下,將本來余量足夠大、隨機(jī)干擾根本不足以導(dǎo)致其故障的參數(shù),給影響到了超出限制引起故障的地步。這部分的具體實驗方法和機(jī)理比較易于理解,因此在本文中未做重點展開和案例說明,但它仍是一個需要重點關(guān)注的點和解決思路。
參考文獻(xiàn):
[1] 武曄卿,李東偉,石小兵.電路設(shè)計工程計算基礎(chǔ)[M].北京:電子工業(yè)出版社,2018,7.
[2] 賈俊平,何曉群,金勇進(jìn).統(tǒng)計學(xué)[M].第六版.北京:中國人民大學(xué)出版社,2015,1.
(本文來源于《電子產(chǎn)品世界》雜志2023年4月期)
評論