作為芯片行業從業者,估計很多人最怕聽到的就是一些話是:芯片“可靠性”出問題了。對于5G射頻芯片,評估基本性能都已經非常復雜,出了“可靠性”問題更是會讓人膽戰心驚。
如果“可靠性”評估不徹底,器件在終端使用中出現失效,則會影響產品功能,嚴重時可能造成不可挽回的慘痛后果。
但如果對“可靠性”的評估不科學,層層加碼、過度苛責,又會嚴重影響項目進度,使成本、時間急劇上升。
為了科學的解釋和評估電子元器件的可靠性,伴隨著1947年半導體晶體管的發明和大規模應用,逐漸興起了一個學科:可靠性工程。
可靠性工程是提高元器件在整個生命周期內可靠性的一門工程技術學科,涉及設計、分析、試驗等各個產品開發過程。可靠性工程于1950年前后在美國興起,伴隨著半導體技術的進步,已經發展了70年。本文借可靠性工程的相關理念和方法,和大家就芯片的可靠性設計與評估理念做一個討論。
? 可靠性工程中的幾個重要理念??
失效時間:性能退化是基本物理規律
正如人有生老病死,自然界中物體的特性也會逐漸退化。這也符合熱力學第二定律,熵增定律的表現:孤立不可逆系統的熵(無序程度),會隨著時間增加而增加。 ? 既然每個期間都會性能退化,那器件可以使用的時間究竟是多少呢?于是,失效時間(Timeto Failure,TF)的概念就被引入了進來。 ? 在可靠性工程中,認為器件參數S是與時間t相關的函數。性能參數S與初始性能S0、時間t的關系,可以用級數的方式表示出來(m為冪律指數): ?
通過以上公式可以看到,參數S會隨時間變化而變化,變大與變小受正負號控制,變化的幅度受A0控制。 ? 當器件參數S隨時間變化而減小時,假設可以在不同時間將器件參數均采集出來,就可以得到以下器件參數S隨時間變化的曲線: ?
圖:器件參數S隨時間變化而減小
得到以上參數后,如果將S變化原有值的80%作為臨界值,就可以得到不同器件失效時對應的時間。這個時間就定位為失效時間(Time to Failure,TF)。 ?
圖:器件失效時間(TF)的定義 ?
加速退化:可控時間內測試出器件壽命
如前節所述,器件性能的退化是隨時間演進而發生的。對于消費類產品來說,一般生命周期長達數年。在產品推出來之前,先做完整個生命周期的可靠性驗證是不現實的,更不用說一些工業級、車規級的芯片需要10年以上的可靠性壽命。 ? 于是,加速退化的概念就被引入進來。 ? 加速退化(Accelerated Degradation)是指通過提高器件測試條件的應力、或者升高濕度,來加快器件退化的過程。其目的是在不改變失效發生物理機理情況下,縮短失效測試的周期。 ?
加速因子:確定加速的速度
加速測試確實可大大減少可靠性測試所需要的時間,但究竟可以加速到多快呢?加速需要采用的測試條件應力、溫度與加速時間之間又是什么關系?這里就有了加速因子的概念。
加速因子(Accelerated Factor)是加速測試理論中的重要概念,是指在加速應力條件下快速采集器件失效時間數據,并將這些數據外推到器件正常使用環境,得到正常使用下的失效時間。 ? 需要說明的是,采用加速模型進行加速老化實驗時,一定要確保兩點:
加速必須是均勻的
不能改變失效的物理機制
第一點中,加速均勻性的要求是加速模型計算中的需求。第二點“不能改變失效物理機制”同樣需要注意,需要確保不因為參數應力過大,而出現其他失效問題(如瞬間失效燒毀等)。 ? 設計合理的加速測試環境需要對器件的失效機理有著深入的分析。在集成電路產品中,典型的失效機理包含[2]:
電遷移
應力遷移
腐蝕
熱循環疲勞
時間相關介電擊穿
熱載流子注入
離子鍵斷裂
加速測試方法需要根據以上失效機理進行合適設計。
常見的加速退化方法
加速因子與加速時間有對應關系是較為容易理解的,但要精準推導出二者的數學聯系就較為復雜了。 ? 于是,行業組織這時就發揮出了較大的作用。 ? 1958年,由半導體器件制造廠商、設計廠商以及終端應用廠商等,共同成立了行業標準制定組織JEDEC(Joint Electron Device EngineeringCouncil,聯合電子器件委員會),用于制定統一的產業標準制定。 ? 根據器件的老化機理,JEDEC定義了系列的加速測試方法。常見的加速測試方法如下。 ?
圖:常見的加速測試方法
JEDEC所定義的加速測試方法已成為電子器件的標準測試方法。在實際產品交付中,需要將以上可靠性報告,伴隨產品一起向客戶交付。 ?
浴盆曲線模型:將失效分時期看待
為了理解不同時期內器件失效發生的物理機理,可靠性工程中引入著名的“浴盆曲線”概念。 ? 浴盆曲線(Bathtub Curve)認為一般器件失效有三個明顯不同的階段:
早夭期(Early Failure Rate,EFR):在器件早期使用階段發生,失效率較高。這個時期主要的失效原因是器件生產時的嚴重缺陷造成;
本征失效期(Intrinsic FailureRate,IFR):這個階段是由于器件內部材料內部存在微小缺陷造成的;
耗盡期(Wear-out):這個階段器件的性能已經退化,達到使用的末期。此時失效由于器件的正常退化造成。
圖:可靠性浴盆曲線
可靠性浴盆曲線反應了失效的一般規律,甚至可以用生物的生命周期來類比:一般新生兒在出生的24小時內,需要醫生格外關注,如果新生兒有一些出生時的缺陷,則在這個時期很容易出現生命危險;而經過一年之后一直到70歲左右,這個時期內死亡率較低并且趨于平緩;而到70歲之后,人類的器官開始出現消耗殆盡的現象。 ? 對于集成電路來說,早夭期(EFR)可能會延續一年的時間。為了剔除存在缺陷的產品,使之不至于流向客戶造成高的失效率,集成電路會采用讓產品試運行一段時間,來清除有先天缺陷產品,這個清除的過程,被稱為Burn-in(老化)。 ? 將器件做長達一年的Burn-in是不現實的。所以,一般會用到前一節提到的“加速退化”的方法,提升器件工作時的電壓或其他工作條件的應力,使失效時間縮短到幾小時、幾分鐘,甚至幾秒鐘。與加速退化的分析類似,具體所加應力大小與對應時間的關系,需要根據器件的失效各類來確定。 ? Burn-in是一種對產出產品進行100%篩選的非破壞性實驗,目的是將早夭產品剔除。由于實驗對應芯片工作的時長是早期失效階段(比如一年正常工作時間),所以并沒有使器件進入耗盡期而發生性能的退化失效,也不會明顯減少器件使用壽命(器件的壽命通常為數年)。 ? 另外需要說明的是,Burn-in是減少早期失效的一種方式,需要在每顆產品出廠前進行全數測試。如果工藝和設計電路成熟,有數據表明器件早期失效率穩定,也可以在測試中去掉Burn-in的測試。 ?
統計概念的引入:評估性能波動的影響
失效時間定義了器件性能隨時間的變化。在大批量使用時,還會存在不同器件間性能波動的問題。
既然不同器件之間的性能是不完全一致的,那如何衡量波動和確定卡控門限(Limit)呢?于是,統計的概念就被引入了進來。 ? 正態分布(Normal Distribution)是數學家們在18世紀所發現的一種統計規律,著名高斯在1809年對其進行了理論推導與完善,所以正態分布又被稱為高斯分布。 ? 正態分布的作用不止是揭示了一個數學現象,而是在實際工程應用中有著重要的作用。
圖:正態分布及其對應區間的概率
正態分布中兩個重要參數是均值和標準差。均值決定了數據的平均數,標準差決定了數據的分散程度。在正態分布中:
68%的數據在平均值1個標準差內;
95%的數據在平均值2個標準差內;
99.7%的數據在平均值3個標準差內
一旦根據統計分布得出某一變量的均值和標準差后,就可以根據高斯分布,計算出任意給定區間內的概率分布。所以,此種統計的方法可以用來計算給定上下限的良率,或者推測性能波動帶來的ppm失效率。
? 高可靠性芯片的設計和評估??
基于以上可靠性工程理念,在芯片產品開發過程中加入高可靠性設計與評估。 ? 根據芯片是否帶電測試,芯片的可靠性主要分為Electric類與Mechanic類兩類。射頻前端產品常見的可靠性測試內容如下。 ?
圖:常見的可靠性測試項目
以上可靠性測試項根據產品的不同需求,選擇進行評估。部分測試目的相同的測試項(如THB與bHAST),可以二選一進行測試。 ? ?
高可靠芯片的設計
“可靠性是設計出來的,不是測試出來的”是高可靠芯片設計中的重要理念。實現滿足以上可靠性需求的高可靠模組芯片,必須要在設計之初就對芯片的高可靠性加以考慮。 ? 常見的高可靠性芯片設計思路是FMEA(FailureModes and Effects Analysis)方法,下圖為典型的包含FMEA的迭代開發流程。 ?
圖:包含FMEA的迭代開發流程
高可靠芯片的驗證
芯片的可靠性驗證一般遵循一定的測試標準,常見的測試標準為前一章節提到的JEDEC標準,另外還有車規產品驗證的AEC-Q系列標準。 ? 這些標準中建立起標準的測試方法。同時,在器件選取數量、判定標準上也做了明確規定。如下為JEDEC相關測試項及測試標準。高可靠的芯片設計必須完全通過以下測試。 ?
圖:JEDEC所規定的測試項及條件(部分)
? ? 總? ?結???
高質量芯片是先進的設計能力、優質的流程管理、完整的可靠性評估帶來的綜合結果。開發高質量芯片,對設計企業的綜合能力和開發投入提出了高的要求。 ? ?
[1].章曉文等, 2015, 半導體集成電路的可靠性及評價方法
[2].姚立真,2004,可靠性物理
[3].J. W. McPherson, 2019, ReliabilityPhysics and Engineering
[4].https://www.jedec.org/ ?
編輯:黃飛
?
評論
查看更多