雖然做了很多工作,但是可靠性是個系統性的工程、跨學科的領域。大家操作起來總覺得缺乏思路,也覺得知識點比較零散。我們正在準備中國電子學會_硬件工程師_可靠性(高級)的課程。所以正在對整體做更系統的梳理和總結。
也希望大家給我們提供意見和建議。所以我們也希望做一個完整的、系統的梳理。然后從方法論的角度,對大家梳理思路,能夠清晰地入手可靠性提升的工作。
一、用理論的方法對系統可靠性進行預計,并且找到薄弱點。
這個是很多可靠性公司或者咨詢公司,喜歡入手的方法。但是很多硬件工程師會覺得,這個方法不夠落地,整了很多數據,實際沒有什么作用。
正是因為工作量大,與實操可靠性提升缺乏線性指導關系,導致大家覺得沒用。但是我們真正要做好可靠性還是需要從這個維度入手。我們從理論分析時,需要做如下工作。
? 建立可靠性模型
串聯模型:組成產品的所有單元中任一單元發生故障都會導致整個產品故障
并聯模型:組成產品所有單元同時工作時,只要有一個單元不發生故障,產 品就不會故障,亦稱貯備模型
表決模型:組成系統的n個單元中,正常的單元數不小于r(1≤r≤n)系統就不會故障,這樣的系統稱為r/n(G)表決模型。? 可靠性分配
在產品設計階段,將產品的可靠性定量要求按規定的準則分配到規定的產品層次的過程。
可靠性分配的目的:
將整機可靠性要求分配到各組成單元
明確設計時對各組成單元控制的重點
? 可靠性預計
通過將整個硬件系統進行拆分,從每個可以提供失效率的單元,按照模型進行計算,得到整體的失效率。
所以我們需要經歷:建立模型→分解部件→預計可靠性是否滿足需求→找到可靠性的短板→優化(模型優化,系統級優化,模塊級優化,器件級優化)。
在實操過程中,大家擔心的是:
1、很多器件的失效率無法獲得。缺少一個數據可能導致結果不準確。
2、很多數據并不準確。
3、計算量巨大,但是與實際數據相差甚遠。
但是,我們通過計算,可以找到短板,同時可以從理論評估是否滿足失效率需求。需要我們企業累積的去投入,形成數據積累和工具積累,在每個項目的時候的重復勞動避免,則大大提供效率和準確度。
二、評估設備的組件會怎么失效,失效之后會有什么后果。
這個方法其實就是FMEA
?FMEA:Failure Modes and Effects Analysis,失效模式與影響分析。講白點,就是通過“想”和窮舉法,一一考慮各個器件(組件)可能會怎么壞掉?壞掉之后有什么影響,分析分析,看看軟件、硬件層面,有沒有什么手段和措施能夠檢測、解決、隔離、恢復這個問題。
指在產品的設計過程中,通過對系統各組成單元潛在故障模式對產品功能的影響分析,或對系統功能流程各個步驟,數據流和存儲各環節失效后對產品影響分析,把每個潛在故障模式按影響嚴酷程度分類,提出預防改進措施,如故障檢測、故障隔離、故障恢復等軟硬件故障管理需求及測試驗證需求,以提高系統的可靠性可維護性的分析方法。
FMEA 是一種自下而上的方法,用于分析一個系統設計或制造過程,以評估潛在的失效和影響。
FMEA的基本思想:遍歷性、系統性。
我們可以在很多FMEA的教材上面看到這兩個概念:遍歷性、系統性。那么這兩點在硬件設計的過程中是如何體現的呢?
FMEA的分析方法:
硬件法,從硬件的角度,對每個器件管腳輸出分別去考慮故障模式、故障影響、檢測補償措施。(因為我們遍歷了每一個器件、每一個器件的每一個管腳,所以這里體現了遍歷性)
功能法,每個產品可以完成若干功能,而功能可以按輸出分類。這種方法將輸出一一列出,并對它們的故障模式進行分析。對應系統級、單板級分析。(此處按照功能和場景,對故障模式分別進行遍歷和分析)。
我們在實現FMEA的時候,需要提升產品的可測試性,同時需要一些軟件、硬件方法,對部分故障單元進行記錄、復位、下單,等操作。
三、測試+實驗方法
這就是用事實的方法來判斷產品是否滿足可靠性要求,并且來尋找產品可靠性的短板。
既然很多同學不相信方法一、和方法二。計算為虛,實驗為實。真刀真槍上試驗臺,看看產品是不是扛得住折磨,特別是正式量產之前,要足夠樣本對可靠性進行摸底。
所以,我們經常需要做的一件事:拷機。
這里不是烤雞,而是針對產品特性進行長時間工作測試,看看經不經得住考驗。例如上圖中,折疊屏手機,需要機械裝置對其進行反復操作。
當然這個方法太慢了,我們需要對設備的壽命檢驗進行加速。我們一般采用的方法就是加大“應力”——熱應力、機械應力、化學應力、電應力。
此處涉及內容比較多,各個行業有各個行業的實驗標準,此處暫時不贅述。
但是實驗是最真實可靠的檢驗標準。
四、故意搞破壞
這個方法就是為了檢驗我們產品,我們做故障注入的方法——FIT(
fault injection techniques 故障注入技術)。這個方法也是驗收方法二(FMEA)的標準。
我們在設計階段,就把FMEA的需求做好,然后在設計過程中,就考慮到FMEA的需求。同時設計好,最后怎么驗收,也就是FIT測試的方法。
所以故意搞破壞,也要是有的放矢的搞破壞,不是想一出是一出。記得有測試人員說她的發卡掉到電路板上了,電路板掉電不能恢復。但是,無法復現,也不知道具體什么故障模式。FIT測試也是設計出來的,不是隨意試出來的。
FIT方案設計基于兩個原則:
一是保證測試的覆蓋率
二是保證測試工作量的可執行性
用例設計中考慮故障出現的概率(根據FMEA分析結果)。對可能產生同一種影響的不同故障考慮故障模式的收斂,即只模擬一種故障模式(前提故障檢測是通過檢測這些故障模產生的故障影響來確定故障,而不是直接檢測故障模式)
五、防護設計
我們針對故意搞破壞的,還有應力,需要有針對性的做一些設計:熱設計、結構設計、化學防護設計、EMC防護設計(防雷擊、防浪涌、ESD)等等。
熱設計
(1)熱設計的主要設計方法
(a)傳導散熱設計。如:選用導熱系數大的材料,加大與導熱零件的接觸面積,盡量縮短熱傳導的路徑,在傳導路徑中不應有絕熱或隔熱件等。
(b)對流散熱設計。如:加大溫差,即降低周圍對流介質的溫度;加大流體與固體間的接觸面積;加大周圍介質的流動速度,使它帶走更多的熱量等。
(c)輻射散熱設計。如:在發熱體表面涂上散熱的涂層以增加黑度系數;加大輻射體的表面面積等。
(d)耐熱設計。如:接近高溫區的所有操縱組件、電線、線束和其它附件均應采取防護措施并用耐高溫材料制成;導線間應有足夠的間隙,在特定高溫源附近的導線要使用耐高溫絕緣材料。
熱設計基礎(上)
熱設計基礎(中)
熱設計基礎(下)
環境防護設計(三防)
(1)防潮濕設計
采取具有防水、防霉、防銹蝕的材料。
提供排水疏流系統或除濕裝置,消除濕氣聚集物。
采取干燥裝置吸收濕氣。
應用保護涂層以防銹蝕。
憎水處理,以降低產品的吸水性或改變其親水性能
浸漬,用高強度和絕緣性能好的涂料來填充某些絕緣材料。
(2)防鹽霧腐蝕設計
防止鹽霧導致的電化學腐蝕、電偶腐蝕、應力腐蝕、晶間腐蝕等。
(3)防霉菌設計
采用防霉劑處理零部件或設備。
設備、部件密封,并且放進干燥劑,保持內部空氣干燥。
在密封前,材料用足夠強度的紫外線輻照,防止和抑殺霉菌。
另外還有一些,例如防硫化、防氧化、設計等。
抗沖擊、振動和噪聲設計
(1)抗沖擊、振動和噪聲設計的主要方法
消源設計。如:液體火箭發動機的振動是導彈的一個主要的振源,通過消除發動機不穩定燃燒、改變推力室頭部噴嘴的排列和流量,減小其振源,就能降低導彈振動的等級。
隔離設計。如:采用主動隔離或者被動隔離方法將設備與振源隔離開來。減振設計。如:采用阻尼減振、動力減振、摩擦減振、沖擊減振等方法消耗或者吸收振動能量。
抗振設計。如:改變安裝部位;提高零部件的安裝剛性;安裝緊固;采用約束阻尼處理技術;采用部件密封;防止共振等。
六、故障分析(失效模式與失效分析)
包括系統故障分析,以及器件失效分析。按照不用的層級,我們需要做不同深度的維度的失效分析。
器件選型時,我們需要考慮其失效模式,同時需要考慮其失效機理。如果發生失效了,我需要做好器件的失效分析。
需要了解失效分析,可以點擊查看,之前的文章合集:失效分析合集
七、硬件穩定性相關的電路設計
很多工程師覺得,如果這個沒做好,或者沒有做到,根本就不是合格的產品。前面說的六條都是浮云。
冗余設計
降額設計
單板上電、復位設計
信號完整性
電源完整性
邏輯電平設計
等等
八、管理
管理這兩個字,有時看似很虛,但是通過管理,我們可以把人本身的不穩定因素剔除掉,避免因為人犯錯誤導致的不可靠。
這里包括研發管理、生產管理、物料管理、流程管理等等。我們后續通過文章和視頻進行詳細地介紹。
審核編輯 :李倩
-
邏輯電平
+關注
關注
0文章
158瀏覽量
14452 -
模型
+關注
關注
1文章
3296瀏覽量
49042 -
組件
+關注
關注
1文章
516瀏覽量
17887
原文標題:提高可靠性的關鍵措施
文章出處:【微信號:Hardware_10W,微信公眾號:硬件十萬個為什么】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論