正文
CAN的BusOff源于錯(cuò)誤幀的積累,而錯(cuò)誤幀這個(gè)東西,是一個(gè)接收節(jié)點(diǎn) 認(rèn)為數(shù)據(jù)有誤 故意打斷通信,好讓發(fā)送節(jié)點(diǎn)感知到 并重發(fā)報(bào)文的設(shè)計(jì)。注意這里邊有個(gè)“我覺(jué)得你有病”的認(rèn)知陷阱,讓CAN的診斷變得近似玄學(xué)。本文分享一種用從CAN波形的幅度和脈寬信息 來(lái)精確定位錯(cuò)誤幀來(lái)源的方法,可能是首創(chuàng),哪里沒(méi)講明白歡迎反饋。
我們先從基礎(chǔ)的講起,后邊會(huì)用得到。CAN節(jié)點(diǎn)的電路一般如下圖所示,MCU內(nèi)置了CAN控制器?用來(lái)將MCU的數(shù)據(jù)封裝為CAN幀格式,同時(shí)它也負(fù)責(zé)CAN幀的校驗(yàn)和錯(cuò)誤幀的處理。控制器封裝好的邏輯報(bào)文經(jīng)TX RX送到CAN收發(fā)器,將邏輯信號(hào)轉(zhuǎn)變?yōu)檎嬲目偩€差分波形。
CAN物理層,也就是CAN收發(fā)器干了啥
一個(gè)典型的雙節(jié)點(diǎn)CAN網(wǎng)絡(luò)的物理層等效電路如上圖,兩顆120Ω終端電阻并聯(lián)呈現(xiàn)總線電阻60Ω。黑框里是A、B兩個(gè)節(jié)點(diǎn)的CAN收發(fā)器(Transceiver),它只負(fù)責(zé)電平轉(zhuǎn)換。當(dāng)總線靜默時(shí),收發(fā)器內(nèi)部的2.5V電源經(jīng)15KΩ電阻把CAN-H和CAN-L都拉到2.5V,總線這個(gè)狀態(tài)稱(chēng)之為隱性。當(dāng)節(jié)點(diǎn)A想要驅(qū)動(dòng)總線的時(shí)候(TX=0),它同時(shí)把內(nèi)部的上下兩個(gè)MOS管導(dǎo)通,整個(gè)網(wǎng)絡(luò)的電流流向:節(jié)點(diǎn)A的5V電源經(jīng)二極管、24Ω、兩顆終端電阻并聯(lián)、24Ω、二極管回到節(jié)點(diǎn)A的地,總線這個(gè)狀態(tài)稱(chēng)之為顯性。CAN總線上的電壓實(shí)際上就是終端電阻的分壓。從節(jié)點(diǎn)B來(lái)看,CAN-H就變成3.5V,CAN-L變成1.5V,拉出了總線 H - L = 2V 的差分電壓,大于0.7V的判斷閾值,節(jié)點(diǎn)B就認(rèn)為收到了一個(gè)顯性(RX=0)。大家可以算一下分壓值以增強(qiáng)記憶,后邊會(huì)用到。
反直覺(jué)知識(shí)點(diǎn)①:總線無(wú)人驅(qū)動(dòng)時(shí),也就是各個(gè)節(jié)點(diǎn)都隱性時(shí),CAN標(biāo)準(zhǔn)定義這時(shí)的TX/RX邏輯電平為1;總線有節(jié)點(diǎn)驅(qū)動(dòng)顯性,也就是主動(dòng)拉開(kāi)差分電壓的時(shí)候,對(duì)應(yīng)TX/RX端邏輯電平0,這個(gè)1/0的反邏輯非常鬼畜,努力適應(yīng)一下。這么做我猜有兩個(gè)原因:一是對(duì)地邏輯的抗擾能力強(qiáng)一些,NMOS載流能力強(qiáng)&回流路徑短;二是為了數(shù)學(xué)上的嚴(yán)謹(jǐn)性:1*1*1*...*1*0 = 0,任意節(jié)點(diǎn)驅(qū)動(dòng)顯性0,那總線就是顯性0;所有節(jié)點(diǎn)隱性1,總線才是隱性1。但這樣的反邏輯帶來(lái)一個(gè)問(wèn)題是,電路設(shè)計(jì)時(shí)需要尤其注意上下電時(shí)序,上電/休眠/喚醒過(guò)程中千萬(wàn)不要出現(xiàn)MCU已下電(TX拉低)但CAN收發(fā)器還供5V電的情況。如果實(shí)在難以避免,可以試試單3.3V的CAN收發(fā)器SN65HVD230,它不需要5V電源,邏輯電和驅(qū)動(dòng)電共用同一路3.3V,肯定不會(huì)出現(xiàn)電源時(shí)序問(wèn)題。
反直覺(jué)知識(shí)點(diǎn)②:理論上CAN_L短地,或 CAN_H短路12V,因60Ω終端電阻的存在,隱性時(shí)CAN-H與CAN-L之間基本還是重合的,顯性時(shí)也能正常拉開(kāi)壓差,能維持正常通信,只不過(guò)丟包率可能會(huì)大一點(diǎn)。大家可以算算總線電壓,示波器很容易診斷這個(gè)問(wèn)題。另外,如果你看到CAN的通信電壓不是以2.5V為中心對(duì)稱(chēng)的,也有可能是多個(gè)CAN線交叉錯(cuò)接,比如CAN1_L錯(cuò)接到了CAN2_L上。
反直覺(jué)知識(shí)點(diǎn)③:一個(gè)CAN網(wǎng)絡(luò)里,120Ω終端電阻1~4顆都能工作,少了的話 離終端電阻遠(yuǎn)的節(jié)點(diǎn) 抗擾度會(huì)差,多了的話 顯性差分電壓可能無(wú)法觸發(fā)閾值。
反直覺(jué)知識(shí)點(diǎn)④:除了線路的最遠(yuǎn)端,任何稍長(zhǎng)的CAN分支都可以加1K~4.7K的支線電阻,跑點(diǎn)電流來(lái)改善抗擾度。只要分支別太長(zhǎng),大致1Mbps以?xún)?nèi)的任何總線其終端電阻都是跑電流增強(qiáng)抗擾的,不涉及真正的阻抗或者反射抑制,雙絞的要求也不是特別嚴(yán)格,排查時(shí)無(wú)需過(guò)于嚴(yán)苛。
CAN鏈路層,也就是CAN控制器干了啥
回顧完物理層,咱來(lái)看鏈路層,CAN幀的標(biāo)準(zhǔn)格式。當(dāng)發(fā)送節(jié)的MCU將TX由1變0的時(shí)候,CAN收發(fā)器將CAN-H拉高&CAN-L拉低,接收節(jié)點(diǎn)收到了H-L>0.7V的壓差后,接收節(jié)點(diǎn)的CAN收發(fā)器RX輸出由1變0。下圖是一個(gè)節(jié)點(diǎn)接收到CAN波形后解碼出的RX邏輯。
一幀報(bào)文里邊有比較關(guān)鍵的幾段:?仲裁段?、?控制段?、?數(shù)據(jù)段?、CRC段、ACK段。
仲裁段?中的大部分是CAN報(bào)文的ID,起名為“仲裁”其實(shí)是因?yàn)檫@一段有優(yōu)先級(jí)仲裁的功能:假設(shè)A、B兩個(gè)節(jié)點(diǎn)在同一時(shí)刻搶發(fā)報(bào)文,節(jié)點(diǎn)A要發(fā)二進(jìn)制ID為001的報(bào)文,B要發(fā)010。當(dāng)A、B節(jié)點(diǎn)都在發(fā)第一位的顯性0的時(shí)候,總線會(huì)同時(shí)被兩個(gè)節(jié)點(diǎn)驅(qū)動(dòng)顯性,A、B節(jié)點(diǎn)回讀總線也都是顯性,相互之間還意識(shí)不到對(duì)方的存在。當(dāng)節(jié)點(diǎn)A發(fā)到第二位的0,節(jié)點(diǎn)B發(fā)到第二位的1的時(shí)候,總線只有節(jié)點(diǎn)A驅(qū)動(dòng)顯性0,節(jié)點(diǎn)B不驅(qū)動(dòng) 卻發(fā)現(xiàn)總線被別人驅(qū)動(dòng)了,此時(shí)節(jié)點(diǎn)B會(huì)認(rèn)為CAN線上有比自己這幀010優(yōu)先級(jí)更高的數(shù)據(jù),節(jié)點(diǎn)B就會(huì)主動(dòng)停發(fā),讓節(jié)點(diǎn)A獨(dú)占總線發(fā)完。之后節(jié)點(diǎn)B懷揣著這幀數(shù)據(jù)再次參與總線優(yōu)先級(jí)的仲裁。
反直覺(jué)知識(shí)點(diǎn)①:CAN作為一個(gè)對(duì)等網(wǎng)絡(luò),沒(méi)有主從關(guān)系,報(bào)文全部廣播,節(jié)點(diǎn)本身也沒(méi)有優(yōu)先級(jí)概念,只有報(bào)文ID的優(yōu)先級(jí)。可以這么理解:CAN節(jié)點(diǎn)是“由事件驅(qū)動(dòng)的”,比如剎車(chē)制動(dòng)器,它能發(fā)高優(yōu)先級(jí)的“剎車(chē)被踩下”的報(bào)文,也會(huì)發(fā)低優(yōu)先級(jí)的“剎車(chē)油位正常”的報(bào)文,這些報(bào)文根據(jù)ID的大小在總線上自由競(jìng)爭(zhēng)優(yōu)先級(jí),而不是剎車(chē)制動(dòng)器這個(gè)節(jié)點(diǎn)的話語(yǔ)權(quán)一定高。這個(gè)特性就要求設(shè)計(jì)人員提前規(guī)劃好所有報(bào)文優(yōu)先級(jí)和周期(即“通信矩陣”)才能保證整個(gè)CAN網(wǎng)絡(luò)如期運(yùn)轉(zhuǎn)。如果你的CAN網(wǎng)絡(luò)有大量雷同節(jié)點(diǎn),節(jié)點(diǎn)又只有一幀報(bào)文,那么ID數(shù)大(優(yōu)先級(jí)低)的節(jié)點(diǎn)一定會(huì)在總線繁忙或干擾重發(fā)的時(shí)候"插不上嘴",可以試試把時(shí)間戳融合到ID里邊,確保各節(jié)點(diǎn)的新數(shù)據(jù)優(yōu)先級(jí)最高,舊數(shù)據(jù)自然會(huì)被仲裁掉。
反直覺(jué)知識(shí)點(diǎn)②:在A、B節(jié)點(diǎn)同時(shí)驅(qū)動(dòng)第一個(gè)顯性0的時(shí)候,總線被兩個(gè)節(jié)點(diǎn)同時(shí)驅(qū)動(dòng),電壓會(huì)顯著高于2V。示波器上會(huì)看到在仲裁段的頭部有明顯的電平凸臺(tái),后續(xù)節(jié)點(diǎn)A搶占總線之后電壓會(huì)回歸正常的2V。
反直覺(jué)知識(shí)點(diǎn)③:各個(gè)節(jié)點(diǎn)的時(shí)鐘同步是把每個(gè)bit做16~20份的數(shù)字切片來(lái)實(shí)現(xiàn)的,這個(gè)切的份數(shù)不建議太多或太少。詳細(xì)機(jī)制請(qǐng)參閱 ZLG致遠(yuǎn)電子的這篇:CAN同步機(jī)制,你真的了解嗎?
控制段?中有幾個(gè)控制位,這里拿幾個(gè)常用的舉例。IDE位為擴(kuò)展ID的指示。如果IDE位為隱性1,就會(huì)在后邊再續(xù)上18位的ID,共11+18=29位長(zhǎng)度。比如0x9E就是個(gè)11位長(zhǎng)度的ID,0x0151就是個(gè)29位的ID。R0位是CAN里邊的預(yù)留位,在CAN-FD里被用作FD幀格式的標(biāo)志位FDF,這一位為隱性1就會(huì)按FD的幀格式解碼后續(xù)報(bào)文。???指示了后邊的?數(shù)據(jù)段?的長(zhǎng)度,例如1000表示后續(xù)會(huì)有8個(gè)Byte長(zhǎng)度的數(shù)據(jù)。CAN-FD協(xié)議只在?數(shù)據(jù)段?會(huì)切換成高速率,比如2Mbps/8Mbps,前后其他段的速率保持500kbps不變。
反直覺(jué)知識(shí)點(diǎn)①:CAN與CAN-FD除了數(shù)據(jù)段波特率的不同,幀格式也有區(qū)別,CAN-FD多了一些控制位。比如FDF(也叫EDL)位用來(lái)指示是否按FD幀格式解碼,BRS位用來(lái)指示是否需要切換高波特率,也就是說(shuō),一個(gè)FD幀可以全程500kbps不切速率的。CAN與CAN-FD的幀格式區(qū)別請(qǐng)參閱:CANFD和CAN的區(qū)別簡(jiǎn)介
反直覺(jué)知識(shí)點(diǎn)②:CAN控制器的標(biāo)準(zhǔn)ISO11898-1里要求接收方不解讀R0位的顯隱性,所以CAN的控制器無(wú)法過(guò)濾FD幀。標(biāo)準(zhǔn)CAN網(wǎng)絡(luò)里邊一旦出現(xiàn)FD幀會(huì)因?yàn)槎嗔薆RS、ESI等控制位被認(rèn)為是格式錯(cuò)誤。同樣的,因?yàn)镃AN 2.0時(shí)代R0/FDF幀無(wú)意義,也有一些設(shè)備把發(fā)送出去的CAN幀的R0位錯(cuò)誤地置了隱性1,這樣的設(shè)備在CAN網(wǎng)絡(luò)里一切正常,但若進(jìn)入CAN-FD網(wǎng)絡(luò)就會(huì)被解讀成FD幀,進(jìn)而因?yàn)槿鄙貰RS、ESI等控制位被認(rèn)為是格式錯(cuò)誤。所以,CAN-FD并不是真的向下兼容CAN,因?yàn)榕f時(shí)代的CAN設(shè)備并沒(méi)有判別R0/FDF位的能力,一旦它進(jìn)入FD網(wǎng)絡(luò)就會(huì)瘋狂地打斷通信。
反直覺(jué)知識(shí)點(diǎn)③:DLC的長(zhǎng)度,在CAN標(biāo)準(zhǔn)里DLC可以是0000~1000之間的二進(jìn)制值,可以用8421的算法直接計(jì)算出數(shù)據(jù)長(zhǎng)度。而在CAN-FD中,1001~1111之間的值則被解讀為離散的12,16,20,24,32,48,64byte。
CRC段 對(duì)于從幀頭到Data結(jié)束之間的數(shù)據(jù),CAN協(xié)議使用了CRC15這個(gè)比較特別的多項(xiàng)式計(jì)算校驗(yàn):??15+?14+?10+?8+?7+?4+?3+1?,有興趣的可以手算CRC試試,上邊這個(gè)圖的CRC值是假的。CAN-FD根據(jù)數(shù)據(jù)長(zhǎng)度的不同使用了CRC17和CRC21,這里暫不做展開(kāi)。
ACK段 是由收到該幀的CAN節(jié)點(diǎn)回復(fù)的確認(rèn)(Acknowledge)。注意 發(fā)送節(jié)點(diǎn)在ACK位一定發(fā)的是隱性1,由接收節(jié)點(diǎn)回應(yīng)顯性0,雙方無(wú)縫銜接才在總線上呈現(xiàn)出一個(gè)完整的CAN報(bào)文。
反直覺(jué)知識(shí)點(diǎn)①:總線上任何節(jié)點(diǎn) 只要認(rèn)為這個(gè)幀的結(jié)構(gòu)正確,都會(huì)在ACK位回顯性0,不管需不需要這一幀的ID和數(shù)據(jù)。為什么不需要的節(jié)點(diǎn)也會(huì)回ACK?因?yàn)榈萂CU算完會(huì)造成這一位的延遲,攪亂總線時(shí)序,不如只保障鏈路層本身的格式正確,純芯片數(shù)字邏輯實(shí)現(xiàn)無(wú)延遲。嗯,90年代的總線要求不要太高。
反直覺(jué)知識(shí)點(diǎn)②:發(fā)送節(jié)點(diǎn)若發(fā)現(xiàn)自己這一幀沒(méi)有ACK回應(yīng),它也會(huì)認(rèn)為總線出錯(cuò),重發(fā)16次后進(jìn)入Passive error狀態(tài),有興趣的自行研究一下,這里不做展開(kāi)。
真實(shí)CAN波形
來(lái)看一個(gè)兩節(jié)點(diǎn)案例:若節(jié)點(diǎn)A發(fā)送0x9E報(bào)文到總線,從節(jié)點(diǎn)B收到的總線波形和邏輯側(cè)波形如下:
黃線為CAN-H,綠線為CAN-L,藍(lán)線為節(jié)點(diǎn)B的邏輯側(cè)RX,紫線為節(jié)點(diǎn)B的邏輯側(cè)TX。可以看到,作為接收方的節(jié)點(diǎn)B,總線拉差分電壓拉出顯性的時(shí)候,收發(fā)器將RX拉0給到MCU。在節(jié)點(diǎn)B想要回應(yīng)ACK的時(shí)候,MCU將TX拉0,CAN收發(fā)器在總線上拉出了一個(gè)歪斜的顯性(歪斜是因?yàn)闇y(cè)量點(diǎn)的寄生電感影響)。RX在ACK位置的0,是收發(fā)器TX=0驅(qū)動(dòng)總線顯性之后 回讀到的0。
再看一個(gè)比較真實(shí)的車(chē)上波形,CAN網(wǎng)絡(luò)上大于4個(gè)節(jié)點(diǎn):
黃色是CAN_H,高電平表示顯性0,綠色是我們掛示波器這個(gè)節(jié)點(diǎn)的邏輯側(cè)TX,低電平表示顯性0。箭頭A~D是一幀完整的CAN報(bào)文,箭頭A~B這個(gè)過(guò)程中,我們掛示波器的這個(gè)節(jié)點(diǎn)和另一個(gè)節(jié)點(diǎn)正在進(jìn)行優(yōu)先級(jí)仲裁,根據(jù)我們之前講到的物理層的分壓原理,兩個(gè)節(jié)點(diǎn)同時(shí)驅(qū)動(dòng)電壓會(huì)高一截。在箭頭C這個(gè)bit 該節(jié)點(diǎn)想發(fā)隱性1但發(fā)現(xiàn)總線是顯性0,那就說(shuō)明有另外的節(jié)點(diǎn)在發(fā)送更高優(yōu)先級(jí)的報(bào)文,我們這個(gè)節(jié)點(diǎn)會(huì)主動(dòng)退出發(fā)送,成為接收節(jié)點(diǎn),并在箭頭D點(diǎn)校驗(yàn)成功后回應(yīng)ACK,等待報(bào)文結(jié)束后這個(gè)節(jié)點(diǎn)再次參與總線仲裁,成功搶占總線如E點(diǎn)所示。
注意波形高度,在箭頭A~B之間,差分電壓略高于2V,這是正常現(xiàn)象,說(shuō)明有兩個(gè)節(jié)點(diǎn)同時(shí)驅(qū)動(dòng)總線顯性,但從邏輯看,因?yàn)镠-L>0.7V所以都為顯性0,純數(shù)字邏輯的CAN控制器在箭頭A~B之間還感知不到對(duì)方的存在,箭頭C點(diǎn)之后才感知得到;而在箭頭D點(diǎn),因?yàn)槌税l(fā)送節(jié)點(diǎn)之外的所有節(jié)點(diǎn)都在同時(shí)驅(qū)動(dòng)ACK,所以總線電壓比箭頭A~B之間的雙節(jié)點(diǎn)驅(qū)動(dòng) 電壓更高。
錯(cuò)誤幀
終于到了錯(cuò)誤幀,注意,錯(cuò)誤幀不是由哪個(gè)節(jié)點(diǎn)發(fā)出的,而是由某個(gè)接收節(jié)點(diǎn)認(rèn)為總線錯(cuò)誤,才故意驅(qū)動(dòng)總線打斷發(fā)送方,在總線上呈現(xiàn)為一個(gè)錯(cuò)誤幀。也就是說(shuō) 錯(cuò)誤幀 一定是由?一個(gè)發(fā)送節(jié)點(diǎn)?和 至少一個(gè)?認(rèn)為發(fā)送方有錯(cuò)的節(jié)點(diǎn)?共同形成的。
位填充:
位填充?規(guī)則是CAN協(xié)議的靈魂,簡(jiǎn)單來(lái)講就幾個(gè)字:逢五補(bǔ)一。當(dāng)發(fā)送節(jié)點(diǎn)想要發(fā)連續(xù)5個(gè)bit的顯性0的數(shù)據(jù),會(huì)故意插入一個(gè)無(wú)意義的隱性1;當(dāng)出現(xiàn)連續(xù)5個(gè)bit的隱性1,會(huì)故意插入一個(gè)無(wú)意義的顯性0,如下圖的紫色bit。如果發(fā)送節(jié)點(diǎn)漏填了這個(gè)0/1,或者這個(gè)0/1被干擾成了1/0,接收節(jié)點(diǎn)就會(huì)判定為“填充錯(cuò)誤”,向總線上輸出“主動(dòng)錯(cuò)誤標(biāo)志”——連續(xù)六個(gè)顯性0,故意破壞這一幀報(bào)文,發(fā)送節(jié)點(diǎn)感知到總線錯(cuò)誤之后停止發(fā)送這一報(bào)文的后續(xù)部分。你說(shuō)巧妙不巧妙?連續(xù)6個(gè)顯性0本身就是破壞“逢五補(bǔ)一”規(guī)則的,被拿來(lái)當(dāng)錯(cuò)誤標(biāo)志回給發(fā)送節(jié)點(diǎn)。
假如原始數(shù)據(jù)是0x00,二進(jìn)制0000 0000,發(fā)送節(jié)點(diǎn)發(fā)到0000 0的時(shí)候發(fā)送節(jié)點(diǎn)會(huì)先插一個(gè)1,再發(fā)后續(xù)的000,成為0000 01000,共9bit長(zhǎng)度,接收節(jié)點(diǎn)也會(huì)在第5bit的0之后預(yù)期一個(gè)無(wú)效的1,解碼時(shí)摳掉。
假如原始數(shù)據(jù)是0000 0100,第六位自帶1,發(fā)送節(jié)點(diǎn)發(fā)到00000的時(shí)候也會(huì)先插一個(gè)1,再發(fā)后續(xù)的100,成為0000 01100,共9bit長(zhǎng)度。
回讀確認(rèn):
發(fā)送節(jié)點(diǎn)發(fā)送了0或1的時(shí)候,會(huì)回讀確認(rèn)總線是否和自己的發(fā)送相符,比如在仲裁段搶優(yōu)先級(jí)失敗就會(huì)等下一幀再發(fā);如果發(fā)到了數(shù)據(jù)段,按理說(shuō)此時(shí)總線應(yīng)該只有自己,發(fā)著發(fā)著突然發(fā)現(xiàn)回讀的0/1與自己發(fā)的不同,比如受到了干擾,發(fā)送節(jié)點(diǎn)就會(huì)輸出“主動(dòng)錯(cuò)誤標(biāo)志”——連續(xù)6bit顯性0,來(lái)主動(dòng)拋棄后續(xù)報(bào)文,同時(shí)讓接收節(jié)點(diǎn)知道我這一幀有誤。
在這時(shí),接收節(jié)點(diǎn)收到第6bit顯性0的時(shí)候,因違背逢五補(bǔ)一的位填充規(guī)則,也會(huì)往總線上輸出“主動(dòng)錯(cuò)誤標(biāo)志”,所以會(huì)在總線上看到連續(xù)12bit的顯性0,前6個(gè)來(lái)自發(fā)送節(jié)點(diǎn),后6個(gè)來(lái)自接收節(jié)點(diǎn)。
正常情況來(lái)說(shuō),總線上的顯性不應(yīng)該>5bits=10us。那么用示波器設(shè)置>11us的脈寬觸發(fā)模式就很容易定位錯(cuò)誤幀的位置,不一定要用解碼示波器。
升維打擊
CAN網(wǎng)絡(luò)的幅度和電流可以為我們提供更多維度的信息,此所謂升維打擊。
我們先來(lái)看一個(gè)正常幀,我們叫它節(jié)點(diǎn)A吧,它內(nèi)部有終端電阻,藍(lán)線為H-L的差分電壓,紫線是我們節(jié)點(diǎn)A的CAN-H引腳電流,輸出為正,輸入為負(fù)。
先看藍(lán)色的總線電壓波形,從0x83到END之間是一幀正常波形,注意看幀頭有多級(jí)臺(tái)階,幀尾ACK位置也特別高,這是正常的,可以理解 當(dāng)多個(gè)節(jié)點(diǎn)同時(shí)驅(qū)動(dòng)總線就會(huì)導(dǎo)致60Ω終端電阻上的分壓高于2V。從這些臺(tái)階來(lái)看,可以判斷出網(wǎng)絡(luò)上至少有5個(gè)節(jié)點(diǎn)。為啥?先看報(bào)文中部的幅度,這肯定是只有一個(gè)節(jié)點(diǎn)搶占總線之后的波形,往前有兩級(jí)臺(tái)階,可以認(rèn)為A、B、C三個(gè)節(jié)點(diǎn)同時(shí)搶占總線出現(xiàn)了第一個(gè)高臺(tái),然后節(jié)點(diǎn)C優(yōu)先級(jí)仲裁失敗退出總線,A、B節(jié)點(diǎn)繼續(xù)搶占出現(xiàn)了第二個(gè)臺(tái)階,之后節(jié)點(diǎn)A成功搶占到了總線優(yōu)先級(jí),發(fā)送中間的數(shù)據(jù)。最后的ACK位比3節(jié)點(diǎn)驅(qū)動(dòng)的第一個(gè)bit更高,說(shuō)明至少有4個(gè)節(jié)點(diǎn)在驅(qū)動(dòng)ACK,再加上節(jié)點(diǎn)A,網(wǎng)絡(luò)上至少有5個(gè)節(jié)點(diǎn)。
再看紫色的電流波形,已知節(jié)點(diǎn)A自己有終端電阻,外邊有另一顆終端電阻。波形中部的數(shù)據(jù)區(qū)肯定是節(jié)點(diǎn)A在驅(qū)動(dòng)總線,差分電壓流經(jīng)外邊的終端電阻形成回路,所以我們?cè)诠?jié)點(diǎn)A的引腳上觀察到了輸出的正向電流;往前一個(gè)電壓臺(tái)階的位置,電流為0,是A、B兩個(gè)帶終端電阻的節(jié)點(diǎn)在驅(qū)動(dòng)總線,所以總線電壓拉開(kāi)了但電流仍是無(wú)進(jìn)無(wú)出的;再往前一個(gè)臺(tái)階,A、B、C三個(gè)節(jié)點(diǎn)驅(qū)動(dòng),節(jié)點(diǎn)C的電流流入A、B的終端電阻,所以在節(jié)點(diǎn)A的引腳上測(cè)到了輸入的負(fù)向電流;然后幀尾的ACK位置,至少有4個(gè)節(jié)點(diǎn)同時(shí)驅(qū)動(dòng),流入終端電阻A和B的負(fù)向電流更大了。
錯(cuò)誤幀實(shí)戰(zhàn)
這是一個(gè)兩節(jié)點(diǎn)網(wǎng)絡(luò),一個(gè)節(jié)點(diǎn)發(fā),另一個(gè)節(jié)點(diǎn)收,兩方都有終端電阻,發(fā)送節(jié)點(diǎn)用的是TJA1042,接收節(jié)點(diǎn)用的是單3.3V收發(fā)器MAX3051。在幀頭就發(fā)生了錯(cuò)誤,這種錯(cuò)誤幀一般源于時(shí)鐘偏差或采樣點(diǎn)過(guò)小。
我們將示波器的差分探頭和電流探頭掛在接收端,下圖黃色為H-L的差分電壓,藍(lán)色為接收節(jié)點(diǎn)的輸出電流,RX為收發(fā)器將H-L差分電壓轉(zhuǎn)換出的邏輯波形,MCU內(nèi)部的CAN控制器會(huì)根據(jù)RX的0/1來(lái)解讀總線。TX為接收節(jié)點(diǎn)的發(fā)送邏輯,MCU將TX拉低的時(shí)候收發(fā)器會(huì)往總線上驅(qū)動(dòng)顯性。
我們已知500kbps的每個(gè)bit寬2us,注意上圖紫線TX在2~4箭頭之間出現(xiàn)了連續(xù)2us*6=12us的顯性0,說(shuō)明我們掛示波器的這個(gè)接收節(jié)點(diǎn)在此刻往外輸出了一個(gè)“主動(dòng)錯(cuò)誤標(biāo)志”,那一定是接收節(jié)點(diǎn)在此之前認(rèn)為總線出現(xiàn)了錯(cuò)誤。我們來(lái)往前看,箭頭1~2之間總線差分電壓和RX邏輯側(cè)都只有10us/2us=5bit的顯性0,幀前邊都是長(zhǎng)隱性1,這能有什么錯(cuò)?個(gè)可能是我們碰到了傳說(shuō)中的過(guò)載幀,這個(gè)東西本應(yīng)該很少見(jiàn)了;另一個(gè)可能是接收節(jié)點(diǎn)把對(duì)方來(lái)的正確報(bào)文認(rèn)成了錯(cuò)的,這10us被接收節(jié)點(diǎn)認(rèn)成了6bit,錯(cuò)誤的采樣點(diǎn)+硬同步(幀頭對(duì)齊)做得稀爛的國(guó)產(chǎn)MCU更容易出現(xiàn)這樣的幀頭報(bào)錯(cuò)。
我們推演一下看看是否符合我們的理論,在箭頭2~3之間發(fā)送節(jié)點(diǎn)應(yīng)該是想發(fā)送一個(gè)隱性,但這時(shí)接收節(jié)點(diǎn)已經(jīng)覺(jué)得不對(duì)開(kāi)始發(fā)“主動(dòng)錯(cuò)誤標(biāo)志”,將總線拉成了顯性。然后發(fā)送節(jié)點(diǎn)讀到這一bit自己想發(fā)送隱性但總線是顯性,所以。。。仲裁區(qū)搶優(yōu)先級(jí)失敗退出總線,,,怎么可能,之前有6個(gè)連續(xù)顯性呢,所以發(fā)送節(jié)點(diǎn)因違反“逢五補(bǔ)一”在箭頭3~5也輸出“主動(dòng)錯(cuò)誤標(biāo)志”。所以就成了黃色總線波形的7個(gè)bit的“凸”型,中間的凸臺(tái)的位置總線被兩個(gè)節(jié)點(diǎn)驅(qū)動(dòng),電壓高起一個(gè)臺(tái)階。
再注意一個(gè)細(xì)節(jié),凸臺(tái)的左肩膀和右肩膀高度不一樣,左肩膀是接收節(jié)點(diǎn)MAX3051驅(qū)動(dòng)的電平,它比 右肩膀TJA1042的驅(qū)動(dòng)能力弱一些,總線電平低一點(diǎn)。這個(gè)特性可以用來(lái)區(qū)分總線上的不同設(shè)備。
藍(lán)色線,是接收節(jié)點(diǎn)的輸出電流。箭頭1~2之間的負(fù)向電流為發(fā)送節(jié)點(diǎn)驅(qū)動(dòng)總線,差分電壓流經(jīng)接收節(jié)點(diǎn)內(nèi)部的終端電阻帶來(lái)的負(fù)電流;箭頭2~3之間的正電流是接收節(jié)點(diǎn)驅(qū)動(dòng)的主動(dòng)錯(cuò)誤的第一個(gè)bit;后邊3~4的凸臺(tái)兩個(gè)節(jié)點(diǎn)都在驅(qū)動(dòng)顯性 但對(duì)應(yīng)的電流也是負(fù)的,這是因?yàn)榘l(fā)送節(jié)點(diǎn)的驅(qū)動(dòng)能力強(qiáng)過(guò)接收節(jié)點(diǎn),整個(gè)網(wǎng)絡(luò)電流還是由發(fā)送節(jié)點(diǎn)灌入接收節(jié)點(diǎn);再往后4~5的負(fù)電流是發(fā)送端驅(qū)動(dòng)接收節(jié)點(diǎn)的終端電阻的電流。
下圖我標(biāo)出了兩個(gè)節(jié)點(diǎn)的輸出bit流,紅框是“主動(dòng)錯(cuò)誤標(biāo)志”。
仍然是這個(gè)兩節(jié)點(diǎn)網(wǎng)絡(luò),仍然是這個(gè)稀爛的國(guó)產(chǎn)MCU,我們來(lái)看這個(gè)錯(cuò)誤幀是怎么個(gè)情況:
這一幀的DLC=0x01,也就是只有1byte數(shù)據(jù),數(shù)據(jù)區(qū)之后就是CRC區(qū),我們的“主動(dòng)錯(cuò)誤標(biāo)志”就發(fā)生在這個(gè)區(qū),觀察又沒(méi)有填充錯(cuò)誤,那就是我們掛示波器這個(gè)接收節(jié)點(diǎn)認(rèn)為發(fā)送節(jié)點(diǎn)出現(xiàn)了CRC錯(cuò)誤。但我們看到黃線在“主動(dòng)錯(cuò)誤標(biāo)志”中間出現(xiàn)了凹坑,意味著發(fā)送節(jié)點(diǎn)還是想繼續(xù)發(fā)隱性,并不認(rèn)為自己有錯(cuò),直到發(fā)現(xiàn)這一位被“主動(dòng)錯(cuò)誤標(biāo)志”覆蓋為顯性才感知到位錯(cuò)誤后拋棄后續(xù)報(bào)文。
原因最后定位到:過(guò)小的采樣點(diǎn)+過(guò)大的再同步補(bǔ)償寬度SJW 讓時(shí)鐘誤差逐步積累,這顆國(guó)產(chǎn)MCU的重同步又做得稀爛,把正常報(bào)文錯(cuò)讀了一位導(dǎo)致算CRC錯(cuò)誤。最后通過(guò)調(diào)整采樣點(diǎn)和SJW寬度減少了這種錯(cuò)誤的出現(xiàn)頻次,得到正常波形如下:
我們?cè)僭囍鴱牟罘植ㄐ蝸?lái)分析一個(gè)錯(cuò)誤幀:
錯(cuò)誤發(fā)生在CRC區(qū),我們放大一下,看看各節(jié)點(diǎn)都發(fā)生了啥:
從每一個(gè)臺(tái)階的下降沿往前畫(huà)12us的方框,得到每個(gè)節(jié)點(diǎn)輸出的“主動(dòng)錯(cuò)誤標(biāo)志”如上圖,分析可知:這是一幀節(jié)點(diǎn)B發(fā)送的報(bào)文,節(jié)點(diǎn)A認(rèn)為它的CRC算錯(cuò)了,節(jié)點(diǎn)C湊了個(gè)熱鬧,三者一起形成了這個(gè)12bits長(zhǎng)的“主動(dòng)錯(cuò)誤標(biāo)志”。那,節(jié)點(diǎn)A為什么會(huì)認(rèn)為CRC有錯(cuò)呢?大概率是因?yàn)橹暗臄?shù)據(jù)讀錯(cuò)了一位。這么好的波形也能讀錯(cuò)?是的,我們無(wú)法判斷節(jié)點(diǎn)A所在的位置波形有多差,可能分支上沒(méi)有終端電阻振鈴很大呢?我們只能相信節(jié)點(diǎn)A不會(huì)亂搞。另外,采樣點(diǎn)偏差會(huì)導(dǎo)致節(jié)點(diǎn)對(duì)噪聲額外地敏感。
CAN-FD錯(cuò)誤排查
來(lái)看一個(gè)A B C三節(jié)點(diǎn)CAN-FD錯(cuò)誤幀的案例,節(jié)點(diǎn)C發(fā),節(jié)點(diǎn)A、B收:黃色是H-L的差分電壓,綠色是節(jié)點(diǎn)B的邏輯TX。0x0677和0x0176是兩個(gè)錯(cuò)誤幀。FD區(qū)波特率設(shè)置為2Mbps。
放大0x0176幀的細(xì)節(jié):
標(biāo)尺A B之間時(shí)間長(zhǎng)度約0.8us,由一個(gè)2Mbps FD bit的0.5us + 一個(gè)CAN-FD的TDC(300ns)組成。
之后出現(xiàn)了6個(gè)FD bit(0.5us*6=3000ns)的連續(xù)顯性位,電平高度與之前相同,之后有連續(xù)2us*6=12us的顯性。
在標(biāo)尺B線后12us位置出現(xiàn)了一個(gè)電壓跌落的小小的下降臺(tái)階,見(jiàn)下下圖。
綜上三條,認(rèn)為節(jié)點(diǎn)C所在位置干擾過(guò)大/分支線路過(guò)長(zhǎng),節(jié)點(diǎn)C自己回讀↓下圖↓框出的bit位失敗,自己往總線上輸出“主動(dòng)錯(cuò)誤標(biāo)志”(連續(xù)6bit=2us*6=12us的顯性),其他設(shè)備在接收到第6個(gè)CAN-FD的bit=0.5us*6=3us的時(shí)候就讀到了錯(cuò)誤(違反FD速率的“逢五補(bǔ)一”規(guī)則),也往總線上疊加2us*6=12us的主動(dòng)錯(cuò)誤標(biāo)志。然后,12us時(shí)節(jié)點(diǎn)C的主動(dòng)錯(cuò)誤標(biāo)志先結(jié)束,其他節(jié)點(diǎn)的主動(dòng)錯(cuò)誤在2us*6+0.5us*6=15us后結(jié)束。至此,錯(cuò)誤幀形態(tài)完成。
“逢五補(bǔ)一”這條規(guī)則是跟隨波特率變化的,6個(gè)連續(xù)的高波特率0或1都會(huì)觸發(fā)填充錯(cuò)誤。但填充錯(cuò)誤之后輸出的“主動(dòng)錯(cuò)誤標(biāo)志”是500kbps波特率的6bit,固定長(zhǎng)度12us。
?
再來(lái)一個(gè)案例:CAN-FD采樣點(diǎn)設(shè)置出錯(cuò)導(dǎo)致節(jié)點(diǎn)B把節(jié)點(diǎn)A發(fā)送的CAN-FD報(bào)文當(dāng)CAN來(lái)解析出錯(cuò)。
黃色CAN_H,綠色CAN_L,藍(lán)色L-H反向差分電壓,紫線為節(jié)點(diǎn)B邏輯RX,青線為節(jié)點(diǎn)B邏輯TX。
注意看0x00前后的數(shù)據(jù)段,這一段是CAN-FD的2Mbps速率,節(jié)點(diǎn)B因?yàn)椴蓸狱c(diǎn)設(shè)置錯(cuò)誤讀錯(cuò)了BRS這一波特率轉(zhuǎn)換標(biāo)志,仍按照標(biāo)準(zhǔn)的500kbps去解析節(jié)點(diǎn)A的2Mbps速率的數(shù)據(jù),對(duì)RX信號(hào)2us一個(gè)采樣我用黃色箭頭標(biāo)出來(lái)了,可以看到這恰好是6個(gè)連續(xù)顯性0,違反“逢五補(bǔ)一”的規(guī)則,故而接收節(jié)點(diǎn)B在箭頭2~4之間發(fā)“主動(dòng)錯(cuò)誤標(biāo)志”,打斷總線通信,告知發(fā)送節(jié)點(diǎn)你發(fā)錯(cuò)了。箭頭2~3之間,發(fā)送節(jié)點(diǎn)A恰好也要發(fā)顯性,所以節(jié)點(diǎn)A此時(shí)還沒(méi)感覺(jué)到不對(duì)。箭頭3之后,節(jié)點(diǎn)A想要拉隱性,電壓出現(xiàn)一個(gè)坑,卻發(fā)現(xiàn)總線還是顯性,此時(shí)節(jié)點(diǎn)A判斷出現(xiàn)了“位錯(cuò)誤”,開(kāi)始輸出“主動(dòng)錯(cuò)誤標(biāo)志”,想告知接收方放棄我這一幀報(bào)文。箭頭4的位置節(jié)點(diǎn)B釋放“主動(dòng)錯(cuò)誤標(biāo)志”,箭頭5的位置節(jié)點(diǎn)A釋放“主動(dòng)錯(cuò)誤標(biāo)志”。
如果數(shù)據(jù)比較巧,恰好能滿足逢五補(bǔ)一的規(guī)則,那這種錯(cuò)誤形態(tài)會(huì)在發(fā)送很多數(shù)據(jù)之后才會(huì)出現(xiàn),但最晚也會(huì)被CRC攔截:
補(bǔ)充知識(shí):CAN-FD網(wǎng)絡(luò)各個(gè)節(jié)點(diǎn)的采樣點(diǎn)必須完全相同,高速率導(dǎo)致對(duì)時(shí)序敏感很多,這一點(diǎn)與CAN網(wǎng)絡(luò)容許一個(gè)范圍顯著不同。上邊這一幀的BRS位怎么讀錯(cuò)的呢?再一次違反直覺(jué):CAN-FD的采樣點(diǎn)影響發(fā)送節(jié)點(diǎn)的驅(qū)動(dòng)波形!用示波器可以輕松量出FD的采樣點(diǎn)位置。
看下圖,CAN-FD報(bào)文的控制段中的BRS位(Bit Rate Switch)明顯是短于前邊的FDF、R0位的,采樣點(diǎn)不匹配的話很容易讀錯(cuò)。因?yàn)?FD的速率翻轉(zhuǎn)是在這一bit的采樣點(diǎn)位置發(fā)生的。比如采樣點(diǎn)80%的2Mbps CAN-FD網(wǎng)絡(luò),BRS這一位的寬度為2us*80%+0.5us*20%=1.7us,而不是2us。接收節(jié)點(diǎn)的采樣點(diǎn)如果設(shè)置大于85%就會(huì)錯(cuò)過(guò)整個(gè)BRS位(2us*85%=1.7us),從而導(dǎo)致如上的BRS位讀錯(cuò)的問(wèn)題。
以上,就是示波器升維破解CAN錯(cuò)誤幀/BusOff的經(jīng)驗(yàn)分享,總結(jié)一下:
1. 結(jié)合已知ID是哪個(gè)節(jié)點(diǎn)發(fā)的先驗(yàn)信息,逐個(gè)拔掉非終端節(jié)點(diǎn),示波器觀察“主動(dòng)錯(cuò)誤標(biāo)志”,就能模糊定位錯(cuò)誤源頭;
2. 如果能引出敏感設(shè)備的TX,哪個(gè)節(jié)點(diǎn)認(rèn)為哪個(gè)節(jié)點(diǎn)出了什么錯(cuò)就會(huì)非常清晰明了;
3. 其次,測(cè)量CAN的輸出電流也能清楚地定位誰(shuí)在驅(qū)動(dòng)“錯(cuò)誤標(biāo)志”,進(jìn)而找到故障點(diǎn);
4. 如果上述難以實(shí)現(xiàn),以12us間隔拆分“錯(cuò)誤標(biāo)志”的電壓臺(tái)階,也能定位大部分錯(cuò)誤原因;
5. 額外關(guān)注單bit寬度的電壓臺(tái)階,能排除部分節(jié)點(diǎn);
編輯:黃飛
?
評(píng)論
查看更多