新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
一OSN3500設(shè)備30槽位EGS2板每間隔約半小時同時瞬報一次BD_STATUS、COMMUN_FAIL告警,單板出現(xiàn)復(fù)位,業(yè)務(wù)出現(xiàn)瞬斷。
告警信息
EGS2板上報約沒半小時瞬報一次BD_STATUS、COMMUN_FAIL告警。
處理過程
1、單板上報BD_STATUS告警,懷疑為單板故障,更換單板后約半小時故障重新。
2、懷疑為槽位問題,對單板更換槽位,但是更換后故障依然。
3、懷疑為以太網(wǎng)接入業(yè)務(wù)存在環(huán)回或異常,采集數(shù)據(jù)進(jìn)行分析,通過命令行:mon-show-cpu:30命令返回值中可以看出單板CPU占用率非常高,其中tRstpBpdu任務(wù)CPU占用率高達(dá)77%,而單板空閑任務(wù)VIDL CPU占用率為0%,導(dǎo)致單板清狗任務(wù)無法執(zhí)行,致使單板發(fā)生軟狗復(fù)位,上報COMMON_FAIL告警,同時造成業(yè)務(wù)中斷。
TASK-NAME SWITCH-COUNT MIN-TIME MAX-TIME RECENT-TIME TOTAL-TIME(us) PERCENT
tRstpBpdu 1181 74 10178 7556 10439226 77.82%
VIDL 0 0 0 0 0 0.00%
4、對以太網(wǎng)輸入口業(yè)務(wù)進(jìn)行歸類,將存在以太網(wǎng)環(huán)路或有協(xié)議報文的業(yè)務(wù)割接至其他單板端口上后,告警不再上報,問題解決。后期將EGS2板單板軟件統(tǒng)一升級為5.53后問題徹底解決。
根因
1、單板故障。
2、槽位故障。
3、接入業(yè)務(wù)存在異常。
建議與總結(jié)
EGS2板收到外界發(fā)送的大量生成樹協(xié)議報文后,會導(dǎo)致單板CPU占用率過高,單板發(fā)生軟狗復(fù)位,造成這種故障一般有兩種情況:
1、外部網(wǎng)絡(luò)往單板發(fā)送大量生成樹協(xié)議報文。
2、外部網(wǎng)絡(luò)往單板發(fā)送少量生成樹協(xié)議報文,但是整個網(wǎng)絡(luò)存在物理環(huán)路。
EGS2板在5.53版本及以版本對協(xié)議報文進(jìn)行限速操作,可以從根本解決該問題。