新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
SSN2EGS2單板在OSN1500網(wǎng)元上正常運行兩個多月后,出現(xiàn)反復上報COMMU_FAIL、LP_SLM_VC12、ETH_LOS告警并且業(yè)務中斷的問題。在現(xiàn)網(wǎng)進行了軟/硬復位單板、拔插單板操作,均無法解決問題。
告警信息
COMMU_FAIL、LP_SLM_VC12、ETH_LOS。
處理過程
1、更換單板為SSN1EGS4等數(shù)據(jù)單板,SSN1EGS4上軟件做了防協(xié)議報文沖擊的保護機制,所以更換單板后問題得到解決。
2、SSN2EGS2單板軟件升級到5.51版本以上。
根因
分析單板的黑匣子,發(fā)現(xiàn)debugbuf.log中記錄了大量單板軟復位的記錄,可見的確是不斷的軟復位造成了單板反復上報COMMU_FAIL告警,這個告警表示主控與數(shù)據(jù)板的以太通訊通道發(fā)生了中斷。由于SSN2EGS2這個單板比較特殊,軟復位和硬復位的效果一樣,都會中斷業(yè)務。所以,現(xiàn)網(wǎng)EGS2單板發(fā)生反復復位故障時,業(yè)務是會反復中斷的。而反復上報的LP_SLM_VC12、ETH_LOS告警,也是單板反復軟復位所導致。
從debugbuf.log黑匣子記錄來看,是單板收到了大量協(xié)議報文,導致單板CPU占用率過高,從而發(fā)生復位。SSN2EGS2單板所采用的5.50版本軟件沒有做防協(xié)議報文沖擊的保護機制,當網(wǎng)絡上可能因廣播風暴產(chǎn)生大量協(xié)議報文時,CPU會無法承載負荷而復位,從黑匣子記錄也可看到軟狗復位時處理協(xié)議報文的進程占到了高達47.63%的CPU資源。所以重新拔插單板后,協(xié)議報文沖擊未解除,EGS2單板依舊會發(fā)生復位問題。
建議與總結(jié)
在應用支路SNCP配合ODUkSNCP特性時,要注意兩種SNCP疊加配置方案的細微區(qū)別,這會對客戶側(cè)設備造成不同影響。特別是A公司的SDH設備在全球存量極大,做對接測試要注意這個問題。