新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
某網(wǎng)絡NG-SDH設備由5.21.16.13/5.21.17.31版本升級到5.21.18.50P01+SPH001時,出現(xiàn)大面積非網(wǎng)關(guān)網(wǎng)元脫管現(xiàn)象,網(wǎng)管上可以登錄網(wǎng)元,但不久后又重新脫管。該網(wǎng)絡有10個網(wǎng)關(guān)網(wǎng)元,均為OSN3500與OSN7500,接入層設備多為Metro100,Metro1000等盒式設備,市區(qū)環(huán)網(wǎng)關(guān)網(wǎng)元下掛載網(wǎng)元數(shù)量為50個左右,未出現(xiàn)脫管現(xiàn)象,郊縣環(huán)網(wǎng)關(guān)網(wǎng)元下掛載設備大多超過140個,最多的達到184個,出現(xiàn)大面積網(wǎng)元脫管現(xiàn)象。
告警信息
大面積網(wǎng)元在網(wǎng)管上變灰色,呈脫管狀態(tài),有網(wǎng)元脫管告警。
處理過程
1、檢查網(wǎng)管與網(wǎng)關(guān)網(wǎng)元的可達性,用PING命令檢查網(wǎng)管與網(wǎng)關(guān)之間的網(wǎng)絡連通性和丟包率。
2、在網(wǎng)管功能樹上選擇“通信>網(wǎng)元ECC鏈路管理”,關(guān)閉含有脫管網(wǎng)元子網(wǎng)的環(huán)路,把一部分設備從現(xiàn)有ECC網(wǎng)絡中完全隔離出來,待ECC不在震蕩后,等待15-20分鐘然后逐漸放開,當打開的網(wǎng)元數(shù)量超過120個左右時,ECC風暴再次出現(xiàn)。
3、與客戶溝通,決定臨時增加幾個主要節(jié)點的網(wǎng)關(guān)網(wǎng)元重新進行ECC劃分,減少當前某些網(wǎng)關(guān)的網(wǎng)元掛載數(shù)量以解決問題;根據(jù)現(xiàn)場可能實現(xiàn)的條件,臨時添加了兩個網(wǎng)關(guān)網(wǎng)元,閃斷脫管現(xiàn)象消失,問題得到解決。
根因
初步判斷為ECC風暴震蕩導致大面積網(wǎng)元脫管,原因為當設備版本由5.21.16.13/5.21.17.31版本升級到5.21.18.50P01+SPH001時,新版本占用了更多的主控板CPU資源,使得主控板CPU處理ECC通信的能力下降,且該網(wǎng)絡掛載的網(wǎng)元數(shù)量遠大于建議規(guī)劃的64個以下,故形成ECC網(wǎng)絡風暴。
建議與總結(jié)
設備資料中都有建議的ECC規(guī)模說明,雖然超過建議值后也不一定馬上就會出現(xiàn)ECC風暴,但新版本一般都帶有新特性以及新維護功能,這些功能或多或少會占用主控板以及單板的CPU資源,可能造成其他方面處理能力的下降,所以完全可能出現(xiàn)升級前網(wǎng)絡運行正常但升級后出現(xiàn)ECC風暴的問題;進行重大操作簽,建議按照公司標準對ECC進行分割,如確實不具備分割條件,請準備好風險防范措施。