新聞資訊
了解故障案例及產品資訊
問題描述
某日客戶反饋工行總行至一網點大客戶業(yè)務丟包,PING包包長15000字節(jié),丟包率在1%以上。
網絡拓撲
工行總行站點使用OSN1500設備,其他站點為OSN3500,版本為18.50P01
總行OSN1500通過EGS4單板和工行總行邁普路由器對接,EGS4單板配置EVPL匯聚各個網點的業(yè)務,每個網點帶寬為2*VC12,中間鏈路為華為SDH設備,組網方式為MSP、SNCP,終端鏈路使用R廠家3500E設備通過STM-1/4光口和華為設備對接,網點配置R廠家3107等盒式設備通過FE電口和網點邁普路由器對接,連接關系如下:
工行總行邁普路由器—(EGS4)工行OSN1500(SL16)—傳輸L—傳輸C—傳輸E(SLQ1)—(STM-1)R廠家3500E(STM-1)—R廠家3107(FE)—網點邁普路由器
其中工行OSN1500設備位于工行總行,傳輸L位于本地網子網,傳輸C和傳輸E位于城域網子網,R廠家3500E設備和傳輸E設備在同一機房,R廠家3107位于網點。
無異常告警信息。
處理過程
1、鏈路誤碼導致丟包
2、對接路由器端口故障
3、帶寬不足
4、R廠家網點設備或匯聚EGS4單板故障
5、以太網封裝對接問題
6、其他網絡配置
根因
時鐘配置不同步
解決方案
1、通過網管查詢性能,并未發(fā)現鏈路存在誤碼,而且同一路由其他業(yè)務正常,排除誤碼原因導致丟包。
2、配置一條路由相同、兩端使用不同以太網端口的業(yè)務進行測試,丟包率依然在1%以上,可以排除工行路由器故障。
3、增加帶寬到4*VC12,經過測試丟包率依然在1%以上,故可以排除帶寬不足原因導致的丟包。
4、調整EGS4單板以太網配置,和其他正常運行的業(yè)務對調綁定時隙和VCtrunk,經過測試依然丟包,使用同型號設備替換R廠家營業(yè)網點設備,經過測試依然丟包,初步懷疑設備對接不匹配問題。
5、在和R廠家對接的傳輸E設備上增加EFS4以太網單板,測試EFS4和R廠家設備對接情況,分別配置1口到工行總行的EPL業(yè)務,2口到R廠家設備的EPL業(yè)務,采用分段測試,測試結果為2段都沒有丟包現象,根據表面現象初步判斷使用EFS4和R廠家對接沒問題,使用EGS4對接存在丟包,但是由于EGS4單板之前已經對調過VCtrunk,而且其他營業(yè)網點也配置同樣設備型號,又可以反向證明設備對接不存在問題。
6、由于之前該客戶網絡發(fā)生過R廠家設備時鐘模塊批次問題導致的故障,客戶要求R廠家研發(fā)現場支持問題分析,并且從總部帶來一臺其他型號設備,使用新設備替換后經過測試沒有丟包,此時可確定R廠家新、老設備處理對接數據時存在差異,為了徹底定位根因,配置一條從傳輸L至傳輸E的VC12級別的業(yè)務,下在傳輸E設備一空閑光口,R廠家研發(fā)使用儀表對該光口進行測試,發(fā)現有指針調整,測試10分鐘調整計數為1000,R廠家研發(fā)答復該數值已經超出R廠家老設備處理能力,所以會導致設備丟包,另外在傳輸E站點查詢該條業(yè)務15分鐘性能值,指針調整計數為1300多塊左右,所以證實存在指針調整。由于跨子網的業(yè)務比較少,而且其他業(yè)務只是從城域網穿通,所以未受影響。
7、查詢華為設備時鐘配置,傳輸L設備位于本地網,時鐘源為BITS外時鐘,傳輸C和傳輸E設備位于城域網,時鐘源為傳輸C內部時鐘,兩個子網的時鐘源級別不一致,更改時鐘配置,使傳輸C和傳輸E跟蹤傳輸L,通過儀表測試指針調整結束,重新測試原始業(yè)務,測試6個小時未發(fā)現丟包,最終丟包問題解決。
建議與總結
基于分不同子網管理的傳輸網絡,一般只關注同一子網的時鐘配置,沒有成環(huán)、互跟、有保護即可,但是子網間的時鐘級別往往被忽視,此案例就是不同子網時鐘級別不同導致的業(yè)務丟包,建議每個子網都配置BITS時鐘源,即可實現每個網元跟蹤相同級別時鐘源。