新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關產(chǎn)品Related Product
問題描述(故障現(xiàn)象)
某U31網(wǎng)管管理了很多承載網(wǎng)設備,有MSTP設備、DWDM設備、PTN設備、R10設備。日常維護時,檢查MSTP設備光口的收光功率,發(fā)現(xiàn)有一端中興S385設備在一天內(nèi)總有一個或者兩個歷史15分鐘性能查詢不到。
例如,查詢該網(wǎng)元的11#OL64的端口1在4月4日的歷史15分鐘的收光/發(fā)光功率,發(fā)現(xiàn)9:00~9:15、9:15~9:30的這兩個15分鐘歷史性能查詢不到。
原因分析
中興S385設備光板的收發(fā)光功率等15分鐘性能首先保存在主控NCP板的內(nèi)存里。該網(wǎng)元配置的主控板是ANCP板,其內(nèi)存是512M,內(nèi)存容量是有限的。因此NCP板采用繞接的方式保存歷史15分鐘性能,即當內(nèi)存存滿了數(shù)據(jù)以后,后續(xù)時間的15分鐘性能數(shù)據(jù)將覆蓋先前時間的15分鐘性能數(shù)據(jù)。
U31網(wǎng)管(12.14及之前版本)從服務器正常運行開始后,每隔2小時會主動從設備的主控板NCP板上采集歷史15分鐘性能。U31網(wǎng)管(12.15及之后版本)每隔1小時會主動從設備的主控板NCP板上采集歷史15分鐘性能。
U31網(wǎng)管上查詢不到該中興ZXMP S385設備光板的某個時間段的15分鐘性能,有兩個可能:一是ANCP板在那個時間段發(fā)生了復位,導致內(nèi)存中的性能數(shù)據(jù)丟失,這樣U31網(wǎng)管肯定采集不到了。二是U31網(wǎng)管還沒有來得及從NCP板上采集性能數(shù)據(jù),該時間段的15分鐘性能數(shù)據(jù)在NCP板的內(nèi)存里就被后續(xù)時間段的15分鐘性能數(shù)據(jù)給覆蓋了。
Telnet上該ZXMP S385的ANCP板,輸入a-get-resetall,查詢所有單板的復位記錄,發(fā)現(xiàn)在性能丟失的時刻,ANCP板并未復位。
運行GDownload軟件,連接到該S385設備上進行抓包,成功抓到了15分鐘性能丟失時的數(shù)據(jù)包。經(jīng)過研發(fā)分析,發(fā)現(xiàn)在那個時間段,ANCP板的內(nèi)存接收到了大量的15分鐘性能數(shù)據(jù),導致U31網(wǎng)管還沒有來得及從ANCP板上采集15分鐘性能,該時刻的15分鐘性能數(shù)據(jù)就在ANCP板的內(nèi)存里被后續(xù)時間的15分鐘性能數(shù)據(jù)給覆蓋了。
該端S385設備上配置了6塊SEE板,設備的面板圖如下,每塊SEE板啟用的的以太網(wǎng)用戶口、VCGEOS端口都會上報15分鐘性能項,這樣6塊SEE板上報給ANCP內(nèi)存的15分鐘性能數(shù)據(jù)就會很多。
解決方案
通過屏蔽業(yè)務板上報的15分鐘性能項,減少業(yè)務板上報給ANCP板的15分鐘性能的數(shù)據(jù)量,盡量延長ANCP板內(nèi)存里的15分鐘性能被繞接的時間間隔,從而保證U31網(wǎng)管能夠及時的采集到該網(wǎng)元所有時間段的15分鐘性能數(shù)據(jù)。
由于SEE板上報的15分鐘性能項很多,因此對SEE板設置性能屏蔽。但是SEE板的哪些性能數(shù)據(jù)可以被屏蔽呢?這是一個矛盾的選擇。因為性能數(shù)據(jù)對以太網(wǎng)業(yè)務故障的分析判斷至關重要。通過對SEE板上報的性能數(shù)據(jù)進行分析,和研發(fā)溝通后,確定下列性能項可以被屏蔽。
SEE板以太網(wǎng)用戶口可以屏蔽的性能項(共10項)
接收長度128-255字節(jié)幀數(shù)
接收長度256-511字節(jié)幀數(shù)
接收長度512-1023字節(jié)幀數(shù)
發(fā)送長度128-255字節(jié)幀數(shù)
發(fā)送長度256-511字節(jié)幀數(shù)
發(fā)送長度512-1023字節(jié)幀數(shù)
接收綠色業(yè)務字節(jié)數(shù)
接收黃色業(yè)務字節(jié)數(shù)
發(fā)送綠色業(yè)務字節(jié)數(shù)
發(fā)送黃色業(yè)務字節(jié)數(shù)
SEE板VCGEOS端口可以屏蔽的性能項(共10項)
接收長度128-255字節(jié)幀數(shù)
接收長度256-511字節(jié)幀數(shù)
接收長度512-1023字節(jié)幀數(shù)
發(fā)送長度128-255字節(jié)幀數(shù)
發(fā)送長度256-511字節(jié)幀數(shù)
發(fā)送長度512-1023字節(jié)幀數(shù)
接收綠色業(yè)務字節(jié)數(shù)
接收黃色業(yè)務字節(jié)數(shù)
發(fā)送綠色業(yè)務字節(jié)數(shù)
發(fā)送黃色業(yè)務字節(jié)數(shù)
這些性能項可以被屏蔽的理由是:
1.長度為128-255字節(jié)的幀、長度為256-511字節(jié)的幀、長度為512-1023字節(jié)的幀都是業(yè)務數(shù)據(jù)的幀,不是協(xié)議幀,這些幀對以太網(wǎng)故障的分析判斷作用不大。
2.性能項中已經(jīng)包括有“接收/發(fā)送綠色/黃色業(yè)務幀數(shù)”、所以“接收/發(fā)送綠色/黃色業(yè)務字節(jié)數(shù)”可以被屏蔽。在對故障做分析處理時,關注綠色/黃色業(yè)務的幀數(shù)即可,綠色/黃色業(yè)務的字節(jié)數(shù)可以忽略掉。
現(xiàn)場對這6塊SEE板中的已經(jīng)開通業(yè)務的以太網(wǎng)用戶口、VCGEOS端口逐一屏蔽上述10項性能項后,經(jīng)過幾天的觀察,該網(wǎng)元再也沒有出現(xiàn)歷史15分鐘性能丟失的情況,故障解決。
注意事項
對于中興S325/S330/S385/S390/設備,主控板保存的歷史15分鐘性能記錄數(shù)最大為5000條。如果所有業(yè)務板一次性上報的性能數(shù)超過了5000條,就會覆蓋掉主控板上一個15分鐘保存的性能項。