如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如果通過以上排查,確認端口持續收到大量TC報文,大俠們可以通過使用stp tc-protection命令,使能交換機對TC報文的保護功能,實現對TC報文的限制,以達到對設備進行保護的目的。另外,還可以通過stp tc-protectionthreshold命令指定Hello Time時間內處理TC類型STP報文的次數。
在收到TC報文轉發刷新轉發表項時,STP的收斂方式不同,交換機對ARP表項的處理方式不同,建議配置為normal:
- 如果STP的收斂方式配置為fast,交換機將ARP表中的相關表項直接刪除。
- 如果STP的收斂方式配置為normal,交換機將ARP表中相關表項的剩餘存活時間置為0,對這些表項進行老化處理。
如果使能TC保護、修改STP收斂方式後,PPI任務的CPU利用率仍然較高,大俠們莫著急,請繼續按照步驟2進行處理。
步驟2:端口是否收到多種STP報文
可以通過display stp history命令查看端口角色計算的歷史記錄,如果端口的角色不斷更新,表明端口收到來自不同設備的報文,說明組網存在問題:
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如果通過以上排查,確認端口持續收到大量TC報文,大俠們可以通過使用stp tc-protection命令,使能交換機對TC報文的保護功能,實現對TC報文的限制,以達到對設備進行保護的目的。另外,還可以通過stp tc-protectionthreshold命令指定Hello Time時間內處理TC類型STP報文的次數。
在收到TC報文轉發刷新轉發表項時,STP的收斂方式不同,交換機對ARP表項的處理方式不同,建議配置為normal:
- 如果STP的收斂方式配置為fast,交換機將ARP表中的相關表項直接刪除。
- 如果STP的收斂方式配置為normal,交換機將ARP表中相關表項的剩餘存活時間置為0,對這些表項進行老化處理。
如果使能TC保護、修改STP收斂方式後,PPI任務的CPU利用率仍然較高,大俠們莫著急,請繼續按照步驟2進行處理。
步驟2:端口是否收到多種STP報文
可以通過display stp history命令查看端口角色計算的歷史記錄,如果端口的角色不斷更新,表明端口收到來自不同設備的報文,說明組網存在問題:
同時,打開以下STP debug開關,採集故障期間交互的STP報文和事件信息,排除非法的STP報文。
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如果通過以上排查,確認端口持續收到大量TC報文,大俠們可以通過使用stp tc-protection命令,使能交換機對TC報文的保護功能,實現對TC報文的限制,以達到對設備進行保護的目的。另外,還可以通過stp tc-protectionthreshold命令指定Hello Time時間內處理TC類型STP報文的次數。
在收到TC報文轉發刷新轉發表項時,STP的收斂方式不同,交換機對ARP表項的處理方式不同,建議配置為normal:
- 如果STP的收斂方式配置為fast,交換機將ARP表中的相關表項直接刪除。
- 如果STP的收斂方式配置為normal,交換機將ARP表中相關表項的剩餘存活時間置為0,對這些表項進行老化處理。
如果使能TC保護、修改STP收斂方式後,PPI任務的CPU利用率仍然較高,大俠們莫著急,請繼續按照步驟2進行處理。
步驟2:端口是否收到多種STP報文
可以通過display stp history命令查看端口角色計算的歷史記錄,如果端口的角色不斷更新,表明端口收到來自不同設備的報文,說明組網存在問題:
同時,打開以下STP debug開關,採集故障期間交互的STP報文和事件信息,排除非法的STP報文。
步驟3:設備是否存在報文攻擊
網絡中出現鏈路故障或報文攻擊,可能導致端口長時間接收不到對端發送的STP協議報文,發生STP切換狀態,例如會產生如下日誌:
Jul 26 2014 02:26:40Switch %%01MSTP/6/SET_PORT_DISCARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as discarding.
Jul 26 2014 02:26:43Switch %%01MSTP/6/SET_PORT_FORWARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as forwarding.
IFNET/4/LINK_STATE:Theline protocol [line-protocol] on the interface [interface-name] has entered the[state] state.
如果鏈路正常,通過display stp interface interface-type interface-number查看BPDUReceived計數。
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如果通過以上排查,確認端口持續收到大量TC報文,大俠們可以通過使用stp tc-protection命令,使能交換機對TC報文的保護功能,實現對TC報文的限制,以達到對設備進行保護的目的。另外,還可以通過stp tc-protectionthreshold命令指定Hello Time時間內處理TC類型STP報文的次數。
在收到TC報文轉發刷新轉發表項時,STP的收斂方式不同,交換機對ARP表項的處理方式不同,建議配置為normal:
- 如果STP的收斂方式配置為fast,交換機將ARP表中的相關表項直接刪除。
- 如果STP的收斂方式配置為normal,交換機將ARP表中相關表項的剩餘存活時間置為0,對這些表項進行老化處理。
如果使能TC保護、修改STP收斂方式後,PPI任務的CPU利用率仍然較高,大俠們莫著急,請繼續按照步驟2進行處理。
步驟2:端口是否收到多種STP報文
可以通過display stp history命令查看端口角色計算的歷史記錄,如果端口的角色不斷更新,表明端口收到來自不同設備的報文,說明組網存在問題:
同時,打開以下STP debug開關,採集故障期間交互的STP報文和事件信息,排除非法的STP報文。
步驟3:設備是否存在報文攻擊
網絡中出現鏈路故障或報文攻擊,可能導致端口長時間接收不到對端發送的STP協議報文,發生STP切換狀態,例如會產生如下日誌:
Jul 26 2014 02:26:40Switch %%01MSTP/6/SET_PORT_DISCARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as discarding.
Jul 26 2014 02:26:43Switch %%01MSTP/6/SET_PORT_FORWARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as forwarding.
IFNET/4/LINK_STATE:Theline protocol [line-protocol] on the interface [interface-name] has entered the[state] state.
如果鏈路正常,通過display stp interface interface-type interface-number查看BPDUReceived計數。
如果計數沒有周期增長,且端口下BPDU配置正確,則在端口入方向綁定流策略對STP報文進行流量統計,以確認對端設備是否週期發送了STP協議報文。配置和查看方法如下:
- 配置流策略:
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如果通過以上排查,確認端口持續收到大量TC報文,大俠們可以通過使用stp tc-protection命令,使能交換機對TC報文的保護功能,實現對TC報文的限制,以達到對設備進行保護的目的。另外,還可以通過stp tc-protectionthreshold命令指定Hello Time時間內處理TC類型STP報文的次數。
在收到TC報文轉發刷新轉發表項時,STP的收斂方式不同,交換機對ARP表項的處理方式不同,建議配置為normal:
- 如果STP的收斂方式配置為fast,交換機將ARP表中的相關表項直接刪除。
- 如果STP的收斂方式配置為normal,交換機將ARP表中相關表項的剩餘存活時間置為0,對這些表項進行老化處理。
如果使能TC保護、修改STP收斂方式後,PPI任務的CPU利用率仍然較高,大俠們莫著急,請繼續按照步驟2進行處理。
步驟2:端口是否收到多種STP報文
可以通過display stp history命令查看端口角色計算的歷史記錄,如果端口的角色不斷更新,表明端口收到來自不同設備的報文,說明組網存在問題:
同時,打開以下STP debug開關,採集故障期間交互的STP報文和事件信息,排除非法的STP報文。
步驟3:設備是否存在報文攻擊
網絡中出現鏈路故障或報文攻擊,可能導致端口長時間接收不到對端發送的STP協議報文,發生STP切換狀態,例如會產生如下日誌:
Jul 26 2014 02:26:40Switch %%01MSTP/6/SET_PORT_DISCARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as discarding.
Jul 26 2014 02:26:43Switch %%01MSTP/6/SET_PORT_FORWARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as forwarding.
IFNET/4/LINK_STATE:Theline protocol [line-protocol] on the interface [interface-name] has entered the[state] state.
如果鏈路正常,通過display stp interface interface-type interface-number查看BPDUReceived計數。
如果計數沒有周期增長,且端口下BPDU配置正確,則在端口入方向綁定流策略對STP報文進行流量統計,以確認對端設備是否週期發送了STP協議報文。配置和查看方法如下:
- 配置流策略:
- 查看流量統計:
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如果通過以上排查,確認端口持續收到大量TC報文,大俠們可以通過使用stp tc-protection命令,使能交換機對TC報文的保護功能,實現對TC報文的限制,以達到對設備進行保護的目的。另外,還可以通過stp tc-protectionthreshold命令指定Hello Time時間內處理TC類型STP報文的次數。
在收到TC報文轉發刷新轉發表項時,STP的收斂方式不同,交換機對ARP表項的處理方式不同,建議配置為normal:
- 如果STP的收斂方式配置為fast,交換機將ARP表中的相關表項直接刪除。
- 如果STP的收斂方式配置為normal,交換機將ARP表中相關表項的剩餘存活時間置為0,對這些表項進行老化處理。
如果使能TC保護、修改STP收斂方式後,PPI任務的CPU利用率仍然較高,大俠們莫著急,請繼續按照步驟2進行處理。
步驟2:端口是否收到多種STP報文
可以通過display stp history命令查看端口角色計算的歷史記錄,如果端口的角色不斷更新,表明端口收到來自不同設備的報文,說明組網存在問題:
同時,打開以下STP debug開關,採集故障期間交互的STP報文和事件信息,排除非法的STP報文。
步驟3:設備是否存在報文攻擊
網絡中出現鏈路故障或報文攻擊,可能導致端口長時間接收不到對端發送的STP協議報文,發生STP切換狀態,例如會產生如下日誌:
Jul 26 2014 02:26:40Switch %%01MSTP/6/SET_PORT_DISCARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as discarding.
Jul 26 2014 02:26:43Switch %%01MSTP/6/SET_PORT_FORWARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as forwarding.
IFNET/4/LINK_STATE:Theline protocol [line-protocol] on the interface [interface-name] has entered the[state] state.
如果鏈路正常,通過display stp interface interface-type interface-number查看BPDUReceived計數。
如果計數沒有周期增長,且端口下BPDU配置正確,則在端口入方向綁定流策略對STP報文進行流量統計,以確認對端設備是否週期發送了STP協議報文。配置和查看方法如下:
- 配置流策略:
- 查看流量統計:
- 如果通過流量統計查看到STP報文計數在週期增加,但使用命令display stp interface interface-type interface-number查看BPDU Received計數沒有增加,那麼需要再使用命令display cpu-defendstatistics all查看是否有其他大量報文在上送CPU處理。
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如果通過以上排查,確認端口持續收到大量TC報文,大俠們可以通過使用stp tc-protection命令,使能交換機對TC報文的保護功能,實現對TC報文的限制,以達到對設備進行保護的目的。另外,還可以通過stp tc-protectionthreshold命令指定Hello Time時間內處理TC類型STP報文的次數。
在收到TC報文轉發刷新轉發表項時,STP的收斂方式不同,交換機對ARP表項的處理方式不同,建議配置為normal:
- 如果STP的收斂方式配置為fast,交換機將ARP表中的相關表項直接刪除。
- 如果STP的收斂方式配置為normal,交換機將ARP表中相關表項的剩餘存活時間置為0,對這些表項進行老化處理。
如果使能TC保護、修改STP收斂方式後,PPI任務的CPU利用率仍然較高,大俠們莫著急,請繼續按照步驟2進行處理。
步驟2:端口是否收到多種STP報文
可以通過display stp history命令查看端口角色計算的歷史記錄,如果端口的角色不斷更新,表明端口收到來自不同設備的報文,說明組網存在問題:
同時,打開以下STP debug開關,採集故障期間交互的STP報文和事件信息,排除非法的STP報文。
步驟3:設備是否存在報文攻擊
網絡中出現鏈路故障或報文攻擊,可能導致端口長時間接收不到對端發送的STP協議報文,發生STP切換狀態,例如會產生如下日誌:
Jul 26 2014 02:26:40Switch %%01MSTP/6/SET_PORT_DISCARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as discarding.
Jul 26 2014 02:26:43Switch %%01MSTP/6/SET_PORT_FORWARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as forwarding.
IFNET/4/LINK_STATE:Theline protocol [line-protocol] on the interface [interface-name] has entered the[state] state.
如果鏈路正常,通過display stp interface interface-type interface-number查看BPDUReceived計數。
如果計數沒有周期增長,且端口下BPDU配置正確,則在端口入方向綁定流策略對STP報文進行流量統計,以確認對端設備是否週期發送了STP協議報文。配置和查看方法如下:
- 配置流策略:
- 查看流量統計:
- 如果通過流量統計查看到STP報文計數在週期增加,但使用命令display stp interface interface-type interface-number查看BPDU Received計數沒有增加,那麼需要再使用命令display cpu-defendstatistics all查看是否有其他大量報文在上送CPU處理。
小貼士
大俠們注意啦:在不同形態、不同版本的交換機上,使用display cpu-defend statistics all命令查看到的報文類型可能不同哦。
交換機通過CPCAR機制對上送控制平面的報文進行業務細化,分別進行限速與隊列調度,以保護控制平面的安全。如果某些協議報文已經超過CPCAR的閾值出現丟包,通過命令display cpu-defend configuration all查看這些協議報文所在的隊列是否與STP報文在同一隊列:
如何輕鬆定位STP故障
作為IEEE標準協議,STP具有兼容性好、網絡規劃要求低、配置簡單等優勢,被廣泛應用於二層網絡中。當然,用得多了大家碰到的問題也就多了,STP有哪些故障現象呢,這些故障又是怎麼排除的呢?小編這次就結合幾個實際的STP故障,和大家分享一下STP故障解決之道。
小貼士
大俠們注意啦,本文中所指的STP是指廣義的STP哦,包括STP協議、RSTP協議、MSTP協議。當需要對三者進行區分時,分別會敘述為STP模式、RSTP模式、MSTP模式。
故障現象1:使能STP的網絡拓撲中出現鏈路故障或鏈路故障恢復後,業務流量恢復需要超過30秒,即端口無法快速收斂(上一篇已分析,需要的大俠們請查看歷史消息)
故障現象2:使能STP的網絡中,流量業務時斷時續,設備CPU佔用率高
定位思路
同樣滴,小編給大家總結了如下的定位思路:
1) 端口是否持續收到TC報文;
2) 端口是否收到多種STP報文;
3) 設備是否存在報文攻擊。
定位步驟
步驟1:端口是否持續收到TC報文
執行命令display cpu-usage查看設備整機或接口板上佔用CPU較高的任務,如果交換機接口板的PPI任務(適配層任務,維護芯片中各個接口的狀態)CPU使用率較高,則排查端口是否持續收到大量TC報文。如果CPU利用率較高的任務中沒有PPI任務,則按照步驟3進行處理。
通過如下命令行可查看端口收、發TC報文的情況:
- display stptc-bpdu statistics:該命令從框式V100R006版本,盒式V100R005版本開始支持。
- display stptopology-change: 該命令從框式V100R006版本,盒式V100R005版本開始支持。
如果通過以上排查,確認端口持續收到大量TC報文,大俠們可以通過使用stp tc-protection命令,使能交換機對TC報文的保護功能,實現對TC報文的限制,以達到對設備進行保護的目的。另外,還可以通過stp tc-protectionthreshold命令指定Hello Time時間內處理TC類型STP報文的次數。
在收到TC報文轉發刷新轉發表項時,STP的收斂方式不同,交換機對ARP表項的處理方式不同,建議配置為normal:
- 如果STP的收斂方式配置為fast,交換機將ARP表中的相關表項直接刪除。
- 如果STP的收斂方式配置為normal,交換機將ARP表中相關表項的剩餘存活時間置為0,對這些表項進行老化處理。
如果使能TC保護、修改STP收斂方式後,PPI任務的CPU利用率仍然較高,大俠們莫著急,請繼續按照步驟2進行處理。
步驟2:端口是否收到多種STP報文
可以通過display stp history命令查看端口角色計算的歷史記錄,如果端口的角色不斷更新,表明端口收到來自不同設備的報文,說明組網存在問題:
同時,打開以下STP debug開關,採集故障期間交互的STP報文和事件信息,排除非法的STP報文。
步驟3:設備是否存在報文攻擊
網絡中出現鏈路故障或報文攻擊,可能導致端口長時間接收不到對端發送的STP協議報文,發生STP切換狀態,例如會產生如下日誌:
Jul 26 2014 02:26:40Switch %%01MSTP/6/SET_PORT_DISCARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as discarding.
Jul 26 2014 02:26:43Switch %%01MSTP/6/SET_PORT_FORWARDING(l):In MSTP process 0 instance 0, MSTP setport GigabitEthernet4/0/10 state as forwarding.
IFNET/4/LINK_STATE:Theline protocol [line-protocol] on the interface [interface-name] has entered the[state] state.
如果鏈路正常,通過display stp interface interface-type interface-number查看BPDUReceived計數。
如果計數沒有周期增長,且端口下BPDU配置正確,則在端口入方向綁定流策略對STP報文進行流量統計,以確認對端設備是否週期發送了STP協議報文。配置和查看方法如下:
- 配置流策略:
- 查看流量統計:
- 如果通過流量統計查看到STP報文計數在週期增加,但使用命令display stp interface interface-type interface-number查看BPDU Received計數沒有增加,那麼需要再使用命令display cpu-defendstatistics all查看是否有其他大量報文在上送CPU處理。
小貼士
大俠們注意啦:在不同形態、不同版本的交換機上,使用display cpu-defend statistics all命令查看到的報文類型可能不同哦。
交換機通過CPCAR機制對上送控制平面的報文進行業務細化,分別進行限速與隊列調度,以保護控制平面的安全。如果某些協議報文已經超過CPCAR的閾值出現丟包,通過命令display cpu-defend configuration all查看這些協議報文所在的隊列是否與STP報文在同一隊列:
步驟4:如果以上步驟還不能解決問題,大俠們可以收集相關信息聯繫華為工程師處理哦。
本期的故障定位招數已經給大家分享完了,相信大俠們再遇到STP故障時,可以輕鬆應對了。
上期連接:
往期連接: