



版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name CloudFabric云數據中心網解決方案 DOCPROPERTY DocumentName 設計指南(網絡健康度)目 錄 TOC h z t 標題 1,1,標題 2,2,標題 3,3, 標題 4,4, 標題 5,5, 標題 7,1, 標題 8,2, 標題 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2,2,Appendix heading 3,3,Appendix heading 4,4,Appe
2、ndix heading 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc54969760 1 方案簡介 PAGEREF _Toc54969760 h 1 HYPERLINK l _Toc54969761 1.1 方案背景 PAGEREF _Toc54969761 h 1 HYPERLINK l _Toc54969762 1.2 網絡健康度和傳統網管的區別 PAGEREF _Toc54969762 h 2
3、 HYPERLINK l _Toc54969763 1.3 網絡健康度方案簡介 PAGEREF _Toc54969763 h 2 HYPERLINK l _Toc54969764 2 Telemetry數據分析 PAGEREF _Toc54969764 h 4 HYPERLINK l _Toc54969765 2.1 Telemetry技術簡介 PAGEREF _Toc54969765 h 4 HYPERLINK l _Toc54969766 2.1.1 Telemetry和SNMP技術對比 PAGEREF _Toc54969766 h 4 HYPERLINK l _Toc54969767 2
4、.1.2 技術原理 PAGEREF _Toc54969767 h 4 HYPERLINK l _Toc54969768 2.1.3 設備支持情況 PAGEREF _Toc54969768 h 6 HYPERLINK l _Toc54969769 2.2 Telemetry異常檢測技術原理 PAGEREF _Toc54969769 h 7 HYPERLINK l _Toc54969770 2.2.1 動態基線異常檢測 PAGEREF _Toc54969770 h 7 HYPERLINK l _Toc54969771 2.2.2 靜態閾值異常檢測 PAGEREF _Toc54969771 h 7
5、HYPERLINK l _Toc54969772 2.2.3 異常告警抑制 PAGEREF _Toc54969772 h 7 HYPERLINK l _Toc54969773 3 網絡流量分析 PAGEREF _Toc54969773 h 9 HYPERLINK l _Toc54969774 3.1 TCP流量分析 PAGEREF _Toc54969774 h 9 HYPERLINK l _Toc54969775 3.1.1 技術原理 PAGEREF _Toc54969775 h 9 HYPERLINK l _Toc54969776 TCP會話分析 PAGEREF _Toc54969776 h
6、 9 HYPERLINK l _Toc54969777 TCP邊緣智能流分析 PAGEREF _Toc54969777 h 10 HYPERLINK l _Toc54969778 TCP全流分析 PAGEREF _Toc54969778 h 11 HYPERLINK l _Toc54969779 3.1.2 適用場景 PAGEREF _Toc54969779 h 11 HYPERLINK l _Toc54969780 3.2 UDP流量分析 PAGEREF _Toc54969780 h 12 HYPERLINK l _Toc54969781 3.2.1 技術原理 PAGEREF _Toc549
7、69781 h 12 HYPERLINK l _Toc54969782 3.2.2 適用場景 PAGEREF _Toc54969782 h 13 HYPERLINK l _Toc54969783 3.3 報文轉發異常分析 PAGEREF _Toc54969783 h 13 HYPERLINK l _Toc54969784 3.3.1 技術原理 PAGEREF _Toc54969784 h 13 HYPERLINK l _Toc54969785 3.3.2 適用場景 PAGEREF _Toc54969785 h 14 HYPERLINK l _Toc54969786 3.4 CE款型支持情況 P
8、AGEREF _Toc54969786 h 15 HYPERLINK l _Toc54969787 4 網絡健康度分析 PAGEREF _Toc54969787 h 16 HYPERLINK l _Toc54969788 4.1 五級健康度評估 PAGEREF _Toc54969788 h 16 HYPERLINK l _Toc54969789 4.2 故障智能分析及閉環 PAGEREF _Toc54969789 h 17 HYPERLINK l _Toc54969790 4.2.1 整體方案介紹 PAGEREF _Toc54969790 h 17 HYPERLINK l _Toc549697
9、91 4.2.2 故障發現 PAGEREF _Toc54969791 h 18 HYPERLINK l _Toc54969792 4.2.3 故障定位定界 PAGEREF _Toc54969792 h 19 HYPERLINK l _Toc54969793 4.2.4 故障恢復隔離 PAGEREF _Toc54969793 h 22 HYPERLINK l _Toc54969794 恢復預案 PAGEREF _Toc54969794 h 22 HYPERLINK l _Toc54969795 隔離預案 PAGEREF _Toc54969795 h 22 HYPERLINK l _Toc5496
10、9796 4.3 設備維度 PAGEREF _Toc54969796 h 22 HYPERLINK l _Toc54969797 4.3.1 FIB4表項資源異常 PAGEREF _Toc54969797 h 22 HYPERLINK l _Toc54969798 4.3.2 疑似二層環路 PAGEREF _Toc54969798 h 23 HYPERLINK l _Toc54969799 4.4 網絡維度 PAGEREF _Toc54969799 h 24 HYPERLINK l _Toc54969800 4.4.1 亞健康光模塊檢測 PAGEREF _Toc54969800 h 24 HY
11、PERLINK l _Toc54969801 4.4.2 微突發導致業務丟包 PAGEREF _Toc54969801 h 25 HYPERLINK l _Toc54969802 4.5 協議維度 PAGEREF _Toc54969802 h 26 HYPERLINK l _Toc54969803 4.5.1 M-LAG雙主檢測 PAGEREF _Toc54969803 h 26 HYPERLINK l _Toc54969804 4.6 Overlay維度 PAGEREF _Toc54969804 h 27 HYPERLINK l _Toc54969805 4.6.1 網絡接入側IP地址沖突
12、PAGEREF _Toc54969805 h 28 HYPERLINK l _Toc54969806 4.7 業務維度 PAGEREF _Toc54969806 h 29 HYPERLINK l _Toc54969807 4.7.1 配置異常導致業務中斷 PAGEREF _Toc54969807 h 29 HYPERLINK l _Toc54969808 4.8 網絡健康度報告 PAGEREF _Toc54969808 h 30 HYPERLINK l _Toc54969809 4.8.1 網絡健康度報告簡介 PAGEREF _Toc54969809 h 30 HYPERLINK l _Toc
13、54969810 4.8.2 獲取網絡健康度報告 PAGEREF _Toc54969810 h 30 HYPERLINK l _Toc54969811 5 FabricInsight部署說明 PAGEREF _Toc54969811 h 33 HYPERLINK l _Toc54969812 5.1 FabricInsight部署說明 PAGEREF _Toc54969812 h 33 HYPERLINK l _Toc54969813 5.1.1 管理規模 PAGEREF _Toc54969813 h 33 HYPERLINK l _Toc54969814 5.1.2 部署架構 PAGEREF
14、 _Toc54969814 h 33 HYPERLINK l _Toc54969815 5.2 軟件特性清單 PAGEREF _Toc54969815 h 34 HYPERLINK l _Toc54969816 A 參考圖片 PAGEREF _Toc54969816 h 36方案簡介 HYPERLINK l _ZH-CN_TOPIC_0269204207 o 1.1 方案背景 HYPERLINK l _ZH-CN_TOPIC_0269204218 o 1.2 網絡健康度和傳統網管的區別 HYPERLINK l _ZH-CN_TOPIC_0269204229 o 1.3 網絡健康度方案簡介方案背
15、景隨著行業數字化轉型的加速進行,大數據、機器學習、分布式、服務化等新技術等新的業務和應用被部署到數據中心。企業數據中心越來越多的采用云化技術(計算/存儲/網絡資源池化、網絡及業務自動化等),以滿足業務數字化轉型對于新業務快速上線、敏捷迭代、彈性擴/縮容的需求。數據中心資源池化以及SDN技術的應用使得數據中心內業務上線/變更/下線速度得到了極大的提高,但是也導致數據中心網絡的運行狀態幾乎每時每刻都在變化,給數據中心網絡的日常運維工作帶來了如下挑戰:主動運維:SDN場景下要求能快速動態地下發業務,如按需創建和刪除邏輯網絡,網絡或業務配置變更相對會比較頻繁。而頻繁的變更也增加了故障概率,需要運維系統
16、能主動智能地感知這些故障,并借助大數據分析、經驗數據庫幫助用戶快速進行故障定界和故障恢復。實時監控:人工智能及大數據分析等關鍵業務在數據中心內得到廣泛應用,要求運維人員能實時監控網絡運行狀態并針對異常快速響應。例如網絡中由于Incast流量(多打一)產生瞬態的突發丟包,導致AI訓練集群性能下降。懷疑存在毫秒級別的微突發流量,但是在分鐘級別的SNMP機制下,網絡運維人員無法觀察到、更無法針對性的優化該問題。運維規模:云計算場景下運維人員的管理對象從物理設備延伸到虛擬機,網元管理規模增加了幾十倍;另一方面由于實時性分析的要求,設備指標的采集粒度從分鐘級提升到毫秒級,數據量增加了近千倍;更重要的是對
17、于故障的主動感知和排障,除了采集分析網絡設備指標外,還需要結合實際轉發業務流進行分析,數據規模則進一步擴大。華為FabricInsight網絡健康度方案顛覆傳統以設備監控為核心的網絡運維方式,實時評估設備、網絡、協議、Overlay、業務健康狀態,主動感知網絡或業務問題,并針對數據中心內常見故障提供自動化排障能力,幫助用戶快速進行故障定界和恢復,保障應用的持續穩定運行。網絡健康度和傳統網管的區別網絡健康度和傳統網管對比Telemetry秒級數據采集傳統網管基于SNMP協議對網絡設備進行周期性輪詢,由于網管軟件架構及網絡設備CPU性能約束通常以5分鐘為輪詢周期。FabricInsight網絡健康
18、度方案采用更高效的Telemetry技術,FabricInsight按需單次訂閱網絡設備狀態信息及關鍵指標,設備根據訂閱按照秒級周期主動推送采集數據。以業務為中心,分鐘級識別風險傳統網管監控的核心是網絡設備,獨立的監控單臺設備的KPI指標及工作狀態。FabricInsight以業務中心全面評估數據中心網絡健康度,通過設備、網絡、協議、Overlay、業務五層評估模型和AI智能算法,分鐘級識別網絡運行過程中存在的各種風險。主動運維,自動化排障傳統數據中心網絡以被動式運維為主,在業務報障后依賴問題復現、網絡抓包、Ping/Telnet等手段進行事后定位。FabricInsight網絡健康度方案在系
19、統內集成AI智能算法及專家經驗實現網絡自動化排障,快速發現并定位問題根因。同時網絡健康度方案通過對網絡運行歷史數據的智能學習,主動調優網絡以減少因網絡故障導致業務受損的情況發生。網絡健康度方案簡介華為iMaster NCE-FabricInsight網絡健康度評估通過整合網絡中的網絡設備配置數據、拓撲數據、狀態數據、日志數據、流量數據等,從設備、網絡、協議、Overlay、業務五個維度對網絡運行狀態進行實時評估,感知網絡中各個層面的工作狀態并識別潛在的問題和風險;同時iMaster NCE-FabricInsight采用專家經驗引擎、AI智能算法、知識圖譜推理等技術進行大數據挖掘和人工智能分析
20、,對健康度評估發現的網絡風險或故障進行根因定位并推薦修復/隔離措施。FabricInsight通過與iMaster NCE-Fabric控制器的聯動可實現對故障的一鍵隔離或修復,同時還支持對隔離/修復措施進行風險評估,以輔助用戶進行問題隔離/閉環決策。網絡健康度總體方案網絡設備根據信息采集配置及FabricInsight Telemetry訂閱信息,定時采集業務流數據、Telemetry數據、日志、告警等信息,并通過gRPC/Syslog等通道發送給FI。iMaster NCE-FabricInsightiMaster NCE-FabricInsight分析器采集數據中心網絡中的全息數據,數據
21、分析引擎對不舍設備上報的Telemetry數據、網絡流量數據進行關聯分析,并基于五層評估模型全面評估網絡健康度狀態、識別網絡運行過程中可能出現的故障及風險并生成異常事件。同時FabricInsight利用專家經驗、AI智能算法、知識圖譜推理等進行智能關聯分析,實現異常檢測及故障根因定位,同時可以聯動NCE-Fabric進行閉環修復/隔離。iMaster NCE-FabriciMaster NCE-Fabric控制器通過部件間接口從iMaster NCE-FabricInsight接收異常事件,并生成對應的故障事件。故障事件服務可展示故障的關鍵信息,同時針對不同的故障iMaster NCE-Fa
22、bric會生成定制化的恢復或隔離預案,用戶可選擇想要的恢復或隔離預案一鍵式下發。用戶確認故障解除后,可以在NCE-Fabric上回退隔離預案。Telemetry數據分析 HYPERLINK l _ZH-CN_TOPIC_0269204239 o 2.1 Telemetry技術簡介 HYPERLINK l _ZH-CN_TOPIC_0269204187 o 2.2 Telemetry異常檢測技術原理Telemetry技術簡介Telemetry和SNMP技術對比編碼效率SNMP使用非結構化數據編碼效率低,Telemetry利用GPB編碼格式(GPB編碼格式的文件名后綴為.proto),提供一種靈活
23、、高效、自動序列化結構數據的機制,GPB屬于二進制編碼,性能更好、效率更高。采樣精度SNMP支持的數據采集間隔一般為分鐘級,無法滿足業務及網絡監控實時性訴求。Telemetry由于采用了更高效的編碼及上送機制,可以準實時(秒級)的采集需要的數據。上送機制Telemetry通過推模式,讓網絡設備周期性自動推送數據給網管側,避免重復查詢提升監控性能。技術原理FabricInsight利用CE系列交換機設備的Telemetry特性采集設備、接口、隊列等性能Metrics數據進行分析,主動監控、預測網絡異常。設備的Telemetry特性利用GRPC協議將數據從設備推送給FabricInsight的采集
24、器。使用該特性前,需要在設備側導入Telemetry的License。GRPC協議介紹GRPC協議(Google Remote Procedure Call Protocol)是谷歌發布的一個基于HTTP/2傳輸層協議承載的高性能、通用的RPC開源軟件框架。通信雙方都基于該框架進行二次開發,從而使得通信雙方聚焦在業務,無需關注由GRPC軟件框架實現的底層通信。GRPC協議棧分層如REF _fig52859277415 r h圖2-1所示。GRPC協議分層圖各層的含義解釋如下所示:TCP層:底層通信協議,基于TCP連接。HTTP2層:GRPC承載在HTTP2協議上,利用了HTTP2的雙向流、流控
25、、頭部壓縮、單連接上的多路復用請求等特性。GRPC層:遠程過程調用,定義了遠程過程調用的協議交互格式。GPB編碼層:GRPC傳輸的數據,通過GPB格式進行編碼。數據模型層:通信雙方需要了解彼此的數據模型,才能正確交互。用戶可以通過命令行配置設備的Telemetry采樣功能,設備作為GRPC客戶端會主動與上送目標采集器建立GRPC連接,并且推送數據至采集器。GPB編碼介紹GRPC協議采用GPB(Google Protocol Buffers)編碼格式承載數據。GPB提供了一種靈活、高效、自動序列化結構數據的機制。GPB與XML、JSON編碼類似,也是一種編碼方式,但不同的是,它是一種二進制編碼,
26、性能好,效率高。目前,GPB包括v2和v3兩個版本,設備當前支持的GPB版本是v3。GRPC對接時,需要通過“.proto”文件描述GRPC的定義、GRPC承載的消息。GPB通過“.proto”文件描述編碼使用的字典,即數據結構描述。FabricInsight在編譯期根據“.proto”文件自動生成代碼,并基于自動生成的代碼進行二次開發,對GPB進行編碼和解碼,從而實現與設備的對接及“.proto”中定義的消息格式的解析。Telemetry訂閱機制介紹CE支持靜態配置或動態訂閱的方式訂閱感興趣數據:靜態訂閱是指設備作為客戶端,采集器作為服務端。由設備主動發起到采集器的連接,進行數據采集上送。動
27、態訂閱是指設備作為服務端,采集器作為客戶端發起到設備的連接。支持Telemetry的設備在完成GRPC服務的相關配置后,由采集器下發動態配置到設備,完成數據采集。Telemetry數據采集組網說明用戶在CE系列交換機設備側配置完Telemetry性能Metrics數據訂閱規則,設備側按照指定的周期采集相應指標數據,上送給FabricInsight分析處理。組網示意圖如REF _fig255311528482 r h圖2-2所示。Telemetry性能Metrics數據采集組網示意圖采集器集群對外發布OSPF的VIP路由,設備側Telemetry性能指標數據上報、ERSPAN報文鏡像上報共用該V
28、IP作為數據上報的目的地址。采集器集群通過DPDKCollector進程統一接收數據報文,DPDKCollector解析報文頭根據報文類型分發數據到后端的Agent進行數據的解析處理。設備支持情況CE設備支持的Telemetry采集指標參見: HYPERLINK /enterprise/zh/doc/EDOC1100139574?idPath=24030814%7C21782165%7C21782236%7C23650027%7C23599148 o CloudEngine 16800, 12800, 12800E, 8800, 7800, 6800, 5800 V200R019C10 Tel
29、emetry性能指標集Telemetry異常檢測技術原理動態基線異常檢測FabricInsight使用時序數據特征分解、非周期序列高斯擬合等AI算法對設備CPU/內存利用率、接口收/發包數等指標生成動態基線。相比傳統網管領域的靜態閾值,動態基線基于一段時間的歷史數據學習,并配合基于動態基線的異常檢測算法,可以更準確、并提前發現網絡中的指標劣化問題。當前版本將默認對FabricInsight已接入的所有CE設備建立CPU/內存利用率指標基線,默認對ARP表項、FIB表項、MAC表項等路由表項指標建基線,也會默認對存在物理鏈路的接口建立收/發包數等指標基線。動態基線異常檢測示例靜態閾值異常檢測Fa
30、bricInsight除了基于歷史數據生成動態基線外,還支持基于靜態閾值識別設備KPI指標異常。異常告警抑制FabricInsight支持配置告警抑制規則并按照既定規則進行告警抑制,避免系統產生過多冗余的基線異常數據。當前系統默認定義連續3個周期超出基線,才會標記為基線異常。并且一次連續的超出基線的現象,系統會自動進行合并只標記為一次異常,最終入庫的基線異常數據將標記異常開始時間和結束時間。異常告警抑制設置網絡流量分析 HYPERLINK l _ZH-CN_TOPIC_0269204192 o 3.1 TCP流量分析 HYPERLINK l _ZH-CN_TOPIC_0269204199 o
31、3.2 UDP流量分析 HYPERLINK l _ZH-CN_TOPIC_0269204202 o 3.3 報文轉發異常分析 HYPERLINK l _ZH-CN_TOPIC_0269204205 o 3.4 CE款型支持情況TCP流量分析目前FabricInsight支持三種TCP流量分析技術,包括TCP會話分析、TCP邊緣智能流分析和TCP全流分析。技術原理一個典型的流量分析系統由流分析數據輸出器TDE(Traffic-analysis Data Exporter)、流分析數據處理器TAP(Traffic-analysis Processor)和流分析數據分析器TDA(Traffic-an
32、alysis Data Analyzer,即FabricInsight)三部分組成:TDE:由使能了流量分析功能的設備承擔,負責配置指定待檢測的業務流,并上送到TAP。TAP:由設備CPU內置芯片或分析器承擔,對TDE上送的業務流進行處理和分析,并將分析結果輸出至TDA。TDA:表示一個網絡流量分析工具,具有圖形化用戶界面,使用戶可以方便地獲取、顯示和分析收集到的數據,目前僅支持FabricInsight。TCP會話分析如REF _fig1335974016479 r h圖3-1所示,FabricInsight利用CloudEngine交換機的遠程流鏡像能力在交換機匹配TCP協議報文,并將這些
33、報文通過ERSPAN協議發送給FabricInsight采集器進行TCP會話分析。TCP協議中一條TCP連接的建立需要經過三次握手,連接關閉需要經過四次揮手。因此CloudEngine交換機將TCP報文中的SYN、FIN、RST報文鏡像到FabricInsight采集器上,FabricInsight通過對收到的ERSPAN報文進行解析,從而分析網絡中應用之間TCP的建鏈拆鏈過程,獲取TCP流的轉發路徑、路徑時延、開始/結束時間、字節數、會話異常。TCP會話分析示意圖TCP邊緣智能流分析一個典型的邊緣智能流量分析系統由流分析數據輸出器TDE(Traffic-analysis Data Expor
34、ter)、流分析數據處理器TAP(Traffic-analysis Processor)和流分析數據分析器TDA(Traffic-analysis Data Analyzer,即FabricInsight)三部分組成。TCP邊緣智能流分析示意圖如REF _fig1147714244356 r h圖3-2所示:在TDE上配置指定待檢測的業務流,并通過下發的ACL規則匹配該指定的業務流,匹配通過的業務流將會由轉發芯片上送到TAP。TAP對收到的流進行處理,如果是滿足要求的特定流則建立流表進行分析。TAP將分析結果按照指定的目的地址進行封裝,將封裝后的報文發送給轉發芯片進行路由查找轉發,最終到達TD
35、A進行進一步的分析和展示。FabricInsight根據沿途設備上報的流表數據進行關聯分析,可視化呈現轉發路徑、時延、丟包分析。TCP全流分析TCP全流分析功能示意圖參見下圖:CloudEngine在進行報文轉發時對報文進行分析并創建五元組硬件流表,硬件流表老化后上送CPU進行分析及預處理。異常流表條目在CPU上直接上送FI進行異常定位及回溯分析,另外CPU會將所有流表進行壓縮后生成統計流表上送FabricInsight進行流量統計及趨勢分析。CloudEngine的轉發芯片支持報文轉發異常感知,轉發芯片在感知到報文轉發異常(轉發超時延閾值和轉發丟包)時將異常報文上送CPU建流,CPU根據報文
36、信息創建轉發異常流表并上送FabricInsight進行轉發擁塞及丟包分析。TCP全流分析示意圖適用場景三種TCP流量分析技術的用場景比對詳細參見下表。三種TCP流量分析技術適用場景比對技術名稱TCP會話分析TCP邊緣智能TCP全流分析分析能力會話異常建鏈時延轉發路徑丟包統計RTT時延分析建鏈時延轉發路徑1:1流量統計Flag異常分析適用場景會話監控丟包/時延故障定位流量監控部署建議全局開啟故障定位時開啟全局開啟功能約束僅分析TCP控制報文,無數據報文分析能力受小NP性能限制,僅可用于故障定位場景僅P5芯片款型支持UDP流量分析目前FabricInsight邊緣智能流分析方案支持對UDP流量進
37、行丟包、時延、轉發路徑進行分析。技術原理UDP邊緣智能流量分析與TCP分析功能不同的是,UDP智能流量分析功能是基于Block粒度對UDP流進行建流分析的。依據Identification字段可以確定UDP報文的序號,通過對UDP報文序號進行分段,可以將一個UDP流分為多個Block,如REF _fig7743961213 r h圖3-4所示。UDP報文格式得到匹配成功的UDP流后,TAP將針對收到的第一個UDP Block中包含的所有UDP報文進行分析,依據報文中的五元組信息等關鍵值形成一條條的流,從而組成一個流表。每個Block的流表中主要包含的信息如REF _table56046620
38、r h表3-2所示。流表各字段說明字段描述報文數量支持統計設備UDP報文數量。報文大小支持統計設備UDP報文的比特數。時間戳支持統計時間戳,對于同一條UDP流,該時間戳隨數據上報量的增加而增加。流創建時間支持統計UDP智能流量分析流表中流的創建時間。VNI支持識別報文的VXLAN網絡標識VNI。FabricInsight接收到設備上報的UDP流表數據后,根據TTL兩兩計算相鄰設備之間的流信息(報文數、字節數、速率)和轉發質量(丟包、時延)。適用場景UDP流量分析適用場景參見下表。UDP流量分析適用場景說明技術名稱UDP邊緣智能分析能力丟包統計端到端時延分析適用場景丟包/時延故障定位部署建議故障
39、定位時開啟功能約束受小NP性能限制,僅可用于UDP故障定位場景報文轉發異常分析技術原理CloudEngine數據中心交換機在轉發報文時可以基于報文級別識別芯片轉發異常,并將異常報文上送CPU建立轉發異常流表并定期上送FabricInsight進行分析,如REF _fig1758925813205 r h圖3-5所示。報文轉發異常分析流程目前CE交換機支持轉發超時延閾值報文及轉發丟棄報文識別:轉發時延超閾值報文用戶可配置報文在設備內的轉發時延(即進出CloudEngine的時間差)閾值,如果報文在CloudEngine內轉發耗時超過用戶配置的時延閾值時會將超閾值報文上送給CPU進行分析并創建轉發
40、異常軟件流表。轉發丟棄報文當報文在設備內轉發時,因出端口擁塞、ACL Deny策略或轉發查表失敗導致丟包時,轉發芯片可以感知到報文丟棄事件,并將丟棄的報文拷貝到CPU進行分析并創建轉發異常軟件流表;轉發丟棄報文上送CPU進行建流,CPU根據上送報文頭及轉發芯片標記的丟棄原因進行建流。適用場景報文轉發異常分析功能適用的場景參見下表。報文轉發異常分析適用場景說明技術名稱轉發異常分析分析能力轉發丟棄報文原因轉發丟棄報文計數適用場景CE轉發異常監控部署建議全局開啟功能約束僅P5芯片款型支持CE款型支持情況參見 HYPERLINK /enterprise/zh/network-management-an
41、d-analysis-software/imaster-nce-fabricinsight-pid-250872300?category=learn-about-products&subcategory=specifications-list o 華為iMaster NCE-FabricInsight規格清單中“配套的CloudEngine設備規格清單”。網絡健康度分析 HYPERLINK l _ZH-CN_TOPIC_0269204208 o 4.1 五級健康度評估 HYPERLINK l _ZH-CN_TOPIC_0269204209 o 4.2 故障智能分析及閉環 HYPERLINK l
42、 _ZH-CN_TOPIC_0269204216 o 4.3 設備維度 HYPERLINK l _ZH-CN_TOPIC_0269204220 o 4.4 網絡維度 HYPERLINK l _ZH-CN_TOPIC_0269204223 o 4.5 協議維度 HYPERLINK l _ZH-CN_TOPIC_0269204225 o 4.6 Overlay維度 HYPERLINK l _ZH-CN_TOPIC_0269204227 o 4.7 業務維度 HYPERLINK l _ZH-CN_TOPIC_0269204230 o 4.8 網絡健康度報告五級健康度評估iMaster NCE-Fab
43、ricInsight結合telemetry機制并整合網絡中的配置數據、表項數據、日志數據、KPI性能數據、業務流數據,實時發現網絡中各個維度的問題和風險;檢測范圍覆蓋設備工作狀態異常、網絡容量異常、器件亞健康、業務流量交互異常等范圍,從而幫助運維人員“看網識網”,直觀地呈現全網整體體驗質量。FabricInsight將數據中心網絡分為5個維度進行網絡健康度評估:設備,網絡,協議,Overlay,業務,如REF _fig1723395262414 r h圖4-1所示。網絡健康度評估總覽設備:物理設備是構成數據中心網絡的基礎單元,設備層面健康度主要評估物理硬件狀態、表項容量、CPU和內存負載等單設
44、備健康狀態。網絡:設備和設備之間互聯構成數據中心的物理網絡,網絡層面健康度主要評估設備間互聯鏈路的端口狀態、端口流量、端口錯報、隊列深度、光鏈路狀態等設備間互聯鏈路相關的健康狀態。協議:除了物理鏈路進行互連外,網絡設備之間還需要運行各種協議從而將網絡形成一個整體進行報文轉發及其他協同功能。協議層面健康度主要評估OSPF、BGP等路由協議工作狀態,還會對跨設備鏈路聚合(M-Lag)協議的工作狀態進行健康度評估。Overlay:當前數據中心網絡都引入了SDN技術來實現網絡資源的池化及快速發放,SDN技術的引入將數據中心網絡分為Underlay和Overlay兩個部分。業務流量往往承載在Overla
45、y層,Overlay層是否工作正常直接決定了業務的穩定性。Overlay健康度主要評估VXLAN隧道、BD/VNI/VRF等資源的運行狀態。業務:FabricInsight基于網絡流量分析能力監控業務流量帶寬、建鏈/拆鏈情況、異常會話等業務狀態信息,實時感知數據中心網絡承載的上層業務的轉發狀態,真正從業務層面評估數據中心網絡的健康狀態。故障智能分析及閉環整體方案介紹故障智能分析及閉環的整體方案參見下圖。故障智能分析整體方案示意圖iMaster NCE-FabricInsight通過Telemetry采集數據中心網絡設備配置、狀態、日志等數據,之后分為網絡、設備、協議、Overlay、業務五個維
46、度進行健康度評估。健康度評估識別的異常由故障智能分析模塊進行根因分析,并對識別的故障根因提供修復建議。FabricInsight分析出故障根因后通過部件間接口將故障信息同步給iMaster NCE-Fabric,由iMaster NCE-Fabric可視化呈現故障根因及影響范圍,同時NCE-Fabric會針對故障推薦故障修復/隔離預案,用戶經過確認可一鍵式下發預案相關的配置完成故障修復。故障發現iMaster NCE-FabrcInsight通過五級健康度評估發現數據中心網絡中發生的網絡故障及風險,下面簡單介紹網絡健康度評估故障發現的幾種典型方式:網絡監控對象周期性采用數據發現故障iMaste
47、r NCE-FabricInsight分析器通過Telemetry訂閱設備上特定對象的周期性采樣數據,如設備接口收發報文的統計數據,光模塊的指標數據,丟包統計數據等,iMaster NCE-FabricInsight分析器通過比對所有監控對象的周期性采樣數據發現異常,報告故障;例如:光模塊收發功率過低導致的故障。流異常發現故障iMaster NCE-FabricInsight分析器通過捕獲TCP報文或分析設備上送的流量分析網絡流量數據,分析有建鏈異常的TCP會話、設備上報的轉發異常流表等識別流異常類型的故障;TCP流異常發現故障能力,依賴于設備具有TCP報文鏡像上送或流表上送能力,如果設備不開
48、啟該功能,或網絡中無TCP流量將無法發現此類問題。告警日志發現故障有些故障產生后,網絡設備自身會產生告警,并上報網管或其他日志采集系統,在CloudFabric智能運維解決方案中,有些故障就是通過收到設備告警日志觸發;如設備資源不足類故障。周期性探測網絡連通性iMaster NCE-FabricInsight分析器通過對網絡監控對象的周期性使用ICMP進行連通性檢測,可以發現因網絡可達性異常導致的故障。如:設備管理通道中斷故障。DPV驗證發現的異常FabricInsight通過定期采集網絡中配置、ARP表、FIB表、網絡拓撲及網絡設備對象的狀態等提交給DPV引擎,DPV引擎通過仿真驗證算法模擬
49、網絡設備的轉發行為。周期性的針對FabricInsight預定義及用戶自定義的規則進行驗證,當DPV驗證結果和用戶預期不一致時識別為異常。故障定位定界CloudFabric網絡健康度方案中,故障的定位定界是在故障發現能力的基礎上,通過iMaster NCE-FabricInsight分析器的大數據分析引擎對收集的網絡數據進行分析,并給出故障的定位和根因;針對不同的故障,iMaster NCE-FabricInsight分析器會采用針對性的故障定位算法進行處理,以提高故障根因的判斷準確性。如REF _fig3894202315331 r h圖4-3所示,iMaster NCE-FabricIns
50、ight分析器通過設備實時上送的TCP建鏈報文或流表,對TCP會話狀態進行實時監控。當發現有TCP鏈接異常事件發生時,iMaster NCE-FabricInsight通過AI引擎分析檢索出有相同故障特點的TCP流量,“知識推理引擎”根據異常流量的發生位置,對該設備上故障時刻和此前正常時刻的相關網絡數據進行分析,然后給出故障根因。流量異常類故障定位邏輯由告警日志觸發的故障定位邏輯網絡設備的告警上報的故障,iMaster NCE-FabricInsight分析器的判斷邏輯通常有兩種:第一種是告警可以直接定位問題根因的,例如設備資源超閾值類告警,設備上報的CPU、內存或表項超過設備設定的閾值告警,
51、這種情況故障根因直接就相關資源不足。第二種是設備產生的告警問題根因不是告警本身,二是其他故障發生后引發的連鎖反應,這種問題的根因定位就比較復雜,傳統網絡對于這類問題的排障通常頗費周折,定位時間一般都比較長,而且對用戶的問題定位經驗或技能要求也比較高。iMaster NCE-FabricInsight分析器對于這類問題構建了“知識圖譜”推理引擎:“知識圖譜”推理引擎通過構建故障在網絡對象間的傳播方式,對故障知識進行建模,確定網絡對象間的依賴關系,在收到設備產生的告警時,iMaster NCE-FabricInsight分析器基于知識圖譜進行故障溯源,定位出故障的真正原因所在。基于“知識圖譜”的推
52、理引擎知識圖譜應用舉例:下圖以接口故障導致BGP Peer會話故障為例,展示了知識圖譜的簡要故障定位原理。知識圖譜在“接口故障導致BGP Peer會話故障”中的應用舉例故障場景:設備上報“BGP對等體斷開”告警。當iMaster NCE-FabricInsight分析器收到設備上報的“BGP鄰居1斷開”告警時,會根據知識圖譜查找該BGP Peer綁定的BGP進程,并進一步查找承載該BGP進程的Underlay OSPF路由進程,發現OSPF 1進程所關聯的OSPF鄰居1狀態發生變化,進一步溯源發現該鄰居所在L3接口的狀態異常,最終根據知識圖譜確認為轉發往該鄰居的L2出接口鏈路down導致。此時
53、iMaster NCE-FabricInsight分析器會報告“BGP鄰居1斷開”的故障根因為 “Link1”鏈路down導致。網絡監控對象的周期性采樣數據故障定位邏輯對于某些網絡對象,iMaster NCE-FabricInsight采集器會通過Telemetry訂閱多種網絡對象的采樣數據,并通過大數據分析引擎對采樣數據進行周期分析統計,當發現采樣對象發生故障時,AI引擎根據采樣數據的分析結果發現異常,并給出故障原因。例如“光鏈路故障”case中,iMaster NCE-FabricInsight分析器會對光模塊采樣數據進行持續分析判斷,包括光模塊的溫度、電壓、電流、光功率等,當發現其中有參
54、數偏離正常值范圍,iMaster NCE-FabricInsight即會報出光鏈路故障Issues,并呈現相關參數的異常數據值及故障對象的歷史數據走勢。通過網絡連通性探測故障定位邏輯還有一些故障的判斷是通過連通性檢測手段發現的,分析器會通過ping 、openflow構造探測報文等手段檢查目標對象間的連通性,并根據結果判斷是否發生故障。例如“交換機管理通道中斷故障”,iMaster NCE-FabricInsight分析器通過周期性ping每個納管設備的管理IP來發現設備是否失聯。故障恢復隔離當前iMaster NCE-FabricInsight分析器發現并定位故障后,會將故障事件通過部件間A
55、PI通告給iMaster NCE-Fabric控制器,iMaster NCE-Fabric控制器根據發生的網絡故障事件,來判斷是否可通過配置手段對故障進行修復,如果可行則會給出相應的修復預案,用戶在故障事件管理UI中選擇修復預案后,iMaster NCE-Fabric會對該預案的修復手段做出說明,呈現該預案將下發到設備上的配置信息,如果修復預案實施后會對網絡產生影響,iMaster NCE-Fabric控制器還會提供預案影響分析,供用戶決策是否要最終實施該修復預案。根據對故障修復程度的不同,又可將修復預案劃分為“恢復預案”和“隔離預案”兩種。恢復預案恢復預案是通過對故障設備下發配置可修復故障,
56、且除修復故障問題外,修復預案不會在設備上產生新的配置(更改設備已有配置中的錯誤參數除外),設備上已配置的其他網絡特性或功能不會受恢復預案影響。因此“恢復預案”從配置層面來說對設備的影響是最小的。隔離預案隔離預案是設備發生的故障,根因是業務側導致,或需要現場排查,或需要更換硬件后才能徹底解決的,但是通過配置手段可以在故障解決前,將故障源暫時隔離,以降低或消除其對網絡產生的影響,此類型的預案稱之為“隔離預案”。設備維度設備維度網絡健康度評估主要用于識別單設備異常,如整機故障、風扇/電源故障、設備表項利用率超閾值等,下面以FIB4表項資源異常及疑似二層環路為例介紹設備維度健康度分析。FIB4表項資源
57、異常應用場景出現資源不足問題后只能人工登錄設備查看資源占用分布,無法及時感知設備表項資源不足問題,問題排查效率低;缺乏對表項資源變化的主動識別,判斷是否存在異常行為。分析對象單板故障識別原理基于Telemetry機制實時檢測單板FIB4表項利用率,如利用率超過設備閾值,則識別為“交換機FIB4表項超閾值”故障。修復建議將設備升級為表項規格更大的型號,或者將后續上線業務遷移到其他Fabric。通過iMaster NCE-Fabric進行修復。FIB4表項資源異常示例疑似二層環路應用場景在Fabric網絡中可能存在單設備接口自成環、單設備不通接口之間成環、外部網絡成環、多設備成環等場景,網絡中一旦
58、出現環路,會導致業務中斷,帶來商業損失。網絡管理員需要及時發現環路現象,識別環路的設備+端口,快速消除環路影響、進一步進行根因排查和修復問題。檢測對象設備、接口故障識別原理檢測全網設備MAC地址漂移記錄及基于Telemetry機制實時監測端口收發廣播報文數變化趨勢,識別環路端口;根據二層域聚合各設備環路端口,識別為“疑似二層環路”故障。修復建議shutdown環路接口,排障環路口是否存在接線問題。通過iMaster NCE-Fabric進行修復。疑似二層環路示例網絡維度網絡維度健康度分析主要識別設備互聯鏈路故障、光模塊異常等和設備互聯相關的網絡故障,下面以亞健康光模塊檢測、微突發檢測為例介紹網
59、絡維度健康度分析。亞健康光模塊檢測應用場景光鏈路維護面臨的挑戰主要包括:光模塊長時間運行,光器件性能衰減,導致鏈路不穩定;光模塊問題現象無規律,難于復現,定位周期長。檢測對象光模塊故障識別原理基于光模塊的運行指標,并結合光模塊硬件工作模式、華為IT現網運行經驗,構建光模塊亞健康檢測算法。周期性監控以下指標:接收光功率、發送光功率、偏執電流、電壓、溫度、CRC錯包數,識別出指標有異常后會生成“疑似光鏈路”故障。修復建議在健康度問題界面,瀏覽當前狀態是OPEN的疑似光鏈路故障問題。展開查看問題詳情,如下圖所示,查看疑似故障的光模塊、存在異常的指標以及影響的鏈路等信息。根據修復建議中給出的修復方案進
60、行操作。亞健康光模塊檢測示例結束微突發導致業務丟包應用場景數據中心中大數據服務往往需要大量服務器才能形成集群并協同工作。一旦將多個節點的流量發送到同一計算節點,就可能在網絡上發生瞬時擁塞。而傳統的NMS每5分鐘收集一次數據,無法識別微爆。且問題無規律,難以追蹤和重現。檢測對象端口故障識別原理交換機基于Telemetry機制可以實現100ms級檢測端口的Buffer使用情況。交換機上如果產生端口Buffer擁塞,并導致了業務報文丟棄,則交換機會上報端口-隊列-丟棄的報文五元組詳情到FabricInsight。FabricInsight基于端口維度生成“交換機端口擁塞導致業務受損”故障。修復建議在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國黑荊樹項目創業計劃書
- 中國家用無線路由器項目創業計劃書
- 中國桑樹項目創業計劃書
- 中國肉羊養殖項目創業計劃書
- 中國凈菜加工項目創業計劃書
- 中國管腔抓捕系統項目創業計劃書
- 中國高效節水農業項目創業計劃書
- 中國冬青類灌木樹苗項目創業計劃書
- 中國鵝項目創業計劃書
- 中國犢牛欄項目創業計劃書
- DB37∕T242-2021建筑消防設施檢測技術規程
- 2024年燕舞集團限公司公開招聘高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 2024年中考道德與法治時事政治試題庫附答案(綜合題)
- 江蘇省蘇州市2023-2024學年五年級下學期期中綜合測試數學試卷(蘇教版)
- 游戲陪玩-模板參考
- 論藥品管理在藥品安全中的重要性
- 懷來鼎興投資開發有限公司審計報告
- 健康心理學孫宏偉重點
- 感染病的預防和控制措施概述及實施
- 《大學生信息素養》課件
- 企業安全風險智能化管控平臺建設指南解讀
評論
0/150
提交評論