監控平臺系統說明_第1頁
監控平臺系統說明_第2頁
監控平臺系統說明_第3頁
監控平臺系統說明_第4頁
監控平臺系統說明_第5頁
已閱讀5頁,還剩12頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

實用文檔網管平臺需求分析&概要設計 目錄1.平臺需求分析 11.1需求的提出 21.2功能需求 41.2.1監控系統 41.2.2維護系統 61.3系統實現方式 61.4重點問題說明 71.4.1監控對象管理 71.4.2界面展示 71.4.3連接管理 71.4.4監控項值的傳遞和處理 81.4.5監控項值的收集 82.數據庫設計 92.1監控主機配置表 92.2主機告警信息表 102.3告警信息描述表 112.4告警門檻值表 112.5監控主機權限表 122.6維護主機配置表 132.7維護用戶表 142.8維護權限表 142.9操作記錄表(該表記錄長期保存) 153.業務流程 163.1監控系統業務流程 163.1.1監控客戶端處理流程 163.1.2服務器處理流程 163.2維護系統業務流程 171.平臺需求分析1.1需求的提出 目前我司在全國5個省份(廣東,江蘇,浙江,湖南,新疆)數10個節點部署了業務系統,各種類型的主機有數百臺,并且隨著業務的發展這個數字會不斷增長,系統的維護和監控是一個龐大的工作,因為人力的限制,不可能對每臺主機都做到細致化的維護,一些問題往往不能及時發現,影響了服務質量和對業務的支撐。 網管系統的目的就是將人工的維護操作盡量交由電腦執行,以做到高效,實時,可靠。平臺由兩套系統構成,監控系統和維護系統。監控系統主要是監控主機的運行情況,及時發現故障;維護主機主要是在維護主機上遠程執行一些維護動作。系統部署 圖一:網絡結構圖結構圖中陰影部分為某個節點部署的業務系統網絡示意圖,其中要監控和維護的主要是占主機絕大部分數量的前置機、策略服務器、業務服務器和數據庫服務器,這些服務器都是基于LINUX操作系統運行(目前是RedHatAS3),從部署上來說,要求符合以下要求:1.監控系統和維護系統是兩套獨立的系統,互不影響;2.一套監控/維護系統可對多個節點的不同類型服務器進行監控/維護;監控/維護對象取決于系統配置;3.同一臺主機可最多可被多達10套系統同時監控,被5套系統同時維護;4.網管系統完全獨立于業務系統,網管系統的部署不會對業務系統帶來影響(如業務中斷);1.2功能需求1.2.1監控系統 對主機的監控包括以下四大類監控,分別說明如下:主機資源監控◆CPU使用情況監控監控主機CPU的利用率,一臺主機一般有多個CPU,要了解每個CPU的利用率以及總體的平均利用率,每間隔N秒采集一次CPU信息并動態展示在監控界面上,當CPU長期處于高負載時(即連續N個采集信息得到的利用率值都超過閥值),系統做相應的告警;◆內存使用情況監控;監控主機內存的利用率以及當前可分配使用的內存空間大小,每間隔N秒采集一次內存信息并動態展示在監控界面上,當內存長期處于高負載時(即連續N個采集信息得到的利用率值都超過閥值),系統做相應的告警;◆磁盤使用空間監控監控主機磁盤的利用率,一臺主機一般有多個磁盤,要了解每個磁盤的利用率以及剩余空間大小,每間隔N分鐘采集一次磁盤信息并展示在監控界面上,當某個磁盤空間的利用率超過閥值時候,系統做相應的告警;◆網卡流量監控主要監控采集網卡流量采集情況,包括流量的大小,采集到的包數,錯誤包的包數,每N秒采集一次,當某段時間內(連續N個采集信息)低于閥值或者丟包比例超過閥值的時候系統做相應告警;◆操作系統進程監控 監控系統中當前運行的進程數量,每N分鐘采集一次并顯示在界面上,當總的進程數超過閥值時,系統告警;網絡監控◆網絡連通情況監控 主要主機之間的網絡是否聯通,比如前置機是需要和策略服務器以及業務服務器互聯,每N分鐘采集一次,將結果顯示在監控界面;如果網絡不通則寫入告警信息;請注意通常一臺主機是需要和多臺主機互通的;應用程序監控◆應用程序進程監控 主要監控系統中應用程序的進程是否存在,進程的最新啟動時間,當進程不存在或者進程的啟動時間距離當前時間低于允許閥值的時候進行告警; ◆應用程序日志監控主要監控應用程序日志的大小和日志的最新更新時間,N分鐘采集一次,當日志太大超過閥值或者很長時間都沒更新(即當前時間減去日志更新時間)時系統告警,請注意一個應用程序可能有多個日志而只對其中部分監控數據庫監控數據庫監控只對數據庫服務器適用◆表空間使用情況監控 統計數據庫表空間的利用率以及空閑的表空間大小,N分鐘采集一次,當利用率太高的時候系統告警,請注意數據庫一般都有多個甚至數10個表空間而只對其中部分監控;◆數據庫服務名解析監控 用來監控數據庫是否在正常提供服務,N分鐘采集一次,如果服務名不能被解析說明數據庫服務故障;◆數據庫死鎖情況監控 用來監控數據庫有無死鎖,N分鐘采集一次,如果死鎖則告警;◆數據庫連接情況監控 監控數據庫當前連接數,N分鐘采集一次,當連接數超過閥值的時候系統告警; 系統需有良好的擴展性,當有新的監控項需要監控時能方便地加入;1.2.2維護系統 略。1.3系統實現方式 監控系統和維護系統均采用C/S的架構,其中客戶端為.netform開發的前臺界面程序,運行在WINDOWS(XP,2000)下,負責監控信息的接收和展現。服務器端為一駐留在被監控/維護主機的伺服程序,負責收集和發送監控信息。監控系統和維護系統無論在客戶端還是服務器端都是互相獨立的。 C-S間采用SOCKET通信,被監控/維護主機和客戶端之間保持一個固定的長連接,通信格式為自定義格式。參見《監控系統客戶端-服務器通信接口定義》和《監控系統客戶端-服務器通信接口定義》。 從服務器端來說,監控信息的收集和發送是兩個獨立的程序。收集程序:定時調用不同的SH腳本,將最終結果定時輸出到固定文件;發送程序:負責和客戶端之間的連接管理,定時從文件里讀出監控信息發送到客戶端;收集程序和發送程序經常需要操作同一個文件,可采用文件鎖的機制來防止沖突;1.4重點問題說明1.4.1監控對象管理 在多個省份,多個節點存在多種類型的主機,并不是所有的人都能監控所有主機,比如深圳電信的客戶就不能監控廣州電信的主機。為方便處理,我們不通過庫表配置來實現(參見下文的主機配置表和主機權限表),最低的權限為某個用戶只能維護某一個節點的某一類主機,對同一類主機不在做權限細分(比如A只能維護50%的前置,B維護另外50%的前置機)。1.4.2界面展示 因為同時在監控多太主機,而界面上某一時刻只能顯示某一臺被監控主機的某一個監控項情況,并且每個監控項信息都是需要間隔一段時間才有的,有的間隔時間還比較長(比如磁盤監控信息可能1,2個小時才有一次),為了保證“焦點”每次移動在界面上都能及時有信息顯示,要采用以下策略:駐留程序收到登陸請求包驗證用戶合法后立刻返回當前所有監控信息,然后才開始做間隔傳送;2.前臺客戶端總是保存同一監控項當前N(可配置)個數據包的緩存,當“焦點”發生移動的時候,即刻從緩存中讀去信息顯示在界面上;1.4.3連接管理 因為每個監控客戶端和每一個后臺服務器都保持一個固定的長連接,要監控的主機有多臺同時也可能有多個客戶端在同時監控同一臺主機,也就是說監控客戶端和服務器都要同時維護多個長連接,需要做好連接的管理工作,包括連接數的管理,連接狀態的管理,讀寫方式。 考慮到長連接容易出現掛死的情況,因此通信雙方都需要能及時識別出異常并及時關閉連接。通常處理如下:客戶端: 發送登陸包不成功則斷開連接; 接收數據失敗則斷開連接; 在N秒(可配置)內沒收到任何監控信息斷開客戶斷連接;服務器端: 連接數超過限制時斷開連接; 在接收登陸包失敗或超時時斷開連接; 發送數據包失敗時斷開連接;1.4.4監控項值的傳遞和處理 為了方便處理,每個信息包中監控項只能有一種(但可以有多個)含義的監控項值,并且是整型的,客戶端根據消息類型去判斷該如何處理(是否告警),比如磁盤的監控,監控項的值為磁盤的利用率,其他信息如磁盤的編號,磁盤的空閑空間等都是參考項,客戶端只用來做展示并不用來做判斷。如果同一個監控目標有多個告警依據,則需要定義成多個監控項做多次傳輸。比如網卡流量的監控,當流量多低或者丟包率過高的時候都應該引起報警,不能在一個數據包里將這兩個信息都打包過來做處理,正確的處理方式是將網卡的監控定義成兩個獨立的監控項(包括客戶端的參數配置,后臺的SH腳本,消息編碼都不相同),各自獨立處理,但是系統展示的時候是將它們展示在同一個界面上的。 1.4.5監控項值的收集 后臺系統對監控系統的采集也有不同情況,需要做不同處理。情況1:執行一次指令,輸出一次結果,該結果為最終結果;比如磁盤空間的監控,這是最容易處理的情況;情況2:執行多個指令,將多個指令輸出匯總到一個結果里,比如網絡連通情況的監控,因為一臺主機可能和多臺主機相連(特別是策略服務器和數10臺機器相連),測試連通情況時對每臺連接的主機都需要執行一個指令來判斷(比如ping),但同一臺主機和其他電腦的連通情況需要打包一次傳遞給客戶端處理;情況3:執行多個指令,將多個指令的結果進行二次處理得到最終處理結果,比如網卡流量的監控,需要將在兩個時間點采集兩次流量,將兩次的流量相減并除以2次采集的間隔時間才能得到當前網卡采集速率(近似值); 2.數據庫設計以下是監控系統的庫表2.1監控主機配置表Tablejk_monitor_host{ Province Varchar(15)notnull,/*省份,如guangdong表示廣東省*/ Area Varchar(30)notnull,/*節點,如shenzhen表示深圳*/ HostType number(2),notnull,/*監控主機類型,0—前置機,1—策略服務器,2業務服務器*/ HostIp varchar(16)notnull,/*被監控主機的IP*/ MonitorFlag number(1), /*監控有效標志,0—該主機需要被監控,1—該主機不需要被監控*/ Port number(5)notnull,/*被監控主機的監聽端口*/ UserName varchar(20)notnull,/*登陸被監控主機的用戶名*/ Passwd varchar(20)notnull,/*登陸被監控主機的密碼,主要用來做客戶端的校驗,明文即可*/ Hostinfo varchar(20),/*對該主機的說明*/ CreateTime date notnull,/*創建日期*/ ModifyTime datenotnull/*修改日期*/}對HostIp唯一索引對Province+Area索引2.2主機告警信息表記錄主機告警信息,用戶可配置告警信息保存的最長時間,比如只保存最近7天的告警信息*/Tablejk_monitor_info{ Province Varchar(15)notnull,/*省份,如guangdong表示廣東省*/ Area Varchar(30)notnull,/*節點,如shenzhen表示深圳*/ HostType number(2),notnull,/*監控主機類型,0—前置機,1—策略服務器,2業務服務器*/ HostIp varchar(16)notnull,/*被監控主機的IP*/ InfoClass number(2)notnull,/*監控信息大類,10-主機信息,20—應用程序信息,30—數據庫信息,40網絡信息*/ InfoType number(5),/*信息類型,10000-10999對應具體主機告警信息,如10000可表示主機的CPU告警信息*/ Level number(1),/*告警級別,0—正常信息,1—警告,2—錯誤信息,用戶可設置告警信息的顯示級別,如果告警信息級別設置為0,則顯示全部信息,如果為1則只顯示警告信息和錯誤信息*/ InfoDetail varchar(60),/*告警顯示信息*/ CreateTime datenotnull,/*告警時間*/ }對Province+Area索引;對HostIp+InfoClass+Level索引;2.3告警信息描述表該表用來描述不同類型的告警如何顯示在界面上CreateTablejk_info_config{InfoClass number(2)notnull,/*監控信息大類,10-主機信息,20—應用程序信息,30—數據庫信息,40網絡信息,90和監控主機連接信息*/ InfoType number(5)notnull,/*信息類型,10000-10999對應具體主機告警信息,如10000可表示主機的CPU告警信息*/ Level number(1)notnull,/*告警級別,0—正常信息,1—警告,2—錯誤信息,用戶可設置告警信息的顯示級別,如果告警信息級別設置為0,則顯示全部信息,如果為1則只顯示警告信息和錯誤信息*/ InfoDetail varchar(60),/*告警顯示信息*/ CreateTime datenotnull,/*創建日期*/ ModifyTime date/*修改日期*/}對InfoClass+InfoType+Level唯一索引2.4告警門檻值表CreateTablejk_parameter{InfoClass number(2)notnull,/*監控信息大類,10-主機信息,20—應用程序信息,30—數據庫信息,40網絡信息*/ InfoType number(5),/*信息類型,10000-10999對應具體主機告警信息,如10000可表示主機的CPU告警信息*/ InfoCount number(2),/*連續多少監控信息都符合條件的時候才告警,最大99個*/ InfoCondition number(1),/*0—小于,1等于,2—大于*/ Value1 number(8),/*告警閥值*/ Value1 number(8),/*錯誤閥值*/ Desc varchar(20),/*對VALUE的描述,比如“磁盤空間利用率百分比”*/ CreateTime datenotnull,/*創建日期*/ ModifyTime /*修改日期*/}對InfoClass+InfoType唯一索引;閥值是一個整形的數字,所以在處理的時候要注意,比如當磁盤空間占用超過95%的時候系統應該告警,此時磁盤的空間利用率的對應的Value1應該是95而不是0.95,駐留程序處理的時候也盡量考慮傳遞過來的參數是整型的95而不要用0.95.當駐留程序傳遞過來的值符合InfoCondition+Value2為一錯誤信息,當不符合InfoCondition+Value2但符合InfoCondition+Value1為一告警信息,當不符合InfoContition+Value1的時候為一正常信息,比如對某類監控InfoCondition,Value1,Value2分別設置為2,95,99。當采集的值為98的時候為一告警信息,100的時候為一錯誤信息(指對監控的對象出現錯誤,比如磁盤空間為100的時候,說明空間滿了,是一個錯誤信息),80的時候為一正常信息。如果Infocontition,Value1,Value分別設置為1,0,0,則當采集到的值為1時為正常信息,0為錯誤信息,這個適合監控值只有TURE和FALSE兩種情況下的監控,比如網絡連接情況的監控,要么網絡就是通的(1),要么網絡就是不通(0)。2.5監控主機權限表CreateTablejk_monitor_operator{ Operator varchar(40)notnull,/*維護用戶名*/ Province Varchar(15)notnull,/*省份,如guangdong表示廣東省,如果為9999表示所有省份*/ Area Varchar(30)notnull,/*節點,如shenzhen表示深圳,為9999表示所以地區*/ HostType number(2),notnull,/*監控主機類型,0—前置機,1—策略服務器,2業務服務器,為99表示所有類型服務器*/ CreateTime varchar(40)notnull,/*創建時間*/ ModifyTime varchar(40)/*創建時間*/}對Province+Area+HostType索引;以下庫表為維護系統庫表2.6維護主機配置表Tablejk_maintain_host{ Province Varchar(15)notnull,/*省份,如guangdong表示廣東省*/ Area Varchar(30)notnull,/*節點,如shenzhen表示深圳*/ HostType number(2),notnull,/*監控主機類型,0—前置機,1—策略服務器,2業務服務器*/ HostIp varchar(16)notnull,/*被維護主機的IP*/ MaintainFlag number(1),/*維護的有效標志,0—該主機需要被維護,1—該主機不需要被維護*/ Port number(5)notnull,/*被維護主機的監聽端口*/ UserName varchar(20)notnull,/*登陸被維護主機的用戶名*/ Passwd varchar(20)notnull,/*登陸被維護主機的密碼,主要用來做客戶端的校驗,明文即可*/ Hostinfo varchar(20),/*對該主機的說明*/ CreateTime date notnull,/*創建日期*/ ModifyTime datenotnull/*修改日期*/}對HostIp唯一索引對Province+Area索引2.7維護用戶表CreateTablejk_maintain_operator{ Operator varchar(40)notnull,/*維護用戶名*/ Passwd varchar(40)notnull,/*密碼*/ CreateTime varchar(40)notnull,/*創建時間*/ ModifyTime varchar(40)/*創建時間*/}對Operator唯一索引2.8維護權限表定義那些用戶可以維護什么地區的什么主機CreateTablejk_operater{ Operator varchar(40)notnull,/*維護用戶名*/ Province Varchar(15)notnull,/*省份,如guangdong表示廣東省,如果為9999表示所有省份*/ Area Varchar(30)notnull,/*節點,如shenzhen表示深圳,為9999表示所以地區*/ HostType number(2),notnull,/*監控主機類型,0—前置機,1—策略服務器,2業務服務器,為99表示所有類型服務器*/ CreateTime varchar(40)notnull,/*創建時間*/ ModifyTime varchar(40)/*創建時間*/}2.9操作記錄表(該表記錄長期保存)CreateTablejk_operate_record{ Operator varchar(40),/*操作員*/Province Varchar(15)notnull,/*省份,如guangdong表示廣東省*/ Area Varchar(30)notnull,/*節點,如shenzhen表示深圳*/ HostType number(2),notnull,/*維護主機類型,0—前置機,1—策略服務器,2業務服務器*/ HostIp varchar(16)notnull,/*被維護主機的IP*/ Command varchar(60),/*操作指令*/Memo varchar(100),/*操作記錄*/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論