智能化運維之IT系統統一監控預研報告_第1頁
智能化運維之IT系統統一監控預研報告_第2頁
智能化運維之IT系統統一監控預研報告_第3頁
智能化運維之IT系統統一監控預研報告_第4頁
智能化運維之IT系統統一監控預研報告_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、.1IT系統統一監控預研報告目錄 TOC o 1-3 h z u HYPERLINK l _Toc444465121IT系統統一監控預研報告 PAGEREF _Toc444465121 h 1HYPERLINK l _Toc4444651221引言 PAGEREF _Toc444465122 h 3HYPERLINK l _Toc4444651232平臺建立的目標 PAGEREF _Toc444465123 h 3HYPERLINK l _Toc4444651242.1建立健全企業IT運行監測指標體系 PAGEREF _Toc444465124 h 3HYPERLINK l _Toc44446

2、51252.2完善公司業務監測指標體系,保障業務連續性 PAGEREF _Toc444465125 h 4HYPERLINK l _Toc4444651262.3管理業務系統容量 PAGEREF _Toc444465126 h 5HYPERLINK l _Toc4444651273平臺架構 PAGEREF _Toc444465127 h 5HYPERLINK l _Toc44446512831平臺技術架構 PAGEREF _Toc444465128 h 5HYPERLINK l _Toc444465129采集層 PAGEREF _Toc444465129 h 6HYPERLINK l _Toc

3、444465130處理層 PAGEREF _Toc444465130 h 6HYPERLINK l _Toc444465131展現層 PAGEREF _Toc444465131 h 6HYPERLINK l _Toc44446513232平臺功能架構 PAGEREF _Toc444465132 h 7HYPERLINK l _Toc4444651334對新核心系統建立的要求 PAGEREF _Toc444465133 h 8HYPERLINK l _Toc44446513441規系統日志輸出 PAGEREF _Toc444465134 h 8HYPERLINK l _Toc4444651354

4、3 提供效勞持續可用性監控方法 PAGEREF _Toc444465135 h 10HYPERLINK l _Toc4444651365結論 PAGEREF _Toc444465136 h 10引言隨著信息系統規模持續擴大,業務應用的不斷增加,效勞用戶對象的日益增多,IT運維管理人員逐漸面臨著三大難題:(1)設備和業務種類繁多,各類資料信息分散,導致位于一線的IT運維監控人員感知故障的速度晚于信息系統的使用用戶,且故障發生后缺乏對信息系統的整體把控;而后臺管理人員也往往因為信息系統性能數據和故障數據的匱乏而缺少對系統運行安康度的了解。(2)核心機房可能分布于多個地點,部署圍廣泛,設備繁雜,對于

5、大批最網絡設備、主機效勞器、應用系統沒有一個統一的監控平臺,不能制定統一的故障預警管理策略,故障預警效率低,業務恢復時間慢;(3)對關鍵核心業務系統的運行安康程度缺乏評估手段和預警措施,只能被動等待問題發生,無法提前采取技術手段和管理手段躲避問題。在此背景下,總分公司一線運維人員數量多但是經歷缺乏,后臺運維工程師經歷豐富但是數量少,這些矛盾促使我司在新系統建立時需同步建立一套一體化的IT運維監控和效勞預警平臺,協助以自動化的手段完成信息系統的監測和維護。平臺建立的目標建立健全企業IT運行監測指標體系首先,平臺的主要目標是加大對公司部各遺留及專有監控系統的整合力度,提高IT運控中心對公司其他分支

6、機構IT系統管理、檢測和把控能力,建立并完善IT系統監控、IT運行事件響應、IT系統故障處理、IT安康度報告、IT運行問題跟蹤和反響機制,引人自動化IT運維管理工具,從而在公司部建立健全運行管理控制能力,實現IT安康度和業務連續性治理。在此根底上,進一步優化監控策略,實現對設備及效勞項全面、細粒度的監測,預警和管理,主要包含以下方面:1打造多平臺環境下平安穩定髙效的檢測代理及檢測工具;2在實現對各類業務系統、硬件和網絡設備、機房環境等實時檢測的根底上,完善對新核心系統的全流程監控,根據性能數據進展預警,并將性能數據和故障數據引入事件管理平臺進展后續治理,以可視化的方式向運維人員提供一覽式的IT

7、效勞安康狀況視圖;3構建集成監控平臺,對平臺的檢測插件、檢測機制、預警算法、視圖展現等監控資源進展統一管理,實現大屏集中式告警,便于后臺管理人員直觀地看到系統整體安康程度;通過視圖的靈活組合可以快速定位故障點,結合知識庫縮短處理時間。因此,IT運維自動化是一組將靜態的設備構造轉化為根據IT效勞需求動態彈性響應的策略,目的就是實現IT運維的質量,降低本錢。完善公司業務監測指標體系,保障業務連續性隨著公司信息化的開展,IT技術已經從業務支持逐步走向與業務的融合,并成為公司穩健運營和開展的支柱。公司部很多業務流程都已經在IT部門的支持下實現了流程的再造和優化,提煉并制定了相應的流程圖、流程文件及流程

8、運作機制。但是目前我們對于公司部業務風險的管控尚處在初步階段。各類業務流程依然面臨著來自部和外部的各種業務風險。例如部業務風險主要來自于員工和效勞商對信息系統的不當應用,如非授權操作或誤操作;外部業務風險主要來自于外部的不平安事件,如黑客攻擊、機房環境變化等。對應用系統進展業務監控,能夠及時識別業務風險,有效進展相應的主動躲避操作,防止造成損失。管理業務系統容量通過業務監控平臺可以密切監控業務系統性能,包括系統的業務處理量、處理性能、各資源使用狀況等,通過對系統資源瓶頸的分析,可以降低或提高業務系統容量;平臺架構1平臺技術架構運維平臺能夠對各類計算機設備、網絡設備、平安產品、應用系統等IT設備

9、運行狀況和各種網上行為進展集中監控,對各類設備進展全面集中的統一管理,及時發現各類異常情況、快速定位各類事件故障并自動形成“工單、自動分派,再由調度系統進展分派,由系統按預定流程規則進展自動化處理或人工處理的運維業務信息管理系統。使運維工作由被動變主動,由手動處理變成自動處理,并大大降低了運維人員的工作強度,具備良好的延展性,如以下圖所示:如上圖所示,一體化運維監控平臺的系統整體框架由下及上劃分為3層數據采集息采集層、數據處理層(處理層和數據使用層(展現層)。此外,通過平臺的管理控制臺,在各個層面都能夠對平臺進展全方位的配置管理。采集層采集層主要負責采集信息系統的性能數據和故障數據,通過在信息

10、系統效勞器上部署Agent,或者通過SNMP協議采集等多種方式與外圍系統對接,獲取所述根底數據。采集層被動地接收平臺效勞器發出的采集指令,執行相關的信息采集插件,將采集到的數據放人隊列和數據庫中,便于后續的分析和數據挖掘。處理層數據處理層根據不同監控對象的自身特點和運維管理需要,靈活定制相應的性能指標集,定義所述性能指標集中每個指標的監測圍、數據來源, 計算方法、預警閾值、測量頻度參數,通過實時和歷史性能圖表,進展監測、分析和確定系統性能瓶頸,假設超過預警閾值的狀況,自動建立事件,并通知運維人員,由調度系統進展指派,由運維人員手動處理或按照流程規則由自動化運維工具處理。展現層展現層分信息系統全

11、局視圖、系統安康度巡檢報表、檢測數據査詢三個局部。全局視圖可以展現實時監視告警情況,利用巡檢報表,系統管理員可以分析系統性能狀況,并記錄進事件管理平臺。上述綜合展示通過業務視圖、邏輯拓撲、重要設備、告警統計各個不同視圖,將運維管理工作所關注的容有序、實時、全面地呈現出信息系統資源和業務系統的整體運行狀況。32平臺功能架構一體化IT運維監控模型基于松耦合體系架構,采取靈活模塊化組裝、云計算靈活部署構造,實現“監控、管理、管控三個方面協同處理過程,其功能架構如下:統一門戶通過一次登錄,即可對所有的平臺功能進展操作,針對不同的登錄用戶,可以提供專門的個人桌面和輔助工具。監測臺可以定義效勞視圖,將性能

12、,流量,報表,拓撲等系統管理所關心的信息在不同樣式的視圖上集中表達出來。運行效勞平臺以IT管理流程為核心,對運維的主要工作進展規化的管理,并實現設備維修、值班的管理。統一事件管理平臺能夠提供統一的企業級網絡事件管理。通過從各種網絡設備和管理平臺收集網絡事件信息,并進展必要的分析和自動化處理工作。集成數據網管系統,提供數據網管標準接口以供信息交互,完成事件的統一管理,使網絡和系統中的各種資源得到更加高效的利用和綜合管理。系統管理提供對效勞器、存儲設備、操作系統、數據庫、中間件、綜合管理,實現系統故障告警管理、系統性能管理、拓撲與配置管理。接收來自防火墻、人侵檢測、端口掃描等平安系統的告警,并將這

13、些告警實時呈現給信息網絡平安部門,以采取進一步的響應動作,保障網絡系統的正常運行,并對網絡流量進展監聽和分析。對新核心系統建立的要求41規系統日志輸出目前核心業務系統的日志輸出沒有統一的規,有些日志采用log4j進展輸出,有些直接在系統中采用System.out在nohup.out文件中進展輸出,給運維監控分析排查問題帶來較大的困難,建議在新系統的建立過程中,統一規日志的輸出:規日志信息級別日志信息輸出的優先級從高到低至少應分為五檔,分別是Fatal、ERROR、WARN、INFO、DEBUG。這些級別用來指定這條日志信息的重要程度。在測試階段可以翻開所有級別的日志,系統上線后只允許輸出INF

14、O以上級別含INFO。各級別的日志信息作用如下:致命Fatal嚴重的錯誤,系統無常運行,如硬盤空間滿等。這個級別很少被用,常暗含系統或者系統的組件迫近崩潰。錯誤Error系統可以繼續運行,但最好要盡快修復的錯誤。這個級別用的較多,常常伴隨Java異常,錯誤(Error)的環境不一定會造成系統的崩潰,系統可以繼續效勞接下來的請求。警告Warn系統可以正常運行,但需要引起注意的警告信息。這個級別預示較小的問題,由系統外部的因素造成的,比方用戶輸入了不符合條件的參數。信息Info系統運行的主要關鍵時點的操作信息,一般用于記錄業務日志。但同時,也應該有足夠的信息以保證可以記錄再現缺陷的路徑。這個級別記

15、錄了系統日常運轉中有意義的事件。調試Debug系統運行中的調試信息,便于開發人員進展錯誤分析和修正,一般用于程序日志,關心程序操作(細粒度),不太關心業務操作(粗粒度)。系統出現問題時,必須拋出異常,在處理異常時記錄日志,且日志級別必須是前三個級別FatalErrorWarning中的一種。日志中除包含錯誤信息外,還需包含如下信息:Web應用系統發生異常時,日志信息中需包含,系統操作用戶的信息,發生異常時的業務數據、系統功能、程序代碼信息及完整的SQL語句; 接口類效勞發生異常時,日志信息中需包含,接口調用的URL,調用端和被調用端的實地址,交互報文,報文的檢查結果,接口響應時常;在日志中,記

16、錄關鍵程序和數據庫交易的處理時長,并根據事先預定的閾值,在日志中以醒目的方式完整的顯示超過閾值的程序代碼的方法名或SQL語句,以便運維監控人員分析,排查性能隱患。42 預留應用系統監控接口,便于監控系統采集相關指標在核心的建立過程中,需預留監控接口,應用監控系統通過調用核心系統的監控接口,來采集包括但不限于以下指標:從web頁面對應用程序功能進展語義監控,比方“頁面加載錯誤、“Error500、Error404;對用戶質量的監控,頁面加載時常;對程序主邏輯進展監控,判斷主邏輯是否正常;如果主邏輯正常,則對程序自身占用資源的合理性、程序的性能、和程序的分支功能進展判斷;另外對程序占用的資源情況進

17、展監控:CPU資源的占用,存資源的占用,文件句柄的使用情況,網絡句柄的使用情況,文件狀態的進程數;效勞的監控指標,數據加載的情況,模塊的處理能力平均耗時,隊列長度,線程池的使用率,模塊間通訊的狀態(平均連接時間,讀、寫錯誤數),模塊運行時間;系統用戶的操作習慣,完成功能模塊操作的時長;43提供效勞持續可用性監控方法效勞化是應用系統開展的方向,但效勞的監控及問題的排查,一直困擾運維人員,尤其是多層效勞之間調用問題的排查是相當困難的例如:效勞調用 A-B-C-D,最終結果依次返回 D-C-B-A,中間任何環節出現問題,結果都返回不到A。建議在新系統的建立過程中考慮提供效勞的自測工具和監控方法,效勞的自測工具以便讓運維人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論