




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
中小銀行運維自動化經驗(jīngyàn)分享第一頁,共28頁。目錄(mùlù)2運維管理(guǎnlǐ)中的操作控制難題1運維標準化自動化解決之道2作業任務精確控制監控巡檢準確定位(dìngwèi)應急處置自動調度...........................運維標準化自動化實施要點3第二頁,共28頁。運維管理總體目標-防范風險、優質效勞、控制(kòngzhì)本錢、系統建設穩定運行精確控制資源管理標準服務應用整體監控
事件處置管理
知識維護使用變更發布管理
運維服務標準化運行成本可計量技術規范體系化運維架構規范化制度體系層次化運維管理
作業調度管理安裝規范核對巡檢全程控制配置信息管控設備資源管理運行數據采集資源性能分析
容量總體規劃數據資源管理精確(jīngquè)操控管理是運維管理的根底,也是科技效勞質量的保障第三頁,共28頁。作業管理難題-漏做錯做、任務異常(yìcháng)、執行風險、隱患排查大型商業銀行每日批作業任務數已達數千個,中小型商業銀行也近幾百個,隨著業務復雜度及三方業務增加,任務數有增無減,并且變更頻率教高,控制難度增加;多個系統、多個作業任務之間形成了非常復雜的邏輯關系,僅靠表格(biǎogé)等手工管理方式,很難降低任務執行過失率;針對特殊日期的批作業任務臨時變更,很難精確控制,一旦作業任務執行失誤,影響范圍較大,很難處理;很難精確記錄作業任務執行時長、時點、報錯等情況,無法統計分析,發現作業任務執行過程中的潛在風險;...........................................................作業管理第四頁,共28頁。作業管理手段-任務登記、變更控制、邏輯調度、過程(guòchéng)記錄、隱患排查任務定義?關系管控(ɡuǎnkònɡ)?技術標準?過程監控?結果檢查?故障聯查?任務優化?作業管理第五頁,共28頁。運行監控(jiānkònɡ)難題-預警、發現、定位、排查、隱患、預估、采集、資產監控(jiānkònɡ)巡檢關鍵業務(yèwù)交易出現問題,想排查故障原因,那么:網絡環境如何?網絡報文正常?系統資源有瓶頸嗎?中間件有問題嗎?數據庫有瓶頸?應用程序有報錯?業務(yèwù)數據有問題嗎?客戶請求端狀態如何?第六頁,共28頁。運行監控難題-預警、發現、定位(dìngwèi)、排查、隱患、預估、采集、資產監控(jiānkònɡ)巡檢2019年3月17日監控報警情況---缺乏網絡通路質量(zhìliàng)檢測直接報警【只有表象報警、無原因報警】15:37ECIF系統:三條報警ToFront0307error、ToFront0307error效勞測試異常15:38收單系統:03801Successrateislow!Pb751BUSY!15:40電子支付系統:EPAYthreadisbusy15:44個貸風險管理系統:plms4和plms2、plms5、plms6阻塞線程數高、15:44信貸風險流程管理系統:weblogic線程數高、jdbc連接池等待15:45操作風險管理系統session鎖等待15:45圖前監控采集機報錯15:46驗印系統ssl握手失敗分析:1、從15:37到15:46,10分鐘內統一監控平臺共有19條應用系統1級告警,但因總行網絡環境監控手段的缺失,未能第一時間發現網絡線路質量(zhìliàng)問題,因此,如何提早發現網絡通路問題,如何快速定位故障點,是故障早發現快解決的關鍵。2013年3月17日網絡通路典型故障第七頁,共28頁。應急難題(nántí)-經驗積累、工具標準化、邏輯關系控制、快速準確執行???應急(yìngjí)處置第八頁,共28頁。其它運維操作難題-數據全程管理、標準化變更發布、環境(huánjìng)合規檢查、資產動態采集驗證其它(qítā)運維操作第九頁,共28頁。中小銀行運維標準化自動化的意義(yìyì)--人員、經驗、風險、本錢實施運維操作自動化的關鍵目標是什么?:運維操作管理應該細分為如下幾個領域,每個領域的具體目標是不同的:1〕操作控制:準確調度;2〕監控診斷:固化知識;3〕應急處置:精確執行;4〕變更發布:控制過失;5〕標準檢查:準確核對;6〕資產采集:信息準確;7〕數據管理:全程(quánchéng)控制;如何有重點分步驟的實施運維操作自動化?:根據細化后的運維操作流域及其管理目標,分別設計方案及標準,然后按照:首先標準化,其次自動化,最后制度化的路線進行實施;運維操作自動化與哪些運維管理環節相關?:與一線建設、事件管理、應急處置、數據管理、運維標準化等運維管理環節密切相關,同時考慮人力配備、技術能力問題【短期引入】;如何保持運維操作標準化的持續性?:通過問題日常跟蹤機制【日積月累】、運維操作維護工作流程【查缺補漏】、相關人員崗位規劃、以及工具持續優化【實用原那么】達成;意義(yìyì)及思考第十頁,共28頁。目錄(mùlù)11運維管理(guǎnlǐ)中的操作控制難題1運維標準化自動化解決之道2運維自動化領域的細分標準化是自動化的前提管理體系是有效實現(shíxiàn)的根底...........................運維標準化自動化實施要點3第十一頁,共28頁。運維操作領域細分-領域不同,目標及要求那么(nàme)不同,實現策略與方法不同操作控制:常規操作任務的定義、調度、執行、監控、變更、維護、優化作業調度:風險控制、運行評測、變更控制、配套檢查操作控制:配置備份、環境比對、時點檢查、標準安裝數據操作:系統備份、業務備份、恢復執行、查詢流程、銷毀控制監控診斷:報警判斷、故障定向、問題定位、二次采集、標準處置、資產核對運行監測(jiāncè):系統、應用、數據、外聯環節的主動探測,運行數據采集故障診斷:監控集成、二次判斷、故障定位、現場采集故障處置:處置執行、狀態判斷、可用驗證、故障隔離應急處置:應急環境與條件自動檢測、應急流程實現與維護、應急操作自動執行變更發布:變更評審關鍵點管理〔非功能需求在線核對〕、應用發布自動化〔標準〕、系統變更自動化〔標準〕標準檢查:監管/管理標準核對、平安自動檢測、配置信息自動核對、安裝標準第十二頁,共28頁。運維操作管理(guǎnlǐ)的實現:1〕標準化;2〕工具化;3〕自動化;4〕制度化第十三頁,共28頁。作業管理體系(tǐxì)-制度細那么、技術標準、監測優化作業管理體系(tǐxì)第十四頁,共28頁。應急操作管理體系-自上而下、從頭落實、技術細化、持續(chíxù)改進應急(yìngjí)管理體系整體預案技術預案系統手冊技術演練持續維護識別業務風險控制故障影響指導整體工作明確故障升級及處置整體流程,建立規范整體了解關鍵業務系統結構,梳理各類故障處置方法以實戰出發設計演練場景,驗證操作有效性將系統的變更、典型故障,及時維護到應急管理手冊之中技術操控管理重點范疇業務影響分析整體預案制定事件定級流程設計系統結構梳理故障處置步驟日常變更管理演練場景設計典型故障管理實操與評測
分析 建立 設計 實操 評估整體工作落實策略第十五頁,共28頁。監控(jiānkònɡ)巡檢管理體系-認識對象、明確指標、操作測量、評估優化監控(jiānkònɡ)管理體系第十六頁,共28頁。目錄(mùlù)17運維管理(guǎnlǐ)中的操作控制難題1運維標準化自動化解決之道2運維操作經驗的積累與獲取識別階段工作(gōngzuò)的重點與難點工具適用性選擇與人員調整...........................運維標準化自動化實施要點3第十七頁,共28頁。作業管理實施(shíshī)要點-識別作業管理關鍵點、分析關鍵問題分布實現作業管理實施(shíshī)作業邏輯控制:各個作業任務之間往往存在先后邏輯關系,尤其是跨應用系統的邏輯管理需要嚴格控制作業時間調度:很多作業需要控制執行日期及時間,如周一至周五某時刻做,每月最后工作日做等等作業權限控制:關鍵作業需要特定(tèdìng)角色或者多人復核等,需要進行嚴格控制作業自動執行:對于將要實施自動執行的任務,應具備哪些條件、應如何改造、如何控制風險作業臨時干預:在特殊情況下,如業務部門特殊要求,某些作業不按照方案的時間等條件執行,能否有效控制是關鍵作業管理成體系:對于作業管理中的人員、信息、流程等要素進行系統化管理,將作業的根底信息、變更流程、人員工作等環節落實在一套管理制度及工具中作業變更標準化:嚴格控制作業任務在系統投產、節假日處理等情況下的變更及實施第十八頁,共28頁。應急處置(chǔzhì)面臨的復雜性-系統間關聯性高、同城異地災備環境應急處置(chǔzhì)實施第十九頁,共28頁。應急處置操控(cāokònɡ)實施-處置操作標準化、整體設計處置流程、自動操控(cāokònɡ)應急(yìngjí)處置實施第二十頁,共28頁。監測采集實施-識別監測對象與指標(zhǐbiāo)、監測采集過程標準化、實時自動監測采集監測(jiāncè)采集實施第二十一頁,共28頁。監測采集實施-運行(yùnxíng)數據采集目標確定、采集手段梳理、采集流程設計實現監測采集(cǎijí)實施第二十二頁,共28頁。關鍵生產環節的可用性保障-梳理整體(zhěngtǐ)環境及鏈路、確認測試方法、自動測試監測(jiāncè)采集實施第二十三頁,共28頁。運維操作實現(shíxiàn)的關鍵因素—技術經驗、人員能力、工具實現(shíxiàn)、持續優化首先要將內部日常運維工作逐步標準化標準化,并形成簡潔有效的運維管理過程,記錄每個故障、分析成因、跟蹤問題,技術(jìshù)經驗、解決方案的日積月累。外部技術(jìshù)經驗及解決方案的引入,如網上資料、外包資源、工程資源等。技術(jìshù)經驗持續優化在實施運維管理的同時,必須考慮配套制度標準及細那么的設計,以及技術標準的建立,同時形成不斷查缺補漏的工作機制。將運維操作領域進行細化分工,在系統設計、開發、投產、運行監測、優化改進等環節持續落實。24工具實現首先要明確各運維領域細化目標及需求,基于此分析對于工具的詳細需求。工具必須具備較強的二次開發能力,充分掌握核心代碼,以結果為導向整體設計,不斷持續改進運維管理分工的細化,由按系統分工模式,逐步調整為技術專業領域分工。充分利用外包、駐場、工程資源,將上述人員能力,按照標準化模式,輸出成為知識、解決方案,形成自身人員能力。人員能力24第二十四頁,共28頁。運維自動化工具思考(sīkǎo)-不是簡單的流程化、復雜邏輯控制、實際處理難題.......任務的暫停、延遲、跳過、置換、提前:任務的法定時間因子、前序條件因子、執行令牌因子〔臨時干預〕【任務暫停、任務略過、任務提前、臨時調換兩個任務的先后順序等功能支持的情況】任務的時點報警、時長報警:可給固定參考值閥值、也可根據平均時間動態計算閥值任務流的暫停、終止:向其它相關流程發送全局變量信息多個(duōɡè)任務流程直接的信息交互:通過全局變量、消息隊列等實現對于已經啟動的任務流中臨時增加任務:實例化后流程可動態修改任務流的單步執行:可控制流程進行單步執行任務執行失敗后的重做:任務執行失敗后,可選擇執行錯誤任務進行糾錯、判斷、報警等第二十五頁,共28頁。感謝(gǎnxiè)交流哈爾濱銀行科技(kējì)開展部:姜巖第二十六頁,共28頁。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術文員面試題及答案
- 電工理論面試題及答案
- 培訓店長考試題及答案
- hrbp面試題及答案
- 東陽公司面試題及答案
- 肺動脈高壓患者護理查房
- 智能制造產業孵化基地建設與區域產業創新生態構建策略研究報告
- 流程與流程管理
- 對企業環境行政處罰培訓
- 2025年新能源微電網穩定性控制與運行風險預判與優化報告001
- 2025-2031年中國天然氣勘探行業市場運行態勢及投資潛力研判報告
- 2025年新媒體運營專員面試題及答案
- 四川綿陽公開招聘社區工作者考試高頻題庫帶答案2025年
- 《水利工程造價與招投標》課件-模塊六 招投標程序
- 關于水表考試題及答案
- 短文選詞填空12篇(新疆中考真題+中考模擬)(解析版)
- 植物化學保護學知到課后答案智慧樹章節測試答案2025年春華南農業大學
- 新能源發展與環境保護試題及答案
- 網絡安全威脅情報共享-深度研究
- 項目三公示語翻譯
- 業主不讓維修通知函
評論
0/150
提交評論