從救火”走向防火”商業平臺業務運維實踐課件_第1頁
從救火”走向防火”商業平臺業務運維實踐課件_第2頁
從救火”走向防火”商業平臺業務運維實踐課件_第3頁
從救火”走向防火”商業平臺業務運維實踐課件_第4頁
從救火”走向防火”商業平臺業務運維實踐課件_第5頁
已閱讀5頁,還剩32頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、從“救火”走向“防火”商業平臺業務運維實踐救火防火時間都去哪兒了救火防火 越是做到高級階段,防火的工作所占的比重就會越高。 從救火到防火,不是一蹴而就的事情,應該是個逐漸演進的過程思考點發生發現響應全部恢復時間故障發現故障響應故障修復開始處理故障定位提升故障發現率提升故障處理速度降低故障率目標故障預防過程Agenda如何提升故障處理速度如何提升故障發現率如何降低故障率123故障響應規范應急處理預案這些都做了,還有提升的空間嗎?準確識別故障響應時間目標與措施快速判斷故障定位時間快速執行故障修復時間7*24值班規范 分析數據及圖表 流量切換工具 報警內容 服務降級工具職責與分工 故障運維手冊 數據

2、修復工具故障預演 任務修復工具 回滾工具 數據提取工具 主要受哪些影響因素影響因素1、新手2、故障處理步驟繁雜應對方法優化報警內容,使報警內容變得可依賴。報警內容除了報告問題,還將故障的判斷和處理方法附在其中。利用數據任務調度管理系統,對數據任務進行統一管理優化報警內容該報警對應的運維專員聯系方式該報警對應的開發人員聯系方式減少對運維人員經驗的依賴,使得新人和值班人員都可以快速處理靈活配置報警內容降低維護成本,提升工作效率繁雜數據故障處理存在的問題: 不能快速識別哪些任務失敗了,影響了誰 一個任務失敗會導致多個任務失敗,每個任務的任務都會發一個報警 處理多個任務失敗時,需要人工確認修復順序,還

3、要等待每個任務執行完成后再人工執行下一個 如果所需數據源存在短暫延遲到位,會導致任務執行失敗并報警,有時會對運維人員產生干擾ABCDEFGHIJKLM繁雜數據故障處理數據任務調度管理系統: 實時自動的可視化數據任務關系圖 能快速識別哪些執行失敗及影響范圍 父節點任務失敗后報警,子任務節點不再執行(也不會報警) 恢復關鍵路徑節點任務時,只需選擇帶依賴執行,后續子節點任務會自動執行,無需人工干預,等待 支持每個任務自定義重試次數和間隔,如果任務所需數據源存在延遲提供現象,不會馬上報警,直到達到最大重試次數為止,降低對運維人員的干擾ABCDEFGHIJMLK繁雜數據故障處理Agenda如何提升故障處

4、理速度如何提升故障發現率如何降低故障率123網絡連通性機器存活遠程可達丟包檢測容量監控磁盤故障磁盤壞道內存條檢測基礎資源類完善監控指標常規業務類自定義業務類端口進程Curl工作日志任務始止類關鍵組件監控一致性類跨界類監控數據流監控超時/延時類失敗率/成功率自定義業務類監控監控項低位警界線業務系統健康度趨勢高位警界線監控項加強關注!加強關注!導致全面短信報警過多產生麻木心理降噪監控的系統:300+監控的實例:20000+運維人員短信接收:人均每天6條報警策略報警分層精準下發取得的效果采用的手段報警分層網段可用機器存活遠程可達業務類ABCDEFGHIJMLK數據依賴任務報警精準下發運維值班1運維值

5、班2運維專員1運維專員2運維專員3運維專員4運維專員N開發人員1開發人員2開發人員NAgenda如何提升故障處理速度如何提升故障發現率如何降低故障率123它山之石,可以攻玉數據說話有針對性的推動改進!避免重復性故障!代碼發布是故障的導火索上線次數趨勢圖異常處理趨勢圖推動開發人員有針對性解決 程序Bug 設計缺陷 代碼配置 部署問題變更操作是故障的導火索業務模塊新增機器機房遷移,變更IP機器故障更換下線業務模塊維護系統配置部署相關監控維護應用環境及配置維護訪問控制關系更新代碼配置(研發人員)常見運維變更涉及哪方面的操作涉及大量的IP、訪問關系等信息,操作繁雜!機器1機器2機器N系統配置監控策略訪

6、問關系其他操作繁雜,易出錯某個業務抽象運維對象減少人工干預優化技術架構抽象運維對象機器1機器2機器N系統配置監控策略訪問關系系統配置監控策略訪問關系AppID機器1機器2機器N其他運維人員之前之后級別等配置策略服務管理報警策略監控策略自動機制機器列表新機器發現自動生成監控項基礎監控部署App1機器1 機器N策略變更嗅探通用配置分發私有監控部署App2機器1 機器N自動生成配置策略樹私有配置分發自動更新發布目的地AppN機器1 機器N機器規模越大效果越明顯1. 當某App中有新機器到位時,會對該機器自動部署相關的系統配置、監控項,同時自動更新對應App的代碼發布地址列表2. 當某個App有系統配

7、置更新、監控策略更新時,會下發到所有相關的機器減少人工干預只需針對Appid設置一次相關策略,其他工作全部自動完成機器11機器12機器1NApp1機器21機器22機器2NApp2機器31機器32機器3NApp3機器41機器42機器4NApp4機器51機器52機器5NApp5機器61機器62機器6NApp6機器71機器72機器7NApp7機器81機器82機器8NApp8應用間復雜且不透明的訪問關系服務端要確認被哪些客戶端訪問,才能保證正確的開通訪問白名單:機器+接口+方法機器11、機器12機器1N機器31、機器32機器3N機器61、機器62機器6N客戶端需要訪問服務端:機器11、機器12機器1N

8、機器21、機器22機器2N規范化后的開發架構客戶端(服務使用者)服務端(服務提供者)1.2.3.4.5.人工在管理界面中進行服務注冊與維護,管理服務端及接口,以及客戶端對哪些接口訪問等客戶端啟動時獲取服務端機器及URL列表服務端啟動時獲取訪問控制列表服務端及接口發生變更時自動推送給客戶端,更新調用服務器的機器及URL列表客戶端及接口發生變化時自動推送給服務端更新訪問控制列表RPC協議客戶端代理RPC協議客戶端代理RPC協議服務端代理客戶端代理負載均衡器并發訪問攔截器白名單攔截器服務對象代理3524管理UI1服務注冊中心服務治理框架層RPC協議層業務層機器11機器12機器1NApp1機器21機器

9、22機器2NApp2機器31機器32機器3NApp3機器5NApp5機 機器 器5 51 2機器6NApp6機 機器 器6 61 2小范圍試點,效果顯著,推廣使用訪問控制、自動路由、負載均衡如果App1有新機器到位: 框架會自動通知App5、App6的所有機器,App1已有新機器為他們提供服務,各機器自動將請求均衡落到App1的各臺機器上 同時,自動通知App2的所有機器,有新機器需要納入到他們的訪問白名單自動容錯、負載均衡如果App2有機器宕機: 框架會自動通知訪問它的App1、App3、App6的所有機器,App2有機器故障已不能提供服務 各機器的訪問請求不再向故障機器發送,并自動將請求均

10、衡落到App2存活的機器上WarOrRPM標準化發布方式App1機器1機器1機器N機器N機器分組A機 器2機器分組B機 器2自動部署重啟 回滾檢查一致性安裝 卸載啟動 停止主任務子任務WarOrRPMApp2從救火走向防火發生發現響應全部恢復時間故障發現時間故障響應時間故障修復時間開始處理故障定位時間提升故障發現率(及時全面準確)提升故障處理速度(快速有效)降低故障率(有效防御)數據修復工具流量切換工具服務降級工具回滾工具數據提取工具職責與分工7*24值班規范故障響應規范故障處理預案故障預演量化問題管理抽象運維對象減少人工干預優化技術架構目標措施預防故障發生 完善監控指標 建立業務健康度分析體

11、系 降低誤報率,提升準確度 故障運維手冊 分析數據及圖表 報警內容可依賴準確識別快速判斷快速執行后續努力方向 更智能 智能監控 智能故障修復 智能健康度評估 更輕量 簡單易控 隨時隨地嚴禁隱瞞、虛報生產安全事故。7月-227月-22Saturday, July 23, 2022推行ISO9000不走樣,企業生存發展有希望。03:47:0603:47:0603:477/23/2022 3:47:06 AM質量出效益,點滴成江河。7月-2203:47:0603:47Jul-2223-Jul-22廁所衛生要注意,干凈清潔常保持。03:47:0603:47:0603:47Saturday, July 23, 2022人人講安全,安全為人人。7月-227月-2203:47:0603:47:06July 23, 2022今日的質量,明日的市場。2022年7月23日3:47 上午7月-227月-22樹立自我信心,把握各工段流程;消滅疵點起因,管理操作是關鍵。23 七月 20223:47:06 上午03:47:067月-22安全是增產的細胞,隱患是事故的胚胎。七月 223:47 上午7月-2203:47July 23, 2022我們極度鄙視一切亂丟亂吐等不文明行為。2022/7/23 3:47:0603:47:0623 July 2022清潔擁有清爽明亮的工作環境。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論