




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔-傾情為你奉上4.4.1. 售后服務方案描述及相關承諾1. 總述1.1 項目名稱XXXXX網絡設備項目。1.2 項目背景描述隨著互聯網應用的快速增長,以及下一代互聯網的加速推進,短信、網游、語音以及視頻寬帶業務的日益火爆,電子商務的再度興起,IDC市場迅速升溫,IDC業務收入迅速增長,IDC業務的客戶群也迅速增大。為了搶占潛在客戶資源,大力推廣IDC業務,這樣就需要建設一個側重中、高端客戶,兼顧低端客戶需求的IDC機房系統。1.3 服務期限及范圍為XXX核心網絡設備(含2臺防火墻,2臺交換機,2臺路由器),其檢修和維護。我公司將按質按量完成XXX核心網絡設備維護修理維護服務。1.4
2、 實施目標為XXX核心網絡設備提供優質的維護修理服務,并對2臺防火墻,2臺交換機,2臺路由器統提供卓越的技術支持與運行維護服務。保證2臺防火墻,2臺交換機,2臺路由器運行穩定。1) 我方通過嚴格的修理維護服務,保證相關本次所涉及的相關軟硬件的高效穩定運行。2) 我方具備應急處理能力并制定了完善的應急預案,減少計劃內和計劃外的停機時間,最終能夠保障電力業務核心系統每周7天×24小時不間斷穩定運行。3) 我方定期對現有軟硬件平臺系統運轉狀況進行巡檢、跟蹤和分析,科學地預測和掌握軟硬件平臺系統的性能狀態,提出科學合理的擴容和升級建議。4) 我方在維護中熟悉各主機上承載應用系統,結合IT系統
3、和業務應用的具體實際情況,查漏補缺,提出整改建議,配合應用廠商不斷優化系統整體性能,提高系統運行整體效率。1.5 術語定義1) 業主方:xxxxx團有限公司。2) 故障級別定義如下:l P1級故障:重大故障,系統癱瘓,無法運行,業務丟失。l P2級故障:系統部分設備故障,影響和限制了部分業務運營。l P3級故障:一般性技術故障,發現系統和設備的技術問題,但系統和業務仍可正常運行。l P4級故障:在系統功能配置、運維管理方面需要信息或支援,對用戶的業務幾乎無影響。專心-專注-專業2. 總體實施方案2.1 服務流程xxx有限公司將根據XXX核心網絡設備(含2臺防火墻,2臺交換機,2臺路由器)服務內
4、容制定了相關的服務流程,以下流程適用于本項目的含防火墻,交換機,路由器流程。 2.1.1 高級故障診斷及檢修流程1) 針對系統、設備發生的一級、二級故障進行響應,分別在規定時間內進行維修、恢復服務。其中緊急重大故障要求15分鐘內到達現場處理。2) 我方提供服務相當于原廠技術服務水平。并提供電話或現場技術咨詢和技術支持服務。l 服務流程圖l 服務流程說明序號步驟名稱責任人說明1服務臺響應服務臺Ø 服務臺人員接受來自用戶上報的故障以及各類服務請求。在驗證用戶基本信息后,服務臺人員在服務管理平臺上登記一條故障信息并進行跟蹤和處理,并創建故障事件單。Ø 服務臺人員判斷故障是否重大事
5、件,如重大事件將立刻通知現場支持人員到現場。如不是重大故障,將根據故障級別及故障類型,安排工程師進行故障處理Ø 如果是一條重復事件,則新建該事件記錄后,更新原有事件為“主事件”,并建立重復事件與原有事件的關聯關系。Ø 如果是一條復發事件,則創建一個新的事件單,復制原始事件單的內容,并說明這是復發的事件。2故障現場相應現場支持人員Ø 根據服務臺所描述的基本故障情況,現場支持人員將在15分鐘內到達故障現場,為用戶處理故障3遠程調查與診斷服務臺支持人員Ø 服務臺人員根據事件分類表確認事件的分類,根據事件的影響度和緊急度,為事件分配優先級。Ø 分析故障
6、原因,在知識庫中查詢是否有解決方案,制定初步的故障處理方案。Ø 如故障是由于設備硬件引起或遠程無法處理時,將通知現場維護人員,到現場處理處理故障。Ø 進行調查診斷,嘗試解決,必要時聯系第三方供應商協助處理。4現場調查診斷現場支持人員Ø 現場支持人員在現場判斷故障情況,根據故障的具體情況,制定解決方案。Ø 判斷故障是否需要更換部件,如需更換備件,我方將聯系倉管調出設備配件,并負責設備的安裝和卸載。5更換設備或部件現場支持人員Ø 更換完設備后再對故障進行檢測,如故障未被處理,將繼續對故障進行分析,徹底解決故障問題。6解決與恢復服務臺、現場支持人員&
7、#216; 按照制定好的解決方案對故障進行處理。Ø 判斷實施解決方案是否可行,并制定變更方法。Ø 實施成功后,詳細記錄解決方案或變通方法。7事件關閉服務臺支持人員Ø 將故障處理情況提交至知識管理。Ø 關閉事件。并對故障記錄進行歸檔,再制定用戶回訪計劃。8用戶回訪服務臺支持人員Ø 向用戶確認故障是否已得到解決。Ø 確認用戶是否報告其他問題。Ø 用戶反饋故障處理情況,并對本次服務進行評價。2.1.2 設備調優流程1) 針對長期出現資源瓶頸的設備進行分析,提出解決方案或優化方案。2) 對系統進行定期評估,給出評估優化方案。l 服務
8、流程l 服務流程說明序號步驟名稱責任人說明1設備性能檢測服務器、存儲支持工程師Ø 利用有效的工具對設備進行檢測。Ø 對設備進行健康檢查,標記存在資源瓶頸的設備。2統計資源瓶頸的設備數量服務器、存儲支持工程師Ø 根據標記的資源設備進行設備統計Ø 對資源瓶頸的設備進行故障原因分析,判斷資源瓶頸的問題是由何種原因所引起。Ø 分派問題到各個專業工程師設計解決方案。3硬件問題分析服務器、存儲支持工程師Ø 分析設備硬件上的資源瓶頸問題,列出引起此故障的原因4系統問題分析操作系統支持工程師Ø 分析操作系統上的資源瓶頸問題,列出引起此故障的
9、原因5平臺問題分析應用平臺支持工程師Ø 分析應用平臺上的資源瓶頸問題,列出引起此故障的原因6數據庫問題分析數據庫支持工程師Ø 分析數據庫上的資源瓶頸問題,列出引起此故障的原因7設計服務器、存儲解決方案服務器、存儲支持工程師Ø 對列出服務器、存儲硬件問題逐條給出處理意見與優化方案。8設計系統解決方案操作系統支持工程師Ø 對列出操作系統問題逐條給出處理意見與優化方案。9設計平臺解決方案應用平臺支持工程師Ø 對列出應用平臺問題逐條給出處理意見與優化方案。10設計數據庫解決方案數據庫支持工程師Ø 對列出數據庫問題逐條給出處理意見與優化方案。1
10、1整合方案我方項目負責人Ø 整合各技術支持工程師給出的解決方案。Ø 對解決方案的內容進行審核,確保處理意見的安全和有效。Ø 制定實施計劃,并將方案提交給業務部門。12業務部門審批設備負責人Ø 業務部門負責人對整合的方案進行審批。Ø 按實施計劃通知每個人設備負責人。13優化實施各技術支持工程師Ø 工程師按照最終的實施計劃和方案對設備進行調優工作。2.1.3 備件保修和更換流程1) 當設備出現故障時,我方應及時進行檢查、維修或更換故障部件。2) 如果硬件設備故障,保證在2小時內提供不低于故障設備規格型號檔次的備用設備替代使用,直至故障設備
11、修復為止,以最大限度保證業務系統不間斷地正常運行。3) 若需要更換部件,其更換的部件必須是原廠的部件,與原有部件具備同等的質量和性能。l 服務流程圖l 服務流程說明序號步驟名稱責任人說明1故障設備檢查現場支持人員Ø 現場檢查,判斷故障引起的原因和故障位置Ø 判斷故障是否能現場處理,例如通過配置等方法解決故障,即現場處理。2現場維修現場支持人員Ø 對故障進行處理,通過技術手段等解決故障問題。3提供備件現場支持人員Ø 故障由于設備的硬件引起,難以現場立刻處理,我方提供同等設備型號和功能的配件給用戶使用。4現場安裝與卸載設備維修人員Ø 現場卸載故障的
12、設備。Ø 安裝我方提供的備件設備。5故障設備維修設備維修人員Ø 判斷設備是否已經過保。并制定維修計劃。Ø 設備未過保,通知設備的提供商對故障設備進行修復。Ø 設備已過保,我方提供或采購相應的備件和部件,對設備進行維修。6設備提供廠商維修設備提供廠商Ø 設備提供廠商對故障設備進行修復7提供所需的備件或部件進行維修設備維修人員Ø 我方安排專業對技術人員更換或維修故障設備。Ø 將拆卸的故障部件進行封存,交還給設備提供商。8故障設備復查現場支持人員Ø 設備維修成功后,我方現場支持人員到現場對修復好的設備進行復位。Ø
13、; 檢查設備的運行情況,如設備還存在故障問題,我方將繼續對故障進行處理與解決。2.1.4 特保服務流程1) 按照公司要求,對于特殊時期必須保障設備運行的,我方根據要求駐場值守和服務,完成特殊時期保障任務。2) 需預計每年安排約有2個月的特保時間。l 服務流程圖l 服務流程說明序號步驟名稱責任人說明1制定特殊時期值班計劃現場支持人員Ø 現場值班人員制定值班服務計劃Ø 值班計劃包含人員的聯系方式與相關設備系統的負責人的聯系方式2業務部門審批設備負責人Ø 業務部審批值班服務計劃Ø 如服務計劃未能滿足用戶的需求,將退回現場值班的人員重新設定值班計劃。3值班現場支
14、持人員Ø 按計劃是時間地點到現場進行值班工作。Ø 記錄值班所需的相關表格Ø 遇上重大事件及時通知設備負責人員4提交設備巡檢報告設備維修人員Ø 匯報設備出現的安全隱患。Ø 提交當天的值班記錄和相關資料。2.1.5 系統補丁通知及推薦流程1) 預防式補丁服務:我方在已知服務器、存儲軟、硬件缺陷可能導致潛在問題的情況下,將通過配置管理或巡檢等方式對用戶服務器進行增補軟件分析并提出版本升級建議,并由用戶進行相關業務、客戶影響分析后確認進行。2) 響應式補丁服務:當設備出現故障后,我方對故障進行分析并確認是軟件缺陷所導致的故障,我方將提供針對該軟件缺陷的
15、軟件補丁程序,并由用戶進行相關業務、客戶影響分析后確認進行。l 服務流程圖l 服務流程說明序號步驟名稱責任人說明1制定補丁通知及推薦計劃現場支持人員Ø 制定補丁通知及推薦計劃。Ø 判斷是否有由于補丁問題造成的故障。如沒有由于補丁造成的故障,將實行與預防式補丁服務,如由于補丁發生故障,將實施響應式補丁服務。2預防式補丁服務服務臺支持人員Ø 預防方式的補丁服務以預防、排查隱患為主,對現有設備的安全、性能隱患制定補丁更新計劃。3響應式補丁服務現場支持人員Ø 對用戶所發現的故障進行處理,并且向用戶提供可處理此故障的補丁程序4設備故障數據統計與分析服務臺支持人員&
16、#216; 在預防式補丁服務中,對以往出現故障的設備進行統計,總結普遍的故障現象5配置管理與巡檢常發故障設備現場支持人員Ø 在預防式補丁服務中,通過配置管理與巡檢的方式,檢查系統運行情況,定位常發故障設備的位置,查明故障發生的原因,制定相關補丁的更新計劃。6增補軟件分析各技術支持工程師Ø 結合故障數據統計結果與巡檢所發現的故障情況,對增補軟件進行評估與分析。得出適合增補的軟件列表。7制定版本升級建議各技術支持工程師Ø 根據分析結果制定版本升級建議與實施計劃8業務部門審批設備負責人Ø 業務部門對實施計劃的內容進行審核,如發現補丁版本升級不符合要求,將返回重
17、新制定補丁升級計劃。9處理和分析故障現場支持人員Ø 在響應式補丁服務中,對故障進行的處理,在發現可以通過更新補丁來消除隱患時,我方將制定補丁更新計劃,尋找相關的軟件補丁。10提供軟件補丁程序各技術支持工程師Ø 對尋找相關的軟件補丁進行測試,通過測試后,我方將測試報告與軟件補丁程序提交給用戶。11補丁更新實施現場支持人員Ø 經過審批通過后,我方安裝實施計劃的方案與內容,對相關設備進行補丁更新工作。2.1.6 季度巡檢流程1) 每季度提供一次健康巡檢,對設備硬件、系統運行狀況進行檢查,排除隱含錯誤或安全隱患,并提交健康巡檢報告。2) 巡檢的具體時間由雙方協商確定。l
18、服務流程l 服務流程說明序號步驟名稱責任人說明1制定季度健康巡檢計劃現場支持人員Ø 根據要求制定監控巡檢計劃與方案,內容包括巡檢方式、操作步驟等。2業務部門審批現場支持人員Ø 業務部審批巡檢計劃Ø 如服務巡檢計劃未能滿足用戶的需求,將退回重新設定巡檢計劃。3提供健康巡檢報告現場支持人員Ø 實施設備的健康巡檢。Ø 記錄巡檢中發現的設備問題Ø 提交健康巡檢報告,匯報設備存在的安全隱患。4排除隱含錯誤與安全隱患設備維修人員Ø 對報告中存在安全隱患進行處理。Ø 問題處理后將對系統進行再次檢測,檢查問題處理情況。2.1.7
19、培訓服務流程1) 我方定期進行運行維護技術培訓,并定期與業主方技術人員進行技術交流。l 服務流程l 服務流程說明序號步驟名稱責任人說明1咨詢業務部門需求咨詢受理人員Ø 詢問用戶的培訓需要。了解用戶對培訓的要求。Ø 判斷用戶是否對新或難度高的技術開展技術交流。Ø 收集業務部門提出的培訓要求。按培訓要求的內容、等級進行分類,組織相關人員開展培訓準備工作。2制定培訓計劃與培訓內容咨詢受理人員Ø 根據培訓內容、培訓的深度制定培訓計劃,并提交業務部門進行審批工作。3業務部門審批設備負責人Ø 業務部門對培訓內容進行審核工作,對培訓內容存在異議或不滿意的地方
20、,將返回修改培訓計劃或培訓方案。4安排培訓議程與材料各技術支持工程師Ø 相關技術人員對培訓方案的內容準備培訓資料,并安排培訓所需場地與準備相關的設備或軟件。2.1.8 系統規劃(非建設項目)流程1) 根據硬件、應用軟件環境完成數據庫的初步規劃、安裝配置工作。l 服務流程l 服務流程說明序號步驟名稱責任人說明1硬件、應用環境分析現場支持人員Ø 對運行環境進行硬件、軟件的運行分析,檢查運行環境是否符運行要求。Ø 記錄硬件、應用環境的基礎參數。2制定實施方案技術支持工程師Ø 根據運行環境評估與硬件、應用環境的基礎參數,制定實施方案和初步規劃。Ø 提交
21、業務部門對方案進行審批3業務部門審批設備負責人Ø 業務部門審批實施方案。Ø 如實施方案和規劃未能滿足用戶的需求,將退回修改實施方案。4實施安裝配置技術支持工程師Ø 根據實施方案到現場進行安裝、配置工作。2.1.9 備份恢復測試流程1) 根據業務重要性及數據安全等級要求,定期對備份數據進行恢復測試,保障備份數據完整、有效、可用。l 服務流程l 服務流程說明序號步驟名稱責任人說明1數據時效性檢查技術支持工程師Ø 技術支持工程師檢查備份數據,病句業務重要性及安全級別,判斷數據的有效期,如數據已過保存期,我方將對系統業務數據進行備份2備份系統業務數據現場支持人員
22、Ø 對系統的數據進行全備份,以保證數據的完整。3數據恢復測試技術支持工程師Ø 對備份的數據進行恢復測試,并對相關功能進行操作,檢查數據的準確性。Ø 如備份數據存在異常,我方將到現場排除故障原因,分析系統故障還是備份失誤導致,如不是備份失誤,我方將通知相關業務部門進行故障處理。4備份版本控制技術支持工程師Ø 備份數據測試成功后,我方對備份數據盡可能保存最近5個版本的存檔。Ø 對備份數據進行版本控制,按系統、安全級別、重要性、備份時間對備份數據進行存檔。2.1.10 專家現場技術支持流程1) 包括數據庫緊急救援服務。2) 如出現故障,導致數據庫不能
23、正常工作,服務方須盡快安排資深工程師到現場先回復應用,并保證持續跟進直到問題完全解決。3) 如果不能解決問題,服務方需自行請專家或其他高級技術人員對系統情況進行分析,直至解決問題。4) 服務方在接到現場系統維護請求后1小時內響應,對宕機或緊急恢復等嚴重問題,要求立即響應并在15分鐘內到達現場。l 服務流程l 服務流程說明序號步驟名稱責任人說明1現場情況調查技術支持工程師Ø 進行緊急救援服務,安排資深工程師到現場進行調查響應。盡快提出故障處理方案。2故障應急處理現場支持人員Ø 我方根據故障的級別、安全性對故障采取應急的處理情況。Ø 由于設備硬件造成的故障,我方立即啟
24、動熱備件。及時恢復系統的正常運行。Ø 由于軟件或設置造成的故障,我方對設置進行初始化操作,保證系統的正常運行3啟動熱備件技術支持工程師Ø 根據提前準備好的設備熱備件,我方對設備進行更換和切換操作。恢復設備的運行。4故障設備修復設備維修人員Ø 在現場對故障設備進行一般的修復處理,如不能處理,我方將故障設備提取回維修中心進行維修。5更換備件現場支持人員Ø 故障設備修復成功后,我方把完成修復的設備安裝回原位置。并把正式服務切換回正式環境。6恢復初始化設置技術支持工程師Ø 對數據庫的運行環境進行初始化配置操作。恢復系統的運行環境。7日志文件檢查技術支持
25、工程師Ø 檢查數據庫的日志,找出數據庫中存在的故障問題。8軟件配置修復技術支持工程師Ø 根據存在的故障問題對數據庫的配置進行修改和故障處理。9修復檢查現場支持人員Ø 故障修復后對故障進行檢查,排查存在的安全隱患。2.1.11 技術支持服務流程1) 提供電話或現場技術咨詢和技術支持服務。l 服務流程l 服務流程說明序號步驟名稱責任人說明1服務臺響應咨詢技術支持工程師Ø 服務臺響應用戶的咨詢請求,對用戶做出快速的請求響應。Ø 了解用戶的需要,提供有效的技術支持與咨詢服務。2現場技術支持現場支持人員Ø 我方派出工程師到現場對用戶的疑問進行解
26、答。Ø 為用戶現場處理用戶的故障問題。3用戶回訪技術支持工程師Ø 現場技術支持完成后,我方電話回訪用戶對服務的滿意度,并咨詢是否需要更還現場支持服務或變更服務4電話技術支持設備維修人員Ø 如用戶需要電話直接支持,我方將采用電話的方式立即響應用戶的請求,并盡可能完成用戶的需求和遠程處理用戶的故障。2.2 服務管理2.2.1 實施規范管理我方按照業主方的管理制度、修理維護規范、操作指導等相關規則制度開展修理維護服務。為保障修理維護服務規范化的順利執行,同時修理維護服務各個環節清晰可追述,我方任何操作必須嚴格按照業主方相關流程進行操作,盡量減少對業主方正常業務的干擾,每
27、步操作須有明確的成果反饋記錄,禁止任何不按流程處理的任何操作,一經發現將嚴肅處理。2.2.2 人員工作規范我方對運維人員進行明確分工及職責定義,避免運維人員無序混亂工作,職責分工需符合運行單位運維工作要求。2.2.3 項目風險與責任我方謹慎和用心履行合同責任,并對其員工的過失承擔責任。由于我方實施人員服務不及時(沒有按照合同約定時間規定)或服務操作不當,造成大量在線數據遭受不可恢復性損失,我方應負責恢復數據,并承擔所有費用。由于我方原因服務不到位,我方應向業主方作出書面解釋,并提出整改措施。造成損失的,我方承擔全部責任。2.2.4 人員穩定性鑒于信息系統及設備重要性以及安全保密性,我方保證服務
28、期內修理維護團隊人員穩定,避免人員流動對業主方業務系統及設備造成安全隱患,特殊情況下人員變動需經業主方同意后方可變動,禁止未經業主方同意人員直接變動。2.2.5 人員質量控制我方所派出的服務人員,應能熟練勝任相關維護工作。業主方擁有向所提供的實施人員進行面試的權力。如我方人員業務能力如不符要求,業主方有權要求我方更換人員。服務人員資質要求如下:a) 大學專科或以上學歷,有3年以上類似產品維護經驗。b) 具有相應產品認證證書。2.2.6 項目進度控制我方技術服務團隊每周向業主方項目管理部門提交維護工作周報,并抄送我方項目管理部門。為了更好的讓業主方了解項目的進度和目前的情況,我方將向業主方進行以
29、下工作:l 每月提交工作月報,維護工作月報的內容必須包括以下內容:主要的已完成工作內容、未完成工作內容、故障處理報告、維護建議及工作計劃安排。l 技術服務團隊每月度對相關工作進行總結提煉,提交運行維護工作月報。l 技術服務團隊每季度對相關工作進行總結提煉,提交運行維護工作季報。l 技術服務團隊每年對全年工作進行總結,并對下一年度工作進行規劃,提交運行維護工作年報,協助系統管理員完成系統年度維護總結。除上述文檔整理工作外,我方承擔業主方相關維護文檔的修編配合工作。2.2.7 項目安全控制提供現場服務時,我方將確保其現場人員遵守業主方有關安全規定,前提是我方收到業主方提供的有關安全規定。我方有為業
30、主方保密的義務,未經業主方許可,我方服務人員不得對業主方的業務經營數據進行增刪、修改、復制、傳送、記錄;我方不得向任何第三方泄露業主方業務數據內容或在公開場合引用業主方數據。2.2.8 質量控制為保障服務質量及服務適應性,在服務期內,我方需根據服務內容發生的變化進行適應性的改進,并在修理維護過程中根據業主方的要求進行服務改進。2.2.9 項目質量保證服務質量要達到可衡量必須制定嚴格的服務SLA,我方在服務期開始時須與業主方協商制定切實可行的服務SLA,并嚴格遵守SLA進行修理維護服務。其服務標準如下:一、緊急情況當服務器宕機,數據庫無法讀寫等一級緊急事件時,我方在1小時內響應,2小時內協助解決
31、該情況。并在因外部原因無法立即解決時(例如服務器所在機房受到黑客攻擊,服務器硬盤讀寫失敗等事件),向客戶報告情況并提供具體解決的時間。并提供一套完善的應急解決方案,幫助客戶及時解決突發事件,最大程度的挽救因服務無法使用導致的損失。二、重要情況系統服務上線過程后,有時會出現在驗收過程中沒有察覺的bug,這個時候,我方積極協助客戶解決該bug,具體的響應時間根據bug造成的影響程度而定。根據SLA服務標準,bug的等級亦可進行進一步的劃分并制定相應的解決方案。這里不予以贅述。三、標準情況在系統部署階段,因工作人員協作環節的不一致性,有可能出故障問題和兼容性問題。以及由于臨時需求的變更和新增,都會對
32、系統服務產生新的維護需求。我方按照需求的難易性和工作量制定相應的響應標準,保證客戶滿意度。四、次要情況包括服務的小調整,如數據庫、中間件的配置更替等,通常在24小時內響應,雙方商議的時間內進行解決即可。我方以SLA服務體系為出發點,為IT服務提供完善、標準、科學的解決方案,盡可能不影響客戶滿意度。2.2.10 制定全年的支持服務計劃我方客戶經理應主動地和業主方共同協商、制定全年的支持服務計劃。服務計劃包括以下主要內容:a) 業務/IT系統概況,業務系統對服務的需求b) 服務合同的工作內容,設備清單和響應服務級別c) 我方的工作團隊和職責d) 支持服務的流程e) 運維服務活動的計劃,包括:增值服
33、務實施、服務總結報告、回顧會議、巡檢、技術交流等f) 服務計劃雙方的確認2.2.11 項目總結會議我方客戶經理至少每季度會安排與業主方一起召開系統運行和服務情況定期總結回顧會議,內容包括但不限于:a) 總結前一段時間服務實施的情況b) 回顧升級問題/重要問題的處理過程c) 聽取運行單位對服務的反饋意見和服務需求d) 同業主方運維經理們討論服務改進措施e) 討論、修訂服務計劃。2.3 維護內容我方將根據xxx有限公司服務器、存儲設備、虛擬化服務器、A認證系統服務內容簡要的介紹常見故障所采用的維護解決辦法,在實際的應用中,我方會根據實際情況進行相應的修改與優化。 2.3.1 服務器故障診斷計算機故
34、障類型以及故障的診斷手段有很多,對于服務器(IBM服務器為例)故障采取以下2種診斷方式:2.3.1.1 硬件故障診斷診斷并排除由硬件引起的故障,先從外觀上檢查硬件情況,檢查設備故障燈是否有亮。各種設備上都有故障指示燈,通常為橙色并有標記。對于高端服務器,應檢查UEPO開關上的系統故障指示燈是否亮,檢查部件故障燈,如I/O drawer、PCI卡,硬盤等。所有安裝的部件(如CPU book)所對應的綠色LED應長亮。任何故障指示燈(橙色)都應不亮,設備發生故障時通常伴有出錯代碼,必須把所有故障代碼記錄下來。除此以外還應注意有否其他異常情況(如硬盤、風扇異常的聲音、電纜破損、系統出風是否順暢、氣流
35、是否因為異物遮擋而影響散熱效果等)。檢查服務器網卡狀態、IP地址是否正常。網卡的設置應與交換機端口的設置匹配。檢查網卡通信是否正常,如是否丟包,速度是否正常等。并且檢查路由表是否正常、/etc/hosts文件或DNS設置是否正常等。2.3.1.2 軟件故障診斷診斷并排除由軟件(操作系統和應用軟件等)引起的故障可以先查看系統日志相關軟件報錯的記錄,同時登錄軟件檢查當前應用使用狀態、軟件應用進程等進行多方面的診斷。 2.3.2 檢測服務器、存儲設備運行情況對于一個系統而言資源總是有一定限度的,而任務總是要消耗系統資源的。關鍵是要找出哪些資源不能滿足應用程序運行的需求。這里存在一個性能瓶頸的問題。不
36、同的應用程序可能會有不同的資源要求,可能會產生不同的瓶頸。系統資源中的CPU、內存、磁盤或是網絡都有可能成為瓶頸。系統性能調優需要找出這些資源成為瓶頸的原因,是資源的不足,是系統設置不合理,還是應用程序的問題。查找性能瓶頸的順序非常重要,正確的順序是:CPU > 內存 > I/O > 網絡,如下圖所示:CPU 瓶頸=否是采取對策 內存瓶頸否是采取對策I/O瓶頸否采取對策是采取對策網絡瓶頸是否繼續測試采取對策2.3.2.1 查看CPU瓶頸通過查看當前服務器CPU使用情況判斷CPU的使用情況,一般情況下CPU使用率不應該長期超過80%,如出現CPU使用率長期處于甚至超過80%的情
37、況,則初步可判斷CPU資源不足,出現瓶頸。2.3.2.2 檢測內存問題部分廠商服務器在內存使用上模式默認最大化使用,因此內存的使用率不能作為是否存在內存瓶頸的依據。如果達到內存瓶頸,此時檢查系統內存交換區的使用,會發現使用率較高。由于有大量的內存頁面寫入內存交換區,這會導致wa(I/O等待)值上升,但此時并非I/O瓶頸引起。當內存交換區使用率超過70%時需要增加交換區的大小。但增加內存交換區的大小并不會提高系統的性能。相反,內存交換區使用越多,系統性能下降越多。當內存不足時,正確的方法是增加物理內存的數量或優化應用程序。2.3.2.3 查看系統的I/O情況磁盤的數據流量很大程度上與應用程序的I
38、/O方式相關。某些應用程序的I/O SIZE可能非常低,而且產生大量的隨機讀寫操作,從而使硬盤的讀寫效率大大降低,導致CPU的I/O等待增加。有時I/O問題是I/O帶寬不足引起的。當所有連接在一塊I/O卡上的硬盤的流量總和達到I/O卡帶寬的70%以上時,應考慮增加更多的I/O卡。數據的分布也是很重要的因素。通常把數據分布到更多的硬盤上更有利于提高I/O性能。2.3.2.4 查看網絡的情況:對于網絡問題可以通過檢查服務器端口情況、網線速率、端口模式,甚至通過服務器與服務器、服務器與測試設備之間進行鏈路測試、傳輸速率測試檢測服務器網絡上的問題,必要時需要網絡工程師檢查交換機層面的健康情況加以分析判
39、斷。如果都沒有發現系統有資源上的瓶頸,則很可能是應用程序的問題,需要應用程序開發商進行進一步的分析。2.3.3 服務器備件檢修服務器備件保修主要以更換設備為主,并對造成備件故障的原因作出分析,最后通過分析的故障結果。對所有故障進行排查,不能單單只是更換備件這么簡單,服務器備件一旦發生故障不一定是其本身問題,極大情況下是外部環境所造成。因此,服務器備件檢修需要考慮其使用環境,從根本上解決故障問題,防止其它備件的損壞。2.3.3.1 服務器備件硬件故障維修對于一般的設備硬件的故障,我方采用以下方式采取維修處理:序號故障類型維修方式操作方式1內存條損壞直接更換現場更換2主板元器件損壞直接更換現場更換
40、3陣列損壞先進行數據恢復,再更換硬盤數據恢復需離開現場。備件現場更換4電源損壞直接更換現場更換5指示燈損壞先檢測健康狀態,再更換指示燈現場更換6CPU風扇損壞直接更換現場更換7數據線損壞直接更換現場更換8CPU損壞直接更換現場更換9光驅損壞直接更換現場更換10電源線損壞直接更換現場更換11相關數據接口損壞直接更換主板現場更換2.3.3.2 服務器軟件故障維修對于服務器的軟件方面故障,我方采用以下方式采取維修處理:序號故障類型維修方式操作方式1系統崩潰重裝操作系統現場操作2中木馬病毒安裝殺毒軟件殺毒遠程操作3驅動不匹配安裝正確的驅動遠程操作4軟件不兼容安裝兼容軟件遠程操作2.3.3.3 服務器備
41、件修復與后續保養如以下因素導致備件的故障,我方在處理完備件的維修后,再對備件周邊的環境進行保養處理工作。具體可參考以下幾個方面:l 服務器備件受潮短路。備件受潮濕因素導致的故障,我方對服務器周邊的環境進行除濕處理。主要以空調除濕或吸濕海綿為主。l 服務器備件受過熱短路。備件受過熱短路因素導致的故障,我方對服務器周邊的環境進行降溫處理。主要以空調降溫或更換服務器散熱風扇。l 服務器備件積塵導致短路。備件積塵短路因素導致的故障,我方對服務器周邊的環境進行除塵處理。主要以吸塵機或毛刷工具為主。l 服務器備件是否電源電壓不穩定造成短路。備件電源電壓不穩短路因素導致的故障,我方對服務器周邊的環境進行電壓
42、檢測,看是否有漏電的情況,并更換電源。2.3.4 特保服務我方按照公司要求,對于特殊時期必須保障設備運行,并根據業主方要求駐場值守和服務,完成特殊時期保障任務。并且每年安排約有2個月的特保時間。2.3.4.1 特保服務常規服務內容l 我方值班人員要認真檢查設備的運行情況,包括電源、服務器指示燈及一切隱患。確保服務器設備的一切安全。l 做好安全監控工作。預防各種事故和事件的發生。l 檢查軟件的日志文件是否完整。l 檢查設備的電壓及溫度。l 值班人員做好值班記錄,并記載重要事情。l 有重大問題及時向上級設備管理人員報告。2.3.4.2 特保服務工作責任l 我方值班人員值班期間,不能脫崗,認真值班。
43、全天24小時確保有人在值班監控設備的運行。l 做好交接班等有關工作。l 值班人員要做好安全防范工作,遇設備周圍環境的變化,應及時做出相應處理;l 保證值班人員人員及相關技術工程師的電話暢通。l 堅守值班崗位,不擅離職守。時刻提高警惕,做好值班期間的工作。l 值班嚴格按照操作手冊執行,不違反值班制度和操作章程。l 值班人員在特殊假日放假值班期間為設備運行及安全工作的第一責任人。2.3.4.3 特保服務保證l 值班人員提高自覺性與主動性,確保設備安全、穩定運行。l 在值班期間堅守工作崗位,不得無故讓他人替崗,嚴禁飲酒。l 值班期間保證電話暢通,遇到重大事情,必須報告上級領導并做好臨時處理措施,積極
44、處置。l 認真做好值班記錄,對設備異常及安全防火情況等,必須認真檢查。l 值班員工在值班時間內,堅守崗位,不遲到、早退和缺崗。2.3.5 系統補丁通知及推薦我方將對以下補丁采取相關的補丁更新通知與補丁更新操作的服務。并對需更新的補丁進行測試工作。以下系統補丁服務的相關內容。2.3.5.1 補丁收集與整理我方對以下補丁通過不同的途徑進行補丁資源的收集,補丁的出處要求是官方的補丁,如補丁不是官方提供,將對非官方補丁進行測試。序號故障類型收集方式收集途徑1服務器硬件BIOS補丁服務器廠商提供由官方通知2存儲設備補丁服務器廠商提供由官方通知3Windows操作系統補丁微軟官方網站微軟最新公告4Linu
45、x操作系統官網或論壇論壇公告5Aix操作系統補丁IBM官方網站IBM官方網站公告6Unix操作系統補丁官網或論壇論壇公告7Oracle軟件補丁官網或論壇論壇公告8Weblogic軟件補丁官方網站官網公告9Tomcat軟件補丁官網或論壇現場更換10其他軟件補丁官網或論壇現場更換112.3.5.2 補丁更新測試補丁更新之前,有必要對其進行完整的測試,確保其適合于當前運轉的設備或系統,否則有可能帶來不必要的麻煩。但是對補丁進行測試是一項繁瑣的工作,我方使用測試技巧和腳本,快速有效地測試補丁。為針對如此多的產品以及不同版本的補丁,我方使用一套自動化補丁測試過程,建立一套完整的系統環境,模擬設備或系統的
46、運行狀態,確保補丁更新測試的可行性。2.3.5.3 補丁更新操作在部署補丁之前,我方確保已進行補丁測試,以確保它們不會破壞系統現有的功能。在補丁測試前對系統或相關資源進行備份處理,確保補丁更新萬無一失,并且我方有專業的專家支持,在補丁更新出現故障時,保證能快速有效進行系統恢復。2.3.6 月度巡檢為了更好地落實現巡檢工作,我方制定了月度巡檢工作,并對月度檢查做出書面報告。進一步保障了設備正常運行和預防了設備發生故障事故的風險。同時,通過月度巡檢能盡早的發現安全隱患。具體措施如下:2.3.6.1 月度巡檢檢查月度巡檢檢查主要包括設備周邊環境、周邊設備、通訊及網絡設備、服務器設備的檢查,其檢查內容
47、如下:l 設備周邊環境檢查檢查設備周邊的溫度是否正常、痕跡是否存在異常、有否異響、溫度是否正常、清潔是否符合要求、是否存在異味等。l 設備周邊設備檢查檢查UPS電源是否正常、空調是否正常、電池組是否存在異常、消防是否符合標準和要求等。l 通訊及網絡設備檢查防火墻及流量控制方面,網絡通訊狀態是否正常、網絡流量是否過多等。而網絡口檢查主要包括數據指示燈有否異常、網絡通訊狀態是否正常、端口及網線狀態是否正常等。l 服務器設備的檢查服務器硬件故障燈是否正常、如發生故障將記錄詳細的故障現象與解決方法,補丁是否已經更新、防病毒軟件的病毒庫是否已經升級、文件系統是否出現錯誤,日志文件的設置及運行是否正常,磁
48、盤卷組是否存在失效狀態。2.3.6.2 巡檢數據整理經過季度巡檢后,我方將把巡檢的記錄進行同一的整理,把巡檢中發現的故障或異常情況進行統計與分析,形成季度巡檢記錄。并將總體的巡檢記錄提交給設備管理員或業務部門。2.3.6.3 提供健康巡檢報告通過對季度巡檢發現的故障數據進行分析,結合目前業主方已用的資源與工具,提供完整的健康巡檢報告與可行的故障解決方案。解決方案內容需要業主方進行審核。并對存在的問題我方能提供專業技術支持解答。2.3.7 培訓服務為了保證設備能在運行中良好工作和人員的運維水平,提供有針對性專業技能培訓。使其能夠熟練掌握存儲設備的維護工作,并能及時有效的解決常見的大部分故障。經培
49、訓后能熟練掌握硬件維護工作,并能及時排除大部分的故障。工程技術人員經培訓后,除能熟練管理硬件,排除硬件故障外,還應具備能閱讀硬件清單,分析硬件故障等工作。2.3.7.1 制定培訓服務事項制定培訓服務包括以下事項:l 培訓的課程安排建議:包括人數、時間、課程、入學要求等;l 培訓所需要的教材,課件;l 講師資料;l 培訓場地(由xxx有限公司和xxx有限公司共同商議再定)。l 選擇培訓方式,集中培訓或現場培訓。2.3.7.2 培訓事項準備工作我方將提供教材、教師、場地,由xxx有限公司參加的培訓,如教材較多將選擇投影設備或電子資料為主,培訓場地將會按照用戶的實際情況準備,一般集中在xxx有限公司
50、技術人員所在場地或授權培訓中心中進行。2.3.7.3 開展培訓課程我方將利用可使用資源為其維護技術人員提供專業的培訓課程,其培訓課程內容主要以下幾個方面:IBM存儲知識培訓l IBM存儲知識培訓培訓周期為1天,培訓對象面向存儲產品操作維護/技術支持人員,培訓人數控制在10人,學員具體要求:了解計算機硬件基礎知識、熟練使用Linux操作系統、具備網絡通信基礎知識。如完成培訓課程可達到了解IBM存儲產品的基礎知識、了解存儲的幾種架構以及相關協議的目的l IBM一體機交換機知識培訓交換機知識培訓主要以交換機產品與工作原理介紹、交換機產品日常維護技術介紹為主,培訓周期為1天,培訓對象面向存儲產品操作維
51、護/技術支持人員,培訓人數控制在10人,學員具體要求:了解計算機硬件基礎知識、熟練使用Windows操作系統、具備網絡通信基礎知識。如完成培訓課程可達到了解交換機產品的基礎知識、了解交換機產品線概況及產品功能、掌握交換機產品日常維護技術的目的。數據庫知識培訓l Oracle數據庫知識培訓培訓周期為2-3天,培訓對象面向Oracle數據庫操作維護/技術支持人員,培訓人數控制在10人,學員具體要求:了解計算機硬件基礎知識、熟練使用Windows操作系統、Linux操作系統、具備網絡通信基礎知識。如完成培訓課程可達到了解Oracle數據庫產品的基礎知識、掌握Oracle數據庫產品日常維護的目的。虛擬
52、化知識培訓l HC3虛擬化知識培訓培訓周期為2-3天,培訓對象面向虛擬機操作維護/技術支持人員,培訓人數控制在10人,學員具體要求:了解計算機硬件基礎知識、熟練使用Windows操作系統、Linux操作系統、具備網絡通信基礎知識。如完成培訓課程可達到了解虛擬化產品的基礎知識、掌握H3C虛擬化產品日常維護的目的。2.3.8 數據庫故障診斷及檢修以Oracle數據庫物理結構故障為例,首先要判斷問題的起因,如果是硬件故障則首先要解決硬件問題。在無硬件問題的前提下按照下面的處理方發來進一步處理。 2.3.8.1 數據庫故障檢查數據庫出現故障,基本上是由于文件損壞所導致,可以通過安裝以下分析方法檢查文件
53、損壞的情況:l 檢查控制文件損壞情況l 檢查損壞的單個控制文件l 檢測所有的控制文件l 檢測重做日志文件損壞情況l 確定損壞的重做日志的位置及其狀態2.3.8.2 數據庫文件損壞檢修數據庫文件損壞后,可通過基本的配置將其修復,可以通過以下方法檢修以下位置的錯誤,具體方法如下:序號檢查方法檢測步驟1打開數據庫并且用適當的方法進行數據庫全備份進行數據庫全備份2部分數據文件損壞若損壞的數據文件屬于非system表空間,則數據庫仍然可以處于打開狀態可以進行操作,只是損壞的數據文件不能訪問。這時在數據庫打開狀態下可以單獨對損壞的數據文件進行恢復。若是system表空間的數據文件損壞則數據庫系統會異常終止
54、。這時數據庫只能以Mount方式打開,然后再對數據文件進行恢復。可以通過查看數據庫日志文件來判斷當前損壞的數據文件到底是否屬于system表空間。3非system表空間的數據文件損壞(1) 確定損壞的文件名字: (2) 將損壞的數據文件處于offline狀態: (3) 從相應的備份結果集中恢復關于這個數據文件的最近的備份。對于沒有采用帶庫備份的點可以直接從磁帶上恢復;對于用帶庫備份的點用相應的rman腳本來恢復。 (4) 恢復數據文件: (5) 使數據庫文件online: 用適當的方法進行數據庫全備份。 4system表空間的數據文件損壞(1) 以mount方式啟動數據庫 (2) 從相應的備份
55、結果集中恢復關于這個數據文件的最近的備份。對于沒有采用帶庫備份的點可以直接從磁帶上恢復;對于用帶庫備份的點用相應的rman腳本來恢復。 (3) 恢復system表空間: (4) 打開數據庫: (5) 用適當的方法進行數據庫全備份。 5表空間損壞若非system表空間已經損壞,則數據庫仍然可以處于打開狀態可以進行操作,只是損壞的表空間不能訪問。這樣在數據庫打開狀態下可以單獨對損壞的表空間進行恢復。若是system表空間損壞則數據庫系統會異常終止。這時數據庫只能以Mount方式打開,然后再對表空間進行恢復。可以通過查看數據庫日志文件來判斷當前損壞的表空間是否是system表空間.6非system表
56、空間損壞(1) 將損壞的表空間處于offline狀態: (2) 從相應的備份結果集中恢復關于這個表空間最近的備份。對于沒有采用帶庫備份的點可以直接從磁帶上恢復;對于用帶庫備份的點用相應的rman腳本來恢復。 (3) 恢復表空間: (4) 使表空間online: (5) 用適當的方法進行數據庫全備份. 7system表空間損壞(1) 以mount方式啟動數據庫 (2) 從相應的備份結果集中恢復system表空間最近的備份。對于沒有采用帶庫備份的點可以直接從磁帶上恢復;對于用帶庫備份的點用相應的rman腳本來恢復。 (3) 恢復system表空間: (4) 打開數據庫: (5) 用適當的方法進行數據庫全備份。8整個數據庫的所有文件損壞整個數據庫所有文件的損壞一般是在共享磁盤陣列發生無法恢復的災難時才發生,這種情況下只能對數據庫進行恢復。若數據庫的歸檔目錄
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 宴會部維修管理制度
- 家電維修隊管理制度
- 應急醫療包管理制度
- 當當網公司管理制度
- 影視劇公司管理制度
- 心電圖規培管理制度
- 快遞站各項管理制度
- 怎樣對租戶管理制度
- 患者安全與管理制度
- 成品庫班長管理制度
- 2025年山東將軍煙草新材料科技有限公司招聘筆試沖刺題(帶答案解析)
- 2025年高考真題-語文(全國一卷) 無答案
- 兵團開放大學2025年春季《公共關系學》終結考試答案
- 2025年中考語文押題作文范文10篇
- 拆遷名額轉讓協議書
- 2025年初中學業水平考試地理試卷(地理學科核心素養)含答案解析
- 《重大電力安全隱患判定標準(試行)》解讀與培訓
- 《人工智能基礎與應用》課件-實訓任務18 構建智能體
- 人工智能筆試題及答案
- 2025-2030進口肉類市場發展分析及行業投資戰略研究報告
- 山西省臨汾市侯馬市部分學校2025年中考二模化學試題(原卷版+解析版)
評論
0/150
提交評論