YDT 4458-2023數據中心精細化運維技術要求及評估方法_第1頁
YDT 4458-2023數據中心精細化運維技術要求及評估方法_第2頁
YDT 4458-2023數據中心精細化運維技術要求及評估方法_第3頁
YDT 4458-2023數據中心精細化運維技術要求及評估方法_第4頁
YDT 4458-2023數據中心精細化運維技術要求及評估方法_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS33.020

CCSL70

YD

中華人民共和國通信行業標準

YD/TXXXX-XXXX

數據中心精細化運維技術要求及評估方法

Datacenterrefinedoperationandmaintenancetechnicalrequirementsandevaluation

methods

(報批稿)

2022-xx-xx發布2022-xx-xx實施

中華人民共和國工業和信息化部發布

YD/TXXXX-XXXX

前言

本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》給出的規

則起草。

請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別這些專利的責任。

本文件由中國通信標準化協會提出并歸口。

本文件起草單位:中國信息通信研究院、中國移動通信集團有限公司、北京世紀互聯寬帶數據中心

有限公司、維諦技術有限公司、上海數據港股份有限公司、中金數據系統集團有限公司、中國電信集團

公司、北京萬國長安科技有限公司、上海有孚網絡股份有限公司

本文件起草人:王月、李潔、郭亮、許可欣、劉天龍、楊磊、周浩、錢榮華、胡順健、曲鑫、王少

鵬、韓會先、吳美希、王茜、謝麗娜、周重陽、任帥、朱晶、郭廣建、巴君鴻、李晨、甘東山、商彥強、

王紅亮、張一星、周彩紅

II

YD/TXXXX-XXXX

數據中心精細化運維技術要求及評估方法

1范圍

本文件規定了數據中心運行維護管理在流程管理、質量管理、設備管理、資源管理、人員與組織管

理等關鍵環節的技術要求和評估方法。

本文件適用于數據中心企業使用或構建運維流程體系,以及有關機構進行評價和指導,可供其他相

關行業或組織進行參考。

2規范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T24405.1-2009信息技術服務管理第1部分:規范

3術語和定義

下列術語、定義適用于本文件。

3.1

服務級別協議servicelevelagreement

服務提供商與服務需方之間簽署的記錄服務和約定服務級別的協議。

[來源:GB/T24405.1-2009,定義2.13]

4縮略語

下列縮略語適用于本文件。

MOP維護操作流程maintenanceoperationprocess

PUE數據中心電能利用效率powerusageeffectiveness

SLA服務級別協議servicelevelagreement

WUE數據中心水資源利用效率waterusageeffectiveness

5技術要求

5.1流程管理

5.1.1維修

5.1.1.1維修制度

重大維修應制定維修方案,經過評估審核后執行。

5.1.1.2維修準備工作

3

YD/TXXXX-XXXX

維修前應做好充分的準備工作,維修前充分的準備工作是保證維修過程順利、安全進行的重要保障,

包括:

a)維修工作應提前溝通相關方進行確認,滿足數據中心服務響應需求,前置確認相關資源(如備

品備件存儲和人員)的準備情況,對人員進行提前培訓;

b)應提前進行供應商作業人員的資質審核(如操作資質、能力資質等),現場應進行安全技術交

底,維修方案培訓和記錄應存檔。

5.1.1.3維修過程監管

維修過程應加強監管,以加強現場監督為前提進行監管,包括:

a)應全程監管維修過程,督促維修人員按照維修方案、要求執行,并由運維人員檢查工作質量;

b)過程中應注重安全監護,應確認安全防護用品穿戴情況、安全標識正確懸掛情況、設備操作環

境,操作前后應有復核確認等。

5.1.1.4維修后評估

應建立維修后評估等機制,以提升現場維修質量和供應商服務質量,包括:

a)應執行對設備維修效果評估,測試設備狀態及性能是否符合預期;

b)應對供應商服務進行評估,包括響應時效、服務態度、安全施工等,并作為供應商考核依據;

c)數據中心負責人、故障處理參與人應在故障處理結束后組織復盤討論會,分析故障原因、討論

故障處理過程中的優秀做法與不足、總結規避措施,會后應組織排查同類問題隱患。

5.1.2維保

5.1.2.1維保計劃制定

應編制詳細的設備、設施維保計劃,包括:

a)應制定完整合理的維保計劃(維保計劃一般包含維保內容、周期、責任方、顆粒細化到周的計

劃時間、完成記錄等);

b)應區分自行維保和供應商維保,呈現完整的年度計劃,維保周期應設定合理;

c)重大維保工作應提前制定維保方案,提前溝通相關方,確認后實施;

d)常規維保工作可依據已制定的標準維保流程執行;

e)重保(保障期)延誤保養應提前向客戶說明,具有調整流程。

5.1.2.2維保標準要求制定

維保標準應科學合理,具有良好可操作性,包括:

a)應具備完整合理的MOP文件,覆蓋所有維保作業(自維護、供應商代理維護)制定標準維保流程

(內容一般包含維保項目、觸發條件、維保操作方法、維保質量標準等);

b)應明確維保安全風險及注意事項說明,完工后檢查標準(內容包含工器具檢查、設備狀態等)。

5.1.2.3維保作業實施

維保實施應按照維保標準嚴格執行,包括:

a)實施前應有專業管理人員與維保人員進行現場交底及進行工具有效性確認,實施中應能識別風

險及安全隱患并進行有效處理;

4

YD/TXXXX-XXXX

b)維保記錄應完整、清晰,并與MOP相對應;

c)應提前識別和告知相關方無法按照計劃執行的實施計劃,并依據實際情況重新制定維保日期。

5.1.2.4維保作業核查及總結

應對維保作業實施過程和結果進行跟進和復查,確保維保計劃有效執行,數據中心安全運行,包括:

a)實施后應有專業工程師或指定人員對維保作業完成情況和質量進行確認;

b)應對維保執行情況進行跟進,對年度維保執行情況總結,總結應包含完成率、延遲率、原因分

析、需優化和改進措施等,總結應完整且可以指導持續改進優化。

5.1.3巡檢

5.1.3.1巡檢規范要求制定

應具備包括但不限于針對日常運維巡檢、周期性深度巡檢和專項檢查(針對災害天氣、重大保障等)

完善的規范要求,要求應明確巡檢路線、巡檢內容、巡檢要求、巡檢時效等內容。

5.1.3.2巡檢實施

巡檢實施應按照巡檢規范要求嚴格執行,包括:

a)現場應具備內容完善的針對日常運維巡檢、周期性深度巡檢和專項檢查的巡檢記錄,數據留存

且完整;

b)現場應可識別出不在監控范圍內或在管理界面外的區域,并對監控范圍內的設備進行復核檢查,

及對不在監控范圍內的關鍵設備及區域進行現場檢查。

5.1.3.3巡檢質量復核

應建立質量復核機制并實施,包括:

a)現場應有專業工程師或指定人員對巡檢作業完成情況和質量進行確認,應對巡檢記錄及運行記

錄執行情況進行復核,復核渠道包括但不限于班組內部復核、機房內部定期檢查、外部監察等;

b)巡檢發現的問題,能夠在交接班記錄中體現,應能與事件工單、變更工單相對應。

5.1.3.4優化與改進

巡檢完成后,應在進入下一周期前,根據變化情況,提前做好巡檢規范的調整優化,且巡檢方案合

理,應覆蓋關鍵設備和區域,如新采購智能設備、運維人員調整等情況都應對巡檢規范要求進行動態調

整。

5.1.4演練

5.1.4.1演練計劃制定

演練計劃制定應有一定完整性,包括:

a)應依據運維過程中識別的全面運維能力的提升要求及全部不可預知的風險,制定年度演練計劃;

b)演練計劃應包含演練場景、演練方式(模擬、實際)、演練分級、計劃時間、負責人員、參訓

人員等。

5.1.4.2演練方案制定

演練方案應科學合理,具有良好可操作性,包括:

5

YD/TXXXX-XXXX

a)對可能導致數據中心無法正常運行、設備和系統冗余風險、對業務運行有較大隱患的演練場景,

應編制演練方案;

b)演練風險應提前識別,并在方案中明確風險、應急和回退措施。

5.1.4.3演練管理

應對演練過程進行事前管理,包括:

a)演練前,應檢查資源準備情況,及時調整補充,做好應急準備;

b)應組織啟動會議,宣講演練方案,包括場景以及內容、演練步驟、職責分工、注意事項等,必

要時進行預演練。

5.1.4.4演練實施組織

應按照制定的行動方案和演練計劃執行,包括:

a)演練過程中,嚴格按照流程和職責分工進行操作,做好現場安全控制,記錄演練過程、關鍵時

間節點;

b)演練風險應提前識別,并在過程中嚴格執行。

5.1.4.5演練總結與提升

應在演練后進行總結,以提升運維應急能力,并識別和優化不足之處,包括:

a)演練結束后對演練的結果、安全措施落實情況、演練組織工作等進行總結評估;

b)對于演練中暴露的問題,應制定改善措施;

c)對于應急預案的不符和、不完善項應進行修訂,并做好宣貫培訓;

d)宜對演練成本進行較為詳細的測算,包括投入人力、物資、以及對客戶的影響評估。

5.2質量管理

5.2.1風險管理

5.2.1.1風險識別和記錄

應建立風險識別、記錄機制,識別并記錄運維管理和相關方活動對機房管理和運行所造成的風險,

包括:

a)應能識別全類全面的風險,針對運維管理風險、機房運行風險等多源風險具備完善的風險識別

評估表,并在運維過程中不斷補充和完善;

b)應根據風險范圍和內容,考慮覆蓋常規和非常規、緊急狀態下的作業過程,并在過去、現在和

將來的三種時態下識別風險點,以及可能導致的事件,記錄在風險識別評估表內;

c)風險識別的組織人員應包含機房管理人員、機房技術人員、客戶等。

5.2.1.2風險控制實施計劃制定

應制定完整完善的風險控制實施計劃,包括:

a)應針對不同類的風險進行分級管理并形成完善的計劃及目的,且應明確責任部門或責任人、計

劃完成時間;

b)具備多種控制方式相結合的合理可行的風險控制措施,控制措施應考慮其可行性和有效性等;

c)針對已識別的風險點根據發生可能性和影響程度進行評估,計算出風險值,確定風險等級,選

擇適宜的控制措施方式。

6

YD/TXXXX-XXXX

5.2.1.3風險監控、驗證、回顧

應建立風險監控、驗證、回顧機制,包括:

a)應將風險監控的全流程形成完整的記錄,對于采用會議或培訓的措施,應在完成后查看記錄,

驗證實施內容并通過詢問相關人員了解措施完成的效果,機房應保留記錄;

b)應對定級后的風險進行多種形式的監督與驗證;

c)對于采用監督檢查類的措施,應由機房制定或完善監督檢查表,定期檢查,機房應保留記錄;

d)對于采用制定方案、操作規程或增加文件等類型的措施,機房應編制相應方案、規程等文件或

表單,并組織實施,機房應保留文件和記錄。

5.2.1.4風險庫及評估更新

應形成風險庫及時有效的更新和控制,包括:

應根據已識別評估的風險實時更新風險庫,優化和調整風險識別評估表、對應的風險控制措施計劃

表,定期更新修訂風險庫,替換已廢除的風險項定期更新評估表等文件。

5.2.2事件管理

5.2.2.1事件記錄

所有事件(包括被動、主動識別的事件)均應被記錄,閉環并形成完整記錄,宜以平臺工作流程或

線下記錄體現,事件來源應包括監控發現、巡檢發現等。

5.2.2.2事件管理

應建立事件管理機制,建立事件處理相關流程,包括:

a)應依據影響程度、緊急程度、優先級對事件進行分類及分級,并依據不同類別和級別采取相應

處理機制和升級;

b)應有明確的事件管理范圍及工作要求,包括事件類型、事件等級、響應機制、通報流程、反饋

機制、事件升級機制等;

c)應具備事件關閉策略,事件在關閉之前能夠依照關閉策略進行復核確認。

5.2.2.3事件升級

應建立事件升級機制,提升處理有效性和及時性,包括:

應定義事件升級規則,根據事件升級規則,轉派后線支持人員進行職能升級處理,或加強事件處理

力度進行結構升級處理事件處理和恢復。

5.2.2.4事件處理和恢復

應遵循“先搶通,再搶修”處理原則,快速解決影響數據中心運維的事件,保障IT設備可用性。

5.2.2.5事件復盤和關閉

應對事件復盤和分析以實現提升改進,包括:

a)應明確事件關閉規則,關閉規則一般覆蓋事件已恢復,故障設備或系統已恢復正常運行狀態,

相關預防性計劃和措施已落實等;

b)重要問題應進行復盤,回溯發生和處理過程,總結經驗和反思不足,制定改進措施;

7

YD/TXXXX-XXXX

c)應定期對事件進行匯總和全方位分析,分析應包括數量、分級統計、分類統計、響應時間、處

理時間、恢復時間等,并輸出優化措施、持續跟進。

5.2.3問題管理

5.2.3.1問題識別和記錄

應建立問題識別、記錄機制,包括:

a)應明確問題識別觸發條件,觸發條件一般包含事件恢復后遺留故障、反復發生的事件、重要事

件;

b)識別的問題均應閉環并形成完整記錄,問題記錄應以平臺工作流程或線下記錄形式體現。

5.2.3.2問題管理

應建立完備的問題管理制度,對問題分級管理,包括:

a)應具備符合管理要求的問題流程管理制度,制度應對運維崗位定義明確的流程角色;

b)應依據專業分類、設備類型、問題現象、問題原因等進行問題分類,問題分級應依據影響程度、

緊急程度等進行分級。

5.2.3.3問題分析和升級

應查找問題的根本原因,制定標準分析流程,通過大數據、人工智能等技術逐級升級分析,定位問

題原因。

5.2.3.4問題解決

應制定問題解決方案并實施,依據問題分析結果,制定解決方案或規避措施,問題處理過程應全程

記錄時間、人員、更換配件等信息。

5.2.3.5問題關閉與沉淀

應沉淀問題解決方案,不斷提高運維人員排除故障的能力,提升運維團隊專業素養,包括:

a)應回顧和關閉問題,應明確問題關閉規則,關閉規則應包括問題排查,整改措施并完成現場處

理結果的多級確認;

b)問題報告編制,應回溯發生、分析、處理和同類問題排查過程,并組織學習和分享;已關閉的

問題應開展橫向排查并整改。

5.2.4資料文檔管理

5.2.4.1文檔管理范圍確定

應明確全面且完善的文檔管理范圍及要求,包括:

a)資料文件范圍及內容應全面,包括但不限于設計圖紙、運維文檔、調試報告、交付報告、合同

文件、質保文件、設備說明書、許可證等;

b)運維工作文件宜保證定期更新,關鍵文件可進行電子、紙質文件雙備份。

5.2.4.2文檔管理策略確定

文檔應有專人進行管理,并具備明確的保密分級機制,不同級別員工對不同保密等級的文件的查看、

下載、轉發等權限應不同。

8

YD/TXXXX-XXXX

5.2.4.3文檔管理實施

應按照策略有效實施,宜具備線上文檔管理系統,實現文件權限與分級管理,文件版本(如發布、

作廢等)記錄應保持清晰,運維工作文件應實現實時動態更新。

5.3設備管理

5.3.1設備監控

5.3.1.1監控方案制定

應制定完善的監控方案,包括:

a)監控系統規劃時應梳理監控系統的范圍,實現監控無盲區;

b)監控系統全面覆蓋,使系統達到高穩定性,無事態擴大化;

c)應分析確定監控需求,制定完善的監控方案;

d)有效管理基礎設施各子系統,監控、分析各系統運行狀態,提高監控系統可靠性、安全性,更

好地服務基礎設施運維團隊。

5.3.1.2監控畫面架構制定

應集成一個總告警畫面便于告警信息匯總,畫面應清晰柔和,避免監控值班員長期視覺疲勞。

5.3.1.3監控方案實施

應按照監控方案嚴格實施,保證設備故障時可觸發告警,通知運維人員及時處置,保障數據中心系

統安全、穩定運行,包括:

a)應覆蓋被監測運維系統的全部重要點位(包括但不限于電壓、電流、壓力、溫度、濕度等);

b)應具備專職的監控值班人員7*24h監控系統運行的參數變化及告警事件的分派;

c)應根據SLA要求設定統一閾值。

5.3.1.4監控報表管理

應根據運維的需求給出能耗、負載率、PUE、WUE等報表模板,根據模板進行報表的開發具備多類報

表模板,可基于模板進行報表二次開發。

5.3.2告警管理

5.3.2.1告警方案制定

應具備完善的告警事件分級分類管理內容,根據告警等級確立通報流程、通報人員及通報范圍。

5.3.2.2告警方案實施

應按照告警方案嚴格實施,保證告警處置通報及時,便于客戶做好數據備份,包括:

a)主管人員應明確值班人員的工作內容及設備責任人,明確相關設備責任工程師及聯系方式,建

立部門、客戶緊急聯系通訊錄;

b)應具備完整的告警通報流程及通報模板(主要內容包括但不限于時間、地點、區域、設備名稱、

故障原因、影響范圍、處置措施、處理人員等信息)。

5.3.2.3告警分析

9

YD/TXXXX-XXXX

應建立告警分析機制,縮小故障的影響范圍,包括:

a)值班人員應每天對告警進行統計,機房經理應每月對告警內容進行分析;

b)應定期安排工程師對各監控系統告警點位進行測試,驗證各監控點位的可靠性;

c)宜建立完善的告警處置知識庫。

5.3.3設備狀態管理

5.3.3.1管理制度

應建立完備的管理制度,包括:

a)應制定完善的設備管理策略、表單、流程;宜利用管理平臺進行管理;

b)管理制度應定期進行宣導及培訓并納入績效體系。

5.3.3.2管理實施

應嚴格按照管理制度實施設備狀態管理,使設施設備處于有效的管制狀態中,進而全面改善設備性

能,提高生產效率,保證安全正常地提供服務,包括:

a)應覆蓋與IT有關的全部基礎設施,應對設備全生命周期進行管理;

b)應具備規范、清晰、全鏈條的設備標識管理;

c)應對操作人員資格有明確的要求與操作制度;

d)應定期對工器具盤點及維護保養,對于備品備件的情況進行分析并及時補充。

5.3.4設備健康度管理

5.3.4.1制定設備健康度管理計劃

應制定完善的設備健康度管理制度及標準化地流程,包括設備范圍、健康度指標、健康度評估模型

(包括但不限于運行質量、系統結構、容量管理等),宜根據年度開展。

5.3.4.2實施健康度評估

應對全量設備建立設備健康度檔案,按照年度健康度評估計劃,通過對設備進行預防性維護、應急

演練切換、維護保養等手段,宜每年一次對設備健康度進行評估打分。

5.3.4.3實施健康度提升措施

應定期進行健康度評估并采取相應的優化改進措施,實現設備性能和運行安全的提升,避免產生重

大運行事故,包括:

a)應按照健康度管理計劃,對健康度不滿足運行要求的設備或系統進行評估,并制定提升方案、

應急預案(特別是針對健康度較低的設備或系統);

b)應對提升方案和應急預案進行評審,并按照評審通過的提升方案予以實施。

5.3.4.4健康度后評估

應在健康度提升措施實施后進行健康度后評估,包括:

a)應按每年度一次的頻率對設備健康度提升工作落實情況及效果進行后評估,檢查其實施效果;

b)應根據評估后結果對健康度檔案進行更新。

5.4資源管理

10

YD/TXXXX-XXXX

5.4.1能效管理

5.4.1.1綠色節能管理體系

應建立運行維護生命周期中的能效精細化管理制度,包括:

a)應具備明確的能耗管理組織架構和職責分工;

b)應具有完善的能源管理制度,組建基本的能效監管團隊,定期推行宣傳及培訓;

c)應制定能源管理目標,定期核查目標達成;應建立高耗能設備淘汰機制,引入綠色節能系統、

設備。

5.4.1.2采集呈現關鍵指標

應建立能效管理平臺,關鍵指標呈現應準確、完整,包括:

a)應具備能效管理平臺,實時自動呈現數據,并主動提醒運維人員;

b)應比對儀表、監控數據情況,并作校準操作,宜以季度為周期開展。

5.4.1.3統計和分析能耗指標

統計和分析能耗指標應覆蓋數據中心運行中涉及的所有能源范圍,包括:

a)應統計分析各設備、各區域能耗指標,并生成能耗分析報告,宜根據日、月、年等周期提供統

計;

b)宜利用監控平臺實現能耗實時分析,并利用趨勢預警,異常能耗,能耗同比、環比等數據輸出

提醒信息。

5.4.1.4優化和改進

應在能效管理實施后進行分析與總結,確保在運行中的能耗達到或優于設計的指標,包括:

a)應根據統計分析進一步尋求改進機會,制定節能降耗措施;

b)應在執行改進措施前評估相關風險,并制定應急措施。

5.4.2容量管理

5.4.2.1容量需求分析

應合理分析容量需求,保證信息系統以最經濟和有效的方式運行并與發展中的業務需求相匹配,包

括:

a)應定期收集容量信息并進行分析,時間以月度收集和分析容量使用情況為宜,容量信息應包含

電力容量、制冷容量、空間容量等信息;

b)可利用管理平臺和監控平臺進行策略制定,監測和分析容量使用情況和使用趨勢;

c)應周期性識別容量原因造成的風險。

5.4.2.2容量計劃制定

應基于歷史數據、外部需求、計劃外需求等信息制定完善的容量管理計劃,應體現對系統或設備容

量進行的分析和預測。

5.4.2.3資源配置及性能分析

11

YD/TXXXX-XXXX

應對資源配置和性能進行分析,以實現通過配置合理的服務容量使資源發揮最大的效能,包括:

a)應對容量情況進行監測、閾值設定和分析,必要時進行容量優化變更實施;

b)應依據容量計劃對需求的資源進行合理分配,對已逼近安全容量的設施應啟動調整方案;

c)應定期實行容量核查,并發出資源利用報告。

5.4.2.4容量報告和復盤

容量管理實施后,應進行總結復盤,包括:

a)應對當前容量使用情況和資源性能情況進行評估;

b)定期對容量情況分析后,應提前制定容量擴容規劃;

c)應對計劃執行情況進行總結復盤,并輸出季度/年度報告。

5.4.3資產與配置管理

5.4.3.1資產與配置管理計劃

應進行科學合理的資產與配置管理計劃,包括:

a)應明確資產與配置管理的范圍,制定資產與配置管理計劃,包括但不限于各類資產與配置項的

的標識方法、命名規范以及屬性,確定資產與配置項的管理策略,并對資產配置項分級分類;

b)應具備設備備件、辦公耗材、鑰匙、檢測工具、應急工具管理清單,清單應實時更新,同時記

錄存放地點。

5.4.3.2資產與配置項識別

應對資產與配置項進行識別,包括:

a)應識別資產與配置項以及關聯關系,唯一標識并記錄到資產與配置管理數據庫中;

b)應制定資產與配置管理數據庫的訪問控制權限,并有專人對工具、儀表、備件、耗材等進行管

理。

5.4.3.3資產變更管理

應對資產變更進行全生命周期管理,包括:

a)應建立資產實物的計劃、采購、入庫、安裝、運行、變更、閑置、報廢等管理活動,明確全生

命周期的管理要求;

b)應制定資產出入庫清單,清單應實時更新,并對領用情況進行紀錄。

5.4.3.4資產與配置項驗證與審核

應對資產與配置項進行驗證與審核,保證數據中心運營環境信息的完整性和穩定性,包括:

a)應核對和驗證資產與配置項信息,確保資產與配置項信息正確記錄到資產與配置管理數據庫中;

b)應建立并持續更新設備和關鍵零部件的全生命周期管理表。

5.5人員與組織管理

5.5.1供應商管理

5.5.1.1供應商管理要求策略制定

應制定完善的供應商管理要求策略,規范供應商管理,包括:

a)應制定完善的供應商管理要求策略(包括但不限于供應商的選擇、溝通、考核和淘汰機制);

12

YD/TXXXX-XXXX

b)應具備較為完整的供應商信息,包括服務內容與要求、人員通訊錄、人員資質信息等,同時定

期執行更新校驗工作。

5.5.1.2供應商選擇與采購

對于供應商選擇與采購應做科學合理分析,確保供應商向數據中心提供優質的外部技術資源和支

持,包括:

a)應綜合分析和確定外部資源需求,分析內容宜包括申請內容、使用范圍、必要性以及資源數量

實施供應商選擇和采購;

b)應對備選供應商執行盡職調查和風險分析;

c)供應商服務響應時間應與現場關鍵設備冗余后備時間、客戶SLA要求、備品備件庫等信息相匹

配。

5.5.1.3供應商日常管理

應對供應商的日常行為進行管理,包括:

a)應對現場供應商行為進行全程把控,包括入場前、入場中、入場后各個環節;

b)入場前應檢查作業人員資質證件信息,對其進行行為告知,如工作流程、工作界面、行為要求、

安全注意事項等方面的告知;

c)入場施工中應對齊工作內容并進行隨工監管;

d)入場施工后應對工作質量、現場環境、遺留物品進行排查。

5.5.1.4供應商評價

應對供應商的執行進行評價,包括:

a)應按計劃時間間隔,每年至少一次進行供應商評價,并根據評價結果持續改進;

b)應明確供應商相關管理要求(內容包括但不限于供應商分類、管理流程、供應商服務評價標準、

考核標準等),執行記錄應與標準要求一致且完整可查。

5.5.2交接班管理

5.5.2.1交接班管理

交接班工作內容應清晰完善,包括:

a)交接班記錄內容應清晰完善,能夠體現本班組中發生的重要工作和異常情況(包括但不限于事

件、變更、維護等)、交接班期關鍵運行信息(包括但不限于用水量、用電負荷、儲水量、儲油量等);

b)應具備交接班內容檢查確認流程及交接班期間突發異常狀況處理流程與方式。

5.5.2.2排班/考勤管理

排班考勤應合理并可追溯,包括:

a)應具備排班表和考勤記錄,同時人員休假、替換班等信息在排班表中應同步更新;

b)宜每月分析團隊各類人員工作時長信息,保證合理合規性,并具備值班考勤檢查。

5.5.3培訓與考核

5.5.3.1培訓計劃制定

應通過培訓需求的分析對培訓制定詳細的計劃,包括:

13

YD/TXXXX-XXXX

a)應對人員現狀與需求進行分析與評估;

b)培訓范圍應全面覆蓋內部人員,針對不同人員體現適宜且完善的培訓,且為不同參訓人員準備

培訓教材。

5.5.3.2培訓執行

應嚴格按照計劃落地執行,包括:

a)應在培訓時做培訓記錄,包含培訓簽到、培訓照片,必要時需要錄制培訓視頻;

b)培訓過程記錄、考核記錄應專人存檔。

5.5.3.3培訓考核及改進

應加強對培訓的考核并持續改進,包括:

a)應結合培訓內容與人員進行多種方式的考核;

b)培訓后應對培訓進行優化調整,并將調整內容體現在下個周期的培訓計劃中。

5.5.3.4人員綜合評估和規劃

應加強對人員的綜合評估和規劃,確保運維員工的工作能力及業務素質能滿足公司發展需求,包括:

a)應對運維團隊進行綜合評估;

b)應對運維團隊人員合理進行績效評價,并結合評估、考核等結果對運維團隊人員進行職業發展

規劃。

數據中心精細化運維等級評定方法應按照附錄A實施。

14

YD/TXXXX-XXXX

附錄A

(規范性)

數據中心精細化運維分級(O1-O5)

A.1數據中心精細化運維分級要求

分級要求如表A.1所示。

表A.1數據中心精細化運維分級要求表

關鍵域關鍵指標關鍵活動分值

維修制度2

維修準備工作2

維修

維修過程監管2

維修后評估2

維保計劃制定2

維保標準要求制定2

維保

維保作業實施2

維保作業核查及總結2

流程管理巡檢規范要求制定2

巡檢實施2

巡檢

巡檢質量復核2

優化與改進2

演練計劃制定2

演練方案制定2

演練演練管理2

演練實施組織2

演練總結、提升2

風險識別和記錄2

風險控制實施計劃制定2

風險管理

風險監控、驗證、回顧2

風險庫及評估更新2

事件記錄2

事件管理2

事件管理事件升級2

事件處理和恢復2

質量管理

事件復盤和關閉2

問題識別和記錄2

問題管理2

問題管理問題分析和升級2

問題解決2

問題關閉與沉淀2

文檔管理范圍確定1

資料文檔管理

文檔管理策略確定1

15

YD/TXXXX-XXXX

文檔管理實施1

監控方案制定1

監控畫面架構制定1

設備監控

監控方案實施1

監控報表管理1

告警方案制定1

告警管理告警方案實施1

設備管理告警分析1

管理制度1

設備狀態管理

管理實施1

制定設備健康度管理計劃1

實施健康度評估1

設備健康度管理

實施健康度提升措施1

健康度后評估1

綠色節能管理體系1

采集呈現關鍵指標1

能效管理

統計和分析能耗指標1

優化和改進1

容量需求分析1

容量計劃制定1

資源管理容量管理

資源配置及性能分析1

容量報告、復盤1

資產與配置管理計劃1

資產與配置項識別1

資產與配置管理

資產變更管理1

資產與配置項驗證與審核1

供應商管理要求策略制定1

供應商選擇與采購1

供應商管理

供應商日常管理1

供應商評價1

交接班管理1

人員與組織管理交接班管理

排班/考勤管理1

培訓計劃制定1

培訓執行1

培訓與考核

培訓考核及改進1

人員綜合評估和規劃1

A.2數據中心精細化運維評級

由以上項目的總得分,按照以下分級方法,可得到該數據中心對應的精細化運維等級,如表A.2所示。

16

YD/TXXXX-XXXX

表A.2數據中心精細化運維評級表

分數分級

[0,65)O1

[65-75)O2

[75-85)O3

[85-95)O4

[95-100]O5

________________________________

17

YD/TXXXX-XXXX

目次

1范圍................................................................................33域代碼已更改

2規范性引用文件......................................................................33域代碼已更改

3術語和定義..........................................................................33

域代碼已更改

4縮略語............................................................................33

域代碼已更改

5技術要求............................................................................33

域代碼已更改

5.1流程管理........................................................................33

域代碼已更改

5.2質量管理........................................................................65

5.3設備管理........................................................................98域代碼已更改

5.4資源管理.......................................................................109域代碼已更改

5.5人員與組織管理................................................................1211域代碼已更改

附錄A(規范性)數據中心精細化運維分級(01-05)......................................1513域代碼已更改

域代碼已更改

I

YD/TXXXX-XXXX

數據中心精細化運維技術要求及評估方法

1范圍

本文件規定了數據中心運行維護管理在流程管理、質量管理、設備管理、資源管理、人員與組織管

理等關鍵環節的技術要求和評估方法。

本文件適用于數據中心企業使用或構建運維流程體系,以及有關機構進行評價和指導,可供其他相

關行業或組織進行參考。

2規范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T24405.1-2009信息技術服務管理第1部分:規范

3術語和定義

下列術語、定義適用于本文件。

3.1

服務級別協議servicelevelagreement

服務提供商與服務需方之間簽署的記錄服務和約定服務級別的協議。

[來源:GB/T24405.1-2009,定義2.13]

4縮略語

下列縮略語適用于本文件。

MOP維護操作流程maintenanceoperationprocess

PUE數據中心電能利用效率powerusageeffectiveness

SLA服務級別協議servicelevelagreement

WUE數據中心水資源利用效率waterusageeffectiveness

5技術要求

5.1流程管理

5.1.1維修

5.1.1.1維修制度

重大維修應制定維修方案,經過評估審核后執行。

5.1.1.2維修準備工作

3

YD/TXXXX-XXXX

維修前應做好充分的準備工作,維修前充分的準備工作是保證維修過程順利、安全進行的重要保障,

包括:

a)維修工作應提前溝通相關方進行確認,滿足數據中心服務響應需求,前置確認相關資源(如備

品備件存儲和人員)的準備情況,對人員進行提前培訓;

b)應提前進行供應商作業人員的資質審核(如操作資質、能力資質等),現場應進行安全技術交

底,維修方案培訓和記錄應存檔。

5.1.1.3維修過程監管

維修過程應加強監管,以加強現場監督為前提進行監管,包括:

a)應全程監管維修過程,督促維修人員按照維修方案、要求執行,并由運維人員檢查工作質量;

b)過程中應注重安全監護,應確認安全防護用品穿戴情況、安全標識正確懸掛情況、設備操作環

境,操作前后應有復核確認等。

5.1.1.4維修后評估

應建立維修后評估等機制,以提升現場維修質量和供應商服務質量,包括:

a)應執行對設備維修效果評估,測試設備狀態及性能是否符合預期;

b)應對供應商服務進行評估,包括響應時效、服務態度、安全施工等,并作為供應商考核依據;

c)數據中心負責人、故障處理參與人應在故障處理結束后組織復盤討論會,分析故障原因、討論

故障處理過程中的優秀做法與不足、總結規避措施,會后應組織排查同類問題隱患。

5.1.2維保

5.1.2.1維保計劃制定

應編制詳細的設備、設施維保計劃,包括:

a)應制定完整合理的維保計劃(維保計劃一般包含維保內容、周期、責任方、顆粒細化到周的計

劃時間、完成記錄等);

b)應區分自行維保和供應商維保,呈現完整的年度計劃,維保周期應設定合理;

c)重大維保工作應提前制定維保方案,提前溝通相關方,確認后實施;

d)常規維保工作可依據已制定的標準維保流程執行;

e)重保(保障期)延誤保養應提前向客戶說明,具有調整流程。

5.1.2.2維保標準要求制定

維保標準應科學合理,具有良好可操作性,包括:

a)應具備完整合理的MOP文件,覆蓋所有維保作業(自維護、供應商

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論