




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1. 通用標準處置快速索引主要包含AIX操作系統故障場景的通用標準處置General Operating System:編號通 用 標 準 處 置索 引GOA001AIX操作系統標準關閉單機GOA002AIX操作系統標準重啟單機GOA003AIX操作系統標準關閉雙機GOA004AIX操作系統標準重啟雙機GOA005AIX操作系統CPU負載GOA006查看占用CPU資源最多的進程GOA007AIX操作系統內存使用率GOA008查詢占用內存資源最多的進程GOA009查詢某個進程內存使用變化情況GOA010查看系統消息隊列、共享內存、信號量GOA011AIX操作系統ipcrm命令去除IPC資源GOA
2、012判斷是否有僵尸進程GOA013AIX操作系統磁盤I/O負載GOA014查詢換頁最多的進程GOA015文件系統信息GOA016物理卷、卷組和邏輯卷GOA017查看系統主要日志GOA018主機通訊是否有延遲GOA019主機通訊延遲或丟包GOA020主機路由設置是否正確GOA021到相連業務系統的通訊是否正常GOA022網卡配置信息檢測GOA023查看HACMP雙機是否正常GOA024啟動hacmp雙機效勞GOA025Hacmp雙機效勞切換到備機GOA026關閉HACMP雙機效勞GOA027HACMP效勞異常,手工恢復業務GOA028搜集AIX系統snap信息GOA029強制生成dump方法G
3、OA030AIX系統查看線程使用情況GOA031去除進程2. 通用處置AIX2.1. GOA001:AIX操作系統標準關閉單機處置名稱:AIX操作系統標準關閉處置時間:5分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響: 系統效勞暫停。2技術影響:無3其它影響: 無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 根據需求首先關閉應用程序/數據庫該步驟可選,需要的系統請明示步驟3) 執行shutdown -F驗證步驟:1) 無。修訂日期:2021年5月8日 修訂人:常艷春 2.2. GOA002:AIX操作系統標準重啟單機處置名稱:AIX操作系統標準重啟處置時間:10
4、-20分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響: 系統效勞暫停。2技術影響:無3其它影響: 無操作步驟: 1通過SOM平臺以root用戶登錄2根據需求首先關閉應用程序/數據庫該步驟可選,需要的系統請明示步驟3執行shutdown -Fr 驗證步驟:無。修訂日期:2021年5月8日 修訂人:常艷春2.3. GOA003:AIX操作系統標準關閉雙機處置名稱:AIX 系統標準關閉雙機處置時間:10分鐘影響分析:1業務影響:系統效勞暫停2技術影響:無3其它影響:無操作步驟: 1通過SOM平臺以root用戶登錄2root用戶下執行 Smit clstop 應用效勞隨雙機停止 驗
5、證步驟:1) 雙機軟件停止后查看網絡、卷組和文件系統卸載正常、業務是否正常停止。#netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o確認雙機停止狀態是否正常。修訂日期:2021年5月4日 修訂人: 常艷春2.4. GOA004:AIX操作系統標準重啟雙機處置名稱:AIX系統標準重啟雙機處置時間:10分鐘影響分析:1業務影響:系統效勞暫停2技術影響:無3其它影響:無操作步驟: 1通過SOM平臺以root用戶登錄2root用戶下執行 Smit clstop 應用效勞隨雙機停止 2) shutdown Fr重啟操作系統3)
6、 系統啟動后會自動啟動雙機軟件應用效勞隨雙機啟動。有些系統是手工啟動雙機軟件,需執行Smit clstart 回車。驗證步驟:1) 雙機軟件停止后查看網絡、卷組和文件系統卸載正常、業務是否正常停止。#netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o確認雙機停止狀態是否正常。2) 系統重啟系統后驗證雙機軟件和應用是否正常。包括網絡、卷組和文件系統掛載正常,業務運行正常 #netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o確認雙機啟動狀態是否
7、正常。修訂日期:2021年5月4日 修訂人: 常艷春2.5. GOA005:AIX操作系統CPU負載處置名稱:AIX操作系統CPU負載處置時間:5分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權限用戶登錄2) 執行topas命令;3) 執行sar 2 30命令;4) 執行vmstat 2 30命令;5) 執行mpstat 2 30命令。驗證步驟:根據命令輸出內容判斷CPU使用情況修訂日期:2021年5月8日 修訂人: 常艷春2.6. GOA006:查看占用CPU資源最多的進程處置名稱:定位占用C
8、PU資源最多的進程處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權限用戶登錄2) 執行ps aux命令;查看所有進程暫用CPU情況3) 執行ps aux |head -1 ;ps aux |sort -rn +2 |head -10查看暫用CPU最多的前10個進程。驗證步驟:根據ps aux命令輸出的排序情況,定位CPU使用率較高的進程。修訂日期:2021年5月8日 修訂人: 常艷春 2.7. GOA007:AIX操作系統內存使用率處置名稱:AIX操作系統內存使用率處置時間:5分鐘該
9、時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權限用戶登錄;2) 執行命令:top;3) 執行命令:svmon -G;4) 執行命令:vmstat 1 30驗證步驟:1) top-在程序界面中,查看MEM、Swap、Noncomp 、omp 數值;2) svmon -G:inuser、virtual數值3) vmstat 1 30:查看avm、fre數值修訂日期:2021年5月8日 修訂人: 常艷春2.8. GOA008:查詢占用內存資源最多的進程處置名稱:查詢占用內存資源最多的進程處置時間:3分鐘該
10、時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權限用戶登錄;2) 執行svmon -P |grep -p Pid;3) ps vx |head -1 ;ps vx |grep -v PID |sort -rn +6 |head -1004) 輸出界面中是以內存使用大小降序排列。驗證步驟:根據命令輸出排序結果,定位占用內存資源最多的進程。修訂日期:2021年5月8日 修訂人: 常艷春2.9. GOA009:查詢某個進程內存使用變化情況處置名稱:查詢某個進程內存使用變化情況處置時間:3分鐘該時間因系統而異
11、,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 5) 通過SOM平臺以root或普通權限用戶登錄;6) 執行svmon -P pid(要監控的進程PID) -i 1 (每秒刷新一次) |grep -P Pid;(例如: svmon -P 655402 -i 1 |grep Pid,查看進程號為655402進程的每秒使用內存情況)驗證步驟:無。修訂日期:2021年5月8日 修訂人: 常艷春2.10. GOA010:查看系統消息隊列、共享內存、信號量處置名稱:查看系統消息隊列、共享內存、信號量處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分
12、析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 7) 通過SOM平臺以root或普通權限用戶登錄;8) 執行#ipcs at#ipcs ab#ipcs ao#ipcs -ap;Ipcs命令輸出內容解釋:Tall設施的類型。共有三種設施類型: q 消息隊列 m 共享內存段 s 信號量 IDall設施項的標識。KEYall用作 msgget 子例程、semget 子例程或者 shmget 子例程的參數的鍵構成了設施項。 注: 當刪除內存段時,共享內存段的密鑰改變為 IPC_PRIVATE,直到所有附加在段上的進程和它拆離。MODEall設施訪問方式和標志。這種方式由 11 個字符組成,解
13、釋如下: 前兩個字符如下所示: R 如果進程在等待 msgrcv 系統調用。 S 如果進程在等待 msgsnd 系統調用。 D 如果有關的共享內存段被刪除。當附加在段上的最后一個進程拆離后它就會消失。 C 當第一個附加進程運行時,如果有關的共享內存段被清空。 - 如果沒有設置相應的特定標志。 接下來的九個字符作為每三個一組解釋。第一組是指擁有者有許可權;第二組是指在設施項的用戶組中其他用戶的許可權;最后一組指所有的用戶。在每組中,第一個字符表示允許讀取,第二個字符表示可以寫或者修改設施項,最后一個字符當前沒有用過。 權限如下所示: r 如果授予了讀許可權。 w 如果授予了寫許可權。 a 如果授
14、予了修改許可權。 - 如果沒有授予指定的許可權。 OWNERall設施項所有者的登錄名。GROUPall擁有設施項的組名。CREATORa、c設施項創立者的登錄名。CGROUPa、c設施項創立者的組名。 注: 對于 OWNER、GROUP、CREATOR 和 CGROUP,顯示用戶和組的標識而不顯示登錄名。CBYTESa、o當前停留在相關消息隊列中的消息的字節數。QNUMa、o當前停留在相關消息隊列中的消息的字節數。QBYTESa、b停留在相關消息隊列中消息允許的最大字節數。LSPIDa、p發送消息到相關隊列的最后進程的標識。如果發送的最后一條消息是來自節點上的進程而不是保存該節點的隊列,LS
15、PID 是真正將消息放進隊列的內核進程的 PID,而不是發送進程的 PID。LRPIDa、p接收來自相關隊列的消息的進程標識。如果接收的最后一條消息來自一個節點上的進程而不是保存該隊列的節點,LRPID 是真正接收隊列上消息的內核進程的 PID,而不是接收進程的 PID。STIMEa、t最后一條消息發送到相關隊列的時間。對于遠程隊列來說,這是效勞器時間。沒有做任何措施來補償本地時鐘和效勞器時鐘之間的時區差異。RTIMEa、t接受最后一條來自相關隊列的消息的時間。對于遠程隊列來說,這是效勞器時間。沒有做任何措施來補償本地時鐘和效勞器始終之間的時區差異。CTIMEa、t創立和改變相關項的時間。對于
16、遠程隊列來說,這是效勞器時間。沒有做任何措施來補償本地時鐘和效勞器始終之間的時區差異。NATTCHa、o連接在關聯的共享內存段的進程數。SEGSZa、b關聯的共享內存段的大小。CPIDa、p共享內存項的創立程序的進程標識。LPIDa、p連接或者拆離共享內存段的最后一個進程的標識。ATIMEa、t最后一次與關聯的共享內存段完成連接的時間。DTIMEa、t最后一次與關聯的共享內存段完成拆離的時間。NSEMSa、b在與信號項相關聯的信號集中的信號量數量。OTIMEa、t在關聯的信號量中完成信號量操作的時間。SIDS共享內存段的標識。SID 可以用作 svmon -S 命令的輸入。RTFLAGSr當實
17、時進程間通信對象尚未鏈接時,會填充為 UNLINK。否那么,將顯示短劃線-。NAMEr實時進程間通信對象的名稱。對于未命名的信號,將顯示短劃線-。驗證步驟:無。修訂日期:2021年5月8日 修訂人: 常艷春2.11. GOA011:AIX操作系統ipcrm命令去除IPC資源處置名稱:AIX操作系統ipcrm命令去除IPC資源處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 9) 通過SOM平臺以root或普通權限用戶登錄;10) 執行: #ipcrm -q MessageID 去除消息隊列 #ipcrm -m Shared
18、MemoryID去除共享內容 #ipcrm -s SemaphoreID去除信號量驗證步驟:無。修訂日期:2021年5月8日 修訂人: 常艷春2.12. GOA012:判斷是否有僵尸進程處置名稱:判斷是否有僵尸進程處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權限用戶登錄;2) 執行top命令;3) 執行ps -ef|grep defunct命令;驗證步驟:1) 執行top:查看top輸出中是否提示有僵尸進程及其數量;2) 使用ps命令查找并定位僵尸進程。修訂日期:2021年5月16
19、日 修訂人: 常艷春 2.13. GOA013:AIX操作系統磁盤I/O負載處置名稱:AIX操作系統磁盤I/O負載處置時間:5分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無 2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權限用戶登錄2) 執行:vmstat、iostat、sar -d命令。驗證步驟:1) vmstat反映了進程的虛擬內存,虛擬內存,磁盤,trap和cpu的活動情況,在多cpu系統中,vmstat在輸出結果中平均了cpu數量 ;2) iostat:如果想看每個設備的io情況,可使用iostat命令。修訂日期:2021年5月16
20、日 修訂人: 常艷春2.14. GOA014:查詢換頁最多的進程處置名稱:查詢系統I/O資源使用處置時間:5分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執行# ps vx |head -1 ;ps vx |grep -v PID |sort -rn +4 |head -10 驗證步驟:根據ps輸出結果驗證 PGIN輸出項即為換頁的數量修訂日期:2021年5月8日 修訂人: 常艷春2.15. GOA015:文件系統信息處置名稱:文件系統信息處置時間:2-5分鐘該時間因系統而異,請各根據
21、實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執行以下命令查看文件系統掛載情況:#df g-m 查看文件系統使用率#mount 查看文件系統mount屬性驗證步驟:1) 文件系統正常掛載,讀/寫屬性正常,日志無報錯;2) 可手工創立臨時文件,以驗證文件系統的可讀/寫性。修訂日期:2021年5月20日 修訂人: 常艷春 2.16. GOA016:物理卷、卷組和邏輯卷處置名稱:物理卷、卷組和邏輯卷處置時間: 5分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟:
22、1) 通過SOM平臺以root用戶登錄;2) 執行以下命令查看PV、VG、LV信息:#lspv 查看物理卷信息#lsvg vgname 查看卷組信息#lsvg l vgname 查看邏輯卷信息#lslv lvname 查看邏輯卷信息3) 查看日志中是否有關于文件系統的報錯信息 #tail -2000 /var/log/messages驗證步驟:1) 物理卷、卷組、邏輯卷狀態正常,讀/寫屬性正常,日志無報錯;修訂日期:2021年5月20日 修訂人: 常艷春 2.17. GOA017:查看系統主要日志處置名稱:查看系統主要日志處置時間:5分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業
23、務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 查看以下日志:#errpt #errpt -a驗證步驟:查看日志中是否有明顯報錯信息修訂日期:2021年5月20日 修訂人: 常艷春 2.18. GOA018:主機通訊是否延遲處置名稱:主機通訊是否延遲處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1通過SOM平臺以root或普通權限用戶登錄;2執行命令: #ping 網關_IP #ping 關聯主機_IP1) 驗證步驟:通過ping測試,驗證相同網段及不同網段的IP地址與本
24、機的通訊是否正常。修訂日期:2021年5月8日 修訂人: 常艷春 2.19. GOA019:主機通訊是否丟包處置名稱:主機通訊是否丟包處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1通過SOM平臺以root或普通權限用戶登錄2執行: #netstat i # Ierrs/Ipkts 和 Oerrs/Opkts是否>1%#ping 目標IP地址 #是否有丟包#entstat d ent0lan adapter name查看Transmit Errors和Receive Errors是否有丟包數據驗證步驟:根據以上命
25、令輸出結果,判斷是否有網絡丟包或延遲現象。修訂日期:2021年5月8日 修訂人:常艷春 2.20. GOA020:主機路由設置是否正確處置名稱:主機路由設置是否正確處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權限用戶登錄;2) 執行以下命令:#netstat -rn驗證步驟:1) 查看路由是否正確添加;2) 當前路由所對應物理網卡是否正確;3) 最多只有一條缺省路由。修訂日期:2021年5月8日 修訂人: 常艷春 2.21. GOA021:到相連業務系統的通訊是否正常處置名稱:到相
26、連業務系統的通訊是否正常處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執行命令:#ping 目標_IP;#route#traceroute 關聯系統_IP#ifconfig -a驗證步驟:1) 檢測與目標主機的連通性;2) 檢測路由正確性;3) 檢測網卡狀況是否正常。修訂日期:2021年5月8日 修訂人: 常艷春 2.22. GOA022:網卡配置信息檢測處置名稱:網卡配置信息檢測處置時間:5分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:系統通訊閃斷,
27、效勞短時間暫停2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執行以下命令:#ping 網管_IP#ping 關聯主機_IP#ifconfig -a #查看IP信息#netstat in #查看IP信息#lsdev Cc adapter #查看網卡適配器信息#lsdev Cc if #查看網絡接口信息#netstat rn #查看缺省路由驗證步驟:1) 檢測主機與網管及關聯主機通訊是否正常;2) 主機網卡狀態是否正常;3) 主機缺省路由是否配置正確;修訂日期:2021年5月8日 修訂人: 常艷春 2.23. GOA023:查看HACMP雙機是否正常處置名稱
28、:查看HACMP雙機是否正常處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響: 無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) #clstat a 查看雙機狀態3) #4) #more /var/hacmp/adm/否有報錯5) Ifconfig -a效勞IP是否啟動6) #lsvg o 共享卷組是否掛載7) #df g 文件系統是否掛載8) 查看應用log,檢查應用效勞是否啟動正常。驗證步驟:修訂日期:2021年5月8日 修訂人: 常艷春 2.24. GOA024:啟動hacmp雙機效勞處置名稱:啟動hacmp雙機效勞處置
29、時間:5-10分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:系統效勞短時間暫停。2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) #smit clstart3) 監控日志:tail -f /4) 使用clstat -a查看雙機節點及效勞狀態。驗證步驟: 1) Ifconfig -a效勞IP是否啟動2) #lsvg o 共享卷組是否掛載3) #df g 文件系統是否掛載4) 查看應用log,檢查應用效勞是否啟動正常。5) clustat命令顯示雙機節點及效勞狀態正常。修訂日期:2021年5月18日 修訂人: 常艷春 2.25. GOA02
30、5:Hacmp雙機效勞切換到備機處置名稱:Hacmp雙機效勞切換到備機處置時間:5-10分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:系統效勞短時間暫停。2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執行#smit hacmpsmit hacmp -> System Management(C-SPOC) -> HACMP Resouce group and application Management -> Move a Resource Group to Another Node / Site -> Mov
31、e Resource Groups to Another Node3) 查看日志:tail -f /4) clustat命令顯示雙機節點及效勞狀態正常。驗證步驟:1) 主機上查看網絡、卷組和文件系統卸載正常、業務是否正常停止。#netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o確認雙機停止狀態是否正常。2) 備機上查看包括網絡、卷組和文件系統掛載正常,業務運行正常 #netstat rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o確認雙機啟動狀態是否正常
32、。修訂日期:2021年5月18日 修訂人: 常艷春 2.26. GOA026:關閉HACMP雙機效勞處置名稱:關閉hacmp雙機效勞處置時間:5-10分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:系統效勞暫停。2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) #執行#smit cltop 選擇需要關閉的節點進行關閉3) 執行clstat命令查看效勞關閉情況;4) 使用df、ping、lsvg命令,確認群集共享資源已釋放;5) 查看日志:tail -f /;驗證步驟:主機上查看網絡、卷組和文件系統卸載正常、業務是否正常停止。#netsta
33、t rn#ifconfig a#lsvg o#df g#/usr/es/sbin/cluster/clstat -o確認雙機停止狀態是否正常。修訂日期:2021年5月18日 修訂人: 常艷春 2.27. GOA027:HACMP效勞異常,手工恢復業務處置名稱:HACMP效勞異常,手工恢復業務處置時間:10-20分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:系統效勞暫停。2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 在停止HACMP效勞后,可按照以下步驟手工掛載資源, 網絡IP地址:使用ifconfig命令,添加service IP;
34、掛載文件系統:Lsvg 掃描可用卷組;Lsvg vgname 查看卷組信息;Varyonvg vgname 激活卷組;Mount /filesystemname 掛載文件系統3) 啟動應用程序:應用管理員手工啟動應用效勞程序。驗證步驟: 1) Service IP可以ping通網關;2) 卷組可以正常在單機激活;3) lv信息正常;4) 在單機手工掛載共享存儲資源;5) 啟動數據庫及應用。修訂日期:2021年5月18日 修訂人: 常艷春 2.28. GOA028:搜集AIX系統snap信息處置名稱:搜集AIX系統snap信息處置時間:5-10分鐘該時間因系統而異,請各根據實際停止時間填寫影響分
35、析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執行命令:#snap r#snap gc #收集系統常規信息#snap ac #收集系統全部信息#snap ec #收集HACMP信息3) 將/tmp/ibmsupt/snap.pax.Z文件拷貝出來進行分析。驗證步驟:查看在/tmp目錄下自動生成的信息文件。修訂日期:2021年5月8日 修訂人: 常艷春 2.29. GOA029:強制生成dump方法處置名稱:強制生成dump方法處置時間:40分鐘影響分析:1業務影響:雙機環境無影響,單機環境業務會中斷2技術影響:無操作步驟:1強制生成 d
36、ump。登錄 HMC,選擇相應的機器,然后選擇當前 LPAR,點擊右側LPAR名字右方的小箭頭,在彈出的菜單中選擇 Operations->Restart在之后彈出的窗口中選擇 Dump 即可,機器會自動重啟收集數據,此過程可能會需要花費一些時間,請不要終止。2對重啟后的系統收集snap信息包含dump文件#snap ac #用于非HA環境#snap ec #用于HA環境,既有主機所有信息又包括hacmp信息拷貝出/tmp/ibmsupt/snap.pax.Z文件供分析。驗證步驟:無修訂日期:2021年5月4日 修訂人: 常艷春2.30. GOA030:AIX系統查看線程使用情況處置名稱
37、:AIX系統查看線程使用情況處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 4) 通過SOM平臺以root或普通權限用戶登錄;5) 執行ps -emo THREAD命令;驗證步驟:修訂日期:2021年5月16日 修訂人: 常艷春 2.31. GOA031:去除進程處置名稱:去除進程處置時間:x分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響: 無2技術影響: 無3其它影響: 無操作步驟: 1) 如有該進程提供的關閉進程命令,那么使用該命令。2) 如無相應命令,或不能正常關閉進程那么使用kill命令去除p
38、s -ef | grep 進程關鍵字 確認pid kill -9 PID驗證步驟:ps -ef | grep 進程關鍵字 查看該進程是否已去除。修訂日期:2021年5月30日 修訂人:常艷春 處置名稱:AIX系統查看線程使用情況處置時間:3分鐘該時間因系統而異,請各根據實際停止時間填寫影響分析:1業務影響:無2技術影響:無3其它影響:無操作步驟: 6) 通過SOM平臺以root或普通權限用戶登錄;7) 執行ps -emo THREAD命令;驗證步驟:修訂日期:2021年5月16日 修訂人: 常艷春 3. AIX操作系統故障應急場景3.1. AIX系統宕機、自動重啟件級別:六級授權級別:部室負責
39、人授權場景描述:AIX系統宕機、自動重啟。業務影響:單機有影響,雙機無影響啟動條件:集中監控顯示系統不可用現場保護:收集dump和snap信息信息。故 障 場 景 應 急 處 置序號調用處置編號 處 置 簡 要 描 述時間樹T1收到集中監控的報警后,通知二級運維支持人員,當日值班經理,部室負責人3分鐘T2GOA028使用root用戶登錄主機,執行snap命令保存現場信息5-10分鐘T3啟動雙機軟件并啟動應用程序3分鐘T4GOA023查看雙機和業務是否都正常3分鐘T5GOA018查看errpt中是否有報錯5分鐘T6查看數據庫/應用日志是否有報錯信息T7應急處置結束。N/A修訂日期:2021年5月
40、20日 修訂人:常艷春處置名稱:AIX系統宕機、自動重啟處置時間:40分鐘影響分析:1業務影響:雙機環境無影響,單機環境業務會中斷2技術影響:無操作步驟:單主機故障不會對應用造成影響,可緊急申請kvm登錄,通過kvm登錄查看主機狀態,如果是宕機要強行通過遠程控制臺進行分區重啟。重啟后按照日常運維手冊啟動相關應用即可。系統啟動后作如下檢查:Ø 網絡及路由檢查:IP檢查:netstat in #輸出結果與重啟前一致路由檢查:netstat rn #輸出結果與重啟前一致Ø ntp檢查ntpq -p #觀察輸出結果最前面帶*的一行中offset的值低于128毫秒即可執行后續操作。否
41、那么需要根據時鐘效勞器的要求檢查時鐘效勞器配置是否正確。Ø 文件系統檢查df k #確認文件系統已全部掛載成功包含NASØ 驗證該主機的應用恢復情況:Ø 平臺類工具的啟動Ø 收集日志信息供專家分析宕機或重啟原因errpt errpt -asnap -ac如果是HA環境收集snap ec日志。拷貝出/tmp/ibmsupt/snap.pax.Z文件供分析。驗證步驟:無修訂日期:2021年5月4日 修訂人: 常艷春3.2. AIX系統無法訪問HANG件級別:六級授權級別:部室負責人授權場景描述:AIX系統無法訪問HANG業務影響:單機有影響,雙機無影響啟動條
42、件:集中監控顯示系統不可用現場保護:收集dump和snap信息信息。故 障 場 景 應 急 處 置序號調用處置編號 處 置 簡 要 描 述時間樹T1收到集中監控的報警后,通知二級運維支持人員,當日值班經理,部室負責人3分鐘T2GOA029生成dump信息T3GOA028使用root用戶登錄主機,執行snap命令保存現場信息5-10分鐘T4啟動雙機軟件并啟動應用程序3分鐘T5GOA023查看雙機和業務是否都正常3分鐘T6GOA017查看errpt中是否有報錯5分鐘T7查看數據庫/應用日志是否有報錯信息T8應急處置結束。N/A修訂日期:2021年5月20日 修訂人:常艷春3.3. 交易緩慢AIX操
43、作系統處置方法件級別:六級授權級別:部室負責人授權場景描述:3.3.交易緩慢業務影響:有影響啟動條件:集中監控顯示系統交易緩慢現場保護:收集snap信息信息。故 障 場 景 應 急 處 置序號調用處置編號 處 置 簡 要 描 述時間樹T1收到集中監控的報警后,通知二級運維支持人員,當日值班經理,部室負責人3分鐘T2GOA023查看雙機是否都正常3分鐘T3GOA017查看errpt中是否有報錯5分鐘T4查看數據庫/應用日志是否有報錯信息T5GOA006查看CPU使用情況N/AT6GOA007GOA008GOA009GOA010查看內存使用情況T7GOA012查看是否有僵尸進程T8GOA013GO
44、A014查看系統I/O情況T9GOA018GOA019GOA020GOA021GOA022查看網絡情況T10GOA023查看雙機運行情況T11GOA028使用root用戶登錄主機,執行snap命令保存現場信息5-10分鐘應急處置結束修訂日期:2021年5月20日 修訂人:常艷春3.4. 系統CPU負載高并觸發監控報警件級別:六級授權級別:部室負責人授權場景描述:主機CPU資源使用率較高并觸發監控報警。業務影響:根據業務系統負載判定啟動條件:集中監控顯示CPU資源使用率持續維持在較高水平現場保護:使用snap命令收集系統信息。故 障 場 景 應 急 處 置序號調用處置編號 處 置 簡 要 描 述
45、時間樹T1收到集中監控的報警后,通知二級運維支持人員,當日值班經理,部室負責人3分鐘T2GOA005查看系統CPU使用情況3分鐘T3GOA006定位占用CPU資源最多的進程3分鐘T4GOA017查看系統主要日志中是否有關于軟、硬件的報錯信息。5分鐘T5查看數據庫/應用日志是否有報錯信息T6GOA028使用root用戶登錄主機,執行snap命令保存現場信息5-10分鐘T7應急處置結束。N/A修訂日期:2021年5月20日 修訂人:常艷春3.5. 系統內存使用率高并觸發監控報警件級別:六級授權級別:部室負責人授權場景描述:主機內存資源使用率較高并觸發監控報警。業務影響:根據業務系統負載判定啟動條件
46、:集中監控顯示內存資源使用率持續維持在較高水平現場保護:使用snap命令收集系統信息。故 障 場 景 應 急 處 置序號調用處置編號 處 置 簡 要 描 述時間樹T1收到集中監控的報警后,通知二級運維支持人員,當日值班經理,部室負責人3分鐘T2GOA007查看系統內存使用情況3分鐘T3GOA008定位占用內存資源較多的進程5分鐘T4GOA012判斷是否有僵尸進程3分鐘T5GOA017查看系統主要日志5分鐘T6GOA028使用root用戶登錄主機,執行snap命令保存現場信息5-10分鐘T7應急處置結束。N/A修訂日期:2021年5月20日 修訂人:常艷春3.6. 系統I/O資源使用率高并長時間
47、持續件級別:六級授權級別:部室負責人授權場景描述:主機I/O資源使用率較高并觸發監控報警。業務影響:根據業務系統負載判定啟動條件:集中監控顯示I/O資源使用率持續維持在較高水平現場保護:使用snap命令收集系統信息。故 障 場 景 應 急 處 置序號調用處置編號 處 置 簡 要 描 述時間樹T1收到集中監控的報警后,通知二級運維支持人員,當日值班經理,部室負責人3分鐘T2GOA013查看系統I/O使用情況3分鐘T3GOA014定位占用I/O資源較多的進程5分鐘T4GOA017查看系統主要日志5分鐘T5GOA028使用root用戶登錄主機,執行snap命令保存現場信息5-10分鐘T6應急處置結束
48、。N/A修訂日期:2021年5月25日 修訂人:常艷春3.7. 系統通訊延遲或丟包件級別:六級授權級別:部室負責人授權場景描述:主機通訊異常,使用ping命令測試時,出現較大延遲,甚至有少量丟包。業務影響:交易成功率低甚至中斷啟動條件:主機通訊延遲或丟包現場保護:ifconfig、netstat、errpt、entstat故 障 場 景 應 急 處 置序號調用處置編號 處 置 簡 要 描 述時間樹T1收到集中監控的報警后,通知二級運維支持人員,當日值班經理,部室負責人3分鐘T2GOA028使用root用戶登錄主機,執行snap命令保存現場信息5-10分鐘T3GOA018判斷主機通訊狀況3分鐘T4GOA019主機網卡是否存在丟包現象3分鐘T5GOA020主機路由設置是否正確5分鐘T6GOA022網卡配置參數是否正確3分鐘T7GOA017系統日志是否有明顯報錯5分鐘T8應急處置結束。N/A修訂日期:2021年5月20日 修訂人:常艷春3.8. 主機路由表喪失件級別:六級授權級別:部室負責人授權場景描述:主機通訊異常,到特定主機或網段無法連通。業務影響: 業務短時間中斷啟動條件:主機到特定主機或網段無法連通現場保護:netstat命令輸出結果故 障 場 景 應 急 處 置序號調用處置編號
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國功夫美術課件
- 腫瘤免疫治療藥物作用機理
- 大單元課堂活動設計
- 中國制度面對面課件
- 2025屆福建省漳州市龍文區龍文中學英語八下期中質量檢測模擬試題含答案
- ICU患者的護理常規
- 莒縣招工作總結與計劃
- 公交機動車運行技術課件
- 義工服務技能培訓
- 走好人生第一步廉政教育
- 中國石油集團寶石管業有限公司招聘筆試題庫2025
- 2025春季學期國開河南電大專科《舞蹈與兒童舞蹈創編(1)-》一平臺無紙化考試(作業練習+我要考試)試題及答案
- 湖南省湘鄉市中考各科試卷及答案
- 留置輔警面試題目及答案
- 成人腦室外引流護理-中華護理學會團體標準解讀
- 2025年河南省鄭州市中考二模道德與法治試題(原卷版+解析版)
- 電力系統電壓穩定與無功補償考核試卷
- 江蘇省南通市2023-2024學年高一物理下學期6月期末考試含答案
- 2025春季學期國開河南電大專科《電機拖動應用技術》一平臺無紙化考試(作業練習+我要考試)試題及答案
- 石料供銷合同協議
- 數值修約試題及答案
評論
0/150
提交評論