MDC刻度操作方法及流程_第1頁
MDC刻度操作方法及流程_第2頁
MDC刻度操作方法及流程_第3頁
MDC刻度操作方法及流程_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、MDC刻度操作方法及流程伍靈慧2012年3月13日分布式環(huán)境設(shè)置拷貝/home/bes/wulh/panfs/distBoss/setenv_660.sh, 修改最后一行的路徑拷貝wulh/.gangarc, 修改變量gangadir指向的路徑在.bashrc中設(shè)置BOSS環(huán)境之后添加 source */setenv_660.sh, 登錄后可自動設(shè)置分布式環(huán)境提交分布式作業(yè)命令distboss $(JobName) $(隊列名) $(并行個數(shù))如:distboss cal.txt offlineq 10刻度jobOption參考:/ihepbatch/bes/wulh/yuanydisk/ca

2、lib/662/jobCalib/psip2009/cal.txt修改指定的刻度常數(shù)文件 CalibRootCnvSvc.Mdcrootfile=”; (必須用絕對路徑)修改事例文件所有輸入文件或配置文件都必須采用絕對路徑,如:CalibRootCnvSvc.Mdcrootfile=”/home/bes/wulh/calib/MdcCalibConst.root”;MdcCalibAlg.ConfigFile=” /home/bes/wulh/calib/MdcCalibConfig.txt”;輸出文件不能帶路徑,如MdcCalibAlg.HistOutput = hist.root;FILE

3、136 DATAFILE=xtNtuple.root OPT=NEW TYP=ROOT合并程序分布式作業(yè)完成后需要對直方圖進(jìn)行合并,并生成新刻度常數(shù)程序所在目錄:/home/bes/wulh/panfs/calib/660/distcalib_merge編譯:./compile編譯后生成可執(zhí)行文件:merge用法:(1) 將可執(zhí)行文件(merge)拷貝至刻度jobOption所在目錄(2) ./merge $(刻度作業(yè)jobOption) 如:./merge cal.txt提交不需要迭代的刻度作業(yè)在進(jìn)行初始T0和初始XT刻度時(MdcCalibAlg.MdcCalFlg=0,1或2)不需要迭代

4、,提交作業(yè)步驟如下:提交分布式作業(yè),如:distboss cal.txt offlineq 10分布式作業(yè)結(jié)束后對結(jié)果進(jìn)行合并刻度,方法見第4節(jié)中的“用法”檢查刻度結(jié)果是否正常自動迭代的刻度腳本/ihepbatch/bes/wulh/yuanydisk/calib/662/jobCalib/psip2009/autocal.sh用法:nohup ./autocal.sh log &查看腳本運(yùn)行情況:ps U $(用戶名)殺掉腳本:kill -9 $(作業(yè)id)注意: 務(wù)必記錄下提交該腳本的登錄節(jié)點(diǎn)和腳本的運(yùn)行id,因為當(dāng)手動刪除刻度作業(yè)時,不僅要刪除正在運(yùn)行的Boss作業(yè),還需要刪除控制迭代的

5、腳本。提交需要迭代的刻度作業(yè)示例登錄服務(wù)器(如lxslc502),進(jìn)入提交作業(yè)的目錄提交作業(yè):nohup ./autocal.sh log & (必須后臺運(yùn)行)查看腳本運(yùn)行情況:ps U wulh終端顯示: 7075 pts/6 S 0:00 /bin/bash ./autocal.sh記錄 登錄節(jié)點(diǎn)(lxslc502)和 腳本運(yùn)行的id (7075)查看分布式Boss作業(yè)運(yùn)行情況:用ls命令查看刻度jobOption所在目錄下最新生成的joboutput-*目錄(如joboutput-14056)qstat|grep wulh,查看所有包含“14056”的Boss作業(yè),顯示如下:663453

6、9.pbssrv .ster-*-14056 wulh 00:00:11 R offlineq6634541.pbssrv .rker-14056-01 wulh 00:59:17 R offlineq6634542.pbssrv .rker-14056-02 wulh 00:59:16 R offlineq6634543.pbssrv .rker-14056-03 wulh 00:59:15 R offlineq6634544.pbssrv .rker-14056-04 wulh 00:59:16 R offlineq6634545.pbssrv .rker-14056-05 wulh 00

7、:59:21 R offlineq6634546.pbssrv .rker-14056-06 wulh 00:58:54 R offlineq6634547.pbssrv .rker-14056-07 wulh 00:00:12 R offlineq6634549.pbssrv .rker-14056-08 wulh 00:58:56 R offlineq6634550.pbssrv .rker-14056-09 wulh 00:59:19 R offlineq6634551.pbssrv .rker-14056-10 wulh 00:59:10 R offlineq6634552.pbssr

8、v .rker-14056-11 wulh 00:00:12 R offlineq6634556.pbssrv .rker-14056-12 wulh 00:59:05 R offlineq6634557.pbssrv .rker-14056-13 wulh 00:59:16 R offlineq6634559.pbssrv .rker-14056-14 wulh 00:59:25 R offlineq6634562.pbssrv .rker-14056-15 wulh 00:00:20 R offlineq說明:第一行(.ster-*-14056)為控制作業(yè)(master),其余為子作業(yè),可

9、以看到,大多數(shù)子作業(yè)正常運(yùn)行,運(yùn)行時間接近1小時。從運(yùn)行時間可以判斷出14056-07和14056-11不正常,對于該問題,在正常子作業(yè)尚未結(jié)束時不進(jìn)行處理,待所有正常子作業(yè)結(jié)束后再做處理,處理方法見第8.(1)部分。作業(yè)正常運(yùn)行后可退出登錄節(jié)點(diǎn)刪除作業(yè):不僅要刪除正在運(yùn)行的Boss作業(yè),還需要刪除控制迭代的腳本,步驟如下:刪除控制迭代的腳本:先登錄運(yùn)行腳本的節(jié)點(diǎn)(lxslc502)用kill命令殺掉作業(yè):kill -9 7075用ps U wulh命令查看,確認(rèn)作業(yè)已經(jīng)被殺掉刪除分布式Boss作業(yè):只需刪除控制作業(yè):qdel 6634539子作業(yè)會在幾分鐘后自動退出運(yùn)行。刻度中常見問題處理方

10、法個別子作業(yè)出錯,永不結(jié)束6.(4).(b)中顯示14056-07和14056-11就屬于此類情況,當(dāng)所有正常子作業(yè)結(jié)束后,14056-07和14056-11仍為R狀態(tài),用qstat命令查看,屏幕顯示如下:6634539.pbssrv .ster-*-14056 wulh 00:00:22 R offlineq6634547.pbssrv .rker-14056-07 wulh 00:00:12 R offlineq6634552.pbssrv .rker-14056-11 wulh 00:00:12 R offlineq處理步驟:刪除控制作業(yè)和異常子作業(yè):qdel 6634539,qdel

11、6634547,qdel 6634552進(jìn)入刻度jobOption所在目錄,打開文件*.diane_masterlog,在文件末尾添加如下文字:End of Diane Process數(shù)分鐘后刻度合并程序會自動啟動,約10分鐘后合并完成,刻度腳本(autocal.sh)會自動啟動下一次迭代,可以登錄運(yùn)行腳本的節(jié)點(diǎn)用ps命令查看分布式作業(yè)運(yùn)行起來后很快結(jié)束,不能生成正常的輸出文件可能的原因如下:分布式環(huán)境或Boss環(huán)境設(shè)置不正確刻度jobOption中輸入文件或配置文件沒有全部采用絕對路徑分布式計算所需要的dns服務(wù)停止在設(shè)置分布式環(huán)境中下面這句話是指定所用的dns服務(wù)來源于哪一個節(jié)點(diǎn)(用戶可以

12、任意指定所用節(jié)點(diǎn)):export DIM_DNS_NODE=某些原因會導(dǎo)致dns服務(wù)中斷,比如該節(jié)點(diǎn)對應(yīng)的服務(wù)器重啟了,而dns服務(wù)并不會自動重啟,處理方法如下:查看dns服務(wù)運(yùn)行狀態(tài):登錄指定dns服務(wù)的節(jié)點(diǎn)(如lxslc508),輸入命令 ps -C dns 查看dns是否在運(yùn)行如果顯示如下,表明dns為運(yùn)行狀態(tài) PID TTY TIME CMD 2809 ? 00:00:00 dns如果僅顯示下面一行,則表明dns為停止?fàn)顟B(tài)PID TTY TIME CMD如果dns已停止,則需要手動啟動該服務(wù),方法如下:登錄指定dns的節(jié)點(diǎn)(如lxslc508),輸入如下命令即可Dns &說明:分布式作

13、業(yè)運(yùn)行順利與否與計算節(jié)點(diǎn)狀態(tài)密切相關(guān),有些時候會頻繁出現(xiàn)問題,因此刻度作業(yè)提交后必須時常查看作業(yè)運(yùn)行狀態(tài),發(fā)現(xiàn)問題盡早處理,以免浪費(fèi)時間。檢查刻度結(jié)果檢查X-T刻度拷貝/home/bes/wulh/yuanydisk/calib/662/checkCalib/checkNewXt/目錄下的check.cpp, go.sh修改 sprintf(histfile, /histXt5.root); /新生成的hist文件 sprintf(xtfile, /MdcCalibConst_Xt5.root); / 新生成的刻度常數(shù)文件編譯:./go.sh用法:./a.out檢查outCheckXtCal.eps , 黑點(diǎn)為doca擬合值,紅線為刻度后的xt曲線,逐頁查看xt曲線是否與散點(diǎn)圖一致,xt是否有異常問題Q-T刻度檢查打開hist.root - QtPlot - HQT_Plot_lay*, 檢查擬合曲線檢查空間分辨vs層/home/bes/wulh/yuanydisk/calib/662/checkCalib/layerReso編譯:./go.sh用法 ./a.out $(直方圖)檢查空間分辨、動量分辨、動量vs phi/home/bes/wu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論