



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Conftar包中已經(jīng)包含了配 :里面是一些字典,主要是fea_data.tar.gz(實(shí)際上產(chǎn)品庫中缺一個dict-data.tar.gz,解決方法就是從hadoop上一個下來。Script:包括和配置,又分為左側(cè),右側(cè),pp三套環(huán)境,還有同步日志視Ad-fea-hadoop需要部署到hadoop集群中運(yùn)行,部署的步驟為(前置步驟需要熟悉hadoop命令和環(huán)境,詳見新人hadoop學(xué)習(xí)資料): // donelist/fcr/yourdir /fcr/yourdir/query_high_path /fcr/yourdir /fcr/yourdir將 left_mapred_control.conf(只以左側(cè)為例,配置文件的修改最為重要,需要Training-control運(yùn)行環(huán)境部Training-control的配置比較麻煩,它是一個總控,關(guān)聯(lián)的程序有distro-sign2id,聯(lián)的。幸好training-control提供一個自動部署工具,只需要修改training_control.conf, mon.conf,然后運(yùn)行training.env.tools.sh,按照一步步提checkTraining-control 注意:training-control的配置和部署最為麻煩,部署和配置完成之后,最好先跑一個小相關(guān)的長專名(這部分工作是由,和賽群做的);將挖掘得到的專名數(shù)據(jù)建立應(yīng)的專名專名片段,結(jié)合query字段添加各種特征。具體的特征添加方案為: 目前賽群和提供的專名片段合并后總共有1303107條專名片段,建成ul_dictmatch105Mul_dictmatchprop字段利用起來,每個子Ad-fea-hadoop模塊ld2Left_featureExtrator.h//**************addbyzhangxiuwu /*<專名辭典的路徑2,修改pre_data_t數(shù)據(jù)結(jié)構(gòu),增加保存專名及其個數(shù)的變量。uintdesc_ner_num; dm_dict_t dm_pack_t* 4,修改FeatureExtractor的init函數(shù): er_match_dict=dm_binarydict_load( {FATAL_LOG("loaddmdicterror:%s" return-1;} {return-1;} u_int t>0){} { { } er_count{ } } er_count;6feature_format3 73feature抽取函數(shù),并在generate_fea函數(shù)中調(diào)用。 er(char*fea_string,intformatid,uint32_tslot,pre_data_t&pre_data);intget_que er(char*fea_string,intformatid,uint32_tslot,pre_data_t&pre_data,seg_tseg); &pre_data,seg_tseg);在編譯ad-fea-hadoop時,首先要保證在正確的版本上修改,其次,的依標(biāo);然后,我修改ad-fea-hadoop,只添加{ 特征,在基線版本的it3數(shù)據(jù)上跑,得到AUC,QAUC,WQAUC等指標(biāo);最后,三種特征一起抽取,重新在基線版本的it3數(shù)據(jù)上跑,得到AUC,QAUC,WQAUC等指標(biāo)。實(shí)際上可能的組2query3PV5。我設(shè)置的第2輪和第3輪的輸入為: 日志的窗口為2010-0401到2010-0630共3個月的歷史數(shù)據(jù)。 ---it3的當(dāng)前日志時間窗輸入,正則表達(dá)式iter1_2010070[1-3]0000part-*表示2010-0701到2010-07033填的日志數(shù)據(jù)。輪不做pv過濾。 feature數(shù)量344.84million,訓(xùn)練樣本303.88GB,評估樣本121.44GB,mpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_Afeasetins_fea,第一輪(阻塞local2globalMap_Bfeasetins_fea,第二輪(阻塞分布式評估,總用Rank模型AUC指標(biāo)報表 er_zxw4.0]2010-07-23-指數(shù)實(shí)驗1:描述專名抽取實(shí)驗和結(jié) 直接從第7輪開始跑。配置第7輪的輸入為基線版本的it3輸出,這樣保證實(shí)驗的it3數(shù)據(jù) 模型 er_zxw][201007272007]訓(xùn)練、評估性能報feature數(shù)量429.18million,訓(xùn)練樣本340.3GB,評估樣本135.23GB,mpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_Afeasetins_fea,第一(阻塞local2globalMap_Bfeasetins_fea,第二(阻塞分布式評估,總用Rank模型AUC指標(biāo)報表 er_zxw4.0]2010-07-28-指數(shù)實(shí)驗2:描述專名抽取實(shí)驗和結(jié) 從第7輪開始跑。配置第7輪的輸入為基線版本的it3輸出,這樣保證實(shí)驗的it3數(shù)據(jù)是相 模型 er_zxw][201007281007]訓(xùn)練、評估性能報feature數(shù)量615.69million,訓(xùn)練樣本317.96GB,評估樣本125.7GBmpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_A基于feaset過濾ins_fea,(阻塞local2globalMap_B基于feaset過濾ins_fea,(阻塞分布式評估,總用Rank模型AUC指標(biāo)報表 er_zxw4.0]2010-07-28-指數(shù)指標(biāo)參數(shù)--七、hadoop環(huán)境的問題方hadoophadoop程序掛掉了,而無法定位問結(jié)了3點(diǎn):1,在hadoopmapredsetup 斷方法是查看集群是否有效(有可能是集群掛了然后進(jìn)入任務(wù)頁面%0000/100100/可以看到最右側(cè)的failed任務(wù),點(diǎn)擊進(jìn)入查看具體的出錯代碼,然后在 a2%98%e6%b1%87%e6%80%bb查看具體的錯誤代碼。3,hadoopmapred任務(wù)運(yùn)行過程中出錯,有可能是你本身的程序有問題:查hadoop學(xué)習(xí)資料。) Debug的寫法如下: //core文件存放的${HADOOP_H
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國海魴魚行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國有機(jī)膠粘劑行業(yè)投資前景及策略咨詢報告
- 金屬制品企業(yè)市場競爭力提升策略分析
- 產(chǎn)業(yè)園區(qū)內(nèi)工業(yè)廢物回收網(wǎng)點(diǎn)布局與優(yōu)化策略
- 福州人事人才網(wǎng)信息發(fā)布審批表
- 中小學(xué)數(shù)學(xué)教學(xué)評價的現(xiàn)狀與挑戰(zhàn)分析
- DB61T-建設(shè)項目使用草地現(xiàn)狀調(diào)查技術(shù)規(guī)范編制說明
- 復(fù)肥產(chǎn)品質(zhì)量監(jiān)督抽查實(shí)施細(xì)則
- 超微細(xì)碳酸鈣生產(chǎn)線項目可行性研究報告(模板)
- 廣州普法考試試題及答案
- 2025年河北中考模擬(原創(chuàng)一)語文試題及答案
- 股權(quán)代簽協(xié)議書范本
- 生物安全柜試題及答案
- 安徽教編美術(shù)試題及答案
- 2025年大學(xué)英語四級考試試題及答案解析
- 臨床成人床旁心電監(jiān)測護(hù)理規(guī)程
- 2024北京朝陽區(qū)四年級(下)期末語文試題及答案
- 電纜拆除合同協(xié)議
- 教職工管理情況浦南小學(xué)教職工學(xué)年度履職考核方案
- 2025-2030中國石頭紙產(chǎn)業(yè)發(fā)展深度分析與運(yùn)營機(jī)制風(fēng)險研究報告
- 勞務(wù)報酬扣稅計算器(excel自帶公式版)
評論
0/150
提交評論