




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、文檔名稱:組附件出價建議詳細設計bdforcast2.1.4 出價建議引入 crm網絡技術(北京) 所有,()網絡技術(北京)- 1 -模塊名稱展現概率提示與分析所屬系統dr-budget/bdforcast2.1.4模塊項目吳清華作者吳清華文檔提交日期2011.3.9文檔名稱:組附件出價建議詳細設計修改網絡技術(北京)- 1 -No修改后版本號修改內容簡介修改日期修改人1V1.0全文2011-03-09吳清華文檔名稱:組附件出價建議詳細設計目 錄Bdanalyze1.0.0 預算分析詳細設計錯誤!未定義書簽。123背景1名詞解釋1設計目標13.13.23.33.43.5實現的功能1設計的性能
2、指標錯誤!未定義書簽。系統環境(可選)2假設及與其它模塊.2相關軟件及硬件245設計思路及折衷2服務模塊設計錯誤!未定義書簽。5.1模塊架構、類、流程及說明錯誤!未定義書簽。5.1.15.1.25.1.3模塊架構圖及說明錯誤!未定義書簽。類圖錯誤!未定義書簽。主線程流程圖及說明錯誤!未定義書簽。5.25.35.45.55.6數據結構及說明錯誤!未定義書簽。與其它模塊的接口錯誤!未定義書簽。異常處理錯誤!未定義書簽。配置項說明錯誤!未定義書簽。各子模塊設計錯誤!未定義書簽。5.6.15.6.25.6.35.6.45.6.5數據子模塊錯誤!未定義書簽。算法子模塊錯誤!未定義書簽。網絡服務子模塊錯誤
3、!未定義書簽。文件更新子模塊錯誤!未定義書簽。動態子模塊錯誤!未定義書簽。6計算模塊設計26.1 各子模塊設計錯誤!未定義書簽。6.1.16.1.26.1.3下最大點擊和消費子模塊錯誤!未定義書簽。模塊錯誤!未定義書簽。流量最高預算和平均預算子模塊錯誤!未定義書簽。7風險評估及對其它模塊/系統影響(可選)107.1 已知的或可預知的風險107.2 與其它模塊/系統可能的影響10設計評審意見10附件及參考資料1189網絡技術(北京)- 2 -文檔名稱:組附件出價建議詳細設計1 背景是和客戶之間的橋梁,一方面負責幫助和指導客戶學會使用,管理賬戶,不斷提升客戶 ROI,提高客戶對的忠誠和依賴度的作用
4、。另一方面,作為利益的代表,客服是提高客戶消費,促進長期增長的驅動動力之一。基于以上的,有兩個優勢特征:一,更加熟悉和了解客戶,積累了豐富的跟不同客戶打交道的經驗,客戶對的信任度和依賴性也會更高,所以從入手去影響客戶比直接影響客戶會更有效果;二,并有投機的動力,反而會利用盡量影響客戶;綜上,我們決定從為切入點,通過指導出價,進而影響客戶出價,從而達到提升的效果。結構化詞庫是 CRM 中為提供快速使用詞庫的系統工具,立足于幫助更好地為客戶提交質量高,并且與客戶業務范圍關聯緊密的,從而可以快速輸出為客戶定制的結構化包,提升方案質量和制作效率。目前結構化詞庫只是做到了推薦這個環節,獲得推薦以后還需要
5、線下制作創意和設定出價等步驟才能形成完整方案,后期工作量仍然比較大,希望能夠在系統中完成完整方案的制作,以提高效率。綜合的優勢以及當前結構化詞庫進一步完善的需求,決定在結構化詞庫中引入創意制作和出價建議環節,解決需求的同時,利用系統建議出價達到引導出價提升的目標。2 名詞解釋左側首屏:左上(pp 或ppim)區域排名第 1第i 的位置(i 默認取 3):與web 物料列表頁面看到的生效狀態的定義是一致的:自身未被暫停、已被激活、生效已被人工審核通過、已被審核通過,出價大于起價的未刪除的;展現概率:一個(winfoid)在精確觸發下在某個區域(首屏或首位)一段時間的展現次數/該廣告在精確觸發下該
6、時間段內(時間段的定義請見正文)的總展現次數;這里展現次數的計算不包括外部(如微軟等)和小頻道的展現情況,僅考慮 cmatch 為 201、204 和 225;首屏展現價格:對于一次檢索,如果要出在左側首屏需要的出價。3 設計目標3.1 實現的功能網絡技術(北京)第 1 頁 共 11 頁文檔名稱:組附件出價建議詳細設計3.1.1出價建議計算競價客戶數!=0 且 7 天歷史檢索次數=C 的(word)的建議出價.除去以上情況下的,均采用行業的出價。3.2 系統環境(可選)計算共有兩輪 map reduce,第一輪:每天的 asp 日志,輸出 query 以及對應的首屏展現價格列表。第二輪:累計
7、7 天的信息,輸出檢索次數=C 的 query 以及首屏展現價格列表。3.3 假設及與其它模塊3.4 相關軟件及硬件建議配置:4 設計思路及折衷5 模塊設計5.1出價建議5.1.1 aspl一天的 asp 日志文件對于每一條 asp 日志,根據 cmatch(201,204,225)挑選出屬于的檢索,并計算屬于首屏的最后一個位置(即第3 位的)的q*bid, 計算左側隊列中的最小q 值 q=avg_rate。其中 avg_q 是左側的平均 q 值。1. 如果首屏不滿 3 條,則說明對應的只需要出一定的價格就可以展現在首屏。因此,首屏展現價格=默認的建議價格,在hadoop 中采用0 來代替,然
8、后在單機上處理時替換成默認的建議價格。2. 如果首屏數=3, 則首屏展現價格 screen_bid=q*bid/q+0.01對于每一次檢索,map 階段輸出:query 簽名值, screen_bid,以 query 作為 key 來分桶。第一輪 reduce:輸出 query 簽名值、bid 列表1. query 次數 閾值 MAX_QUERY_PV,則進行抽樣, 最后輸出的 bid 個數為 MAX_QUERY_PV.網絡技術(北京)第 2 頁 共 11 頁項目內存硬盤操作系統數目計算模塊16Glinux文檔名稱:組附件出價建議詳細設計將同一個 query 對應的各個 bid 取值組成集合,
9、采用逗號進行分割。如果 bid 集合的元素個數超過 MAX_QUEYR_PV, 則去掉 0 ( 如果全部為 0 , 則輸出MAX_QUERY_PV 個 0)。如果去掉 0 后,小于 MAX_QUERY_PV 個 bid,則小于的部分用 0 補充。如果大于 MAX_QUERY_PV 的話,則對剩余的 bid 進行等距離抽樣。間隔的距離為: (bid_num_new 1)/(MAX_QUERY_PV 1), 這樣可以保證 bid 列表中的最小 bid 和最大bid 都包含進來。其中 bid_num_new 是去掉 0 之后的 bid 個數。l統計 7 天的結果文件map: catreduce:將
10、7 天的 bid 列表合并成一個,bid 之間用逗號分割,對 bid 進行排序后輸出.統計 7 天 query 的檢索次數(即:7 天所有 bid 的個數),如果 query 的次數C(配置的最低展現次數),則不做處理。否則:1. query 次數 閾值 MAX_QUERY_PV,則進行抽樣, 最后輸出的 bid 個數為 MAX_QUERY_PV.處理方式與第一輪 reduce 是一樣的。對 bid 進行排序輸出。(采用 python 實現)5.1.1.1 流程圖及說明第一輪 map 流程圖如下:(src 增加 219 判定,用于區分某些非大搜索的內部 asp 請求)網絡技術(北京)第 3 頁
11、 共 11 頁文檔名稱:組附件出價建議詳細設計否Asp日志同時包含src=1,204,213是否Pn=0是包含cmatch=201,204,225,左側=3是否輸出query簽名, q*bid/(avg_rate)輸出query簽名,0備注:min_q 更改為 avg_q, 如果左側是 pp 隊列,則使用 ppq 計算平均 q 值,如果左側是 ppim 隊列,則使用 leftq 計算平均 q 值。第二輪map:catreduce:將 7 天的bid 集合再次合并成一個集合,如果 bid 列表個數=C,則輸出 query”t”bid 列表。在輸出 bid 列表的時候,如果 bid 個數 bid_
12、num 超過了 MAX_QUERY_PV 個,則去掉 0,采用等距離抽樣, 方法同第一輪的 map reduce。(采用 python 實現)5.1.1.2 數據結構與配置項第一輪 map網絡技術(北京)第 4 頁 共 11 頁cal_conf獲取第3位的q*bid(如果是pp隊列,則用ppq,如果是ppim,則用leftq)是遍歷左側的,計算avg_q一條asp日志文檔名稱:組附件出價建議詳細設計5.1.1.3 與其他子模塊接口集群上 7 天的 asp 展現日志5.1.2 出價計算模塊將 hadoop 上asp后的結果文件到單機上。文件數據格式:query 簽名, bid 列表(以逗號分隔)
13、其他外部輸入文件:1.2.3.atom wordlist 文件:wordid,word 字面行業分類文件(wordid、行業),建立 trade_hash行業價格文件(tradid、價格)4.5.庫文件,用于統計 hash_usernum競價區間閾值文件,建立數組 thres_percent輸出文件:wordid、bid、word 字面。整體處理過程(拆分來做):1.競價區間文件,建立數組 thres_percentuser_num 字段中。(hash_word 全集表示有生效客戶數的 wordid 集合)3.atom 文件,將字面填充到 hash_word中的 word 字段,同時生成has
14、h_word_id,注意:此處需要對 word 進行預處理,然后求 md5 值,處理網絡技術(北京)第 5 頁 共 11 頁2.庫文件,統計每個的競價客戶數,填充到 hash_word 中的q_rate: first_page_pos: comlog device_num: 1procname: rp_asp_parser level: 4 comlog.devicetype : ULLOG path : ./logfile :recmd_price.log syslevel : 16size : 2048open : 1文檔名稱:組附件出價建議詳細設計函數與 pvstat 的處理保持一致。4
15、.遍歷 hash_word,查找數組 thres_percent,根據競價客戶數找到對應的百分比,填充到 hash_word中的 thres 字段中。5.行業價格文件,建立 hash_tradeprice6.行業分類文件(wordid, tradeid),查找hash_tradeprice, 找到對應的建議出價,查找hash_word,將對應的 price 填充到 trade_price 字段。 7.asp后的文件,將 query 進行,然后查找 hash_word_id 找到對應的 wordid,然后查找 hash_word 找到對應的的信息, 將bid 列表中的 0 替換成 trade_p
16、rice, 然后進行排序,取出 index = thres/100*bid_num -1 所對應的價格作為出價。輸出 wordid、出價、word 字面。如果查找不到,說明沒有生效的競價客戶數,則不用輸出對應的建議出價。拆分成以下 3 個小模塊:1.A.計算 wordid 對應的閾值(可參考展現概率 show_rate/calc_cwords/src/calc_cwords.cpp) 庫文件字段分別為:1.winfoid 2.unitid 3.planid 4.userid 5.wordid該文件,建立 bsl:hashset _hs_wordusr, 其中key = (wordid 32)
17、+ userid;B.遍歷_hs_wordusr,計算每個 wordid 對應的 userid 數,生成 bsl_hashmap_hm_usrcntC.競價區間閾值文件,字段分別為:1.競價客戶數起始值,2.競價客戶數截至值,3.對應的百分比數值建立數組 usercnt_thres,分別保存(競價客戶數起始值,競價客戶數截止值,百分比)D. 遍歷_hm_usrcnt,根據每個 wordid 對應的 usercnt 數,查找 usercnt_thres 數組,找到對應的百分比,輸出:wordid”t”usercnt_thres 文件。2.A.每個 word 對應的默認建議價格 (也可以用 pyt
18、hon,hash一下即可)計算行業對應的價格建立 bsl:hashmap _hm_tradeprice; 其中 key 為:tradeid,value 為 price.B.行業分類文件,文件字段分別為: 1. wordid; 2. tradeid; 3. word 字面查找_hm_tradeprice,找出每個 wordid 對應的行業的價格輸出:wordid”t”price3.生成最后的文件a)步驟 1 生成的文件, bsl:hashmap _hm_wordinfo; 其中key=wordid, value 中的 thres=文件中的第二個字段取值,price=0.0;步驟 2 生成的文件,
19、將文件的第二個字段,即默認價格填充到_hm_wordinfo 中的default_price 字段。b)c)wordlist 文件,文件字段格式為:wordid t word(以“t”分割,word 字面可能有特殊網絡技術(北京)第 6 頁 共 11 頁文檔名稱:組附件出價建議詳細設計字符,所以第一個”t”之前的部分是 wordid,其余部分是 word 字面)查找_hm_wordinfo, 如果存在,則將 word 字面填充到_word_info_t.word 字段,同時生成bsl:hashmap_hm_query_id, 其中 key=處理后的 word 字面的 md5 值,value=w
20、ordid. 此處的處理函數直接調用展現概率項目中的 word_pretreat 函數。d)過的 asp 結果文件,文件字段內容:1. query 簽名值; 2.bid 列表(列表元以逗號分隔)間根據 query 簽名值查找_hm_query_id,找出對應的 wordid。如果沒有,則不處理這條。若找到 wordid,則查找_hm_wordinfo 字典,找到該 wordid 對應的信息(default_price, word字面,thres)。將bid 列表中的bid 取值保存到一個數組bid_list 中。查找defalut_price 在bid_list中的位置 insert_pos,
21、統計 0 的個數 zero_num,那么小于 defult_price 的元素個數less_num=insert_pos - zero_num 。我們需要的 bid 是排序后的數組中 index=thres*bid_num -1 對應的數值。比較 index 與位置的大小,然后找到 index 對應的 bid 值,輸出 wordid”t”bid”t”word字面。排序前的數組:排序之后的數字如下:為了減少排序移動數據,直接計算排序后 index 對應的位置在原數組中的位置。如果 index=insert_pos, 那么 bid = bid_listindex如果 index = less &
22、index =default_price(insert_pos)【insert_pos, bid_num)0 【 less_num, insert_pos)=default_price(insert_pos)default_price (less_num)0(zero_num)文檔名稱:組附件出價建議詳細設計START到庫文件的每一條記遍歷完 _hs_worduser到競價(winfoid, uintid, planid,否是(start_num,userid, wordid)?th否END是遍歷是Wordid+userid在_hs_worduser中Wordid在_hm_usercnt中否_
23、hs_worduser.insert(wordi d32+userid)_hm_usecnt.insertUsercnt+第 3 個小模塊的處理流程圖:網絡技術(北京)第 8 頁 共 11 頁_hm_usercnt?否輸出wordid, thres在數組usercnt_thres中查找usercnt對應的閾值thres出(wordid, userid)文件的一條保存到數組usercnt_thres中end_num, res)文檔名稱:組附件出價建議詳細設計START是END完asp文件(query,完(wordid,thres)文件完(wordid, price)文件完wordlist文件 (
24、wordid,word)是是是bid列表)否否否在_hm_wordid中查找到query對應的wordid_hm_wordinfo 字典中找到wordid?找到_hm_wordinfo.find(wordi d)Wordinfo.price=0; Wordinfo.thres=thres; Wordinfo.word=NULL;_hm_wordinfo.insert是是根據wordid查找_hm_wordinfo,找到對應的value將word保存到內存,地址為word_ptr value.word=word_ptr Query=word_pretreat(word)_hm_wordid.insert5.1.2.2 系統說明內存估計:1. 有生效競價客戶數的= 1G量大概為:1 千萬,所以內存為:10M*(4+4+4+4+64+4)+10M*(8+4+4)2. 行業
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【世界銀行】創新金融工具及其在管轄REDD發展中的作用
- 商業設計師考試的關鍵機制與試題答案總結
- 廣告設計師考試中的設計原則試題及答案
- 中考英語試題及答案陜西
- 助理廣告師考試高效學習方式試題及答案
- 2024年紡織設計師職業素質試題及答案
- 研究紡織品的質量與標準體系試題及答案
- 心境障礙試題及答案解析
- 思維導圖紡織品設計師證書考試試題及答案
- 關注紡織工程師證書考試分類知識試題及答案
- 高考語文120個重點文言實詞
- 江蘇省糧食集團招聘筆試題庫2024
- 2024年深圳市彩田學校初中部小升初入學分班考試數學模擬試卷附答案解析
- 2024年安徽安慶市交通控股集團有限公司招聘筆試沖刺題(帶答案解析)
- 《沙龍培訓》課件
- 充電樁四方協議書范本
- 中考英語情景交際和看圖寫話
- 知道智慧網課《科學社會主義概論》章節測試答案
- 事故調查分析課件
- 《養老護理員》-課件:自然災害的應對處理知識
- 勞務外包服務方案(技術方案)
評論
0/150
提交評論