




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1號店架構師王富平:一號店用戶畫像系統實踐我先引用梵高的一句話:“我想強調的是,同一個人有多樣的自畫像。與其追求照相般的相似性,不如深入地開掘相似處〞。下列圖是是當時梵高比擬得意時的畫像,戴了禮帽,穿了西服,但那時耳朵已經割掉了。我覺得作為一個好的架構師,要有藝術家的精神。時至今日架構發生了很多變化,新語言在不斷出現,我覺得沒必要把思維停留在某一個方面。用戶畫像的定義用戶畫像定義使用標簽來量化用戶特性屬性,到達描述用戶的目的。用戶畫像的難點就是數據源,因為你拿要拿到足夠多足夠全的數據很不容易,所以要與業務結合,比方說這個人在30天內購置了你的商品,這就是一個標簽,但是如果你不參與開發這個系統,你不會想到有這個標簽。然后是動態更新,一個人是不斷變化的,就像梵高一樣,他不同時期的自畫像也是不一樣的。假設現有用戶畫像有姓名、地域兩個屬性,你將如何使用?最簡單的分析不同性別的群體特征,做特定營銷。分析廣州、北京、客戶的群體特征,分析90后、80后的群體特征。其實這里面有共同點,就是說分類和聚類。京東也好、淘寶也好、一號店也好,我不可能真的每一個用戶生成一套推薦方案,我們都是把人分成了一萬個類,或者一千個類,我們把你劃分到某一個類別里面,在那個類別里面做一個推薦。而且群體特征往往更能反映你的個人喜好,就是說其實人與人之間是有共同點的,也是有異同點的。分類—聚類邁出個性化的第一步,用戶畫像的應用開始1號店建立用戶畫像的初中是來自于?千人千面?工程,簡而言之:分析不同群體特征,針對群體進行推薦調整,典型的群體有小區、學校公司等。下列圖是2024年9月份轉化率的數據。我們覆蓋面也比擬大,目前差不多355家公司,591個行業,覆蓋293個城市的4.26萬個小區。1號店從零開始打造了自己的用戶畫像系統,包含了用戶標簽畫像、用戶偏好畫像。經歷了全量版畫像、Storm版實時畫像、電商用戶標簽畫像等演進和完善的過程。在兩年的時間里,遇到了性能瓶頸、數據質量評估、用戶標簽的膨脹、畫像在精準化營銷等應用場景的摸索,一步步成長,在推薦系統發揮了巨大作用。用戶標簽畫像我們的用戶標簽包含根本特征、社會身份、顧客用戶生命周期、類目偏好等等。比方說你怎么判斷一個人是不是對女裝感興趣,假設我們有一個類目就是女裝,那很好辦,如果你購置都是女裝,那會認為你這個人對女裝比擬感興趣。如下列圖所示。挑戰我們期間遇到了兩方面的挑戰:億級畫像系統實踐和應用記錄和存儲億級用戶的畫像,支持和擴展不斷增加的維度和偏好,毫秒級的更新,支撐個公司性化推薦、廣告投放和精細化營銷等產品怎么做到的用戶畫像算法模型不斷優化引入Storm等實時技術主題推薦標簽、用戶命名實體等新增標簽補充進畫像HBase的離線和在線別離、Hbase的KV讀和Solr的批量讀別離、region熱點監控和切分數據流不斷優化數據存儲改良第一版畫像現狀偏好系統包括類目偏好和導購屬性偏好兩個局部,第一版的偏好系統接口調用數每天達千萬次,主要效勞于推薦欄位和EMD,但改變的偏好系統存在性能低下,偏好得分分布不合理等問題:運行一次全量的數據更新太慢用戶的偏好得分數據分布不合理,得分呈多波峰分布,且在6.0、8.0區間的得分數目幾乎為0用戶強偏好和弱偏好的閾值界限未有明顯規定用戶未產生新的行為,興趣偏好分值將不會發生變化〔未按時間進行衰減〕新版畫像系統流程這個很簡單,就是大家都能想到的離線和在線,離線要基于用戶的行為,產品的信息進行打分,要得到一個個人的偏好,前端提供一個接,根本上是這樣子。畫像模型優化1關于算法模型做了一些優化,第一個優化就是得分,通過操作得分使它的偏好更有區分性,歷史行為應有衰減。你這個得分假設永遠是疊加的,這也是有問題的,因為你一個月之前或者一年之前所有的行為,如果現在還影響著你的得分,會有不準確性,所以會有一個歷史的衰減得分。偏好得分分布應與用戶對類目的權重分布一致,關鍵是對數據的處理,還有怎么樣去調整你的模型。偏好畫像的得分應滿足三個條件:用戶在此類目或導購屬性上的操作越多,得分越高用戶對類目或導購屬性的喜好程度不同,可以通過偏好得分區間表達主題推薦標簽主題和標簽的映射關系如下:使用標簽表中的關鍵詞列表,結合商品的評論、標題數據給商品打標簽。商品打標簽公式為:用戶打標簽公式為:HBase的離線和在線別離講一下HBase,我們拿了很多開源的東西。我想問一下CAP大家都了解吧,一個數據庫你只能獲取兩個特性。這邊我們采用了離線和在線的方式,把可用性提上去。如下列圖所示。Solr解決批處理選人我們還有一個選人機制,就是用戶畫像的另一個場景,既然你有用戶的各種信息了,那么對于其他業務,比方說廣告業務,比方說促銷業務他們提供了一個需求,就是選人,是基于Solr做的一個選人中心。如下列圖所示。調優相關表,提高讀寫性能根據畫像表每一臺機器的熱點,遷移或者切分。數據流優化guid和userid的對應關系中,濾掉公用電腦和黃牛賬戶〔全國有20萬左右人從事刷單產業鏈〕。為了進一步提高離線局部的計算速度,犧牲算法精確性,用戶的行為權重計算亦可以增量計算設Wh為用戶對某個類目的歷史行為權重,Wc為用戶最新一天的行為權重,那么總的行為權重Wt=λWh+Wc,0<λ<1如果采用上述方法,那么不必遍歷用戶的所有的行為數據,每次更新時,只需遍歷一天的數據即可。優化數據存儲用戶行為和行為統計表HBase替換為Hive,最后的畫像表保存為HBase;考慮到類目偏好使用比擬頻繁,而導購屬性偏好數據量遠大于類目偏好,解耦來將兩者分開存儲;類目偏好離線數據結構-Hive全量數據過濾全量數據過濾,就是類目偏好離線的全量數據進行過濾之后,導入在線局部,主要優化就是剛剛講的模型優化。過濾原那么:每個用戶的偏好類目數量小于一個固定值用戶偏好得分大于下限,該下限可假設用戶當天在某個類目只有一個加車行為,然后帶入模型反推出來導購屬性偏好離線的全量數據進行過濾之后,導入在線局部。過濾原那么:屬性偏好大于一個固定的下限屬性值的數量小于一個上限屬性值偏好大于一個固定下限主要優化和改良點主要優化和改良如下列圖所示。長期興趣和短期偏好解耦類目和屬性不同畫像偏好解耦嘗試與未來我們曾經想做實時畫像,實時的到達導到實時里面,但是現在我們并不是做實時畫像,我們做的是實時推薦,為什么不做呢?因為這些算法不太好算,比方說算一個衰減周期,你要根據30天的編號算一個你當前類目的變化,你要拿30天的數據,這樣的算法壓力就很重。未來想做就是使用HBase鏡像雙集群,ApacheLgnite+HBase。我們也做了一些有趣的東西,就是一些排行榜,對某些大學做一些排行榜的排名,實際上根據大學的特定群體我們已經做了推薦,這個東西其實還蠻好玩的。一些啟示提煉出該案例〔或工程〕的哲理、方法論。算法準確度、數據規模、更新速度相互制衡,提高某些指標,必須犧牲其他指標。一個系統遇到性能瓶頸的時候,跳出系統本身,了解業務,根據業務解耦,以滿足不同場景。數據流各個環節都可能出錯,自動化檢查各個節點的中間數據,考慮
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB31/T 747-2013智慧園區建設與管理通用規范
- DB31/T 685-2013養老機構設施與服務要求
- DB31/T 1246-2020節約型機關評價導則
- DB31/T 1079-2018獄務公開管理規范
- DB31/T 1069-2017經營性帳篷露營地建設與服務規范
- 2025股權質押合同范本全文
- 汽車金融公司服務滿意度調查與改進考核試卷
- 相機濾鏡效果與使用技巧考核試卷
- 電腦故障排查與解決技巧考核試卷
- 2024年城市文化展示系統項目投資申請報告代可行性研究報告
- 《中醫藥康復專業英語課件》
- 水穩施工安全技術交底1
- 2023年一般行業主要負責人和安全管理人員考試復習題庫(含答案)
- 護理部運用PDCA縮短門診患者超聲檢查等候時間品管圈QCC成果匯報
- 剪板機風險告知牌
- 計算機組成與設計知到章節答案智慧樹2023年山東大學
- 海綿城市pp雨水收集系統
- 辦公用品采購清單2022
- 酒店經營預算和成本分析課件
- 小專題循環物質(已改)
- GB/T 9865.1-1996硫化橡膠或熱塑性橡膠樣品和試樣的制備第一部分:物理試驗
評論
0/150
提交評論