




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
.5/5.WORD文檔下載可編輯.前段時間給大家推薦了《大數據之路--阿里巴巴大數據實踐》,這本書確實內容非常詳實,全是干貨,值得反復品味。剛剛看完第9章,講的是數據整合及管理體系,覺得非常好,設計得非常精妙,只看看覺得還不能深刻理解,遂做個讀書筆記按照自己理解重構整理一遍,同時補充上自己的解讀分享給大家,推薦給準備搭建數據產品或者數據平臺的人。傳統企業的業務變化相對不快,但使用一般的表格文檔來管理數據過程也已經越來越困難,更何況互聯網這樣迅速變化的業務,做好數據整理及管理的難度可想而知,但阿里的數據團隊還是形成了完成的方法體系,并把其工具化。也只有完備方法體系下構建的工具能滿足復雜的數據管理需求。阿里大數據建設方法論的核心就是,從業務架構設計到模型設計,從數據研發到數據服務,做到數據可管理、可追溯、可規避重復建設。目標是建設統一的、規范的數據接入層〔ODS和數據中間層〔DWD和DWS,通過數據服務和數據產品,完成服務于阿里巴巴的大數據系統建設。所以數據管理體系是包含具體的方法論以及相關的產品兩個部分,通過產品把方法論固化為標準的流程和操作,達到數據管理的目的。數據體系架構數據管理體系包括了業務板塊劃分、數據域提煉、業務過程梳理、原子指標/度量定義、派生指標定義及管理,維度分析整理以及數據模型的設計。通過下面的體系架構圖來看看數據體系建設的過程、以及每一步做什么和如何做。另外,如何定義每個術語的涵義,準確定義術語非常關鍵,有時候描述不清楚復雜的流程、場景最根本是因為對其中的一些概念沒有非常很好的厘清。業務板塊:根據業務的屬性劃分出相對獨立的業務板塊,業務板塊間指標和業務重疊性較低,比如電商板塊涵蓋淘寶、天貓、天貓國際、B2B系,金融板塊涵蓋支付寶、花唄、螞蟻微貸等。業務板塊非常宏觀,可以想象成賈不死的7大生態。規范定義:結合行業的數據倉庫建設經驗和阿里數據自身的特點,設計出的一套過程方法和數據規范命名體系,規范定義將用于模型設計中。規范定義指以維度建模作為理論基礎,構建總線矩陣,劃分和定義數據域、業務過程、原子指標/度量、修飾類型、修飾詞、時間周期、派生指標規則,下圖是它們之間的關系,以及具體實例。規范定義實例模型設計:以建模理論為基礎,基于維度建模總線架構,構建一致性的維度和事實,同時設計出一套表命名規范系統。維度建模理論很多書上都講過,這里就不單獨整理了。術語定義及說明我們重點說說數據域、業務過程、修飾詞、原子指標、派生指標。數據域:是面向業務分析的,將業務過程或者維度進行抽象組合的集合。其中業務過程是一個個不可拆分的行為事件,在業務過程之下定義指標;維度是指度量的環境,如買家下單事件,買家是維度,訂單數量是度量。數據域是抽象提煉出來的,并且不輕易變動,既能涵蓋當前所有業務的業務需要,又能在新業務進入時無影響的分配到已有的數據域中,如果所有分類都不合適才會擴展新的數據域。數據域不同于產品的功能模塊和業務線,是從分析的角度來組織數據指標、維度,功能模塊是面向用戶功能和管理功能的分類。從下面的兩個表格能很清楚的看出不同,功能模塊和業務線是隨時擴展的。那么劃分數據域有什么作用呢?主要是因為經過抽象后數據域相對功能模塊和業務過程來說少很多,是有效歸納、組織業務過程的方式、同時方便定位指標/度量。業務過程:指企業的業務活動事件,如下單、支付、退款都是業務過程,這里要注意,業務過程是一個不可拆分的行為事件。修飾詞:指除了統計維度以外的對指標進行限定抽象的業務場景詞語,修飾詞隸屬于一個修飾類型,如在日志域的訪問終端類型下,有修飾詞PC端、無線端,有點像屬性名和具體屬性值的意思。修飾類型是為了方便管理、使用修飾詞。原子指標:和度量含義相同,基于某一業務時間行為下的度量,不可拆分的指標,具有明確業務含義的名詞,如支付金額。原子指標有確定的字段名稱〔中英文、數據類型、算法說明、所屬的數據域和業務過程。原子指標名稱=動作+度量,例如支付金額、注冊用戶數。除了這些標準度量值的原子指標,還有些是為了派生指標而建的原子指標,后面講派生規則時會說到,例如排名型的top_xxx_xxx。派生指標:=一個原子指標+多個修飾詞+時間周期。可以理解為對原子指標業務統計范圍的圈定,說總支付金額是個籠統的高度概括的匯總指標,其業務范圍時間并不明確。加上修飾詞后的派生指標如:最近1天北京買家支付金額〔最近1天是時間周期、北京是修飾詞、買家作為維度。派生指標的英文名=原子指標英文名+時間周期修飾詞+序號〔_002;中文名由時間周期修飾詞+[其它修飾詞]+原子指標。下圖是常用的時間周期修飾詞,整理的非常詳細最后說說派生指標的類型和不同類型指標的生成規則,這里的規則不容易理解,需要結合例子花些時間慢慢體會為什么有的是在原子指標的基礎上派生,有的必須新建原子指標然后再派生。其實規則很簡單就是沒有可用的原子指標或者不是簡單增加限定條件的指標,需要先創建原子指標,例如排名型,TOP10并不能作為一個原子指標,其并無實際含義,但"Top_n搜索關鍵詞"有明確的業務涵義就可作為原子指標,然后再擴展"最近60天天貓Top_10搜索關鍵詞"。派生指標類型及規則派生指標:分為事務型指標、存量型指標和復合型指標。事務型指標是指對業務活動進行衡量的指標,一般會對應一個事件。例如新發商品數、新增注冊會員數、訂單支付金額,訂單支付金額對應訂單支付事件,這類指標在原子指標上派生。存量型指標是指對實體對象〔商品、會員某些狀態的統計,例如商品總數、注冊會員總數,這類指標需維護原子指標及修飾詞,在此基礎上創建派生指標,對應的時間周期一般為"歷史截至當前某時間"。復合型指標是組合事務型指標和存量型指標而成的,例如瀏覽UV-下單買家數轉換率,有些創建新原子指標,有些在事務型或者存量型指標基礎上增加派修飾詞派生。這里說的創建新原子指標,書上并沒有講地很清楚,理解起來也非常繞,我理解是無法從已有的原子指標派生時,比如計算方式不同,就需要新建原子指標,然后再派生,也不是直接做成原子指標,因為原子指標是無法使用限定詞的。復合型指標按照指標的計算方法又可以分為:比率型、比例型、變化量型、變化率型、統計型、排名型、對象集合型,有了詳細的類型,再來考量如何派生就更容易了,而不是沒有規律的沒有方法的組合。比率型:創建原子指標,然后在派生復合指標,先創建CRT,然后再有:最近一天店鋪首頁CTR,原子指標為CTR〔點擊率,時間周期為"最近1天",修飾類型為"頁面類型",修飾詞為"店鋪首頁"。比例型:包含百分比、占比的都是比例型,比例型要先創建原子指標,再派生。例如"最近1天無線支付金額占比",有原子指標"支付金額",但沒有原子指標"支付金額占比",支付金額占比和支付金額的算法不同,沒法從支付金額擴展,需要新創建。假如說可以擴展,那么在"支付金額占比"上做二次擴展,就更復雜。變化量型:不創建原子指標,增加修飾詞,在此基礎上創建派生指標,因為派生沒有改變指標的計算規則,只是增加了限定條件。例如:"最近1天訂單支付金額上一天變化量",原子指標為"訂單金額",時間周期為"最近1天",修飾類型為"統計方法",修飾詞為"上1天變化量"。變化率型:創建原子指標,同比率型和比例型。例如,"最近7天海外買家支付金額上7天變化率"。統計型:不創建原子指標,一般可統計的指標都是數量型,所以和變化量型一樣,加修飾詞派生即可,例如:"最近6月月均訂單支付金額"。常用的"統計方法"類修飾詞:人均、日均、商品平均、月均、90分位數、眾數等。排名型:創建原子指標,一般為top_xxx_xxx,不同的排名業務涵義不同,需要創建不同的原子指標。創建派生指標時可選擇的修飾詞有:統計方法〔降序、升序,排名名次〔如TOP10,排名范圍〔如行業、省份、一級來源等,根據什么排序〔如搜索次數、PV對象集合型:主要是指數據產品和應用需要展現數據時,將一些對象以k-v對的方式存儲在一個字段中,方便前端展現。比如趨勢圖、TOP排名對象。其定義方式是,創建原
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北省2024屆高三語文5月押題考試試題(含解析)
- 2024年湖北省黃岡市黃梅縣事業單位招聘考試《職業能力傾向測驗》(A類)真題庫及答案
- 汽車噴漆工技能理論知識考試題庫(新版)
- 建設工程安全生產管理習題及答案
- 三基三嚴??荚囶}與參考答案
- 完善城市經理管理制度
- 《環保技術服務購銷合同爭議起訴狀范本》
- 電力能源股權代持及轉讓合同
- 二手房交易稅費減免定金合同
- 餐廳餐飲服務員勞動合同及績效評估協議
- 2025遼寧沈陽副食集團所屬企業招聘25人筆試參考題庫附帶答案詳解
- 2024-2025新入員工安全培訓考試試題及參考答案(達標題)
- 2025春國開《創業基礎》形考任務1-4答案
- 2025陜西中考:歷史必背知識點
- 《電力設施保護》課件
- 《人工智能應用基礎》 完整課件(共十個模塊-上)
- 國企財務測試題及答案
- 死亡報卡培訓試題及答案
- 《鼻腔止血材料研究》課件
- 中醫理療養生館創業計劃
- 2025-2030中國羥丙基殼聚糖行業市場發展趨勢與前景展望戰略研究報告
評論
0/150
提交評論