




免費預覽已結束,剩余11頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
補充:結合電信領域的特點,通過一個應用實例來說明數據倉庫的具體實施。第一階段:項目的需求和目標分析一主題劃分 圖1 一個簡單的電信企業模型 在電信企業中,現有的業務數據庫系統一般包括客戶服務DB、網管DB、計費DB、賬務DB、市場信息DB、營銷信息DB等。通常按照電信公司的業務需求可能將其主題域劃分為:1客戶發展:主要是對客戶群體進行分類后,從不同的角度展現公司提供服務的客戶數量情況。可以按照客戶本身的自然屬性(如年齡、入網時間、受教育程度等)、客戶的擴展屬性(如信用度、客戶價值、流失概率、挽留價值等)等不同的角度進行劃分。2收益分析:主要是通過不同的角度對電信企業的收益情況進行分析。收益分析的角度可以按照客戶的自然屬性和擴展屬性劃分,也可以按照電信公司的業務運營進行劃分,還可以按照機構設置、地理角度對收益進行劃分。3呼叫特征分析:分析不同類型客戶在呼叫上具有的特征。具體的衡量指標包括很多,例如:把呼叫分成長呼叫、中呼叫、短呼叫。 4業務發展:主要是對電信公司提供的各種業務的使用客戶人數、客戶特征、收益金額進行比較,以發現具有潛力的業務或者為開展能夠吸引更多客戶的新業務提供指導。 5營銷管理:主要是對各電信營業廳、電信分銷商、代銷商的經營狀況進行分析。 6市場競爭:主要是對電信運營商的競爭對手的客戶發展、收益、業務運營等多方面的信息進行收集并分析,從而為本企業提供市場競爭的策略。其中涉及的數據主要是外部數據和非格式化數據。 7服務質量:主要包括發現客戶投訴、咨詢的焦點,發現公司內部在運營上存在的問題等。 8網絡優化管理:分析如何有優化網絡的配置、如何更好的對網絡進行管理等問題。二電信領域常見的數據挖掘層次的問題1客戶群體劃分:客戶群具有兩個金字塔(占總客戶數10%的大客戶的消費金額占了總客戶消費金額的70%)。對客戶群體進行合理的劃分,有利于公司了解一下信息:l 公司的主要客戶群體的情況;l 主要客戶群體的呼叫特征行為;l 主要客戶群體對業務的需求;l 大客戶群體的呼叫特征行為;l 大客戶群體對業務的需求;在對客戶進行合理劃分的基礎上,可以針對不同客戶群體的特點采用不同的策略,對其消費行為進行合理的引導。(可以采用聚類或分類的方法)2客戶流失劃分:挽留一個老客戶比爭取一個新客戶付出的代價要小得多。 3客戶欺詐分析:主要針對可能出現的客戶惡意欠費問題進行分析。 4網絡規劃優化 5網管中的分析問題:網絡優化、網管故障的相關性分析、統計設備的故障率等。三項目規劃在項目初期,應當選擇當前最急需、能在較短時間內發生效益、業務模型清晰、能從現有系統或通過其他方式獲取數據的決策目標作為系統初期的任務。在后續階段,根據新的需求、現有系統的改造情況、積累的經驗確定新的決策目標,逐步發展完善數據倉庫系統。在建設初期,可以將以下五個主題列在前期任務考慮之內。客戶發展分析收益情況分析呼叫特征分析營銷管理分析業務發展分析作為螺旋開發的第一個循環,建議先將客戶發展、收益分析、呼叫特征分析列入第一階段的任務。四需求分析的形成 1任務說明書:在任務書中,指明了DW中涉及的主題有3個:客戶發展、收益分析、呼叫特征分析。在DM層次上,需要完成對客戶的流失概率、客戶價值、客戶挽留價值進行合理的評估。 2需求說明書:任務說明書需要設計人員進一步將其細化成需求說明書。在進行需求分析的時候,設計人員最少應當訪問如下的幾類人: (1)項目負責人:對整個項目的宏觀目標和方向有比較準確的把握,對DW項目有全境式的認識。 (2)主題涉及部門的管理人員:了解部門內部對數據的需求。使得設計人員能夠站在管理人員對數據需求的角度來看問題,而不是站在技術的角度看問題。 (3)DSS分析員和未來使用DW系統的最終用戶:從他們那里了解他們目前是如何為管理層提供決策輔助信息的,提供信息的內容包括哪些,信息的來源有哪些,在處理數據中遇到的棘手問題有哪些,另一方面是他們對DW系統的需求和希望,并可以從最終用戶那里了解比較細致的需求。 (4)企業的信息技術人員,包括數據管理人員(對數據質量進行管理的人員,不是DBA)、數據庫管理員、數據庫設計人員、程序員:從他們那里了解現有業務系統是如何構造的、現有系統的運行情況、現有系統中存在哪些問題、應該從哪兒獲取需要的數據。 各類人員同項目需求的關系如下圖所示: 設計人員需要將從上述人員那兒了解到的信息進行歸納總結,權衡各方面的因素,最終給出一個比較具體的功能需求描述。下表給出一個收益分析主題的功能需求分析例子。收益分析不同時期的收入總量分析及預測。收益結構分析(月租費、本地話費、漫游費、入網費、卡費等)功能名稱功能描述度量涉及維度維成員品牌和業務構成收益的品牌構成各種品牌在企業總收益中所占比重和數量收益、收益百分比品牌神州行、全球通收益的業務構成各項業務在企業總收益中所占比重和數量收益、收益百分比業務類別通話、短信息呼叫特征企業收益的主/被叫構成主叫、被叫對于企業收益的貢獻收益、收益百分比主/被叫主叫、被叫企業收益的呼叫類型構成長途、漫游、本地對于企業收益的貢獻收益、收益百分比通話類型長途、漫游、本地企業收益的呼叫時長構成不同時長的呼叫對于企業收益的貢獻收益、收益百分比呼叫時長1分鐘以下15分鐘510分鐘10分鐘以上等客戶特征企業收益的客戶性別構成不同性別客戶對于企業收益的貢獻收益、收益百分比、客戶數量客戶性別男女未知企業收益的客戶年齡構成不同年齡段客戶對于企業收益的貢獻收益、收益百分比、客戶數量客戶年齡段18以下1822。企業收益的大客戶構成大客戶和普通客戶對于企業收益的貢獻收益、收益百分比是否大客戶維大客戶普通客戶企業收益的客戶類型構成企業收益客戶類型的百分比構成客戶數量、百分比客戶類型單位、個人企業收益的不同在網時間客戶構成不同在網時間客戶對于企業收益的貢獻收益、收益百分比、客戶數量在網時間維一年以下12年。企業收益的客戶信用積分構成。收益、收益百分比、客戶數量客戶信用積分根據數據的具體分布企業收益的客戶信用度層次構成。信用度客戶信用度按照挖掘后的結果進行劃分企業收益的客戶消費層次構成。收益、收益百分比、客戶數量客戶消費層次按照挖掘后的結果進行劃分企業收益的客戶離網概率層次構成。收益、收益百分比、客戶數量客戶離網概率層次按照挖掘后的結果進行劃分企業收益的客戶挽留價值層次構成。收益、收益百分比、客戶數量客戶挽留價值層次按照挖掘后的結果進行劃分企業收益的客戶價值層次構成。收益、收益百分比、客戶數量客戶價值層次按照挖掘后的結果進行劃分企業收益中小客戶成為大客戶概率層次構成。收益、收益百分比、客戶數量中小客戶成為大客戶概率層次按照挖掘后的結果進行劃分欠費情況和預測欠繳費比例。金額(收益)、金額百分比、客戶數量、客戶數量百分比欠繳費欠費、繳費不同時期的企業欠費金額。欠費金額時間月、季、半年、年不同時期的企業欠費數量。欠費客戶數量時間月、季、半年、年收益預測話費收益預測。短信費收益預測。不同時期的企業收益情況。收益收益/欠費百分比時間月、季、半年、年在完成功能需求后,可以用一個數據搜集報告把所需的不同的數據源的屬性列出來。此報告至少包含如下的內容:l 數據源(內/外部數據源)l 負責維護此數據的個人/組織l 設計該數據庫的DBAl 數據使用的存儲方式l 數據中包含的表、字段、記錄的數據l 數據的大小l 數據的物理存儲介質l 安全需求l 數據在使用上的限制l 數據是否涉及用戶的隱私問題 數據描述報告中應包含如下內容:l 字段/列的數據l 字段是空缺值的數據/百分比l 字段的名字對于每個字段,通常需要記錄:l 數據類型l 數據定義l 數據描述l 計量單位l 所有不同值的個數l 值的列表l 值的范圍l 空值的百分比l 收集信息(例如怎么得到、在哪、什么條件下)l 時間頻度(每天、每周、每月)l 特別時間數據l 主鍵/外鍵關系第二階段 系統結構和模型設計一系統結構設計 1數據量的估算 2系統硬件結構/軟件結構選擇:根據數據量的估算,選擇相應的軟硬件配制。二DW模型的設計 1可利用的數據:要確定完成以上3個主題,需要3部分信息:l 客戶的基本信息表l 客戶的賬單l 客戶的呼叫信息表(CDR表) 2粒度的確定:設計DW中,最重要的步驟。l 對于客戶基本信息表采用單一的數據粒度即可。l 對于客戶的賬務信息也采用單一的數據粒度。但是要增加合適的時間段和合適的導出數據(按季度綜合、按年度綜合)l 對于客戶的呼叫信息采用雙重粒度:對于近34個月的細節呼叫/計費數據,保留在DW中,并定期聚合成按月綜合表,然后將細節數據導出至磁帶設備,為新的細節數據騰出空間。 3定義DW的關系模式:這個過程需要第二階段形成的數據搜集報告進行記錄系統的定義。所謂記錄系統的定義就是指明DW中關系表各個字段來源于哪個業務數據庫的哪張表的哪個字段。還需要建立一個數據字典,將問題中涉及的關鍵詞語的含義、在字段命名中將采用什么關鍵字等信息記載在數據字典中。 三OLAP模型設計 OLAP模型設計的思路是先分析問題中可能涉及的所有維度,針對每一個主題確定需要的維度和度量變量,然后為每一個主題定義關系模式,從而形成一個星型結構。在這個星型結構的基礎上,可以生成多維數據表,建立多維數據庫。 1項目設計的維度分析l 靜態維度:指客戶詳細資料維、狀態維、年齡段維、品牌維等不經常發生變化的緯度。靜態維度并不一定是完全不變的,只是相對動態維度而言。l 動態維度:指經常會發生變化的維度,例如客戶的呼叫地理維度、呼叫時間維度、客戶的費用層次緯度,這些維信息都將隨著時間的變化而變化。l 目標維度:需要通過數據挖掘分析的目標。根據項目任務書中,我們主要的目標有分析客戶的價值、客戶的流失概率、客戶的挽留價值、客戶的信用度等。這些維度在進行DM之前是空缺的,在進行DM之后,利用DM的模型給這幾個指標打分,然后在將這些數據補充回OLAP的維表和事實表中,供數據展現使用。 2各個主題的維度設計:以收益分析主體的維度設計說明書為例:模型名稱: 收益分析模塊功能: 用于企業收益構成分析對應的事實表:profit_s度量: 收益,每個用戶賬單記錄產生的總費用金額數據粒度: 在事實表中,記錄每個用戶每月的費用信息。事實表存放5年之內的數據,5年以上的數據按時間(月)進行匯總后從事實表中導出。相關的維度:(1)客戶詳細資料維(2)客戶性別維(3)客戶年齡段維(4)品牌維(5)收益類別維(6)通話類型維(7)是否大客戶維(8)月總呼叫次數層次維(9)平均呼叫時長層次維(10)信用積分維(11)信用度層次維(12)消費層次維(13)離網概率層次維(14)挽留價值層次維(15)價值層次維(16)時間維(17)客戶類型維(18)在網時間維 注釋:以上各維均與客戶相關,用于分析不同客戶群體對企業收益的貢獻,維的層次和元素與客戶數量分析模型中相同。收益分析主題的星型結構如下:第三部分 系統裝載、數據挖掘和界面設計一數據裝載/數據綜合模塊設計 數據裝載模塊負責從業務系統的數據表中提取、清洗數據以及轉化格式變為DW中的細節表。 數據綜合模塊利用裝載模塊生成的細節表生成各個綜合層次的數據表和導出表。 在進行數據裝載模塊設計時,需要注意以下幾個問題:l 定義良好的數據清洗規則:數據質量的重要保證l 注重代碼的模塊化和重用性、可維護性。l 提高代碼的處理效率l 制定一個調度計劃:不同的裝載程序需要在不同的時間運行,設計人員需要根據實際系統的情況,確定一個合理的數據抽取計劃,并在DW管理工具中實施這個調度計劃。二OLAP模型生成程序OLAP模型生成模塊利用DW中的數據構建維表和事實表(通常先實現一個主題)。如果需要創建多維數據庫,則需要將維表和事實表連接后生成一張詳細的多維數據表,然后在這張多維數據表的基礎上創建多維數據庫。三數據挖掘寬表設計和生成 要進行DM,需要將所有能夠收集的對分析有用的信息組織成一張非常“寬”的數據表,將這張表稱為數據挖掘寬表。 1首先確定同目標變量相關的數據:通常需要向該方面的分析專家請教。 2創建新變量:即對細節數據要進行一定程度的綜合,比原始細節數據更具有現實意義。 3準備訓練集合與驗證集合l 數據質量的檢驗l 選擇合適的數據抽樣方法l 為目標變量附上初始值:目的是為模型準備訓練/驗證數據集合,這些初始值并不是最終的結果。l 根據算法的需要,對寬表中的變量,特別是目標變量的形式進行轉化:常常將目標變量轉化成布爾型變量。例如將目標變量“客戶流失概率”轉化為新的目標變量“是否流失”。4 確定分析的次序:由于目標變量之間存在相關性,因此需要確定分析的次序。5 變量選擇:在準備好數據訓練/驗證集后,需要將同目標變量具有強相關性的變量去除。例如:我們要分析客戶價值,就需要將計算客戶價值公式中出現的變量去除,否則DM工具將直接在這些變量和目標變量間建立關系,而不是我們所希望的通過劃分客戶是否高價值客戶來發現高價值客戶在呼叫行為、消費行為、背景信息上的特征。6 挖掘建模:將訓練/驗證集合作為輸入數據,利用挖掘工具/算法進行建模。模型通常是以一個數據處理程序的形式給出的。使用模型程序對寬表中的所有數據進行處理就得到了模型對目標變量的評定。7 模型的維護和完善:數據挖掘模型得建立不是一勞永逸得事,模型需要每隔一段時間重新建立一次。另外,隨著數據倉庫項目得不斷發展,數據倉庫可以為數據挖掘提供更為完善的數據,因此還需要將新的數據內容補充進數據挖掘寬表,以建立更好的模型。四創建多維數據庫模塊設計通過DM后,需要將得到的目標維度數值填寫進空缺的目標維表中,然后建立多維DB,供展現工具使用。1將星型結構中的維表和事實表進行連接,生成一張多維數據表2結合功能需求和最終數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- VB開發流程的常見問題及答案
- 軟件考試試題及答案總結分享
- 開放源代碼軟件考試題目及答案
- 信息處理技術員考試題庫及答案
- 2025屆湖南省岳陽市汨羅市沙溪中學數學七下期末學業質量監測試題含解析
- 兒童活動中心安全防范措施計劃
- 明確任務分工的實施方案計劃
- 校內交流與學習共享活動計劃
- 軟件水平考試信息處理試題及答案
- 教學日志撰寫要求計劃
- 分子氧氧化丙烯制環氧丙烷銅基催化劑的制備及性能研究
- 經營書院合作協議書
- 人教版五下-6.1 同分母分數加減法(教學課件)
- 倉庫新員工入職培訓模板
- 人工智能訓練師(三級)職業技能鑒定理論考試題(附答案)
- 私人月嫂合同協議書下載
- 商標基礎知識試題及答案
- 浙江開放大學2025年《行政復議法》形考作業2答案
- 消防改造協議書范本
- 職業心理健康課件
- 江蘇省南通市2025屆高三三模 地理試題(含答案)
評論
0/150
提交評論