電信帳單數據挖掘.doc_第1頁
電信帳單數據挖掘.doc_第2頁
電信帳單數據挖掘.doc_第3頁
電信帳單數據挖掘.doc_第4頁
電信帳單數據挖掘.doc_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

電信帳單數據挖掘17一概述11.1項目背景11.2數據挖掘和相關概念11.2.1數據挖掘的概念和過程11.2.2數據挖掘在電信管理中的應用21.3項目計劃31.3.1項目目標31.3.2時間安排41.3.3人員組織5二項目實施62.1選擇數據挖掘工具62.2建立數據庫表建立和數據清理72.3建立數據多維存儲82.3.1維度創建82.3.2OLAP存儲創建92.3.3OLAP數據分析102.4數據挖掘122.4.1決策樹計算(月用戶數量分析)132.4.2用戶分類(聚類分析)14三總結15一概述1.1項目背景隨著國內電信市場競爭的日趨激烈,電信運營商的經營模式逐漸從“技術驅動”向“市場驅動”、“客戶驅動”轉化。這就要求運營商要采取以客戶為中心的策略,根據客戶的實際需求提供多樣化、層次化、個性化的服務解決方案。因此,客戶關系管理(CRM)成了電信運營商增加收入和利潤,提高客戶滿意度、忠誠度的有效工具。在客戶關系管理的流程中,為了準確、及時地進行經營決策,必須充分獲取并利用相關的數據信息對決策過程進行輔助支持。近幾年迅速發展起來的數據挖掘技術就是實現這一目標的重要手段。 1.2數據挖掘和相關概念1.2.1數據挖掘的概念和過程 1數據挖掘的概念數據挖掘是根據企業的既定業務目標和存在的問題,對大量的業務數據進行探索,揭示其中隱藏的規律,并將其模型化,指導并應用于企業的實際經營。 數據挖掘是建立在數據倉庫基礎上的高層應用,但數據挖掘跟數據倉庫的其它一些應用如OLAP分析、預定義報表和即席查詢等有很大的區別。后三者通常是用戶根據已知的情況對所關心的業務指標進行分析;而前者則是在業務問題和目標明確但考察的問題不清楚時,對數據進行探索,揭示隱藏其中的規律性,進而將其模型化。 2數據挖掘過程數據挖掘是一個循環往復的過程,通常涉及數據準備、建立模型、評估和解釋模型、運用和鞏固模型等步驟。 (1)數據準備:數據準備工作包括數據的選擇(選擇相關和合適的數據)、探索(了解數據分布情況和異常數據等)、修正(包括缺失數據的插值等)和變換(離散值數據與連續值數據的相互轉換,數據的分組分類,數據項的計算組合等)。 (2)建立模型:選取數據挖掘工具提供的算法并應用于準備好的數據,選取相應參數,生成模型。 (3)評估和解釋模型:對模型進行比較和評估,生成一個相對最優模型,并對此模型用業務語言加以解釋。 (4)運用和鞏固模型:對模型在實際應用中的表現進行監控,如果模型表現不好,則對模型作進一步的考察和修正,以反映業務運作規律的變化。1.2.2數據挖掘在電信管理中的應用電信運營商擁有許多熟的數據庫應用系統,如網管系統、財務系統、計費賬務系統、112障礙管理系統、繳費銷賬系統等,并產生了大量的業務處理數據。如果針對客戶關系管理相關決策分析的需求,對這些數據進行重組整合,就能充分利用這些寶貴的數據,體現信息的真正價值。 數據挖掘技術在電信行業主要應用領域如下:(1)客戶消費模式分析客戶消費模式分析(如固話話費行為分析)是對客戶歷年來長話、市話、信息臺的大量詳單、數據以及客戶檔案資料等相關數據進行關聯分析,結合客戶的分類,可以從消費能力、消費習慣、消費周期等諸方面對客戶的話費行為進行分析和預測,從而為固話運營商的相關經營決策提供依據。 (2)客戶市場推廣分析客戶市場推廣分析(如優惠策略預測仿真)是利用數據挖掘技術實現優惠策略的仿真,根據數據挖掘模型進行模擬計費和模擬出賬,其仿真結果可以揭示優惠策略中存在的問題,并進行相應的調整優化,以達到優惠促銷活動的收益最大化。(3)客戶欠費分析和動態防欺詐通過數據挖掘,總結各種騙費、欠費行為的內在規律,并建立一套欺詐和欠費行為的規則庫。當客戶的話費行為與該庫中規則吻合時,系統可以提示運營商相關部門采取措施,從而降低運營商的損失風險。 (4)客戶流失分析根據已有的客戶流失數據,建立客戶屬性、服務屬性、客戶消費情況等數據與客戶流失概率相關聯的數學模型,找出這些數據之間的關系,并給出明確的數學公式。然后根據此模型來監控客戶流失的可能性,如果客戶流失的可能性過高,則通過促銷等手段來提高客戶忠誠度,防止客戶流失的發生。這就徹底改變了以往電信運營商在成功獲得客戶以后無法監控客戶流失、無法有效實現客戶關懷的狀況。 1.3項目計劃1.3.1項目目標電信公司每個月的帳單有數百萬條,牽涉到千家萬戶,這些數據中有很多寶貴的東西,可以從這些資料中獲得寶貴的資料。電信的產品非常多,主要有以下一些種類:普通電話(市內電話)、長途電話、小靈通和寬帶業務,這些業務是電信業務的主體;電信公司的帳單目前按自然月開帳,每個月給用戶郵寄帳單;電信公司具有劃分為多個區域包括(區局、分局)。項目的目標之一就是對這些數據進行分類統計,按照產品/時間/區域等對數據進行分類統計(建立三個維度),如本地、長途、寬帶、小靈通用戶數;本地(長途和小靈通)通話次數和平均時長,語音ARP(平均用戶收入)值,寬帶ARP值,小靈通ARP值等。決策樹分析,統計月收入的變化情況,對用戶進行聚類分析,將用戶分為不同的等級。項目目標之二是進一步加深對數據挖掘的認識,通過上課,我們已經初步了解了數據挖掘的基本原理和基本算法,通過電信數據挖掘這個實踐,可初步掌握數據挖掘的一般過程和工具,對數據挖掘有更深刻的認識,這對今后的工作是有非常大的好處的。通過項目也可以促進項目組人員之間的了解,取長補短,共同提高技能。1.3.2時間安排初步時間安排為三周時間時間安排備注第一周l 項目需求l 系統分析l 人員分工l 選擇數據挖掘工具l 建立數據庫表結構l 建立挖掘模型第二周 l 數據清理,轉換成數據庫表l 建立多維度OLAP數據存儲模型l OLAP數據分析第三周l 數據挖掘l 知識發現l 編寫課題報告和演示報告,演示成果1.3.3人員組織二項目實施2.1選擇數據挖掘工具目前市場上的數據挖掘工具比較多,一般而言,目前市場上這些數據挖掘工具又可分成兩類企業型工具以及小型工具。l 企業型數據挖掘工具:應用在需要高處理能力、高網絡容量和大數據量的場合下。這些工具通常支持多種平臺,并基于客戶機/服務器結構。它通常可以直接連接一些 復雜的數據管理系統(不像普通文本文件),并能處理大量的數據。這類數據挖掘工具的另一個特點是它通常提供了多種數據挖掘算法,并有能力解決多種應用問 題。企業數據挖掘工具的實例有IBM的Intelligent Miner和SAS Enterprise Miner,SPSS Clementine等。l 小型數據挖掘工具:它與企業型的工具著眼點不同。小型數據挖掘工具或者是針對低端、低消費的用戶,或者是為解決特定的應用問題提供特定的解決方案。比如Oracle公司的 Darwin,Insightful公司的Insightful Miner,等等。本次項目選擇的工具為Microsoft Analysis Servicel 優點 掌握快,易上手,適合初學者和本次項目 支持多種數據庫,支持ODBC接口 成本低,SQL Server2000自帶的Service Pack包l 缺點 只能做很簡單的挖掘工作,過于傻瓜 只支持基于維度的數據挖掘 只支持決策樹和聚類分析2.2建立數據庫表建立和數據清理根據電信帳單數據挖掘項目的要求,選擇比較簡單的ACCESS數據庫存儲數據,ACCESS的操作比較簡單,由于數據庫的通用性,今后也可以擴展到大型數據庫,如ORACLE,SYBASE,DB2等,建立如下的表結構如下:1電信帳單事實表該表記錄了電信的帳單2產品表3區域表 4時間表由于電信帳務數據庫非常復雜,結構繁多,不利于數據挖掘,因此必須首先進行數據清理,規范化數據。利于挖掘的數據庫應該是星型或雪花形的數據結構,我們的數據庫表的關聯關系如圖所示:數據清理后得到以下的數據:l 總共建立計費數據事實表,數據總量為132762條;l 建立從2003-2004年的時間表;l 建立區局-分局的對應關系表,總共13個區局和180個分局;l 建立產品表(普通電話,長途電話,小靈通和寬帶)。2.3建立數據多維存儲2.3.1維度創建數據多維存儲是OLAP(在線事物處理)的存儲形式,不同于數據庫的關系結構,采用了立方體的存儲結構,更利于數據的快速匯總和查找。立方體的結構以數據維度為基礎,為此我們建立了三個維度,時間、區域和產品,有些維度分等級,如時間和區域就分兩級維度,因為時間可以分到年/月,區域這里分為區局和分局兩級。如圖所示區域維的結構:同樣可創建其它維度,Analysis Service可根據多種表結構創建數據維度,如同一張表內創建,表內的自關聯創建,父子表的創建等。2.3.2OLAP存儲創建根據Analysis Service的向導可以創建數據的多維存儲,生成較容易分析的多維存儲結構,在本例中,帳單事實表的大小約為30MB,經過Analysis Service的處理生成OLAP存儲后數據可以大大壓縮,并以文件形式保存,減少了分析的時間,特別適合統計工作。2.3.3OLAP數據分析利用OLAP分析工具和生成的OLAP存儲文件,可以對數據進行初步的分析工作,如圖所示:由上圖可見各年度,各區局,各種相關產品的統計情況,可進行上鉆和下鉆的操作,如先看每年的情況,下鉆后可以看到每月的情況,粒度更細微,為分析提供的數據更詳細,同理也可只看某一區局的數據,通過下鉆可以看到更細的分局的數據。還可以通過不同維度的排列組合,獲得所需要分析的數據,滿足不同用戶對數據分析的需求。此外還可以提供鉆取功能,直接看到數據庫的原始記錄,更方便分析。如圖鉆取數據庫的原始數據:2.4數據挖掘數據挖掘基于OLAP,但是OLAP只是數據挖掘的基礎,而本身并不是數據挖掘。數據挖掘有一些方法:如關聯分析、分類和預測、聚類分析等,每一種類方法又有許多不同的算法:如分類預測就包括判定樹、貝葉斯分類、后向傳播分類、回歸算法等。目前Microsoft Analysis Service僅支持聚類分析和決策樹算法,決策數算法可以根據以下例子說明:.市場部想分析當前銷售事務并找出客戶統計信息(性別、婚姻狀況、年收入等等)和所申請會員卡(金卡/銀卡/普通卡)之間的模式。然后根據這些信息和申請會員卡的客戶的特征重新定義會員卡。可能得到如下的決策樹:10萬20-30歲銀卡5-10萬30-40歲50歲男性普通卡4萬4-12萬12萬40歲根據以上決策樹,我們可以判斷客戶選卡的模式,男性30-40歲年收入大于10萬的比較偏好選擇金卡。根據決策樹所構造的結果是實現我們并不知道的一個結果,就象關聯分析中我們并不知道尿布和啤酒是關聯商品,往往用戶會同時購買一樣,決策樹的分枝是有數據和決策樹算法決定的,如果使用現成工具進行決策樹的挖掘,我們無法預料能產生什么樣的決策結果。2.4.1決策樹計算(月用戶數量分析)根據以上算法計算一個決策樹,判斷各月的收入情況,可以得到以下的分析結果:可以看到某些月份用戶數量比較多,而有些月份用戶數量比較少。這樣市場部就可以根據用戶數量在淡季進行有針對性的促銷活動。2.4.2用戶分類(聚類分析)我們要求對用戶進行分類,但我們并不知道要怎么樣分類,我們將數據交Anaylise Service 處理,Anaylise Service為我們得到一個分類,可以作為用戶分類的依據。分類結果如下表所表示:月話費用戶數百分比13000.7585236.4%全部132762100%可見用戶大多數還是以低端用戶為主(數據經過處理),高端用戶也有6.4%,主要是企業用戶。三總結通過對該項目的初步挖掘,產生了一些挖掘結果,但由于考慮到電信安全性,因此數據經過了一些處理,可能與實際情況并不十分符合。而且由于工具的缺乏,也可能導致挖掘結果的不夠完善。真正的電信數據挖掘也還存在以下一些問題:(1) 數據質量和完備性:電信公司不象移動公司,用戶和手機是綁定的,有比較完善原始數據,電信公司的一個電話是好多人同時使用的,因此無法對用戶的通信行為模式進行詳細的分析。目前很多分析只是數據報表,還沒有上升到數據挖掘的高度,不能從大量數據中得到真正的金子。(2) 國內電信運營商現有的、面向事務的數據在質量、完整性和一致性上存在許多問題,必須投入大量的精力去進行數據的抽取、凈化和處理。此外,業務問題的相關數據有時難以全面收集。例如客戶信用是客戶價值評估中的關鍵因素,但由于國內未建立完善的信用體系,無法根據現有客戶數據建立優質的信用評價模型,從而導致客戶價值模型有效性的降低。 (3) 相應的人員素質:在數據挖掘應用過程的多個環節中,人的主觀辨識和控制是應用成敗的關鍵,這就對系統使用人員提出了很高的要求。如果沒有具備相應素質的使用和維護人員,必將導致分析系統與現實脫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論