電信行業中數據研究關聯規則探究和應用_第1頁
電信行業中數據研究關聯規則探究和應用_第2頁
電信行業中數據研究關聯規則探究和應用_第3頁
電信行業中數據研究關聯規則探究和應用_第4頁
電信行業中數據研究關聯規則探究和應用_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、電信行業中數據研究關聯規則探究和應用摘要:隨著中國經濟的迅猛發展帶動了消費者的 多元化電信服務需求,網絡的發展,全球經濟一體化步伐的 加快刺激了消費者對電信增值服務的應用。保留老用戶,吸 引新用戶成為電信企業的一項重要工作。而關聯規則的算法 在電信業中的這一過程應用作用也越來越重要。關鍵詞:數據挖掘;關聯分析:apriori算法abstract: with the rapid development of china? s economy led to the diversification of consumer telecommunications service demand, the

2、development of the network, the pace of global economic integration to speed up to stimulate the application of telecom value-added service consumers keep old customers and attract new users to become the telecommunication enterprises is an important work and association rules algorithm in the telec

3、ommunications industry a process application is also more and more important rolekey words: data mining; correlation analysis; apriori algorithm中圖分類號:c37文獻標識碼:a文章編號:2095-2104(2013)一、數據分析在電信行業的應用電信業是典型的數據密集行業,隨著電信體制改革的深 化,電信業的競爭也日趨激烈。與其他行業相比,電信行業 擁有更多的有關用戶的數據,誰能正確分析這些數據所得到 有用的知識,誰就能更好地向用戶提供服務,能夠發現更多

4、的商機,從而在競爭中獲勝。但是電信行業數據量龐大,業 務系統眾多,數據龐雜,利用傳統的信息獲取手段,如手工 報表的方式,信息的提供在速度,質量和范圍上都大大滯后 于信息的需求,因此必須引入新的技術來支持企業業務對信 息的需求,數據挖掘技術能夠成功應用有其必要性與可行 性。數據挖掘,顧名思義就是從大量的數據中挖掘出有用的 信息。即從大量的,不完全的,有噪聲的,模糊的,隨機的 數據中提取隱含在其中的,人們事先不知道的,但又是潛在 有用的信息和知識的過程。因此非常適合電信這樣數據密集型的行業。利用該技術 可以幫助企業獲取客戶信息,爭奪客戶資源;分析市場狀況, 制定營銷策略;收集話務記錄,調整收費策略

5、;識別詐欺行 為,建立預警機制;審計財務狀況,平衡財務收支;分析網 絡行為,優化網絡管理。二、關聯規則數據挖掘算法1、關聯規則的挖掘步驟已知數據庫d,關聯規則的挖掘問題就是產生置信度與 支持度分別大于用戶給定的最小值的所有關聯規則。該問題 可分兩步來解:(1) 產生所有支持度大于最小支持度d的項集,這些項 集稱為覆蓋集。(2) 對于每個覆蓋集,產生所有大于最小置信度的規則。第二步相對而言較為容易,重點在第一步即找出強項 集。由于不同的項集數目可達2m個,如所涉及的數據庫規 模巨大,對所有的項集進行支持度的計算是不可能的。下面 是一種具有代表性的求解算法apriorio首先介紹與算法有關的概念與

6、符號:項集的長度:項集中所有包含的項的個數。k項集:長度為k的項集。強k項集:支持度大于等于minsup的k項集。候選k項集:支持度可能大于等于minsup的k項集。lk:所有強k項集的集合。ck:所有候選k項集的集合。apriori算法經過多次掃描數據庫,依次生成l1,l2,,lp (p為強項集的最大可能長度)第一遍掃描計算各個單項的支持度,刪除支持度小于minsup的項集,進而 得到l1;在第k次掃描計算lk時,并非計算所有k項集的 支持度,而是根據任何強項集的子集必是強項集的原則,由 前一次掃描得到的lk- 1生成。2、基于apriori的算法優化和改進為了提高apriori算法的效率,

7、人們對該算法進行了優 化和變形,其中算法的變化主要集中在兩點:產生候選項集 的方法和候選項集支持度的計算。以下是一些典型的優化算 法:(1) 基于hash的算法:在apriori算法產生候選項頻 繁集的過程中,如何高效產生頻繁2 項集是提高數據挖掘 性能的關鍵,dhp (direct hashing and pruning) 算法很 好地解決了這一問題。使用該算法產生頻繁項集的過程分幾 步:首先獲得頻繁1 項集并且產生候選2項集的散列表; 然后基于散列表產生候選2 項集,進而得到頻繁2項集 并且產生3項集的散列表直到產生頻繁k項集。這種 基于散列技術大大減少了需要考慮的k-項集的個數,尤其是

8、2 項集,并且隨著k的增加候選項集的個數急劇減小,解 決了性能上的瓶頸問題。(2) 基于劃分的算法:當數據庫中的數據量特別大時, 對數據進行處理是很困難的,基于劃分的算法可以在不增加 i/o和cpu使用的基礎上解決這一問題。該算法分兩步進行: 第一步根據內存容量,在邏輯上把交易數據庫劃分為若干非 重疊的部分,然后把每個部分看作一個獨立的數據庫尋找其 中的頻繁集,即局部頻繁集。在第一步結束時把每個劃分的局部頻繁集進行合并得到全局頻繁集的候選集。第二步計算 每個局部頻繁集在原交易數據庫中的支持度,得到全局頻繁 集。使用基于劃分的算法只需要對數據庫進行兩次掃描,分 別用于產生全局頻繁集的候選項集和計

9、算該候選項集的支 持度。使用這種方法將數據庫進行劃分后,由于每個部分之 間沒有共享數據,可以使用并行算法進行處理提高效率。引 入并行算法后,整個算法可以分為四步:將數據庫劃分后每 個部分稱為結點,第一步每個節點獨立計算各自的局部頻繁 集;第二步將結點間不同的頻繁集相互交換,最終使所有結 點的頻繁集相同;第三步在每個節點重新計算合并后的局部 頻繁項集的支持度(local counts),最后將每個局部頻繁 項集在每個結點的支持度相加得到每個項集的全局支持度。(3) 基于采樣的算法:針對大型數據庫可以使用基于采樣的算法挖掘其中的關聯規則。首先由數據庫中隨機采樣得到的數據產生可能在整個數據庫范滿足參

10、數指標的規則,然后使用剩余數據對這些規則進行檢驗。為了不遺漏可 能滿足設定參數的頻繁集,對于采樣數據集一般使用比用戶 定義的最小支持度小的支持度闡值。基于采樣的算法是一種 在精確度和效率之間取得平衡的方法,這種算法減少了掃描 次數,顯著降低了 i/o代價,但是犧牲了一些精度,即存在數據扭曲問題。(4) 減少事務數:根據apriori性質,當一個事務中 不包含k 項集時,它一定不包含k+1-項集,這樣可以給 這些事務加上標記,在下一次掃描數據庫時對這些事務不予 考慮,減少需要掃描的事務數。3、多層關聯規則的挖掘算法對于很多的應用來說,由于數據分布的分散性,所以很 難在數據最細節的層次上發現一些強

11、關聯規則。當我們引入 概念層次后,就可以在較高的層次上進行挖掘。雖然較高層 次上得出的規則可能是更普通的信息,但是對于一個用戶來 說是普通的信息,對于另一個用戶卻未必如此。所以數據挖 掘應該提供這樣一種在多個層次上進行挖掘的功能。多層關聯規則的分類:根據規則中涉及到的層次, 多層關聯規則可以分為同層關聯規則和層間關聯規則。多層關聯規則的挖掘基本上可以沿用"支持度-可信 度”的框架。不過,在支持度設置的問題上有一些要考慮的 東西。4、多維關聯規則挖掘算法對于多維數據庫而言,除維內的關聯規則外,還有一類 多維的關聯規則。例如:年齡(x, "20。30”)職業(x, “學生”)=

12、> 購買(x, “筆記本電腦”)在這里我們就 涉及到三個維上的數據:年齡、職業、購買。根據是否允許同一個維重復出現,可以又細分為維間的 關聯規則(不允許維重復出現)和混合維關聯規則(允許維 在規則的左右同時出現)。年齡(x,“20。30”)購買(x,"筆記本電腦”)=購買(x, “打印機”)這個規則就是混合維關聯規則。在挖掘維間關聯規則和混合維關聯規則的時候,還要考 慮不同的字段種類:種類型和數值型。對于種類型的字段,原先的算法都可以處理。而對于數 值型的字段,需要進行一定的處理之后才可以進行。三、電信系統數據分析的關聯規則的運用1、數據處理由某電信公司得到的原始數據經過上述的

13、處理流程,抽 取1000條中低端用戶作為數據源來對通信中話費數據挖掘 的應用。數據源來自通信中的話費計費數據庫,以月話費大 于50元,小于等于100元的中低端用戶為例進行挖掘。提 取的內容如下:2、方法選擇數據挖掘提供多種挖掘方法如決策樹,神經元網絡,關 聯規則,統計回歸等,由于支持多種方法,所以允許用戶比 較不同的方法選擇其中最合適的。在此選擇關聯規則挖掘方 法。在這里簡單闡述一下關聯規則挖掘方法及apriori算法。在關聯分析中經典算法是r. agrawal等人提出的 apri-ori算法,這是一種很有影響力的挖掘關聯規則頻繁項 集的算法,探查逐級挖掘apriori性質:頻繁項集的所有非 空子集都必須是頻繁的。根據頻繁k 項集,形成頻繁(k + 1)項集候選,并掃描數據庫1次,完成第k次迭代(k >1),找出完整的頻繁(k+1)項集lk+lo apriori算 法是最早用于解決關聯規則問題的算法,也是目前數據挖掘 領域里應用最廣泛的算法之一。該算法的優點是簡單易懂并且能夠有效地產生所有關 聯規則,在頻繁項目不多時表現出了明顯優勢;但是,當最 小支持度低時,該算法會生成大量的候選頻繁項集,可能會 遇到組合爆炸的問題。另外,在判定每個候選項集支持度的時候,aprior

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論