




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、企業CRM系統中決策樹算法的應用河北金融學院 郭佳 許明保定市科技局基于數據挖掘的客戶關系管理系統應用研究09ZG009摘要:客戶資源決定企業的核心競爭力,更多的關心自己的銷售群體,并與之建立良好的、長期的客戶關系,提升客戶價值,對全面提升企業競爭能力和盈利能力具有重要作用。本文以某企業銷售業績為對象,利用決策樹分類算法,得到支持決策,從而挖掘出理想客戶。 關鍵字:客戶關系管理;數據挖掘;分類算法決策樹分類是一種從無規則、無序的訓練樣本集合中推理出決策樹表示形式的分類規則的方法。該方法采用自頂向下的比較方式,在決策樹的內部結點進行屬性值的比較,然后根據不同的屬性值判斷從該結點向下的分支,在決策
2、樹的葉結點得到結論。本文主要研究決策樹分類算法中ID3算法在企業CRM系統中的應用情況.1.ID3算法原理ID3 算法是一種自頂向下的決策樹生成算法,是一種根據熵減理論選擇最優的描述屬性的方法。該算法從樹的根節點處的訓練樣本開始,選擇一個屬性來區分樣本。對屬性的每一個值產生一個分支.分支屬性的樣本子集被移到新生成的子節點上.這個算法遞歸地應用于每個子節點,直到一個節點上的所有樣本都分區到某個類中。2.用于分類的訓練數據源組數據挖掘的成功在很大程度上取決于數據的數量和質量。我們應從大量的企業客戶數據中找到與分析問題有關的,具有代表性的樣本數據子集。然后,進行數據預處理、分析,按問題要求對數據進行
3、組合或增刪生成新的變量,從而對問題狀態進行有效描述.在本文研究的企業數據中,是將客戶的年齡概化為“小于等于30"、“30到50之間”和“大于50”三個年齡段,分別代表青年、中年和老年客戶,將產品價格分為高、中、低三檔等,詳見表1,將企業CRM系統數據庫中銷售及客戶信息匯總為4個屬性2個類別。4個屬性是客戶年齡段、文化程度、銷售地區、產品檔次,類別是銷售業績,分為好和差兩類。表1訓練樣本集合attributeageeducationarealevelclass1<=30Hlowbad2<=30Hhighgood3<=30Hmediumbad4<=30Hhighg
4、ood5<=30Lhighgood6<=30Llowgood7=30Llowgood8<=30Mhighgood9<=30Mmediumgood10<=30Mmediumgood11<=30Mlowgood123151Mmediumgood133151Mmediumgood143151Mlowbad1531-51Hhighgood1631-51Hmediumgood1731-51Hlowgood1831-51Hhighbad193151Hlowbad2031-51Lhighgood213151Llowgood223151Mhighbad2331-51Mhig
5、hgood2450M highbad25>50Mhighbad26>50Mmediumgood表2 訓練數據中各屬性的說明屬性說明age客戶的年齡段education文化程度area業務銷售地區(本地區,外地)level產品檔次class銷售狀況3。 ID3算法分類模型的建立由表1可知:類標號屬性有兩個不同的值,因此有兩個不同的類(即m=2)設類C1對應于good,類C2對應于bad。類good有18個樣本,類bad有8個樣本。為了計算每個屬性的信息增益,先使用,所以初始信息熵為:I(s1,s2) = I(18,8)= 0。8905然后計算客戶年齡、文化程度、產品檔次和銷售區域4個
6、屬性的熵.首先觀察age屬性的每個樣本值的good、bad分布,分別計算每個分布的信息熵:當age=30:s11=9 s21=2時, I(s11,s21)= -當age在 31-50間:s12=8 s22=4時,I(s12,s22)= -當age>=50:s13=1 s23=2時,I(s13,s23)= 若按age劃分樣本,所需的信息熵為:E(age)=0。8192 類似的,可以得到:E(education)= =0。7669E(production)= =0.853E(area)= 通過以上屬性,對當前分支節點進行相應樣本集合劃分,從而獲得的信息增益分別為:Gain(age) = I(
7、s1,s2)- E(age) =0.89050.8192=0。0713Gain(education) = I(s1,s2) E(education) =0.89050.7769=0.1236Gain(production) = I(s1,s2)- E(production) =0.8905-0.853=0.0375Gain(area) = I(s1,s2) E(area) =0.89050.783=0.1075Gain(equipment) =1.576 0。873 = 0.703educationHML從計算結果得到education屬性具有最高信息增益,因此education屬性成為決策樹
8、根節點的測試屬性。如下圖所示:1I <=30 lowbad2I <=30 highgood3<=30 mediumbad4 <=30 highgood15I 3150 highgood16I 3150 medium good17I 31-50 lowgood1831-50 highbad1931-50 lowbad8I =30 highgood9I =30 medium good10=30 mediumgood11I <=30 lowgood12I 3150 mediumgood133150 mediumgood14I 31-50 lowbad22 31-50 h
9、ighbad23I 31-50 highgood24I >=50 highbad25 =50 highbad26I =50 mediumgood5I <=30 highgood6I =30 lowgood7<=30 lowgood20 <=30 highgood21I 31-50 lowgood圖1決策樹根節點的測試屬性在樣本集合中對education屬性的3個取值進行分支,3個分支對應3個子集,分別為:P11,2,3,4,15,16,17,18,19;P28,9,10,11,12,13,14,22,23,24,25,26;P3=5,6,7,20,21其中P3的樣本都為
10、good類,因此對應分支標記為good,P1、P2樣本類別未定,所以需要對P1、P2子集分別遞歸調用ID3算法.在P1中可以求出剩下的age、production、area三個屬性的信息增益。因為area屬性的信息增益最大,所以把屬性area作為該分支的節點,再向下分支, P2處理類似,最后得到的決策樹如下圖所示:productionhighlowgoodbad<=3031-50goodageareaI31-50<=30badageproductionmediumhighbadgoodeducationHMLgood<=30>50badagegood31-50areaI
11、goodbadgoodproductionmediumhighlow<=3031-50badagegood圖2 經數據分類生成的決策樹因此,對于樣本X=(age= “31-50”,education= “low",level= “medium”, area= “I”),ID3算法分類預測其class為good。4。決策樹的生成決策樹的建立是決策樹分類的基礎,以ID3算法為例說明建立決策樹的過程。在決策樹的遞歸構造過程中,在樹的節點上利用特征的信息增益大小作為分支屬性選擇的依據,選擇信息增益最大的特征作為分支屬性。ID3算法描述簡單,分類速度快,適合于大規模數據的處理,具體算法描
12、述如下所示.輸入:訓練樣本samples,候選屬性集合attribute_list輸出:一棵決策樹首先創建節點N,if samples都在同一個類C then 返回N作為葉節點,以類C標記;if attribute_list為空then返回N作為葉節點,標記為samples中最普遍的類,選擇attribute_list中具有最高信息增益的屬性branch_attribute,標記節點N為branch_attribute;遍歷for each branch_attribute中已知的值ai,由節點N長出一個條件為branch_attribute=ai 的分支,設si是samples中branch
13、_attribute=ai的樣本集合,若si為空 then加上一個樹葉,標記為samples中最普遍的類,否則else 加上一個由 generate_decision(si,attribute_list-branch_attribute)返回的節點該算法中屬性的度量標準是在樹的每個節點上使用信息增益度量選擇分支屬性。這種度量選擇具有最高信息增益的屬性作為當前節點的分支屬性.該屬性使得對結果劃分的樣本分類所需的信息量最小。算法的偽代碼描述如下所示。Generate_Decision_Tree(Samples, usable-attribute-list,C) create a new node
14、N;if (all Samples in N are in the class C) return N as a leaf Node labled with 1 as the probability of class C; select test-attribute,the attribute among attributelist with the highest information gain;label node N with testattribute and probability of samples in class C;for each known value ai of t
15、estattribute let si be the set of samples in samples for which testattribute=ai;if (!(si is empty) grow a branch from node N for the condition test-attribute = ai; attach the node Nnew returned byGenerate_Decision_Tree(Si ,attributelisttest-attribute,C);5。決策樹的剪枝在決策樹構造時,許多分支可能反映的是訓練數據中的噪聲或孤立點。為了保證決策樹
16、分類的質量和精確度,必須要修剪所構造的決策樹.通常使用統計度量,剪去最不可靠的分支,這將導致較快的分類,提高樹獨立于測試數據正確分類的能力,目前常采用的剪枝方法主要有減小錯誤修剪法、悲觀錯誤修剪法、基于代價復雜度的修剪法、代價敏感的決策樹修剪方法等。6。由決策樹提取分類規則決策樹可以以 IFTHEN 形式表示分類規則。對從根到樹葉的每條路徑創建一個規則。IFTHEN 規則易于理解,特別是當給定的樹比較大的時候。利用IFTHEN形式的分類規則我們從圖2中提取決策樹中表示的知識,從而便于企業從中發現銷售規律,制定科學有效的營銷策略。(1)IF education= “H" AND are
17、a= “I” OR(area= “") AND age= “=30” AND production= “high” THEN achievement= “good”(2)IF education= “H” AND area= “I” AND age= “31-50” AND THEN achievement= “good”(3)IF education= “H” AND area= “I” AND age= “<=30” AND production= “low” THEN achievement= “bad”(4)IF education= “M” AND productio
18、n= “high” AND age= “=30” OR(age= “31-50" AND area= “I”) THEN achievement= “good"(5)IF education= “M” AND production= “high” AND age= “>=50” OR(age= “31-50” AND area= “”) THEN achievement= “bad”(1)至(3)條分類規則說明該企業的高檔產品對于受過高等教育的本地區的年輕客戶吸引力較大,低檔產品對該類客戶的吸引力較小;該企業的各檔次產品對于本地受過高等教育的中年客戶吸引力均較大。(4)(5)條規則說明企業的高檔產品對于受過中等教育的年輕客戶或本地的中年客戶吸引力較大;高檔產品在受過中等教育的老年客戶或外地區的中年客戶中不太受歡迎.因此該企業的營銷策略可以加大高檔產品在年輕客戶中的推廣力度,同時加大在本地受過高等教育的中年客戶群體中各檔次產品的宣傳,因為他們是該企業的重點客戶群.在外地區針對受過高等中等教育的中老年客戶的銷售業績還有待提高。該企業的產品對于教育程度較低的客戶群銷售業績比較平穩.7。企業CRM
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司背景墻策劃方案
- 公司春季放風箏活動方案
- 公司游園小活動策劃方案
- 公司職稱評審策劃方案
- 公司群體互動策劃方案
- 公司群體性運動活動方案
- 公司節前大掃除活動方案
- 公司知識跨年活動方案
- 公司管理規范年活動方案
- 公司旅游預熱引流活動方案
- 網絡輿情監控管理制度
- 機器試用擔保協議書范本
- 小學生預防拐騙教育課件
- 醫學影像分析-洞察及研究
- 2025至2030中國無線通訊檢測行業市場發展分析及競爭格局與投資機會報告
- 2025年上海徐匯區高一(下)信息技術合格考試題及答案
- 國家開放大學《理工英語1》期末機考題庫
- 少兒財商的培養(課堂)課件
- 暨南大學《馬克思主義基本原理概論》題庫歷年期末考試真題分類匯編及答案
- 青霉素的發現與作用課件
- 2018年專利代理師資格考試科目三-專利代理實務真題及解析
評論
0/150
提交評論