市場營銷中的數據分析方法_第1頁
市場營銷中的數據分析方法_第2頁
市場營銷中的數據分析方法_第3頁
市場營銷中的數據分析方法_第4頁
市場營銷中的數據分析方法_第5頁
已閱讀5頁,還剩66頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、市場營銷中的數據分析方法2 6/19/2022報告內容v 原理篇 客戶關系管理中的數量方法v 方法篇 數據分析方法概論 統計分析方法 數據挖掘分析方法v 工具篇 常用數據分析工具簡介v 總結 基本結論3 6/19/2022市場營銷中的數量決策問題 傳統的純粹定性描述方法已遠遠不能滿足現代市場營銷實踐的需要,為了體現市場營銷學本身的科學性和對企業實踐的指導性,數據分析理論與方法在市場營銷學中占有越來越重要的地位。 理論上計量市場營銷學的出現 理念上數據庫營銷、關系營銷的興起 實務上數據挖掘技術在客戶關系管理中的應用 探察數量決策問題的兩個視角 理論上的框架要素 實務上的業務流程4 6/19/20

2、22視角一:市場營銷學的理論框架 核心概念營銷觀念營銷計劃營銷組織營銷控制營銷審計產品策略定價策略分銷策略促銷策略需求分析市場細分目標市場市場定位基礎理論戰略理論策略理論管理理論5 6/19/2022視角一示例:市場營銷中的產品決策 產品定位 定位圖分析(感知定位圖、偏好定位圖等) 新產品擴散與產品生命周期管理 巴斯模型(BASS Model) 生長曲線模型(Growth Curve Model) 品牌決策 消費者品牌選擇模型6 6/19/2022視角二示例:電信業業務流程視圖(eTOM)運營運營實施實施保障保障計費計費運營運營支撐與支撐與就緒就緒客戶關系管理客戶關系管理服務管理與運營服務管理

3、與運營資源管理與運營資源管理與運營供應商供應商/合作伙伴關系管理合作伙伴關系管理(應用, 計算與網絡)企業管理企業管理戰略與戰略與企業企業規劃規劃財務與資產財務與資產管理管理企業質量管理企業質量管理管理管理,過程與過程與IT規劃規劃 & 架構架構股東與外部股東與外部關系管理關系管理品牌管理品牌管理,市場研究市場研究 &廣告廣告人力資源人力資源管理管理災難恢復災難恢復,安全安全 &欺詐管理欺詐管理研究與研究與開發開發,技術技術獲取獲取戰略戰略, 基礎設施基礎設施 & 產品產品產品產品周期周期管理管理基礎設施基礎設施生命周期生命周期管理管理戰略與戰略與承諾承諾營銷營

4、銷 & 產品提供管理產品提供管理服務開發與管理服務開發與管理資源開發與管理資源開發與管理供應鏈開發與管理供應鏈開發與管理(應用, 計算與網絡)客戶客戶7 6/19/2022視角二示例:理解客戶與市場 市場購買行為 消費者購買行為模型 消費者品牌選擇模型 市場需求測量 市場需求預測模型 市場細分8 6/19/2022客戶生命周期與市場營銷策略客戶生命周期客戶生命周期在不同生命在不同生命周期階段需周期階段需考慮不同問考慮不同問題題如何發現并獲取潛在客戶?階段A (Acquisition)客戶獲取如何把客戶培養成高價值客戶?階段B:(Build-up)客戶提升如何使客戶使用新電信產品?如何培

5、養顧客忠誠度?階段C:(Climax)客戶成熟如何延長客戶“生命周期”?階段D:(Decline)客戶衰退如何贏回客戶?階段E:(Exit)客戶離網客戶價值客戶價值多種分析主多種分析主題在不同時題在不同時期應用期應用客戶獲取市場細分與產品定位目標客戶特征識別刺激需求提升銷售交叉銷售目標營銷客戶保持生存分析客戶風險客戶挽留9 6/19/2022客戶細分 細分是指將一個大的消費群體劃分成一個個細分群的動作,同屬于一個細分群的消費者彼此相似,而隸屬于不同細分群的消費者被視為不同。細分的目的可以讓管理者從一個比較高的層次上“鳥瞰”整個數據庫中的數據,從而可以用不同的方法對待處于不同細分群眾的客戶,提供

6、相對個性化的服務。 客戶細分的目的 更好的了解客戶結構 改善客戶管理與溝通 增加客戶貢獻度 客戶細分中的數量方法 聚類分析 卡方自動交互檢測(CHAID)10 6/19/2022營銷策略營銷策略客戶保持客戶保持基于獎賞及高成本事件驅動的保持策略專注的, 區分優先級的Call center支持客戶獲取客戶獲取刻畫子分群的特征建立跟蹤系統(tracking systems)以從價值的角度監控新來的客戶交叉銷售交叉銷售對高價值客戶進行交叉銷售會產生更大的收益經常地, 頭20%的客戶貢獻了將近100% 的整體利潤. 這些客戶對CRM策略開發是至關重要的。示例:基于價值的客戶細分(高價值客戶)11 6/

7、19/2022中間層代表了客戶的大多數. 他們利潤較薄(thin margins)但容量巨大(high volume).營銷策略營銷策略定價與行為改變定價與行為改變識別服務機會 增強可能的定價結構性定價以鼓勵改善收益性的行為交叉銷售交叉銷售利用預測模型識別具有潛在價值的客戶利用事件營銷與關系營銷策略去增加產品的持有量渠道與服務的效率渠道與服務的效率識別高成本/低回報的渠道并重新部署或調整結構定位高成本業務流程以流線化或渠道遷移示例:基于價值的客戶細分(中價值客戶)12 6/19/2022盡管數量很少 (10% to 20%) 但他們消除了很大一部分的利潤. 營銷策略營銷策略改變定價改變定價識別

8、與負利潤相關的定價策略與行為, 鼓勵服務使用與目標定價以增加或引入由服務改變而帶來的可能收入客戶風險客戶風險避免向具有信用風險的客戶進行交叉銷售客戶獲取客戶獲取識別低價值客戶并積極地在獲取過程中避免與這類客戶發生接觸示例:基于價值的客戶細分(低價值客戶)13 6/19/2022 RetirementAgeChildren IndependentWealth AccumulationFirst ChildFirst HomePre-RetirementCareer LaunchIndependenceFinancial DebutEmployment ChangeMarriageHigh Val

9、ue ?High Value ?Low Value ?Low Value ?示例:基于生命階段的客戶細分14 6/19/2022客戶獲取 在大多數商業領域中,業務發展的主要指標里包括新客戶的獲取能力。新客戶的獲取包括發現那些對你的產品不了解的客戶,也包括以前接受你的競爭對手服務的顧客。 客戶獲取中的數量方法 特征識別(Profiling and Penetration Analysis) 響應模型(Response Model)15 6/19/2022客戶保持 隨著行業的競爭越來越激烈和獲得一個新客戶的開支愈來愈大,保持原有客戶的工作愈來愈有價值。 客戶保持中的數量方法 流失預測模型 客戶忠誠

10、度模型16 6/19/2022交叉銷售與提升銷售 交叉營銷是指你向現有的客戶提供新的產品和服務的營銷過程。公司與其客戶之間的商業關系是一種持續的不斷發展的關系,在這種關系建立起來以后,可以有很多種方法來不斷改善這種關系。雙方的目標是達到雙贏的結果,客戶獲益是由于他們得到了更好更貼切的服務質量,商家則因為增加銷售量獲利。 交叉銷售中的數量方法 購買傾向預測 產品關聯分析17 6/19/2022客戶流失 客戶流失預警 分品牌、高/中/低價值、主動/被動構建模型 分類預測數據挖掘模型 客戶挽留流程設計 彩鈴客戶流失預警 分主動/捆綁構建模型 分類預測數據挖掘模型 客戶挽留流程設計 競爭對手流失預警

11、聯通用戶流失預測 客戶挽留流程設計18 6/19/2022交叉銷售與提升銷售 購買傾向預測 彩鈴預測模型 彩信預測模型 WAP預測模型 購物藍分析 產品關聯分析 營銷方案關聯分析 提升銷售 價值提升預測模型19 6/19/2022營銷案預演營銷預演是為了支持業務人員營銷預演是為了支持業務人員制訂新的資費營銷方案,然后制訂新的資費營銷方案,然后對該方案在歷史數據上做相應對該方案在歷史數據上做相應的測算,從而根據測算結果來的測算,從而根據測算結果來指導下一步工作。指導下一步工作。20 6/19/2022營銷活動管理-CMP需求名稱:需求名稱:營銷活動管理(CMP)提出時間:提出時間:2006-01

12、-01需求提出部門:需求提出部門:市場部需求內容描述:需求內容描述:營銷活動管理。通過系統分析定位目標營銷的客戶群,并自動生成客戶群信息進行管理,通過實時跟蹤客戶的營銷情況進行營銷策略的調整,并監控渠道銷售信息。同時營銷活動完成以后進行營銷活動的評估。需求時間計劃:需求時間計劃:計劃06年7月前完成東莞、佛山地市的推廣。需求數據要求:需求數據要求:目前系統數據支撐需求優先級別:需求優先級別:高需求實施難度:需求實施難度:較高要求配合部門:要求配合部門:業務支撐中心、客戶服務部其他說明:其他說明:全省推廣需求,劉鵬負責需求分析和定位:需求分析和定位:屬于05年的需求,已經納入日常維護,今年需要推

13、廣。根據省公司的統一規劃安排。省公司時間規劃:2006年上半年完成省、市二級規劃,東莞和佛山推廣1.2006年上半年完成三個事件營銷21 6/19/2022KPI預測模型需求名稱:需求名稱:KPI預測模型提出時間:提出時間:2006-02-23需求提出部門:需求提出部門:東莞公司需求內容描述:需求內容描述:KPI指標中的收入指標作為核心指標,規劃和預測十分重要。而收入受營銷政策與執行的影響較大,傳統的歷史曲線預測方法與手段不能準確預測當期及下期的收入。實現邏輯:將當期營收款細拆為“當期收入”(如購卡收入、補換卡收入、后付費收入等)與“分期劃扣收入”(充值卡收入、營銷活動預存款收入等)兩個部分。

14、“當期收入”非常穩定,只受季節因素影響,“分期劃扣收入” 結合號碼級數據的消費ARPU可以較為方便地預演推算。 推廣過去,針對KPI指標的重要指標(如收入、業務量等)都可以進行規劃和預測,有效的幫助各部門制定相關的政策策略。需求時間計劃:需求時間計劃:無需求數據要求:需求數據要求:目前系統數據支撐。需求優先級別:需求優先級別:需求級別待定。需求實施難度:需求實施難度:高要求配合部門:要求配合部門:業務支撐中心、市場部其他說明:其他說明:區域接口人負責(劉鵬)需求分析和定位:需求分析和定位:需求可行,可以通過邏輯回歸構建模型實現,具體的建設方案需要與相關人員進行細化和確認。22 6/19/202

15、2個人客戶分群需求名稱:需求名稱:個人客戶分群提出時間:提出時間:2006-02-23需求提出部門:需求提出部門:佛山公司需求內容描述:需求內容描述:每個人作為消費者其對同一種產品的具體功能需求和關注點是不同的,因此作為為用戶服務的企業,必須盡可能的考慮這些差異,發現這些存在于客戶整體內部的具有不同特征或消費習慣的客戶群體,然后再根據每個群體的特征執行針對性的管理或營銷策略。將這個把客戶分成不同群體的過程稱之為“客戶分群”。 通過對客戶合理的類別劃分,并對當前客戶以及預期的客戶群作區段分析,判斷不同區段的突出特點,對客戶總體構成有準確的認識,對客戶的服務和營銷更具針對性。對客戶分群可以達到如下

16、目標:了解客戶的總體構成了解各種客戶價值的客戶群體特征了解流失客戶的客戶群體特征了解使用各種套餐的客戶群體特征了解各消費等級的客戶群體特征需求時間計劃:需求時間計劃:無需求數據要求:需求數據要求:目前系統數據支撐。需求優先級別:需求優先級別:中等需求實施難度:需求實施難度:中等要求配合部門:要求配合部門:業務支撐中心、市場部、數據業務中心其他說明:其他說明:區域接口人負責(劉敏)需求分析和定位:需求分析和定位:需求可行。客戶分類/聚類是根據一個或多個客戶屬性組合把所有客戶劃分成不同的類,同類內的客戶具有最大的相似性,異類間的客戶具有最大的差異性。通過對客戶合理的類別劃分,并對當前客戶以及預期的

17、客戶群作區段分析,判斷不同區段的突出特點,對客戶總體構成有準確的認識,對客戶的服務和營銷更具針對性。對于各種業務(新業務)可以單獨進行客戶的細分,也可按照各種業務的綜合指標進行客戶細分,使市場營銷更具針對性。23 6/19/2022個人客戶價值評估需求名稱:需求名稱:個人客戶價值評估提出時間:提出時間:2006-02-23需求提出部門:需求提出部門:市場部需求內容描述:需求內容描述:有區別的看待個人客戶的差異性,觀察其價值特征變化,綜合考慮成本,用戶成長度,客戶消費等因素,通過建模量化個人客戶對公司的貢獻和價值。客戶價值包括客戶貢獻與客戶成本兩個側面,對于前者,客戶的帳單金額已是很好的衡量指標

18、,但是也需要綜合考慮其他指標(如新業務使用情況、長途或者漫游比例等);而對于后者,由于利用財務數據進行分攤或者活動單位成本進行直接計算還需時日(等待財務部的成本分攤工作完成),故當前階段是處理貢獻類相關指標以供用戶直觀考察。需求時間計劃:需求時間計劃:06年3月廣州數據集市試點需求數據要求:需求數據要求:目前系統數據支撐需求優先級別:需求優先級別:高需求實施難度:需求實施難度:高要求配合部門:要求配合部門:業務支撐中心、財務部其他說明:其他說明:負責人待定需求分析和定位:需求分析和定位:個人客戶價值如果考慮成本分攤,需要等財務部開展的成本分攤完成后才能考慮到地市的實施。24 6/19/2022

19、新產品生命周期分析需求名稱:需求名稱:新產品生命周期分析提出時間:提出時間:2006-02-23需求提出部門:需求提出部門:數據業務中心需求內容描述:需求內容描述:目前地市沒有明確和急需的需求,只是有個這樣的概念和初步的想法。省公司想法是作為一個科研項目來研究和分析,希望能研究一些成果幫助市公司的市場分析和營銷策略。需求時間計劃:需求時間計劃:根據省公司的統一規劃安排。需求數據要求:需求數據要求:目前系統數據支撐需求優先級別:需求優先級別:高需求實施難度:需求實施難度:高要求配合部門:要求配合部門:業務支撐中心、市場部其他說明:其他說明:試點科研項目,鄧逸斌、劉鵬負責需求分析和定位:需求分析和

20、定位:題目比較難,優先級別比較高,先按照省公司的思路和計劃安排走。初步思路進行兩個方面的研究:現有新業務產品的生命周期曲線研究 本研究的內容主要包括構建產品生命周期曲線預測模型并基于相關產品展開數據實證研究,同時對實證結果進行有效的業務解釋并形成合理的政策建議。2.新業務產品生命周期變遷之關鍵績效指標的研究 本研究的內容主要包括分析并總結產品生命周期變遷過程中對階段性轉折點具有前瞻警示作用的業務指標,并在此基礎之上構建切實可行的關鍵指標體系25 6/19/2022報告內容v 原理篇 客戶關系管理中的數量方法v 方法篇 數據分析方法概論 統計分析方法 數據挖掘分析方法v 工具篇 常用數據分析工具

21、簡介v 總結 基本結論26 6/19/2022數量分析方法(Quantitative Analysis) 數量分析是對事物的數量特征、數量關系與數量變化的分析。 數量分析的類型 按照分析的目的 探索性數據分析 描述性數據分析 解釋性數據分析 按照問題的本質 確定性分析 不確定性分析27 6/19/2022數量分析中的模型化方法 數量模型是對現實問題的描述和模仿 模型是為認識目的或實踐目的而建立的 典型的模型化過程準備假設確定數學關系求解分析檢驗應用28 6/19/2022數據分析模型nE.F.Codd的數據分析模型 絕對模型(Categorical Model):依據預定義路徑尋找原因,如查詢

22、 解釋模型(Exegetical Model):依據多層次路徑尋找原因,如多維分析 思考模型(Contemplative Model):參數化路徑,如場景分析 公式模型(Formulaic Model):模型化路徑,如數據挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened ?Why did it happen ?What will happen ?ROI應用復雜性應用復雜性Stage 3Stage 2Stage 1Human DiscoveryMachine-assisted Discovery29 6/19/2022常用的數據分

23、析方法/模型 數量分析是對事物的數量特征、數量關系與數量變化的分析。 數量分析的類型 按照分析的目的 探索性數據分析 描述性數據分析 解釋性數據分析 按照問題的本質 確定性分析 不確定性分析30 6/19/2022認識分析數據:數據測量尺度 名義尺度 有序尺度 間隔尺度 比例尺度31 6/19/2022認識分析數據:數據結構類型 截面數據(Cross-section Data) 時間序列數據(Time-series Data) 面板數據(Panel Data)32 6/19/2022數據分析的出發點:數據矩陣 截面數據(Cross-section Data) 時間序列數據(Time-serie

24、s Data) 面板數據(Panel Data)33 6/19/2022常用的統計分析方法 數據分類分析 聚類分析 判別分析 數據化簡分析 主成分分析 因子分析 數據相關分析 回歸分析 典型相關分析 數據預測分析 時間序列預測34 6/19/2022什么是數據挖掘?DataInformationKnowledgeWisdomn存在太多數據挖掘的定義,但基本上有這樣一種描述結構 To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningf

25、ul 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / data warehouse 、Data + contextInformation + rulesKnowledge + experience35 6/19/2022為什么會出現數據挖掘?n數據爆炸性增長是數據挖掘技術應運而生的根本原因。 只見樹木,不見森林(Drowning in data but starving for information)

26、計算復雜度 數據管理問題 數據類型的多樣性處理大容量數據是數據挖掘技術區別于其他數據分析方法的唯一標志嗎?36 6/19/2022其他數據分析方法:統計學n從處理數據的角度看、 數據規模不同 數據來源不同:觀測數據(Secondary Analysis) VS 試驗數據(Primary Analysis) 數據類型不同(結構化數據、半結構化數據、非結構化數據)n從分析思想的角度看 更關注實證性分析(Empirical Analysis)而非探索性分析(Exploratory Analysis) 更關注模型(Model)而非算法(Algorithm)n但二者具有相當密切的聯系 從數據分析的角度,

27、統計學現在是且仍將是數據挖掘最重要的技術支撐和思想源泉 更加深入的滲透和交叉(如探索性數據分析,EDA)數據挖掘是數據驅動的探索性分析 !37 6/19/2022數據挖掘:多學科的匯合數據挖掘數據庫技術統計學其它學科信息科學機器學習可視化人工智能科學計算38 6/19/2022數據挖掘是一個過程- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)39 6/19/2022數據挖掘過程中的數據預處理n數據清洗 填充缺失值, 修均噪聲數據, 識別或刪除孤立點

28、, 并解決數據不一致問題 主要分析方法:分箱(Binning)、聚類、回歸n數據集成 多個數據庫、數據方或文件的集成n數據變換 規范化與匯總n數據簡化 減少數據量的同時, 還可以得到相同或相近的分析結果 主要分析方法:抽樣、主成分分析n數據離散化 數據簡化的一部分, 但非常重要 (尤其對于數值型數據來說)40 6/19/2022數據挖掘過程中的數據探索n探索性數據分析(Exploratory Data Analysis, EDA) 探索性地查看數據,概括數據集的結構和關系 對數據集沒有各種嚴格假定 “玩”數據n主要任務 數據可視化(a picture is worth a thousand w

29、ords) 殘差分析(數據擬合 + 殘差) 數據的重新表達(什么樣的尺度對數抑或平方跟會簡化分析?) 方法的耐抗性(對數據局部不良的不敏感性,如中位數耐抗甚于均值)n常見方法 統計量,如均值、方差、根方差、協方差、峰度、偏度、相關系數等 統計圖,如餅圖、直方圖、散點圖、箱尾圖等 模型,如聚類41 6/19/2022數據挖掘結果的評價n興趣度度量:一個模式是有意義的,如果它易于被人理解,在某種程度上,對于新數據或者測試數據是有效的、潛在有用或者驗證了用戶渴望確認的某些假設。 目前仍無很好的解決辦法,很大程度上仍依靠人工 不存在解決這個問題的簡單技術,最終答案是不要把數據挖掘當作脫離數據內涵的簡單

30、技術來運用 客觀興趣度:基于統計或模式的結構,如統計量、支持度、lift等 主觀興趣度:基于用戶對數據的確信程度,如意外程度、新奇程度或者可行動性等 過度擬合(Over-fitting)問題42 6/19/2022什么不是數據挖掘?n定量分析(Quantitative Analysis)的需要存在企業管理運行的各個側面或環節,但并非所有的定量分析問題都可以歸結到數據挖掘范疇的問題。 簡單的報表、圖表及多維分析仍是日常分析工作的主要內容 小樣本數據的分析傳統統計分析方法更成熟有效,如趨勢預測 某些特定業務問題無法用數據挖掘算法加以解決,例如資源最優配置問題是個運籌學問題某些物流管理問題或者供應鏈

31、管理問題是個隨機規劃問題營銷預演本質是個系統仿真問題43 6/19/2022幾個基本概念n模型(Model) vs 模式(Pattern) 數據挖掘的根本目的就是把樣本數據中隱含的結構泛化(Generalize)到總體(Population)上去 模型:對數據集的一種全局性的整體特征的描述或概括,適用于數據空間中的所有點,例如聚類分析 模式:對數據集的一種局部性的有限特征的描述或概括,適用于數據空間的一個子集,例如關聯分析n算法(Algorithm):一個定義完備(well-defined)的過程,它以數據作為輸入并產生模型或模式形式的輸出n描述型挖掘(Descriptive) vs 預測型挖

32、掘(Predictive) 描述型挖掘:對數據進行概括,以方便的形式呈現數據的重要特征 預測型挖掘:根據觀察到的對象特征值來預測它的其他特征值 描述型挖掘可以是目的,也可以是手段44 6/19/2022幾類基本的挖掘算法n關聯規則(模式、描述型) 發現數據集中的頻繁模式 例如:buy(x,”diapers”) buy(x,”beers”) 0.5%, 60%n分類與預測(模型、預測型) 發現能夠區分或預測目標變量(唯一的)的規則或者函數 分類的目標變量一般是范疇型的,而預測則是數量型的,并不必然帶有任何時間延續型的暗示 例如:股票市值的預測,病人病情的判斷n聚類(模型、描述型) 對數據分組以形

33、成新類,類標記是未知的 例如:市場細分n孤立點探測(Outlier Detection)(模式、預測型) 分析異常或噪聲數據的行為模式 例如:欺詐檢測45 6/19/2022關聯規則的基本概念n基本定義 給定(1)事務數據集(2)每個事務是數據項的集合,試圖發現項集中的頻繁模式或關聯關系 所謂頻繁模式或者關聯規則就是一個具有“A B”形式的邏輯蘊涵式 頻繁模式并不必然蘊涵著因果關系或相關關系! 算法實現基本上基于APRIORI法則:頻繁項集的所有非空子集一定也是頻繁(Frequent)的n基本分類 布爾關聯規則 vs 定量關聯規則buy(x,”diapers”) buy(x,”beers”)A

34、ge(x,”30.39”) income(x,”42k.48k”) buy(x,”PC”) 單維關聯規則 vs 多維關聯規則 單層關聯規則 vs 多層關聯規則Age(x,”30.39”) income(x,”42k.48k”) buy(x,”IBM PC”) 序列模式(Sequence Pattern)數據項是一個包含時間標簽的序偶item(i),t46 6/19/2022關聯規則的度量n發現具有最小置信度和支持度的全部規則 X Y Z 支持度(support), s, 事務中包含X & Y & Z的概率 置信度(confidence), c, 事務中包含X & Y的條

35、件下, 包含Z的條件概率n令最小支持度為50%, 最小置信度為50%, 則有A C (50%, 66.6%)C A (50%, 100%)顧客購買尿布顧客購買尿布顧客購買兩者顧客購買兩者顧客購買啤酒顧客購買啤酒47 6/19/2022對支持度與置信度的批判n示例 總共5000名學生, 其中3000人玩籃球3750人吃谷類食品2000人既玩籃球又吃谷類食品play basketball eat cereal 40%, 66.7% 是一個誤導規則, 因為吃谷類食品的學生占學生總數的75%, 比66.7%更高play basketball not eat cereal 20%, 33.3% 其實是一

36、個更精確的規則, 盡管它的支持度和置信度都比較低48 6/19/2022關聯規則的應用n市場購物籃分析(Market Basket Analysis) 例如一個事務是客戶的一個購物清單,同一客戶的兩份清單被認為是兩個不同的事務 數據項是所有可能陳列貨物的全集 目標是發現同時出現的貨品組合間的關聯模式 應用:商品貨價設計、倉儲規劃、網頁布局、產品目錄設計等等n交叉銷售(Cross Selling) 客戶依次購買不同產品的序列 目標是發現在購買某一產品組合之后客戶可能購買的另一產品或服務 應用:網絡故障分析、網站門戶設計等49 6/19/2022分類問題的基本定義n給定一數據集合(訓練集) 數據記

37、錄由一系列變量組成 其中有一個變量是目標分類標簽n尋找一模型,使目標分類變量值是其他變量值的一個函數n利用上述函數,一未知分類變量值的數據記錄能夠盡可能準確地被判定到某一類別中去 一般會有另一獨立地數據集(測試集)用以驗證所構建分類函數的準確性,避免過度擬合50 6/19/2022分類過程示意訓練集訓練集分類學習分類學習訓練集訓練集分類器分類器IF rank = professorOR years 6THEN tenured = yesJef is YES!51 6/19/2022分類中的決策樹(Decision Tree)歸納n決策樹 類似于流程圖的樹型結構 內部節點代表對某個屬性的一次測試

38、 分支代表測試的輸出結果 葉節點代表分類標簽或分布n決策樹的生成包括兩個階段 樹的創建首先, 所有訓練樣本都位于根節點遞歸地基于選擇屬性來劃分樣本集 樹的修剪識別并刪除那些反映噪聲或孤立點的分支n應用決策樹: 對未知樣本進行分類 在決策樹上測試樣本的各個屬性值52 6/19/2022決策樹示意age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40n示例:是否購買計算機? 53 6/19/2022聚類的基本概念n基本定義 將數據對象集劃分成事先未知的分組或類別 聚類的原則:類內相似度高,類間相似度低 相似度

39、一般為某種距離函數D(i,j) 聚類既可以作為獨立分析工具考察數據分布結構,也可以作為其他分析方法的預處理步驟 很不幸,對聚類結果的評價一般都是主觀的n基本分類 將數據對象集劃分成事先未知的分組或類別54 6/19/2022聚類示意n 基于歐氏距離的三維空間中的聚類)|(|),(222jzizjyiyjxixjidA1A2B1xyz55 6/19/2022從算法到應用56 6/19/2022報告內容v 原理篇 客戶關系管理中的數量方法v 方法篇 數據分析方法概論 統計分析方法 數據挖掘分析方法 其他分析方法v 工具篇 常用數據分析工具簡介v 總結 基本結論57 6/19/2022數據分析軟件數

40、據分析軟件的種類數據分析軟件的種類 按照分析模式 統計分析軟件 數據挖掘軟件 OLAP軟件 科學計算軟件 按照分析范圍 通用分析軟件 專用分析軟件 按照分析規模 企業級分析軟件 桌面級分析軟件58 6/19/2022數據分析軟件的基本特點 功能全面,系統地集成了多種成熟的數據分析方法 有完善的數據定義、操作和管理功能 方便地生成各種統計圖形和統計表格 使用方式簡單、靈活,有完備的聯機幫助功能 軟件開放性好,能方便地和其他軟件進行數據交換59 6/19/2022學習使用統計分析軟件的基本方法 弄清分析的目的 正確收集待處理和分析的數據(目的、影響因素的剔除) 弄清分析方法的概念、含義和適用范圍。

41、無需記憶公式 選擇一種或幾種分析方法來探索性地分析數據 讀懂計算機分析的數據結果,發現規律,得出結論60 6/19/2022SAS:The Power to Know SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統;目前國際上最流行的一種大型統計分析系統;統計分析的標準軟件 SAS系統主要完成以數據為中心的四大任務:數據訪問;數據管理;數據呈現;數據分析。 它由數十個專用模塊構成,SAS/STAT(統計分析);SAS/ETS(經濟計量與時間序列分析);SAS/QC(質量控制管理);SAS/OR(運籌學);SAS/IML(矩陣運算);SA

42、S/GRAPH(繪圖)等61 6/19/2022SPSS:Real Stat, Real Easy SPSS(Statistical Package for the Social Science)社會科學統計軟件包是世界是著名的統計分析軟件之一。 SPSS for Windows是一個組合式軟件包,它集數據整理、分析功能于一身。用戶可以根據實際需要和計算機的功能選擇模塊,以降低對系統硬盤容量的要求,有利于該軟件的推廣應用。 SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等等。SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數

43、據簡化、生存分析、時間序列分析、多重響應等幾大類,每類中又分好幾個統計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權估計、兩階段最小二乘法、非線性回歸等多個統計過程,而且每個過程中又允許用戶選擇不同的方法及參數。SPSS也有專門的繪圖系統,可以根據數據繪制各種圖形。62 6/19/2022報告內容v 原理篇 客戶關系管理中的數量方法v 方法篇 數據分析方法概論 統計分析方法 數據挖掘分析方法v 工具篇 常用數據分析工具簡介v 總結 基本結論63 6/19/2022總結總結 關鍵是業務問題的發現及其構建以及切實迎合業務需要 從分析方法的角度切入討論只

44、是手段而非目的 方法還是很重要的 方法應該是最不會成為問題的 方法是個工具箱關于Teradata65 6/19/20222005 Revenue by Business UnitTeradata Data WarehouseRetail SolutionsFinancial Solutions Worldwide Customer ServicesSystemediaNCR公司概貌 Fortune 500 company Global operations in over 100 countries & territories More than 28,000 employees $6

45、B revenue Non-pension operating income 3 point improvement to 9%66 6/19/202250% of Top Global Retailers 60% of Top Most Admired Global Companies 90% of Top Global Telco Firms60% of Top Global Airlines50% of the Top Transportation Logistic FirmsTeradata在Fortune500中的優異表現Leading industries Banking Gove

46、rnment Insurance & Healthcare Manufacturing Retail Telecommunications Transportation Logistics Travel World class customer list More than 800 customersGlobal presence Over 100 countries and territories FORTUNE Global Rankings, July 2005Top Ten Ranking in Fortune 50067 6/19/2022分析型CRM是擅長之一RetailF

47、inancial TravelCommunications InsuranceManufacturing/SourcingUnion Bank of Norway68 6/19/2022Technology ROI Awards Harrahs - Grand Prize Winner State of Iowa - Winner, Public SectorTDWI Best Practices Award Enterprise Data Warehouse: Union Pacific Government & Non-profit: State of MichiganWorld

48、Class Solution Awards Jefferson County Public Schools, winner- Data Management category; GCN Agency Awards US Air Force Knowledge Systems, Material Systems Group/Enterprise Systems DivisionNCDM Database Excellence Award Fubon Financial Holding Company (Taiwan) - Silver AwardCIO Magazine Enterprise V

49、alue Awards Continental Airlines, Winner - Transportation Ace Hardware, Winner - Retail/WholesaleIntelligent Enterprise Editors Choice Awards Teradata named one of Intelligent Enterprise Dozen Most Influential CompaniesDM Review 100 Teradata - industry leader in business intelligence, data warehousing and analytics market CRM Market Leader Teradata - Market Leader in CRM Analytics categoryBest Practices in Busi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論