如何深入挖掘數據價值_第1頁
如何深入挖掘數據價值_第2頁
如何深入挖掘數據價值_第3頁
如何深入挖掘數據價值_第4頁
如何深入挖掘數據價值_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講教師:劉巧曼江蘇經貿職業技術學院商務數據分析基礎如何深入挖掘數據價值數據挖掘定義數據挖掘的主要應用場景數據挖掘涉及的主要數學知識基礎數據挖掘的主要算法模型01020304從數據挖掘到機器學習05數據挖掘(DataMining)是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程

數據挖掘定義我們想象一下上海申花和北京國安的比賽在賽前,評論員說在過去的若干場比賽中,上海贏了多少,北京贏了多少,誰誰進了幾個球,上海應該主攻右路,北京應該加強防守。這些都是分析報告那么評論員又說了,根據雙方交手記錄和最近10場的比賽表現,雙方可能會是一個平局,這就是數據挖掘。數據分析VS挖掘的區別數據挖掘定義數據挖掘的例子1.啤酒和尿布經常在一起購買2.根據目前人口的增長情況,在XX市,未來的母嬰市場有250億的空間3.

在門店逗留了12分鐘,喜歡穿著夾克和待帽子的用戶,會購買這雙皮鞋4.根據過去1周特定IP的人們在百度搜索上的新冠病毒關鍵詞來打分,就能知道當地新冠的風險有多大數據挖掘的主要應用場景客戶旅程數據挖掘的主要應用場景發掘潛在客戶01客戶獲取02初始信用評分03客戶價值預測04MarketsEXISITNGNEWNEWEXISITNG發掘潛在客戶01是基于地區、性別和年齡段等粗粒度的指標,結合產品設計定位和目標客戶群體進行匹配初始信用評分03根據客戶的性別、年齡以及居住場所等基本信息對客戶的信用進行預判客戶獲取02運用數據挖掘技術,對營銷人員得到的客戶基本信息進行一個初步篩選,找出購買傾向性較高的客戶進行深度跟蹤營銷客戶價值預測04根據客戶的基本信息進行其價值預測。其中價值既包括以消費水平為代表的直接價值,也包括客戶口碑宣傳的間接價值數據挖掘的主要應用場景050607客戶細分05根據客戶的基本信息,從人口學、工業統計信息、社會狀態、產品使用行為等方面對客戶進行細致的描述交叉銷售06分析產品之間的關聯關系,發現產品銷售中預期不到的模式產品精準營銷07通過分析現有客戶的屬性和產品消費行為,確定響應可能性最大的群體進行營銷數據挖掘的主要應用場景080910行為信用評分08分析的變量加入了客戶產品消費行為的信息,這使得對客戶信用的評估更為準確欺詐偵測09是對客戶(包括內部員工)涉及洗錢、套現、盜用等異常行為進行的偵測,滿足風險監管的需求客戶保留10及時發現客戶在購買產品方面的行為變化和滿意度情況,從而及時更換產品組合數據挖掘的主要應用場景111213客戶關系網11通過對客戶關系網絡結構的分析,可以明確網絡中的重要節點,這對關鍵人營銷有重大意義流失客戶時間判斷12通過對已經流失客戶的存續時間進行分析。一方面可以預判現有客戶流失的高危期,另一方面為提高不同類型客戶的存續時間提供技術支持流失客戶類型判斷13對流失客戶的細分可以對改進產品和服務起到重要的指導作用數據挖掘涉及的主要數學知識基礎線性代數和統計學微積分泛函分析測度理論拓撲學圖論數據挖掘涉及的主要數學知識基礎線性代數和統計學微積分線性代數和統計學代表了機器學習中最主流的兩大類方法的基礎。一種是以研究函數和變換為重點的代數方法,比如降維,特征值提取等,一種是以研究統計模型和樣本分布為重點的統計方法,比如圖模型、信息理論模型等。它們側重雖有不同,但是常常是共同使用的,對于代數方法,往往需要統計上的解釋,對于統計模型,其具體計算則需要代數的幫助。微積分只是數學分析體系的基礎。其基礎性作用不言而喻。機器學習研究的大部分問題是在連續的度量空間進行的,無論代數還是統計,在研究優化問題的時候,對一個映射的微分或者梯度的分析總是不可避免。數據挖掘涉及的主要數學知識基礎泛函分析測度理論泛函分析體現了數學模型從特殊到一般的發展過程。函數在19世紀前期的定義還是數與數的對應關系,空間的概念也只有歐幾里德空間。十九世紀以來,數學的發展進入了一個新的階段,引出了非歐幾何這門新的學科;同時建立并發展了群論;對數學分析的研究又建立了集合論。這些新的理論都為用統一的觀點把古典分析的基本概念和方法一般化準備了條件。泛函分析作為數學分析的分支,將函數擴展到函數與函數之間的關系,乃至任意兩個集合之間的關系,空間則從有限維空間拓展到無限維空間測度理論對于機器學習的意義是根本的,現代統計學整個就是建立在測度理論的基礎之上。在一些統計方面的文章中它們會把統計的公式改用測度來表達,這樣做有兩個好處:所有的推導和結論不用分別給連續分布和離散分布各自寫一遍了,這兩種東西都可以用同一的測度形式表達:連續分布的積分基于Lebesgue測度,離散分布的求和基于計數測度,而且還能推廣到那種既不連續又不離散的分布中去。數據挖掘涉及的主要數學知識基礎拓撲學圖論這是學術中很基礎的學科。它一般不直接提供方法,但是它的很多概念和定理是其它數學分支的基石。看很多別的數學的時候,會經常接觸這樣一些概念:開集,閉集,連續函數度量空間,柯西序列,鄰接性,連續性。很多這些也許在大學一年級就學習過一些,當時是基于極限的概念獲得的。但是看過拓撲學之后,對這些概念的認識會有根本性的拓展圖,由于它在表述各種關系的強大能力以及優雅的理論,高效的算法,越來越受到數據挖掘領域的歡迎。而從目前我所接觸的范圍內,圖論僅在數據結構這門課中提到過。經典圖論,在數據挖掘領域中的一個最重要應用就是圖模型了,它被成功運用于分析統計網絡的結構和規劃統計推斷。例如,分析社交網絡的用戶關系,常用鄰接鏈表和鄰接矩陣綜合表示。在遍歷時也離不開深度優先和廣度優先算法數據挖掘的主要算法模型數據挖掘流程1.商業理解:確定商業目標和數據挖掘目標2.數據理解:收集,描述,研究和驗證數據的意義和質量3.數據準備:選擇,清理,構造,集成和格式化數據4.建立模型:選擇,構建和驗證模型5.模型評估:結果是否合理,是否達到業務目標6.方法實施:將新知識加入到業務流程中數據挖掘的主要算法模型數據挖掘流程數據集被劃分為訓練數據和驗證數據:訓練集用來訓練模型(函數關系),驗證集用來驗證模型是不是準確數據挖掘的評估數據挖掘的主要算法模型典型數據挖掘算法模型決策樹回歸聚類不同屬性或指標的樹形路由多個屬性或指標的空間距離和遠近判斷不同屬性或指標的線性趨勢和未知領域判斷從數據挖掘到機器學習典型數據挖掘算法模型在海量數據量的加持下,我們朝著人工智能的早日實現一步一步的前進。而數據挖掘,成熟于傳統數據時代,面向相對少的數據量。從人的角度來說,數據挖掘常常是數據分析師需要掌握的技能,而機器學習,在當前往往是算法工程師需要解決的問題數據挖掘未來會變為機器學習的一個子集從數據挖掘到機器學習機器學習的定義:就是在有了經驗E的幫助后,機器完成任務T的衡量指標P會變得更好,比如:將郵件歸類為垃圾郵件和非垃圾郵件,(這個是ML的任務T);用戶標記為垃圾郵件、非垃圾郵件的歷史,(這個是ML的經驗E);ML標記垃圾郵件、非垃圾郵件的正確率,(這個是ML的衡量指標P)數據挖掘機器學習數據分析師算法工程師小數據量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論