機器學習原理與實戰-第11章-基于TipDM數據挖掘建模平臺實現航空公司客戶價值分析_第1頁
機器學習原理與實戰-第11章-基于TipDM數據挖掘建模平臺實現航空公司客戶價值分析_第2頁
機器學習原理與實戰-第11章-基于TipDM數據挖掘建模平臺實現航空公司客戶價值分析_第3頁
機器學習原理與實戰-第11章-基于TipDM數據挖掘建模平臺實現航空公司客戶價值分析_第4頁
機器學習原理與實戰-第11章-基于TipDM數據挖掘建模平臺實現航空公司客戶價值分析_第5頁
已閱讀5頁,還剩50頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于TipDM數據挖掘建模平臺實現航空公司客戶價值分析1快速構建航空公司客戶價值分析工程目錄平臺簡介2TipDM數據挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發、基于Python引擎、用于數據分析的開源平臺。平臺提供數量豐富的數據分析組件,用戶可在沒有編程基礎的情況下,通過拖曳的方式進行操作,將數據輸入輸出、數據預處理、挖掘建模、模型評估等環節通過流程化的方式進行連接,幫助用戶快速建立數據分析工程,提升數據處理的效能。平臺簡介平臺的界面如圖所示。平臺簡介以航空公司客戶價值分析案例為例,介紹如何使用平臺實現案例的流程。在介紹之前,需要引入平臺的幾個概念。組件:將建模過程涉及的輸入/輸出、數據探索及預處理、建模、模型評估等算法分別進行封裝,每一個封裝好的算法模塊稱之為組件。工程:為實現某一數據分析目標,將各組件通過流程化的方式進行連接,整個數據分析流程稱為一個工程。模板:用戶可以將配置好的工程,通過模板的方式,分享給其他用戶,其他用戶可以使用該模板,創建一個無需配置組件便可運行的工程。平臺簡介TipDM數據挖掘建模平臺主要有以下幾個特點。平臺算法基于Python引擎,用于數據分析。Python是目前最為流行的用于數據分析的語言之一,高度契合行業需求。平臺已對所有用戶實現開源,用戶可在本地部署平臺,或對平臺進行二次開發,滿足個人使用需求。用戶可在沒有Python編程基礎的情況下,使用直觀的拖曳式圖形界面構建數據分析流程,無須編程。提供公開可用的數據分析示例工程,一鍵創建,快速運行。支持挖掘流程每個節點的結果在線預覽。提供十大類數十種算法組件,包括數據預處理、統計分析、分類、聚類、關聯、推薦等常用數據分析算法,支持查看算法組件源代碼(需本地化部署)。同時提供Python腳本與SQL腳本,快速粘貼代碼即可運行。提供算法組件自定義功能(需本地化部署),用戶可將個人本地編寫的代碼配置到平臺當中,成為算法組件。平臺簡介登錄平臺后,用戶即可看到【首頁】模塊系統提供的示例工程(模板),如下圖所示?!灸0濉磕K主要用于常用數據分析與建模案例的快速創建和展示。通過【模板】模塊,用戶可以創建一個無須導入數據及配置參數就能夠快速運行的工程。同時,用戶可以將自己搭建的數據分析工程生成為模板,顯示在【首頁】模塊,供其他用戶一鍵創建。首頁【數據源】模塊主要用于數據分析工程的數據導入與管理,根據情況用戶可選擇【CSV文件】或者【SQL數據庫】?!綜SV文件】支持從本地導入CSV類型的數據,如圖所示。數據源【SQL數據庫】支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等關系型數據庫導入數據,如圖所示。數據源數據上傳成功后,用戶可以使用數據分享功能,如下圖所示,將搭建工程涉及到的數據分享給其他用戶。數據源其他用戶可在【共享數據源】選項卡內查看到分享給自己的數據,如圖所示,并使用該數據進行數據分析。數據源【工程】模塊主要用于數據分析流程化的創建與管理,如圖所示,通過【工程】模塊,用戶可以創建空白工程,進行數據分析工程的配置,將數據輸入輸出、數據預處理、挖掘建模、模型評估等環節通過流程化的方式進行連接,達到數據分析的目的。工程【系統組件】模塊主要用于數據分析常用算法組件的管理。組件包括輸入/輸出、腳本、數據預處理、統計分析、分類、回歸、聚類、時序模型、模型評估和模型預測,共十大類,如圖所示。系統組件各個類組件的介紹如下。【輸入/輸出】類提供配置數據分析工程的輸入和輸出組件,包括輸入源、輸出源。【腳本】類提供一個代碼編輯框,用戶可以在代碼編輯框中粘貼已經寫好的程序代碼,直接運行,無須再額外配置成組件,包括Python腳本、SQL腳本?!緮祿A處理】類提供對數據進行清洗的組件,包括特征構造、表堆疊、記錄選擇、表連接、新增序列、數據集劃分、類型轉換、缺失值處理、記錄去重、異常值處理、數據標準化、數學類函數、排序、分組聚合、修改列名?!窘y計分析】類提供對數據整體情況進行統計的常用組件,包括數據探索、純隨機性檢驗、相關性分析、單樣本T檢驗、正態性檢驗、雙樣本T檢驗、主成分分析、頻數統計、全表統計、平穩性檢驗、因子分析、卡方檢驗。系統組件【分類】類提供常用的分類算法組件,包括CART分類樹、ID3分類樹、最近鄰分類、樸素貝葉斯、支持向量機、邏輯回歸、多層感知神經網絡。【回歸】類提供常用的回歸算法組件,包括CART回歸樹、線性回歸、支持向量回歸、最近鄰回歸、LASSO回歸?!揪垲悺款愄峁┏S玫木垲愃惴ńM件,包括層次聚類、DBSCAN密度聚類、K-Means聚類?!緯r間模型】類提供常用的時間序列算法組件,包括ARIMA、GM(1,1)、差分。【模型評估】類提供對通過分類算法或回歸算法訓練得到的模型進行評價的組件?!灸P皖A測】類提供對通過分類算法或回歸算法訓練得到的模型進行預測的組件。系統組件通過開源TipDM數據挖掘建模平臺官網,如圖所示。TipDM數據挖掘建模平臺的本地化部署進入Github或碼云開源網站,如圖所示,同步平臺程序代碼到本地,按照說明文檔進行配置部署。TipDM數據挖掘建模平臺的本地化部署平臺官網提供了數量豐富的不同行業的解決方案,主要介紹使用平臺搭建數據分析工程的不同行業的案例,包含【電子商務】【智能設備】【金融保險】類等,如下圖所示,用戶可以根據步驟提示,動手搭建數據分析工程。TipDM數據挖掘建模平臺的本地化部署TipDM數據挖掘建模平臺的本地化部署平臺官網還提供了詳細的幫助資料,包含【操作文檔】【常見問題】【操作視頻】選項卡,如圖所示,用戶可以根據這些資料,輕松入門平臺的使用。TipDM數據挖掘建模平臺的本地化部署1快速構建航空公司客戶價值分析工程目錄平臺簡介2以航空公司客戶價值分析案例為例,在TipDM數據挖掘建模平臺上配置對應工程,展示幾個主要流程的配置過程。案例主要包括以下4個步驟。導入航空公司2012年4月1日至2014年3月31日的數據到TipDM數據挖掘建模平臺。對數據進行探索性分析、數據清洗和數據篩選。對數據進行特征構造和數據標準化等操作。使用K-Means算法構建模型,進行客戶分群??傮w流程在TipDM數據挖掘建模平臺上配置航空公司客戶價值分析案例的總體流程如圖所示。總體流程得到的最終流程如圖所示??傮w流程本章的數據是CSV文件,使用TipDM數據挖掘建模平臺導入該數據,步驟如下。單擊【數據源】模塊,在【新建數據源】下拉項中選擇【CSV文件】,如圖所示。獲取數據單擊選擇文件,選擇案例的數據,在【新建目標表名中】框中填入“air_data”,【預覽設置】項選擇【分頁顯示】,如圖所示,然后單擊【下一步】按鈕。獲取數據在【預覽數據】框中,觀察每個字段的類型及精度,然后單擊【下一步】按鈕。將【ffp_date】字段和【load_time】字段的類型選擇為【字符】,如圖所示。獲取數據字段【avg_discount】的【精度】設置為【6】,如圖所示,單擊【確定】按鈕,即可上傳獲取數據數據上傳完成后,新建一個命名為【航空公司客戶價值分析】的空白工程,配置一個【輸入源】組件,步驟如下在【工程】模塊左下方的【組件】欄中,找到【系統組件】類下的【輸入/輸出】類。拖曳【輸入/輸出】類中的【輸入源】組件至工程畫布中。獲取數據單擊畫布中的【輸入源】組件,然后單擊工程畫布右側【字段屬性】欄中的【數據表】框,輸入“air_data”,在彈出的下拉框中選擇【air_data】,如圖所示。獲取數據右鍵單擊【輸入源】組件,選擇【查看數據】,如圖所示。該數據共有62988條記錄。獲取數據航空公司的數據質量可能尚未達到直接用于建模的程度,可能存在缺失值、異常值等問題。這些問題會導致建立的模型不夠精確,為盡可能地排除干擾因素、保證模型的可靠性,需要進行必要的數據準備。數據準備探索性分析主要是對數據進行描述性統計分析,計算每個屬性的記錄總數、均值、方差、最小值和最大值等指標,步驟如下。拖曳【統計分析】類中的【全表統計】組件至工程畫布中,并與【輸入源】組件相連接。數據準備1.探索性統計單擊畫布中的【全表統計】組件,在工程畫布右側【字段屬性】欄中,單擊【特征】項下的【刷新】按鈕,勾選全部字段,如圖所示。數據準備右鍵單擊【全表統計】組件,選擇【運行該節點】。運行完成后,右鍵單擊【全表統計】組件,選擇【查看數據】,如圖所示。數據準備通過數據探索分析,發現數據中存在缺失值,需要進行數據清洗,步驟如下。拖曳【數據預處理】類中的【缺失值處理】組件至工程畫布中,并與【輸入源】組件相連接。數據準備2.數據清洗單擊畫布中的【缺失值處理】組件,在工程畫布右側【字段屬性】欄中,單擊【特征】項下的【刷新】按鈕,勾選全部字段,如圖所示。數據準備單擊工程畫布右下方的【參數設置】欄,在【處理方法】項中選擇【刪除缺失值】,如圖所示。數據準備右鍵單擊【缺失值處理】組件,選擇【運行該節點】。運行完成后,右鍵單擊【缺失值處理】組件,選擇【查看數據】,如圖所示。經過缺失值處理后,該數據剩下62300條記錄,共有688條記錄被刪除.數據準備通過數據探索性分析,發現數據中存在票價最小值為0、折扣率最小值為0、總飛行公里數大于0的記錄。由于原始數據量大,這類數據所占比例較小,對于問題影響不大,因此進行丟棄處理,步驟如下。拖曳【數據預處理】類中的【記錄選擇】組件至工程畫布中,并與【缺失值處理】組件相連接。單擊【特征】項下的【刷新】按鈕,勾選全部字段。數據準備3.數據篩選單擊工程畫布右下方的【參數設置】欄,然后單擊3次【條件】項下方的【添加】按鈕,添加3個篩選條件。單擊【條件】項下方的【刷新】按鈕。在【條件】項第2列中,3個篩選條件的字段分別選擇【sum_yr_1】【sum_yr_2】和【seg_km_sum】;在【條件】項第3列中,3個篩選條件都選擇【>】;在【條件】項第4列中,3個篩選條件都填入【0】,如圖所示。數據準備運行【記錄選擇】組件右鍵單擊【記錄選擇】組件,選擇【查看數據】,如圖所示。經過記錄選擇后,該數據剩下41516條記錄數據準備由于航空公司會員入會時間的長短在一定程度上能夠影響客戶價值,需要通過特征構造得到航空公司會員入會時長,步驟如下.拖曳【數據預處理】類中的【類型轉換】組件至工程畫布中,與【記錄選擇】組件相連接,目的是將“ffp_date”字段和“load_time”字段的類型由文本類型轉換為日期類型。拖曳【數據預處理】類中的【特征構造】組件至工程畫布中,并與【類型轉換】組件相連接.單擊【特征】項下的【刷新】按鈕,勾選全部字段。特征工程1.特征構造單擊工程畫布右下方的【參數設置】欄,在【新特征名】框中輸入“new”,在【表達式】框中輸入“load_time-ffp_date”,如圖所示。特征工程運行【特征構造】組件,運行完成后,右鍵單擊【特征構造】組件,選擇【查看數據】查看組件數據,如圖所示。字段new為航空公司會員入會時長。特征工程由于屬性間的數據取值范圍差異較大,為了消除量級帶來的影響,需要進行標準化處理,步驟如下。拖曳【數據預處理】類中的【修改列名】組件至工程畫布中,與【特征構造】組件相連接,目的是將“flight_count”、“seg_km_sum”、“last_to_end”、“avg_discount”和“new”這五個字段的名稱分別改為“f”、“m”、“r”、“c”和“l”。拖曳【數據預處理】類中的【類型轉換】組件至工程畫布中,與【修改列名】組件相連接,目的是將“l”字段的類型由文本類型轉換為數值類型。拖曳【數據預處理】類中的【數據標準化】組件至工程畫布中,并與【類型轉換】組件相連接。單擊【特征】項下的【刷新】按鈕,勾選全部字段。特征工程2.數據標準化單擊工程畫布右下方的【參數設置】欄

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論