大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣電大數(shù)據(jù)用戶畫像_第1頁(yè)
大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣電大數(shù)據(jù)用戶畫像_第2頁(yè)
大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣電大數(shù)據(jù)用戶畫像_第3頁(yè)
大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣電大數(shù)據(jù)用戶畫像_第4頁(yè)
大數(shù)據(jù)開發(fā)項(xiàng)目實(shí)戰(zhàn)-基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣電大數(shù)據(jù)用戶畫像_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)廣電大數(shù)據(jù)

用戶畫像1廣電大數(shù)據(jù)用戶畫像開發(fā)目錄平臺(tái)簡(jiǎn)介2TipDM數(shù)據(jù)挖掘建模平臺(tái)是由廣東泰迪智能科技股份有限公司自主研發(fā)、基于Python引擎、用于數(shù)據(jù)分析的開源平臺(tái)。平臺(tái)提供數(shù)量豐富的數(shù)據(jù)分析組件,用戶可在沒(méi)有編程基礎(chǔ)的情況下,通過(guò)拖曳的方式進(jìn)行操作,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評(píng)估等環(huán)節(jié)通過(guò)流程化的方式進(jìn)行連接,幫助用戶快速建立數(shù)據(jù)分析工程,提升數(shù)據(jù)處理的效能。TipDM數(shù)據(jù)挖掘建模平臺(tái)平臺(tái)的界面平臺(tái)的界面如下圖所示。組件:將建模過(guò)程涉及的輸入/輸出、數(shù)據(jù)探索及預(yù)處理、建模、模型評(píng)估等算法分別進(jìn)行封裝,每一個(gè)封裝好的算法模塊稱為組件。工程:為實(shí)現(xiàn)某一數(shù)據(jù)分析目標(biāo),將各組件通過(guò)流程化的方式進(jìn)行連接,整個(gè)數(shù)據(jù)分析流程稱為一個(gè)工程。模板:分享建好的數(shù)據(jù)分析工程,其他用戶可以直接創(chuàng)建并運(yùn)行,這樣的工程稱之為模板。概念平臺(tái)算法基于Python引擎,用于數(shù)據(jù)分析。Python是目前最為流行的用于數(shù)據(jù)分析的語(yǔ)言之一,高度契合行業(yè)需求。平臺(tái)已對(duì)所有用戶實(shí)現(xiàn)開源,用戶可在本地部署平臺(tái),或?qū)ζ脚_(tái)進(jìn)行二次開發(fā),滿足個(gè)人使用需求。用戶可在沒(méi)有Python編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無(wú)須編程。特點(diǎn)提供公開可用的數(shù)據(jù)分析示例工程,一鍵創(chuàng)建,快速運(yùn)行。支持挖掘流程每個(gè)節(jié)點(diǎn)的結(jié)果在線預(yù)覽。提供十大類數(shù)十種算法組件,包括數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析、分類、聚類、關(guān)聯(lián)、推薦等常用數(shù)據(jù)分析算法,支持查看算法組件源代碼(需本地化部署)。同時(shí)提供Python腳本與SQL腳本,快速粘貼代碼即可運(yùn)行。提供算法組件自定義功能(需本地化部署),用戶可將個(gè)人本地編寫的代碼配置到平臺(tái)中,成為算法組件。特點(diǎn)下面將對(duì)平臺(tái)【模板】【數(shù)據(jù)空間】【我的項(xiàng)目】【系統(tǒng)組件】和【個(gè)人組件】5個(gè)模塊進(jìn)行介紹,并對(duì)平臺(tái)的本地化部署方式進(jìn)行介紹。平臺(tái)簡(jiǎn)介登錄平臺(tái)后,用戶即可看到【模板】模塊系統(tǒng)提供的示例工程(模板)。模板【模板】模塊主要用于常用數(shù)據(jù)分析與建模案例的快速創(chuàng)建和展示。通過(guò)【模板】模塊,用戶可以創(chuàng)建一個(gè)無(wú)須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運(yùn)行的工程。同時(shí),用戶可以將自己搭建的數(shù)據(jù)分析工程生成為模板,顯示在【首頁(yè)】模塊,供其他用戶一鍵創(chuàng)建。首頁(yè)【數(shù)據(jù)空間】模塊主要用于數(shù)據(jù)分析工程的數(shù)據(jù)導(dǎo)入與管理,根據(jù)情況用戶可選擇【CSV文件】或者【SQL數(shù)據(jù)庫(kù)】。【CSV文件】支持從本地導(dǎo)入CSV類型的數(shù)據(jù)。數(shù)據(jù)空間【SQL數(shù)據(jù)庫(kù)】支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等關(guān)系型數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)。數(shù)據(jù)空間數(shù)據(jù)上傳成功后,用戶可以使用數(shù)據(jù)分享功能,將搭建工程涉及到的數(shù)據(jù)分享給其他用戶。數(shù)據(jù)源其他用戶可在【共享數(shù)據(jù)源】選項(xiàng)卡內(nèi)查看到分享給自己的數(shù)據(jù),并使用該數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)空間【我的項(xiàng)目】模塊主要用于數(shù)據(jù)分析流程化的創(chuàng)建與管理,通過(guò)【我的項(xiàng)目】模塊,用戶可以創(chuàng)建空白工程,進(jìn)行數(shù)據(jù)分析工程的配置,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評(píng)估等環(huán)節(jié)通過(guò)流程化的方式進(jìn)行連接,達(dá)到數(shù)據(jù)分析的目的。我的項(xiàng)目【系統(tǒng)組件】模塊主要用于數(shù)據(jù)分析常用算法組件的管理,提供Python、R、Spark算法包。系統(tǒng)組件Python算法包提供11類算法,具體如下。【統(tǒng)計(jì)分析】類包括因子分析、全表統(tǒng)計(jì)、正態(tài)性檢驗(yàn)、相關(guān)性分析、卡方檢驗(yàn)、主成分分析、純隨機(jī)性檢驗(yàn)和平穩(wěn)性檢驗(yàn)等。【數(shù)據(jù)預(yù)處理】類包括數(shù)據(jù)標(biāo)準(zhǔn)化、缺失值處理、表堆疊、數(shù)據(jù)篩選、類型轉(zhuǎn)換、修改列名、特征構(gòu)造、數(shù)據(jù)集劃分、主鍵合并、數(shù)據(jù)離散化、排序、頻數(shù)統(tǒng)計(jì)、記錄去重和分組聚合等。【腳本】類包括Python腳本和SQL腳本等。【分類】類包括樸素貝葉斯、支持向量機(jī)、CART分類樹、邏輯回歸、多層感知神經(jīng)網(wǎng)絡(luò)和最近鄰分類等。系統(tǒng)組件【聚類】類包括層次聚類、DBSCAN密度聚類和K均值聚類等。【回歸】類包括CART回歸樹、線性回歸、支持向量回歸和最近鄰回歸等。【時(shí)間序列】類包括ARIMA模型等。【關(guān)聯(lián)規(guī)則】類包括Apriori關(guān)聯(lián)規(guī)則和FP-Growth關(guān)聯(lián)規(guī)則等。【文本挖掘】類包括去除字符、分詞與詞性標(biāo)注、TF-IDF(詞向量化)、HashTrick、word2vec(詞向量化)、doc2vec(詞向量化)、TF-IDF(關(guān)鍵詞提取)、word2vec(關(guān)鍵詞提取)、doc2vec(關(guān)鍵詞提取)和主成分分析等。系統(tǒng)組件【深度學(xué)習(xí)】類包括LeNet-5、AlexNet、VGG-16、LSTM和GRU等。【畫圖】類包括柱狀圖、折線圖、散點(diǎn)圖、餅圖和詞云圖等。系統(tǒng)組件Spark算法包提供7類算法,具體如下。【數(shù)據(jù)預(yù)處理】類包括記錄去重、記錄選擇、數(shù)據(jù)映射、數(shù)據(jù)反映射、數(shù)據(jù)劃分、SQL腳本、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、特征構(gòu)造、表連接、表堆疊、獨(dú)熱編碼和數(shù)據(jù)離散化等。【統(tǒng)計(jì)分析】類包括行列數(shù)目統(tǒng)計(jì)、頻數(shù)統(tǒng)計(jì)、全表統(tǒng)計(jì)、相關(guān)性分析、卡方檢驗(yàn)和主成分分析等。【分類】類包括邏輯回歸、決策樹分類、梯度提升樹分類、樸素貝葉斯分類、隨機(jī)森林分類、線性支持向量機(jī)和多層感知神經(jīng)網(wǎng)絡(luò)等。系統(tǒng)組件【深度學(xué)習(xí)】類包括LeNet-5、AlexNet、VGG-16、LSTM和GRU等。【畫圖】類包括柱狀圖、折線圖、散點(diǎn)圖、餅圖和詞云圖等。系統(tǒng)組件R語(yǔ)言算法包提供8類算法,具體如下。【統(tǒng)計(jì)分析】類包括卡方檢驗(yàn)、因子分析、主成分分析、相關(guān)分析、正態(tài)性檢驗(yàn)、全表統(tǒng)計(jì)、平穩(wěn)性檢驗(yàn)和純隨機(jī)性檢驗(yàn)等。【數(shù)據(jù)預(yù)處理】類包括缺失值處理、異常值處理、表堆疊、主鍵合并、數(shù)據(jù)標(biāo)準(zhǔn)化、記錄去重、數(shù)據(jù)離散化、排序、數(shù)據(jù)集劃分、頻數(shù)統(tǒng)計(jì)、新增序列、字符串拆分、字符串拼接、分組、修改類型、修改列名、特征構(gòu)造、SQL腳本和R腳本等。【分類】類包括樸素貝葉斯、CART分類樹、C4.5分類樹、反向傳播(BackPropagation,BP)BP神經(jīng)網(wǎng)絡(luò)、最近鄰分類、支持向量機(jī)和邏輯回歸等。系統(tǒng)組件【聚類】類包括K均值聚類、DBSCAN密度聚類和系統(tǒng)聚類等。【回歸】類包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和最近鄰回歸等。【時(shí)間序列】類包括ARIMA模型、GM(1,1)灰度預(yù)測(cè)和指數(shù)平滑等。【關(guān)聯(lián)規(guī)則】類包括Apriori關(guān)聯(lián)規(guī)則等。【文本挖掘】類包括Jieba分詞、去除停用詞、余弦相似度、情感詞定位、情感方向修正和LDA主題模型等。系統(tǒng)組件【個(gè)人組件】模塊主要為了滿足用戶的個(gè)性化需求而設(shè)置。用戶在使用過(guò)程中,可根據(jù)自己的需求定制算法,以便使用。目前,【個(gè)人組件】支持通過(guò)Python和R語(yǔ)言進(jìn)行定制,如下圖。個(gè)人組件微信搜索公眾號(hào)“泰迪學(xué)社”或“TipDataMining”關(guān)注公眾號(hào)。關(guān)注公眾號(hào)后,回復(fù)“建模平臺(tái)”,獲取TipDM大數(shù)據(jù)挖掘建模平臺(tái)的訪問(wèn)方式。訪問(wèn)TipDM大數(shù)據(jù)挖掘建模平臺(tái)的方式1廣電大數(shù)據(jù)用戶畫像開發(fā)目錄平臺(tái)簡(jiǎn)介2在TipDM大數(shù)據(jù)挖掘建模平臺(tái)上配置廣電大數(shù)據(jù)用戶畫像項(xiàng)目,主要包括以下4個(gè)步驟。將廣電公司的數(shù)據(jù)導(dǎo)入TipDM大數(shù)據(jù)挖掘建模平臺(tái)。考慮到廣電數(shù)據(jù)的數(shù)據(jù)量占用的計(jì)算資源較多且計(jì)算時(shí)間長(zhǎng),因此平臺(tái)所使用的數(shù)據(jù)是實(shí)驗(yàn)數(shù)據(jù),即從廣電公司提供的5份業(yè)務(wù)數(shù)據(jù)表中分別抽取出部分?jǐn)?shù)據(jù)。對(duì)數(shù)據(jù)進(jìn)行探索性分析。對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)去重和數(shù)據(jù)篩選等操作。利用SVM算法建立分類模型,預(yù)測(cè)用戶是否值得挽留,并實(shí)現(xiàn)用戶挽留標(biāo)簽計(jì)算。廣電大數(shù)據(jù)用戶畫像開發(fā)數(shù)據(jù)探索總流程如下圖。廣電大數(shù)據(jù)用戶畫像開發(fā)數(shù)據(jù)處理總流程如下圖。廣電大數(shù)據(jù)用戶畫像開發(fā)用戶畫像總流程如下圖。廣電大數(shù)據(jù)用戶畫像開發(fā)以賬單信息表mmconsume_billevents.csv為例,使用TipDM大數(shù)據(jù)挖掘建模平臺(tái)演示導(dǎo)入CSV文件,具體步驟如下。單擊【數(shù)據(jù)空間】模塊,在【我的數(shù)據(jù)集】選項(xiàng)卡中單擊【新增數(shù)據(jù)集】按鈕,如下圖。數(shù)據(jù)源配置設(shè)置新增數(shù)據(jù)集的參數(shù),如下圖。等待合并成功后,單擊【確定】按鈕,即可上傳文件。數(shù)據(jù)源配置數(shù)據(jù)上傳完成后,新建一個(gè)名稱為【廣電大數(shù)據(jù)用戶數(shù)據(jù)探索】的空白工程,配置【輸入源】組件,具體步驟如下。在【工程】中【組件】欄中找到【系統(tǒng)組件】→【內(nèi)置組件】→【輸入/輸出】類。拖曳【輸入/輸出】→【輸入源】組件到工程畫布中。單擊畫布中的【輸入源】組件,在工程畫布右側(cè)【參數(shù)配置】欄的【數(shù)據(jù)集】文本框中輸入“mmconsume_billevents”,在彈出的下拉列表中選擇【mmconsume_billevents】選項(xiàng),如下圖。數(shù)據(jù)源配置右鍵單擊【輸入源】組件,選擇【重命名】選項(xiàng),輸入“賬單信息表”,如下圖。數(shù)據(jù)源配置單擊畫布中的【賬單信息表】組件,在工程畫布右側(cè)的【參數(shù)配置】欄中,單擊【文件列表】選項(xiàng)組中的眼睛圖標(biāo),查看數(shù)據(jù)集明細(xì),如下圖。數(shù)據(jù)源配置對(duì)賬單信息表進(jìn)行基本的探索分析,查看數(shù)據(jù)中的記錄數(shù)、字段數(shù)、缺失值個(gè)數(shù)以及重復(fù)值個(gè)數(shù),具體步驟如下。拖曳【大數(shù)據(jù)組件】→【行列統(tǒng)計(jì)】組件到工程畫布中,并與【賬單信息表】組件相連接。數(shù)據(jù)探索1.?dāng)?shù)據(jù)總體探索單擊畫布中的【行列統(tǒng)計(jì)】組件,在畫布右側(cè)的【字段設(shè)置】欄中,單擊【特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段,如下圖。數(shù)據(jù)探索右鍵單擊【行列統(tǒng)計(jì)】組件,選擇【運(yùn)行該節(jié)點(diǎn)】選項(xiàng)。運(yùn)行完成后,右鍵單擊【行列統(tǒng)計(jì)】組件,選擇【查看數(shù)據(jù)】選項(xiàng),查看【行列統(tǒng)計(jì)】組件數(shù)據(jù),如下圖。數(shù)據(jù)探索由于廣電用戶主要來(lái)自家庭用戶,需要探索賬單信息表中是否存在政企用戶及其存在的數(shù)量,具體步驟如下。拖曳【大數(shù)據(jù)組件】→【預(yù)處理】→【分組聚合】組件到工程畫布中,并與【賬單信息表】組件相連接。單擊【特征】選項(xiàng)組中的圖標(biāo),選中全部字段。單擊【分組主鍵】選項(xiàng)組中的循環(huán)圖標(biāo),選中“owner_name”字段。數(shù)據(jù)探索2.異常數(shù)據(jù)探索右鍵單擊【分組聚合】組件,選擇【重命名】選項(xiàng),輸入“政企用戶數(shù)據(jù)探索”。單擊畫布中的【政企用戶數(shù)據(jù)探索】組件,在工程畫布右側(cè)的【字段設(shè)置】欄中,在【聚合函數(shù)】下拉列表框中選擇【count】選項(xiàng),如下圖。數(shù)據(jù)探索右鍵單擊【政企用戶數(shù)據(jù)探索】組件,選擇【運(yùn)行該節(jié)點(diǎn)】選項(xiàng)。運(yùn)行完成后,右鍵單擊【政企用戶數(shù)據(jù)探索】組件,選擇【查看數(shù)據(jù)】選項(xiàng),查看【政企用戶數(shù)據(jù)探索】組件數(shù)據(jù),如下圖。數(shù)據(jù)探索通過(guò)數(shù)據(jù)總體探索發(fā)現(xiàn),賬單信息表中存在重復(fù)記錄數(shù),需要對(duì)數(shù)據(jù)進(jìn)行去重操作,具體步驟如下。拖曳【大數(shù)據(jù)組件】→【預(yù)處理】→【數(shù)據(jù)去重】組件到工程畫布中,并與【賬單信息表】組件相連接。數(shù)據(jù)處理1.?dāng)?shù)據(jù)去重在畫布右側(cè)的【字段設(shè)置】欄中,單擊【特征】選項(xiàng)組中的圖標(biāo),選中全部字段;單擊【去重主鍵】選項(xiàng)組中的圖標(biāo),選中全部字段,如下圖。右鍵單擊【數(shù)據(jù)去重】組件,選擇【運(yùn)行該節(jié)點(diǎn)】選項(xiàng),以運(yùn)行該組件。數(shù)據(jù)處理通過(guò)異常數(shù)據(jù)探索發(fā)現(xiàn),數(shù)據(jù)中存在異常數(shù)據(jù),需要?jiǎng)h除owner_name為EA級(jí)、EB級(jí)、EC級(jí)、ED級(jí)、EE級(jí)的數(shù)據(jù),刪除owner_code為02、09、10的數(shù)據(jù),并保留sm_name為珠江寬頻、數(shù)字電視、互動(dòng)電視、甜果電視的數(shù)據(jù),具體步驟如下。拖曳【大數(shù)據(jù)組件】→【預(yù)處理】→【數(shù)據(jù)過(guò)濾】組件到工程畫布中,并與【數(shù)據(jù)去重】組件相連接。單擊【特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段。數(shù)據(jù)處理2.?dāng)?shù)據(jù)篩選右鍵單擊【數(shù)據(jù)過(guò)濾】組件,選擇【重命名】選項(xiàng),輸入“賬單信息清洗表”。單擊【賬單信息清洗表】組件,在畫布右側(cè)的【過(guò)濾條件1】欄中,單擊【設(shè)置過(guò)濾條件列】選項(xiàng)組中的循環(huán)圖標(biāo),選擇【owner_name】選項(xiàng),在【比較運(yùn)算符】下拉列表框中選擇【notin】選項(xiàng),在【具體比較值】文本框中輸入“EA級(jí),EB級(jí),EC級(jí),ED級(jí),EE級(jí)”,如下圖。數(shù)據(jù)處理單擊畫布右側(cè)的【過(guò)濾條件2】欄,在【邏輯運(yùn)算符】下拉列表框中選擇【and】選項(xiàng),單擊【設(shè)置過(guò)濾條件列】選項(xiàng)組中的循環(huán)圖標(biāo),選擇【owner_code】選項(xiàng),在【比較運(yùn)算符】下拉列表框中選擇【notin】選項(xiàng),在【具體比較值】文本框中輸入“02,09,10”。單擊畫布右側(cè)的【過(guò)濾條件3】欄,在【邏輯運(yùn)算符】下拉列表框中選擇【and】選項(xiàng),單擊【設(shè)置過(guò)濾條件列】選項(xiàng)組中的循環(huán)圖標(biāo),選擇【sm_name】選項(xiàng),在【比較運(yùn)算符】下拉列表框中選擇【notin】選項(xiàng),在【具體比較值】文本框中輸入“珠江寬頻,數(shù)字電視,互動(dòng)電視,甜果電視”。運(yùn)行【數(shù)據(jù)過(guò)濾】組件。數(shù)據(jù)處理(1)用戶電視消費(fèi)水平數(shù)據(jù)用戶電視消費(fèi)水平用于計(jì)算用戶平均每個(gè)月花費(fèi)多少錢購(gòu)買電視產(chǎn)品,這個(gè)特征值可根據(jù)mmconsume_billevents統(tǒng)計(jì)用戶總的消費(fèi)金額并除以3得到,之所以除以3,是因?yàn)槊看斡?jì)算都是取mmconsume_billevents數(shù)據(jù)當(dāng)前時(shí)間的前3個(gè)月的數(shù)據(jù),具體步驟如下。拖曳【大數(shù)據(jù)組件】→【預(yù)處理】→【SQL語(yǔ)句】組件到工程畫布中,并與【賬單信息清洗表】組件相連接。用戶畫像1.預(yù)測(cè)用戶是否挽留右鍵單擊【SQL語(yǔ)句】組件,選擇【重命名】選項(xiàng),輸入“用戶電視消費(fèi)水平”。單擊【用戶電視消費(fèi)水平】組件,在畫布右側(cè)【參數(shù)設(shè)置】欄的【sql語(yǔ)句】文本框中輸入“selectphone_no,sum(should_pay)/3consumefromdatawheresm_namenotlike'%珠江寬頻%'groupbyphone_no”,如下圖。用戶畫像(1)用戶電視消費(fèi)水平數(shù)據(jù)右鍵單擊【用戶電視消費(fèi)水平】組件,選擇【運(yùn)行該節(jié)點(diǎn)】選項(xiàng)。運(yùn)行完成后,右鍵單擊【用戶電視消費(fèi)水平】組件,選擇【查看數(shù)據(jù)】選項(xiàng),查看【用戶電視消費(fèi)水平】組件數(shù)據(jù),如下圖。用戶畫像將用戶的電視入網(wǎng)時(shí)長(zhǎng)數(shù)據(jù)與用戶電視消費(fèi)水平數(shù)據(jù)進(jìn)行表連接,以獲得每個(gè)用戶的電視入網(wǎng)時(shí)長(zhǎng)與電視消費(fèi)水平數(shù)據(jù),具體步驟如下。拖曳【大數(shù)據(jù)組件】→【預(yù)處理】→【表連接】組件到工程畫布中,并分別與【用戶電視入網(wǎng)時(shí)長(zhǎng)】【用戶電視消費(fèi)水平】組件相連接。其中,【用戶電視入網(wǎng)時(shí)長(zhǎng)】組件的數(shù)據(jù)來(lái)源如下:在用戶狀態(tài)信息變更表中,計(jì)算當(dāng)前時(shí)間與每個(gè)用戶的run_time字段最大值的差值,將該差值作為每個(gè)用戶的電視入網(wǎng)時(shí)長(zhǎng)數(shù)據(jù),該流程的詳細(xì)配置過(guò)程可通過(guò)平臺(tái)進(jìn)行查看。用戶畫像(2)用戶電視入網(wǎng)時(shí)長(zhǎng)與用戶電視消費(fèi)水平數(shù)據(jù)右鍵單擊【表連接】組件,選擇【重命名】選項(xiàng),輸入“用戶_時(shí)長(zhǎng)_消費(fèi)_表連接”。單擊【用戶_時(shí)長(zhǎng)_消費(fèi)_表連接】組件,界面右側(cè)將出現(xiàn)工程畫布,在工程畫布的【字段設(shè)置】欄中單擊【左表特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段;單擊【右表特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段;單擊【左表主鍵】選項(xiàng)組中的循環(huán)圖標(biāo),選中“phone_no”字段;單擊【右表主鍵】選項(xiàng)組中的循環(huán)圖標(biāo),選中“phone_no”字段。用戶畫像在工程畫布右側(cè)的【參數(shù)設(shè)置】的【選擇連接方式】下拉列表框中選擇【inner】選項(xiàng),如下圖。用戶畫像右鍵單擊【用戶_時(shí)長(zhǎng)_消費(fèi)_表連接】組件,選擇【運(yùn)行該節(jié)點(diǎn)】選項(xiàng)。運(yùn)行完成后,右鍵單擊【用戶_時(shí)長(zhǎng)_消費(fèi)_表連接】組件,選擇【查看數(shù)據(jù)】選項(xiàng),查看【用戶_時(shí)長(zhǎng)_消費(fèi)_表連接】組件數(shù)據(jù),如下圖。用戶畫像將用戶的電視依賴度數(shù)據(jù)與用戶的電視入網(wǎng)時(shí)長(zhǎng)、電視消費(fèi)水平數(shù)據(jù)進(jìn)行表連接,獲得每個(gè)用戶的電視依賴度、電視入網(wǎng)時(shí)長(zhǎng)與電視消費(fèi)水平這3個(gè)特征,并將其作為判斷用戶是否挽留的特征,具體步驟如下。拖曳【大數(shù)據(jù)組件】→【預(yù)處理】→【表連接】組件到工程畫布中,并與【用戶的電視依賴度】【用戶_時(shí)長(zhǎng)_消費(fèi)_表連接】組件相連接。其中,【用戶的電視依賴度】組件的數(shù)據(jù)來(lái)源為用戶收視行為信息表中每個(gè)用戶平均每天的電視觀看時(shí)長(zhǎng),該流程的詳細(xì)配置過(guò)程可通過(guò)平臺(tái)進(jìn)行查看。用戶畫像(3)用戶是否挽留特征數(shù)據(jù)右鍵單擊【表連接】組件,選擇【重命名】選項(xiàng),輸入“用戶是否挽留特征”。單擊【用戶是否挽留特征】組件,界面右側(cè)將出現(xiàn)工程畫布,在工程畫布的【字段設(shè)置】欄中單擊【左表特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段;單擊【右表特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段;單擊【左表主鍵】選項(xiàng)組中的循環(huán)圖標(biāo),選中“phone_no”字段;單擊【右表主鍵】選項(xiàng)組中的循環(huán)圖標(biāo),選中“phone_no”字段。用戶畫像在工程畫布右側(cè)的【參數(shù)設(shè)置】的【選擇連接方式】下拉列表框中選擇【inner】選項(xiàng),如下圖。用戶畫像右鍵單擊【用戶是否挽留特征】組件,選擇【運(yùn)行該節(jié)點(diǎn)】選項(xiàng)。運(yùn)行完成后,右鍵單擊【用戶是否挽留特征】組件,選擇【查看數(shù)據(jù)】選項(xiàng),查看【用戶是否挽留特征】組件數(shù)據(jù),如下圖。用戶畫像將挽留用戶與用戶是否挽留特征數(shù)據(jù)進(jìn)行表連接,獲得挽留用戶的特征數(shù)據(jù),具體步驟如下。拖曳【大數(shù)據(jù)組件】→【預(yù)處理】→【表連接】組件到工程畫布中,并與【挽留用戶】【用戶是否挽留特征】組件相連接。其中,【挽留用戶】組件中的挽留用戶數(shù)據(jù)來(lái)源如下:在用戶收視行為信息表中,如果用戶的觀看時(shí)長(zhǎng)大于5.26h,且訂單信息表和用戶基本信息表中有該用戶的記錄,那么將這類用戶數(shù)據(jù)歸為挽留用戶數(shù)據(jù),該流程的詳細(xì)配置過(guò)程可通過(guò)平臺(tái)進(jìn)行查看。用戶畫像(4)挽留用戶特征數(shù)據(jù)右鍵單擊【表連接】組件,選擇【重命名】選項(xiàng),輸入“挽留用戶特征數(shù)據(jù)”。單擊【挽留用戶特征數(shù)據(jù)】組件,界面右側(cè)將出現(xiàn)工程畫布,在工程畫布的【字段設(shè)置】欄中單擊【左表特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段;單擊【右表特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段;單擊【左表主鍵】選項(xiàng)組中的循環(huán)圖標(biāo),選中“phone_no”字段;單擊【右表主鍵】選項(xiàng)組中的循環(huán)圖標(biāo),選中“phone_no”字段。用戶畫像在工程畫布右側(cè)的【參數(shù)設(shè)置】的【選擇連接方式】下拉列表框中選擇【inner】選項(xiàng),如下圖。用戶畫像

右鍵單擊【挽留用戶特征數(shù)據(jù)】組件,選擇【運(yùn)行該節(jié)點(diǎn)】選項(xiàng)。運(yùn)行完成后,右鍵單擊【挽留用戶特征數(shù)據(jù)】組件,選擇【查看數(shù)據(jù)】選項(xiàng),查看【挽留用戶特征數(shù)據(jù)】組件數(shù)據(jù),如下圖。用戶畫像將不挽留用戶特征數(shù)據(jù)與用戶挽留特征數(shù)據(jù)進(jìn)行表堆疊,得到一份適用于預(yù)測(cè)用戶是否挽留的數(shù)據(jù)集,具體步驟如下。拖曳【大數(shù)據(jù)組件】→【預(yù)處理】→【表堆疊】組件到工程畫布中,并與【不挽留用戶特征】【挽留用戶特征數(shù)據(jù)】組件相連接。其中,【不挽留用戶特征】組件的數(shù)據(jù)來(lái)源如下:在用戶基本信息表中提取“run_name”字段等于“主動(dòng)銷戶”和“暫停”的不挽留用戶,并統(tǒng)計(jì)不挽留用戶的每月平均消費(fèi)金額、電視入網(wǎng)時(shí)長(zhǎng)和每天平均觀看電視時(shí)長(zhǎng)這3個(gè)特征,由不挽留客戶的3個(gè)特征數(shù)據(jù)構(gòu)成不挽留用戶特征數(shù)據(jù),該流程的詳細(xì)配置過(guò)程可通過(guò)平臺(tái)進(jìn)行查看。用戶畫像(5)表堆疊在右側(cè)工程畫布的【字段設(shè)置】欄中單擊【表一特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段。單擊【表二特征】選項(xiàng)組中的循環(huán)圖標(biāo),選中全部字段。在工程畫布右側(cè)的【參數(shù)設(shè)置】的【合并方法】下拉列表框中選擇【縱向連接】選項(xiàng),如下圖。用戶畫像右鍵單擊【表堆疊】組件,選擇【運(yùn)行該節(jié)點(diǎn)】選項(xiàng)。運(yùn)行完成后,右鍵單擊【表堆疊】組件,選擇【查看數(shù)據(jù)】選項(xiàng),查看【表堆疊】組件數(shù)據(jù),如下圖。用戶畫像特征列和標(biāo)簽列數(shù)據(jù)構(gòu)建完成后,使用SVM算法預(yù)測(cè)用戶是否挽留,具體步驟如下。拖曳【大數(shù)據(jù)組件】→【分類】→【線性支持向量機(jī)】組件到工程畫布中,并與【表堆疊】組件相連接。單擊【線性支持向量機(jī)】組件,在右側(cè)工程畫布的【

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論