數據挖掘算法及軟件介紹_第1頁
數據挖掘算法及軟件介紹_第2頁
數據挖掘算法及軟件介紹_第3頁
數據挖掘算法及軟件介紹_第4頁
數據挖掘算法及軟件介紹_第5頁
已閱讀5頁,還剩41頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘算法及軟件介紹第一頁,共四十六頁,2022年,8月28日Page2主要內容一、數據挖掘概念及流程二、數據挖掘方法分類介紹

二-1、分類算法及案例二-2、聚類分析及案例二-3、關聯規則及案例二-4、時間序列分析及案例二-5、回歸分析及案例二-6、異常分析及案例二-7、文本挖掘二-8、推薦系統三、常用數據挖掘軟件介紹四:數據挖掘和分析應避免的誤區誤區第二頁,共四十六頁,2022年,8月28日Page3一、數據挖掘概念及流程數據挖掘(DataMining)就是對觀測到的數據集(經常是龐大的、不完全的、有噪聲的、模糊的、隨機的)進行分析,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,目的是發現未知的關系和以數據擁有者可以理解并對其有價值的新穎方式來總結數據。第三頁,共四十六頁,2022年,8月28日數據清理篩選數據目標數據預處理及變換變換后的數據數據挖掘解釋/評估一、數據挖掘概念及流程Page4第四頁,共四十六頁,2022年,8月28日二:數據挖掘方法分類介紹數據挖掘聚類分析預測K-meansK-中心點算法分類分析KNN算法Bayes算法時間序列統計回歸分類算法決策樹神經網絡相關性分析回歸分析關聯規則Apriori算法線性回歸邏輯回歸序列模式挖掘異常分析非時間序列SLIQC4.5CARTCHAID概率回歸統計分析方差、極差、偏度等統計特征值異常點分析Page5時間序列決策樹算法第五頁,共四十六頁,2022年,8月28日Page6挖掘模式預測型(Predictive)描述型(Descriptive)實際功能分為以下幾種模式:分類:對沒有分類的數據進行分類;預測:用歷史來預測未來;關聯分析:關聯規則;聚類:物以類聚;序列模式:在多個數據序列中發現共同的行為模式;異常分析:從數據分析中發現異常情況。文本數據挖掘:從大量文字中尋找共性進行分析。二:數據挖掘方法分類介紹第六頁,共四十六頁,2022年,8月28日Page7二-1:分類算法及案例分析分類:

預測種類字段基于訓練集形成一個模型,訓練集中的類標簽是已知的。使用該模型對新的數據進行分類預測:

對連續性字段進行建模和預測。典型應用信用評分DirectMarketing醫療診斷性用卡欺詐判斷第七頁,共四十六頁,2022年,8月28日客戶ID年齡學歷是否有房是否結婚變量5變量6變量7……是否欺詐訓練數據119中專無11230大學有00328高中有01測試數據440大學有10518中專無11633大學無11客戶ID年齡學歷是否有房是否結婚變量5變量6變量7……是否欺詐需要判斷的新數據727高中有0?848高中無1?934大學有1?需要的歷史數據表需要判斷的新業務數據表結論:可以得出ID為7的客戶卡屬于欺詐的可能性為90%,ID為8和9的客戶不是欺詐的可能性為95%。二-1:分類算法及案例分析Page8第八頁,共四十六頁,2022年,8月28日二-1:分類算法及案例分析Page9年齡overcast學歷?是否結婚?010118<=2230-351001023-30決策樹第九頁,共四十六頁,2022年,8月28日結論規則:第一類:年齡在18-35歲之間,學歷是高中,還沒有住房的人群,可能發生信用卡欺詐的概率是97%.第二類:年齡在23-45歲之間,學歷是本科,有住房的人群,可能發生信用卡欺詐的概率是1%.第三類:年齡在30-55歲之間,學歷是小學,無住房的人群,可能發生信用卡欺詐的概率是80%.

根據規則去執行相應的措施和政策方針:一:第一類和第三類人群,不通過信用卡審批或者降低信用卡額度,增加調查力度。二:信用卡用戶的營銷策略,按使用情況和年限增加額度.業務主要針對此類人群宣傳或者增加第二類信用卡用戶的比率。

二-1:分類算法及案例分析Page10第十頁,共四十六頁,2022年,8月28日

行業應用:1)城市綜合環境質量評價2)保險、醫療、信用卡等等反欺詐模型3)客戶、企業信用評級模型4)公安犯罪預警預測5)氣候分類、農業區劃、土地類型劃分中有著廣泛的應用二-1:分類算法及案例分析Page11第十一頁,共四十六頁,2022年,8月28日Page12二-2:聚類分析及案例簇(Cluster):一個數據對象的集合聚類分析把一個給定的數據對象集合分成不同的簇;在同一個簇(或類)中,對象之間具有相似性;不同簇(或類)的對象之間是相異的。聚類是一種無監督分類法:沒有預先指定的類別;典型的應用作為一個獨立的分析工具,用于了解數據的分布;聚類之后分析異常數據;作為其它算法的一個數據預處理步驟;第十二頁,共四十六頁,2022年,8月28日Page13二-2:聚類分析及案例聚類方法也常用于進行異常數據鑒別。第十三頁,共四十六頁,2022年,8月28日Page14二-2:聚類分析及案例案例背景

隨著現代人力資源管理理論的迅速發展,績效考評技術水平也在不斷提高。績效的多因性、多維性,要求對績效實施多標準大樣本科學有效的評價。對企業來說,對上千人進行多達50~60個標準的考核是很常見的現象。但是,目前多標準大樣本大型企業績效考評問題仍然困擾著許多人力資源管理從業人員。本案例將列舉某企業的具體情況確定適當的考核標準,采用主成分分析以及聚類分析方法,比較出各員工績效水平,從而為企業績效管理提供一定的科學依據。第十四頁,共四十六頁,2022年,8月28日Page15二-2:聚類分析及案例職工代號工作產量工作質量工作出勤工砟損耗工作態度工作能力19.689.628.378.639.869.7428.098.839.389.799.989.7337.468.736.745.598.838.4646.088.255.045.928.338.2956.618.366.677.468.388.1467.698.856.447.458.198.177.468.935.77.068.588.3687.69.286.758.038.688.2297.68.267.57.638.797.63107.168.625.727.118.198.18116.048.173.958.088.248.65126.277.9434.527.167.81136.618.54.345.618.528.36147.398.445.925.378.837.47157.838.793.855.358.588.03167.368.535.397.098.238.04177.248.614.693.989.048.07186.498.034.567.188.548.57195.437.674.223.878.417.6204.577.42.963.028.747.97216.438.384.874.878.788.37225.887.893.876.348.378.19233.946.912.976.778.178.16244.827.33.075.876.326.01254.027.262.285.639.669.07263.876.962.794.925.326.23274.157.51.564.818.448.38284.997.522.116.238.38.14表——某企業28位職工績效考評結果第十五頁,共四十六頁,2022年,8月28日Page16二-2:聚類分析及案例聚類分析結論:

表中可以看到第一類別的樣本的工作績效成績得分最高,其次是第二類別、第三類別,得分最低的是第四類別,因此,根據我們可以把最終的分類結果和計劃分類結合起來,即:(1)“優秀”為第一類,包括職工1、2;(2)“良好”為第二類,包括職工3、4、5、6、7、8、9、10、11、13、14、15、16、17、18、21、22;(3)“及格”為第三類,包括職工12、19、20、23、25、27、28;(4)“不及格”為第四類,包括職工24、26。決策建議:1、針對不同的員工決定績效工資、獎金等。2、針對不同的員工類別安排不同性質的工作。注釋:數據挖據方法經常混合使用,比如這里先進行聚類分析,得出了員工績效判別的4種方式,然后新進員工績效考核則可以在此基礎上進行分類分析,判別此員工屬于哪一類型。第十六頁,共四十六頁,2022年,8月28日Page17二-2:聚類分析及案例零售業將經常同時購買的數據項聚類到一起有利于改善商品的布置,提高銷售利潤。將具有相似的購買模式的顧客聚類到一起,分析每一類顧客的特征,有利于對特定的顧客群進行特定商品的宣傳和銷售保險對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶;醫療分析對一組新型疾病聚類,得到每類疾病的特征描述,一些特定的癥狀的聚集可能預示一個特定的疾病分類。城市規劃-根據類型、價格、地理位置等來劃分不同類型的住宅;傳統制造業-成本控制社保行業中如:1、具有什么樣特征的人群醫療欺詐的幾率大?然后應該怎么樣制定政策去應對此類人群?2、具有什么樣特征的人群醫療費用高,高多少?然后制定什么樣的政策去降低醫療費用高的人群的自費負擔?比如當前的55歲以上人群的醫保個人賬戶劃入比例是55歲以下的高,這個年齡間隔的判斷依據就是分群的分類。

第十七頁,共四十六頁,2022年,8月28日二-3:關聯規則及案例Page18關聯規則挖掘:在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性、或因果結構。應用:購物籃分析、交叉銷售、產品目錄設計、賠本銷售分析(loss-leaderanalysis)、聚集、分類等。舉例:規則形式:“Body?Head[support,confidence]”.buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)?grade(x,“A”)[1%,75%]第十八頁,共四十六頁,2022年,8月28日二-3:關聯規則及案例

沃爾瑪現有五種商品的交易記錄表,用關聯分析方法試找出三種商品關聯銷售情況,最小支持度>=50%。Page19買尿布的客戶二者都買的客戶買啤酒的客戶第十九頁,共四十六頁,2022年,8月28日二-3:關聯規則及案例算法結論:第一類:30%的人群同時購買了牛奶,礦泉水和筆;第二類:20%的人群同時買了尿布、啤酒;而在買尿布的人群中40%的人同時買了啤酒。業務調查和分析:1、第一類不合理。牛奶和礦泉水本身都屬于飲品類,功能不同,給消費者的感受也不同,當需求不同時,買礦泉水的人可能不會再去買牛奶,因為礦泉水比牛奶更能達到解渴的效果。2、按常規思維,尿布與啤酒風馬牛不相及,產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而他們中有30%到40%的人同時也為自己買一些啤酒。決策建議:把啤酒和尿布放在靠近的位置出售,達到的效果:此后兩者的銷售額都提高了2-3倍。Page20第二十頁,共四十六頁,2022年,8月28日二-3:關聯規則及案例行業案例:1)超市產品組合分析(產品的互相擺放和針對性銷售);2)讀者行為分析,書籍推薦(如互聯網京東、淘寶上的各種產品的推薦);3)保險行業的保險產品推薦。Page21第二十一頁,共四十六頁,2022年,8月28日二-4:時間序列分析及案例

時間序列分析:描述時間序列數據隨時間變化的數據的規律或趨勢,并對其建模。包括時間序列趨勢分析、周期模式匹配等。例如:通過對交易數據的演變分析,可能會得到"89%情況股票X上漲一周左右后,股票Y會上漲"這樣一條序列知識。歷史往往是重復過去的故事加上一定的變化規律。應用場景:預測未來。Page22第二十二頁,共四十六頁,2022年,8月28日一次指數平滑

(例題分析)Page23一次指數平滑

(例題分析)第二十三頁,共四十六頁,2022年,8月28日二-4:時間序列分析及案例案例:某企業1992年~2006年的銷售收入時間序列如下表所示.試用時間序列算法預測2008年的銷售收入,并計算預測的標準誤差。

時間

19921994199619982000200220042006銷售收入(萬元)50000.860574.687306.9120649.8139241153772201816231892.7Page24第二十四頁,共四十六頁,2022年,8月28日二-4:時間序列分析及案例

結論:2008年的預測值為261840萬元,公司可以根據預測收入來進行下一年政策的調整和各種財務預算的調整工作。Page25第二十五頁,共四十六頁,2022年,8月28日二-4:時間序列分析及案例行業案例:可用于任何行業時間序列數據。各種保險基金收支結的預測股票價格和波動預測廠家的材料、成本、銷售額等預測航班旅客成行率的預測中國年底總人口預測中國城鎮人口預測中國GDP的預測(不變價格)中國航空運輸年度總周轉量的預測中國航空運輸月度總周轉量的預測Page26第二十六頁,共四十六頁,2022年,8月28日二-5:回歸分析及案例Page27

回歸分析是對具有因果關系的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。第二十七頁,共四十六頁,2022年,8月28日二-5:回歸分析及案例Page28第二十八頁,共四十六頁,2022年,8月28日二-5:回歸分析及案例Page29算法結果:物流人才需求量=-28+25*職工總人數結論:只要知道當地職工總人數,則可以估算出當地所需要的物流人才(類似的如需要多少公務人員,需要多少社保管理人員,需要多少警察等)。社保方面:類似醫療保險總費用和當地人口之間的關系,各類社保基金收入和當地經濟情況之間的關系等等。第二十九頁,共四十六頁,2022年,8月28日二-5:回歸分析及案例案例描述:消費是宏觀經濟必不可少的環節,完善消費模型可以為宏觀調控提供重要的依據。下面給出了我國20年的人均消費性支出、人均現金收入和人均實物收入的數據,對其三者之間的關系可以利用回歸的方法進行分析研究。Page30第三十頁,共四十六頁,2022年,8月28日二-5:回歸分析及案例Page31第三十一頁,共四十六頁,2022年,8月28日二-5:回歸分析及案例

模型結論:在人均實物收入不變的情況下每增加1元人均現金收入,則人均消費支出將增加0.5762元,人均實物收入同理增長方式。這樣的話如果有當地人均現金收入和人均實物收入的數據就可以估算人均消費性支出。

Page32通過一定的算法使用歷史數據得出模型結果為:

第三十二頁,共四十六頁,2022年,8月28日二-5:回歸分析及案例實用案例:1、城市居民家庭人均可支配收入與儲蓄存款關系的分析;2、鑄造廠產品成本分析;3、個人所得稅和GDP的關系分析;4、居民家庭教育支出和消費性支出之間的關系。Page33第三十三頁,共四十六頁,2022年,8月28日二-6:異常分析及案例

異常分析:異常值outlier:一組測定值中與平均值的偏差超過兩倍標準差的測定值。與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。對某些行業來說,異常數據反而有比較高的分析價值,針對異常數據分析出原因,可以更好的制定策略和方針。比如金融行業的金融欺詐、信用卡欺詐,保險行業的保險欺詐、警察部門的犯罪嫌疑人甄別等等。

異常數據挖掘的核心在于合理描述異常的類型,并用算法精確描述;比如異常類型包括:數值過大或過小、數值頻率太高或太小、行為異常(欺詐)等等。Page34第三十四頁,共四十六頁,2022年,8月28日二-6:異常分析及案例Page35第三十五頁,共四十六頁,2022年,8月28日通過異常值判別法得到表2,再經過關聯分析得出表4的結果。結論:TCH話務高一定導致SDCCH話務高,但是SDCCH話務高,TCH話務量卻不一定高。這與實際相符。目的:找出異常數據,分析異常數據的產生原因,以此進行相關業務政策調整。二-6:異常分析及案例Page36第三十六頁,共四十六頁,2022年,8月28日行業案例:1、電信、保險、銀行中的欺詐檢測與風險分析2、發現電子商務中的犯罪行為3、災害氣象預報4、稅務局分析不同團體交所得稅的記錄,發現異常模型和趨勢6、海關、民航等安檢部門推斷哪些人可能有嫌疑7、7、海關報關中的價格隱瞞8、營銷定制:分析花費較小和較高顧客的消費行為9、醫學研究中發現醫療方案或藥品所產生的異常反應10、計算機中的入侵檢測11、運動員的成績分析二-6:異常分析及案例Page37第三十七頁,共四十六頁,2022年,8月28日文本數據挖掘(TextMining)是指從文本(文字)數據中抽取有價值的信息和知識的計算機處理技術。應用1、基于內容的搜索引擎,代表性的系統有百度、google、北京大學天網、京東、淘寶等。2、信息自動分類,比如智多星中文文本分類。3、自動問答、機器翻譯。4、文本分析已經涉足到醫療、輿情、金融等方面。二-7:文本挖掘Page38第三十八頁,共四十六頁,2022年,8月28日推薦算法的本質是通過一定的方式將用戶和物品聯系起來,從而有效的給用戶推薦本身感興趣或需要但是沒有發現的物品。個性化推薦系統的應用場景:電子商務(據說Amazon35%的銷售額來自推薦系統)、電影和視頻網站、個性化音樂網絡電臺、社交網絡、個性化閱讀、基于位置的服務、個性化郵件、個性化廣告(上下文廣告、搜索廣告、個性化展示廣告)。二-8:推薦系統Page39第三十九頁,共四十六頁,2022年,8月28日三:常用數據挖掘工具Page40右側是2012年數據挖掘工具排行,值得注意的是,今年排名前五名的數據挖掘工具中有四個是開源軟件。此外R還擊敗SQL和Java,在最受歡迎的數據挖掘應用編程語言排行榜中排名第一。第四十頁,共四十六頁,2022年,8月28日三:常用數據挖掘工具Page41優點缺點數據量典型行業R免費開源、功能強大,擴展性強。很多人為了方便會寫些R包,很多R包的正確性和效率難以保證;數據量大速度慢。由于包更新多,要精通R難。小、中、大(比較麻煩)金融、互聯網、網游SPSS傻瓜式操作,入門容易,可視化好。功能無法滿足行業特殊要求、不適合嵌入別的軟件產品、費用高小銀行、金融、政府SAS功能強大,可信度高。費用超高,入門和精通難大銀行、金融Matlab功能強大,速度快,精度高,主用于研究。費用高中學校、研究所、金融第四十一頁,共四十六頁,2022年,8月28日三:常用數據挖掘工具Page42

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論