數據挖掘發展_第1頁
數據挖掘發展_第2頁
數據挖掘發展_第3頁
數據挖掘發展_第4頁
數據挖掘發展_第5頁
已閱讀5頁,還剩40頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講人朱揚勇數據挖掘軟件發展分析1一、數據挖掘概念----定義數據挖掘--從大量數據中尋找其規律的技術,是統計學、數據庫技術和人工智能技術的綜合。數據挖掘與統計學數據挖掘與人工智能數據挖掘與數據庫技術數據挖掘與KDD2一、數據挖掘概念----原由國民經濟和社會的信息化社會信息化后,社會的運轉是軟件的運轉社會信息化后,社會的歷史是數據的歷史因此政府提出“信息化”和“發展軟件產業”3一、數據挖掘概念----原由數據挖掘數據庫越來越大有價值的知識可怕的數據4一、數據挖掘概念----原由數據爆炸,知識貧乏苦惱:淹沒在數據中;不能制定合適的決策!數據知識決策模式趨勢事實關系模型關聯規則序列目標市場資金分配貿易選擇在哪兒做廣告銷售的地理位置金融經濟政府POS.人口統計生命周期5一、數據挖掘概念----發展1989IJCAI會議:數據庫中的知識發現討論專題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會議,以及SIGKDDExplorations數據挖掘方面更多的國際會議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.6一、數據挖掘概念----技術技術分類預言(Predication):用歷史預測未來描述(Description):了解數據中潛在的規律數據挖掘技術關聯分析序列模式分類(預言)聚集異常檢測7二、數據挖掘軟件的發展代特征數據挖掘算法集成分布計算模型數據模型第一代作為一個獨立的應用支持一個或者多個算法獨立的系統單個機器向量數據第二代和數據庫以及數據倉庫集成多個算法:能夠挖掘一次不能放進內存的數據數據管理系統,包括數據庫和數據倉庫同質、局部區域的計算機群集有些系統支持對象,文本和連續的媒體數據第三代和預言模型系統集成

多個算法數據管理和預言模型系統intranet/extranet網絡計算支持半結構化數據和web數據第四代和移動數據/各種計算設備的數據聯合

多個算法數據管理、預言模型、移動系統移動和各種計算設備普遍存在的計算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago的觀點8二、數據挖掘軟件的發展第一代數據挖掘軟件9二、數據挖掘軟件的發展第一代數據挖掘軟件CBA新加坡國立大學。基于關聯規則的分類算法,能從關系數據或者交易數據中挖掘關聯規則,使用關聯規則進行分類和預測10二、數數據挖挖掘軟軟件的的發展展第二代代數據據挖掘掘軟件件特點與數據據庫管管理系系統((DBMS))集成支持數數據庫庫和數數據倉倉庫,,和它它們具具有高高性能能的接接口,,具有有高的的可擴擴展性性能夠挖挖掘大大數據據集、、以及及更復復雜的的數據據集通過支支持數數據挖挖掘模模式((dataminingschema))和數據據挖掘掘查詢詢語言言增加加系統統的靈靈活性性典型的的系統統如DBMiner,能通過過DMQL挖掘語語言進進行挖挖掘操操作缺陷只注重重模型型的生生成,,如何何和預預言模模型系系統集集成導導致了了第三三代數數據挖挖掘系系統的的開發發11二、數數據挖挖掘軟軟件的的發展展第二代代數據據挖掘掘軟件件DBMiner12二、數數據挖挖掘軟軟件的的發展展第二代代軟件件SASEnterpriseMiner13二、數數據挖挖掘軟軟件的的發展展第三代代數據據挖掘掘軟件件特點和預言言模型型系統統之間間能夠夠無縫縫的集集成,,使得得由數數據挖挖掘軟軟件產產生的的模型型的變變化能能夠及及時反反映到到預言言模型型系統統中由數據據挖掘掘軟件件產生生的預預言模模型能能夠自自動地地被操操作型型系統統吸收收,從從而與與操作作型系系統中中的預預言模模型相相聯合合提供供決策策支持持的功功能能夠挖挖掘網網絡環環境下下(Internet/Extranet)的分布布式和和高度度異質質的數數據,,并且且能夠夠有效效地和和操作作型系系統集集成缺陷不能支支持移移動環環境14二、數數據挖挖掘軟軟件的的發展展第三代代軟件件SPSSClementine以PMML的格式式提供供與預預言模模型系系統的的接口口15二、數數據挖挖掘軟軟件的的發展展第四代代數據據挖掘掘軟件件特點目前移移動計計算越越發顯顯得重重要,,將數數據挖挖掘和和移動動計算算相結結合是是當前前的一一個研研究領領域。。第四代代軟件件能夠夠挖掘掘嵌入入式系系統、、移動動系統統、和和普遍遍存在在(ubiquitous))計算設設備產產生的的各種種類型型的數數據第四代代數據據挖掘掘原型型或商商業系系統尚尚未見見報導導,PKDD2001上Kargupta發表了了一篇篇在移移動環環境下下挖掘掘決策策樹的的論文文,Kargupta是馬里里蘭巴巴爾的的摩州州立大大學((UniversityofMarylandBaltimoreCounty)正在研研制的的CAREER數據挖挖掘項項目的的負責責人,,該項項目研研究期期限是是2001年4月到到2006年4月,,目的的是開開發挖挖掘分分布式式和異異質數數據((Ubiquitous設備))的第第四代代數據據挖掘掘系統統。16二、數數據挖挖掘軟軟件的的發展展第一代代系統統與第第二代代相比比因為為不具具有和和數據據管理理系統統之間間有效效的接接口,,所以以在數數據預預處理理方面面有一一定缺缺陷第三、、四代代系統統強調調預言言模型型的使使用和和在操操作型型環境境的部部署第二代代系統統提供供數據據管理理系統統和數數據挖挖掘系系統之之間的的有效效接口口第三代代系統統另外外還提提供數數據挖挖掘系系統和和預言言模型型系統統之間間的有有效的的接口口目前,,隨著著新的的挖掘掘算法法的研研究和和開發發,第第一代代數據據挖掘掘系統統仍然然會出出現,,第二二代系系統是是商業業軟件件的主主流,,部分分第二二代系系統開開發商商開始始研制制相應應的第第三代代數據據挖掘掘系統統,比比如IBMIntelligentScoreService。第四代代數據據挖掘掘原型型或商商業系系統尚尚未見見報導導17二、數數據挖挖掘軟軟件的的發展展數據挖挖掘軟軟件發發展的的三個個階段段獨立的的數據據挖掘掘軟件件橫向向的的數數據據挖挖掘掘工工具具集集縱向向的的數數據據挖挖掘掘解解決決方方案案GregoryPiatetsky-Shapiro的觀觀點點18二、、數數據據挖挖掘掘軟軟件件的的發發展展獨立立的的數數據據挖挖掘掘軟軟件件(95年年以以前前))特點點獨立立的的數數據據挖挖掘掘軟軟件件對對應應第第一一代代系系統統,,出出現現在在數數據據挖挖掘掘技技術術發發展展早早期期,,研研究究人人員員開開發發出出一一種種新新型型的的數數據據挖挖掘掘算算法法,,就就形形成成一一個個軟軟件件。。這類類軟軟件件要要求求用用戶戶對對具具體體的的算算法法和和數數據據挖挖掘掘技技術術有有相相當當的的了了解解,,還還要要負負責責大大量量的的數數據據預預處處理理工工作作。。比比如如C4.5決策策樹樹,平行行坐坐標標可可視視化化((parallel-coordinatevisualization))。。19二、、數數據據挖挖掘掘軟軟件件的的發發展展橫向向的的數數據據挖挖掘掘工工具具集集(95年年開開始始))發展展原原因因隨著著數數據據挖挖掘掘應應用用的的發發展展,,人人們們逐逐漸漸認認識識到到數數據據挖挖掘掘軟軟件件需需要要和和以以下下三三個個方方面面緊緊密密結結合合::1))數數據據庫庫和和數數據據倉倉庫庫;;2))多多種種類類型型的的數數據據挖挖掘掘算算法法;;3))數數據據清清洗洗、、轉轉換換等等預預處處理理工工作作。。隨著著數數據據量量的的增增加加,,需需要要利利用用數數據據庫庫或或者者數數據據倉倉庫庫技技術術進進行行管管理理,,所所以以數數據據挖挖掘掘系系統統與與數數據據庫庫和和數數據據倉倉庫庫結結合合是是自自然然的的發發展展。。現實實領領域域的的問問題題是是多多種種多多樣樣的的,,一一種種或或少少數數數數據據挖挖掘掘算算法法難難以以解解決決挖掘掘的的數數據據通通常常不不符符合合算算法法的的要要求求,,需需要要有有數數據據清清洗洗、、轉轉換換等等數數據據預預處處理理的的配配合合,,才才能能得得出出有有價價值值的的模模型型20二、、數數據據挖挖掘掘軟軟件件的的發發展展橫向向的的數數據據挖挖掘掘工工具具集集(95年年開開始始))發展展過過程程隨著著這這些些需需求求的的出出現現,,1995年年左左右右軟軟件件開開發發商商開開始始提提供供稱稱之之為為““工工具具集集””的的數數據據挖挖掘掘軟軟件件特點點此類類工工具具集集的的特特點點是是提提供供多多種種數數據據挖挖掘掘算算法法包括括數數據據的的轉轉換換和和可可視視化化由于于此此類類工工具具并并非非面面向向特特定定的的應應用用,,是是通通用用的的算算法法集集合合,,可可以以稱稱之之為為橫橫向向的的數數據據挖挖掘掘工工具具((HorizontalDataMiningTools))由于于此此類類工工具具并并非非面面向向特特定定的的應應用用,,是是通通用用的的算算法法集集合合,,所以以稱之之為為橫橫向向的的數數據據挖挖掘掘工工具具典型型的的橫橫向向工工具具有有IBMIntelligentMiner、、SPSS的Clementine、、SAS的EnterpriseMiner、、SGI的MineSet、、OracleDarwin等21二、、數數據據挖挖掘掘軟軟件件的的發發展展橫向向的的數數據據挖挖掘掘工工具具集集(95年年開開始始))IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin22二、、數數據據挖挖掘掘軟軟件件的的發發展展縱向向的的數數據據挖挖掘掘解解決決方方案案(99年年開開始始))發展展原原因因隨著著橫橫向向的的數數據據挖挖掘掘工工具具的的使使用用日日漸漸廣廣泛泛,,人人們們也也發發現現這這類類工工具具只只有有精精通通數數數數據據挖挖掘掘算算法法的的專專家家才才能能熟熟練練使使用用,,如如果果對對算算法法不不了了解解,,難難以以得得出出好好的的模模型型從1999年年開開始始,,大大量量的的數數據據挖挖掘掘工工具具研研制制者者開開始始提提供供縱縱向向的的數數據據挖挖掘掘解解決決方方案案((VerticalSolution)),,即針針對對特特定定的的應應用用提提供供完完整整的的數數據據挖挖掘掘方方案案對于于縱縱向向的的解解決決方方案案,,數數據據挖挖掘掘技技術術的的應應用用多多數數還還是是為為了了解解決決某某些些特特定定的的難難題題,,而而嵌嵌入入在在應應用用系系統統中中23二、、數數據據挖挖掘掘軟軟件件的的發發展展縱向向的的數數據據挖挖掘掘解解決決方方案案(99年年開開始始))在證證券券系系統統中中嵌嵌入入神神經經網網絡絡預預測測功功能能在欺欺詐詐檢檢測測系系統統中中嵌嵌入入欺欺詐詐行行為為的的分分類類/識識別別模模型型在客客戶戶關關系系管管理理系系統統中中嵌嵌入入客客戶戶成成簇簇/分分類類功功能能或或客客戶戶行行為為分分析析功功能能在機機器器維維護護系系統統中中嵌嵌入入監監/檢檢測測或或識識別別難難以以定定性性的的設設備備故故障障功功能能在數數據據庫庫營營銷銷中中嵌嵌入入選選擇擇最最可可能能購購買買產產品品的的客客戶戶功功能能在機機場場管管理理系系統統中中嵌嵌入入旅旅客客人人數數預預測測、、貨貨運運優優化化功功能能在基因分析析系統中嵌嵌入DNA識別功能在制造/生生產系統中中嵌入質量量控制功能能等24二、數數據挖挖掘軟軟件的的發展展縱向的的數據據挖掘掘解決決方案案(99年開開始))KD1(主要用用于零零售業業)Options&Choice(主要用用于保保險業業)HNC(欺詐行行為偵偵測))UnicaModel1(主要用用于市市場營營銷)25二、數數據挖挖掘軟軟件的的發展展綜合的的數據據挖掘掘解決決方案案(復旦旦的工工作))各行業電子商務網站算法層商業邏輯層行業應用層商業應用商業模型挖掘算法CRM產品推薦客戶細分客戶流失客戶利潤客戶響應關聯規則、序列模式、分類、聚集、神經元網絡、偏差分析…WEB挖掘網站結構優化網頁推薦商品推薦。。。基因挖掘基因表達路徑分析基因表達相似性分析基因表達共發生分析。。。銀行電信零售保險制藥生物信息科學研究。。。相關行業26三、數數據挖挖掘軟軟件的的現狀狀27三、數數據挖挖掘軟軟件的的現狀狀2001/5/14———2001/5/24((實際))2001/11/26———2001/12/9(預測))28三、數數據挖挖掘軟軟件的的現狀狀調查報報告((2002.6.3-6.16))29三、數數據挖挖掘軟軟件的的現狀狀(國內情情況)30四、數數據挖挖掘應應用調查報報告((2002.6.3-6.16))31四、數數據挖挖掘應應用銀行美國銀銀行家家協會會(ABA)預測數數據倉倉庫和和數據據挖掘掘技術術在美美國商商業銀銀行的的應用用增長長率是是14.9%。分析客客戶使使用分分銷渠渠道的的情況況和分分銷渠渠道的的容量量;建立立利潤潤評測測模型型;客客戶關關系優優化;;風險險控制制等電子商商務網上商商品推推薦;;個性性化網網頁;;自適適應網網站……生物制制藥、、基因因研究究DNA序列查查詢和和匹配配;識別基基因序序列的的共發發生性性…電信欺詐甄甄別;;客戶戶流失失…保險、、零售售。。。。。。。。。32四、數數據挖挖掘應應用數據挖挖掘客戶分析析基分因其他保險客客戶證券客客戶銀行客客戶電信客客戶零售客客戶信用卡儲蓄卡存折按揭借貸人類基基因植物基基因動物基基因特殊群群體基基因基因序序列基因表表達譜譜基因功功能基因制制藥…………...數據挖挖掘中中國內內地市市場規規模未未來五五年內內將達達百億億33四、數數據挖挖掘應應用為什么么沒有有廣泛泛使用用?數據挖挖掘正正在快快速的的發展展技術的的研究究和開開發已已經走走在很很前沿沿的地地方數據挖挖掘應應用面面已經經擴充充了很很多但是仍仍然沒沒有希希望的的高,,為什什么??希望在在多少少年內內達到到數十十億元元的盈盈利??是一種種增值值服務務(Notbread-and-butter))不能認認為高高不可可攀,,所以以不去去過問問是一門門年輕輕的技技術,,需要要和實實際結結合,,解決決現實實問題題34四、數數據挖挖掘應應用國內應應用存存在的的問題題數據積積累不不充分分、不不全面面業務模模型構構建困困難缺少有有經驗驗的實實施者者35四、數數據挖挖掘應應用----業業務建建摸Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經網網絡NeuralNetworks聚類分分析ClusteringOpenAccn’’tAddNewProductDecreaseUsage???Time序列分分析SequenceAnalysis決策樹樹DecisionTrees傾向性性分析析客戶保保留客戶生生命周周期管管理目標市市場價格彈彈性分分析客戶細細分市場細細分傾向性性分析析客戶保保留目標市市場欺詐檢檢測關聯分分析Association市場組組合分分析套裝產產品分分析目錄設設計交叉銷銷售36四、數數據挖挖掘應應用----業業務建建摸聚集((Cluster)聚集是是把整整個數數據庫庫分成成不同同的群群組。。它的的目的的是要要群與與群之之間差差別很很明顯顯,而而同一一個群群之間間的數數據盡盡量相相似。。常用技技術::神經經元網網絡、、K均值、、最近近鄰…37四、數數據挖挖掘應應用----業業務建建摸異常檢檢測及時發發現有有欺詐詐嫌疑疑的異異常行行為,,正確確進行行欺詐詐問題題的評評估,,對欺欺詐者者實施施控制制和強強制措措施。。技術::決策策樹,,神經

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論