




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1. 數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘是應(yīng)用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和模式識(shí)別等學(xué)科的知識(shí),從數(shù)據(jù)中發(fā)現(xiàn)有用的、有效的、未知的并且可以理解的信息的一項(xiàng)技術(shù)。簡言之,數(shù)據(jù)挖掘技術(shù)就是從大量的歷史數(shù)據(jù)中總結(jié)原因,發(fā)現(xiàn)事物的本質(zhì),把握事物發(fā)展的趨勢。2. 數(shù)據(jù)挖掘常用模型有了數(shù)據(jù),我們要做的就是尋找合適的模型。數(shù)據(jù)挖掘的目的或者是理解產(chǎn)生數(shù)據(jù)的機(jī)制,或者是預(yù)測。根究不同的目的,我們可以將模型分為描述性模型與預(yù)測性模型。其中描述性模型是為了揭示蘊(yùn)含在歷史數(shù)據(jù)中的規(guī)律,屬于無監(jiān)督模型;預(yù)測性模型是對(duì)未來時(shí)間的預(yù)測,屬于監(jiān)督模型。模型圖示原理應(yīng)用場景相關(guān)性分析探索現(xiàn)象之間關(guān)系的密切程度和表達(dá)形式。研究設(shè)備發(fā)生的缺陷類型與投運(yùn)
2、年限的相關(guān)性。主成分分析將多個(gè)變量通過線性變換以選出較少個(gè)數(shù)重要變量的一種多元統(tǒng)計(jì)分析方法。用于招投標(biāo)專家打分?jǐn)?shù)據(jù)中各技術(shù)要素明細(xì)指標(biāo)中的降維研究。因子分析因子分析的基本目的就是用少數(shù)幾個(gè)因子去描述許多指標(biāo)或因素之間的聯(lián)系,因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更加有優(yōu)勢。因子分析將招投標(biāo)中相關(guān)的各技術(shù)要素指分解為因子的線性組合,構(gòu)造因子模型。典型相關(guān)分析典型相關(guān)分析是分析兩組隨機(jī)變量間線性密切程度的統(tǒng)計(jì)方法,是兩變量間線性相關(guān)分析的擴(kuò)展。運(yùn)用在生產(chǎn)領(lǐng)域中的設(shè)備類型與缺陷類型間兩組變量間的線性關(guān)系研究。對(duì)應(yīng)分析利用因子分析原理,同時(shí)將變量與樣本反映在一張圖上。同時(shí)將樣本(設(shè)備類別)與
3、變量(缺陷原因)在一張圖上展示,研究之間的相似性。聚類分析通過分析事物的內(nèi)在特點(diǎn)和規(guī)律,并根據(jù)相似性原則對(duì)事物進(jìn)行分組。通過不同的聚類方法對(duì)研究對(duì)象進(jìn)行聚類,并以圖形化將結(jié)果展示出來。時(shí)間序列從歷史數(shù)據(jù)中,總結(jié)事物發(fā)展的規(guī)律,把握未來發(fā)展的趨勢。通過時(shí)間序列模型,了解缺陷隨時(shí)間變化的發(fā)展趨勢。線性回歸確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。建立缺陷供電局和設(shè)備類型間的線性模型,對(duì)未來缺陷數(shù)進(jìn)行預(yù)測。 Logistic回歸Logistic回歸只能處理兩類分類問題,是一種線性分類器,實(shí)現(xiàn)簡單,但容易欠擬合,一般精確度不太高。應(yīng)用在設(shè)備是否發(fā)生缺陷的業(yè)務(wù)場景中。生存分析對(duì)管理對(duì)
4、象的生存時(shí)間進(jìn)行分析和推斷,研究生存時(shí)間和結(jié)局與眾多影響因素間關(guān)系及其程度大小的方法。研究設(shè)備在投運(yùn)后開始發(fā)生缺陷的危險(xiǎn)時(shí)刻。 并對(duì)統(tǒng)計(jì)區(qū)間內(nèi)的設(shè)備是否發(fā)生缺陷進(jìn)行研究。關(guān)聯(lián)規(guī)則從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的對(duì)象之間的同時(shí)出現(xiàn)的關(guān)系。A現(xiàn)象出現(xiàn)B現(xiàn)象也會(huì)同時(shí)發(fā)生的情況。研究設(shè)備在不同情況下會(huì)發(fā)生嚴(yán)重和緊急缺陷的頻繁程度和關(guān)系。序列模式挖掘?qū)Υ硎录g存在某種序列關(guān)系的數(shù)據(jù)進(jìn)行相對(duì)時(shí)間或者其他模式出現(xiàn)頻率高的模式挖掘。用在研究某個(gè)單體設(shè)備隨著時(shí)間變化而出現(xiàn)不同缺陷類型的模式挖掘。決策樹根據(jù)數(shù)據(jù)規(guī)則的生成過程,用倒立的樹形圖將結(jié)果展示出來。將影響缺陷類型的供電局、供應(yīng)商、設(shè)備間的關(guān)系用樹形圖展示出來。貝
5、葉斯分類是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法。該方法簡單(利用先驗(yàn)概率)、分類準(zhǔn)確性高、速度快。對(duì)歷史缺陷數(shù)據(jù)的嚴(yán)重等級(jí)進(jìn)行貝葉斯分類,計(jì)算下次缺陷發(fā)生出現(xiàn)不同等級(jí)的概率來進(jìn)行分類。GBDT(MART)迭代決策樹是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起來做最終答案。GBDT幾乎可應(yīng)用與所有的回歸問題(線性/非線性),亦可應(yīng)用與二分類問題。KNN算法(最近臨近法)KNN算法是機(jī)器學(xué)習(xí)里面比較簡單的一個(gè)分類算法:計(jì)算一個(gè)點(diǎn)A與其他所有點(diǎn)之間的距離,然后將A點(diǎn)分配到所屬類別中比例最大的類別中。用于生成領(lǐng)域、招投標(biāo)領(lǐng)域等分類問題的研究。 Bagging回歸利用不斷放回抽樣的簡
6、單組合方法實(shí)現(xiàn)對(duì)簡單決策樹的改良,提高精確性。利用機(jī)器學(xué)習(xí)中的再抽樣組合算法建立缺陷預(yù)測模型。隨機(jī)森林另一種組合方式,隨機(jī)產(chǎn)生大量決策樹,再進(jìn)行投票分類。利用抽樣組合,對(duì)結(jié)果進(jìn)行等權(quán)投票的算法建立缺陷預(yù)測模型。神經(jīng)網(wǎng)絡(luò)利用模擬神經(jīng)網(wǎng)絡(luò)的自我學(xué)習(xí)系統(tǒng)進(jìn)行模型擬合,有效地解決很復(fù)雜的有大量相互相關(guān)變量的分類和回歸問題,但對(duì)維度多、樣本量小的數(shù)據(jù)模擬效果不好。利用自我學(xué)習(xí)的機(jī)器學(xué)習(xí)算法建立缺陷預(yù)測模型。 支持向量機(jī)SVM核心是尋找最大間隔分類超平面、引入核方法極大提高對(duì)非線性問題的處理能力。對(duì)一些系統(tǒng)收集數(shù)據(jù)時(shí)間不長、維度復(fù)雜的數(shù)據(jù)進(jìn)行研究。文本挖掘指從文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技
7、術(shù)。對(duì)大量的缺陷描述的文本信息進(jìn)行挖掘,迅速找出有價(jià)值的關(guān)聯(lián)信息。社會(huì)網(wǎng)絡(luò)來源于數(shù)學(xué)的圖論,目前被廣泛應(yīng)用于社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)領(lǐng)域。應(yīng)用到生產(chǎn)領(lǐng)域的缺陷數(shù)據(jù)中,進(jìn)行設(shè)備缺陷的社會(huì)網(wǎng)絡(luò)分析。推薦系統(tǒng)推薦系統(tǒng)的實(shí)現(xiàn)主要分析兩個(gè)方面:基于內(nèi)容(用戶或者物品基本信息的相似度)和協(xié)同濾波(基于歷史數(shù)據(jù),過濾復(fù)雜的、難以表達(dá)的概念)的實(shí)現(xiàn)。基于營銷數(shù)據(jù)庫中的用戶信息和用電情況進(jìn)行針對(duì)性營銷。LDA(主題模型)LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來識(shí)別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。LDA模型可以運(yùn)用到營銷個(gè)性化推薦、電網(wǎng)的社交網(wǎng)絡(luò)等領(lǐng)域
8、。異常檢測發(fā)現(xiàn)與數(shù)據(jù)一般行為或特征不一致的模式,常用的有基于統(tǒng)計(jì)、距離、密度、深度、偏移、高維數(shù)據(jù)的異常點(diǎn)檢測算法。用于用戶用電量異常行為檢測。EM算法(最大期望法)在統(tǒng)計(jì)中被用于尋找,依賴于不可觀察的隱性變量的概率模型中,參數(shù)的最大似然估計(jì)。EM算法常用在機(jī)器學(xué)習(xí)中的數(shù)據(jù)聚類(Data Clustering)領(lǐng)域。 遺傳算法遺傳算法是由進(jìn)化論和遺傳學(xué)機(jī)理而產(chǎn)生的直接搜索優(yōu)化方法。遺傳算法用于分類和其他優(yōu)化算法,也可能用于評(píng)估其他算法的擬合度。FP-Growth算法FP Growth是一種比Apriori更高效的頻繁項(xiàng)挖掘方法,它采用了一種簡潔的數(shù)據(jù)結(jié)構(gòu) (頻繁模式樹),在這棵樹上找出包含P的
9、頻繁項(xiàng)集。用于在大量的缺陷數(shù)據(jù)中快速尋找關(guān)聯(lián)關(guān)系,大大提高效率。粗糙集方法粗糙集理論可以用于分類,發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)的結(jié)構(gòu)聯(lián)系??蓪?duì)數(shù)據(jù)集進(jìn)行降維,發(fā)現(xiàn)分類規(guī)則,并對(duì)得到的結(jié)果進(jìn)行統(tǒng)計(jì)評(píng)估等應(yīng)用。模糊集方法模糊集理論作為傳統(tǒng)的二值邏輯和概率論的一種替代,它允許我們處理高層抽象,并且提供了一種處理數(shù)據(jù)的不精確測量的手段。模糊集理論允許處理模糊不清或不精確的事實(shí)的分類問題??臻g數(shù)據(jù)挖掘空間數(shù)據(jù)挖掘是從空間數(shù)據(jù)中發(fā)現(xiàn)模式和知識(shí)??梢越Y(jié)合局方的GIS系統(tǒng)進(jìn)行電量、設(shè)備等數(shù)據(jù)的挖掘。深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。深度學(xué)習(xí)是目前最
10、接近人腦的復(fù)雜模型,百度在語音、OCR、人臉識(shí)別、圖片搜索領(lǐng)域有應(yīng)用。3. R語言工具優(yōu)勢 R語言的排名R語言由于其開源、豐富的各種算法和數(shù)據(jù)挖掘模型、強(qiáng)大的畫圖能力和可拓展能力讓它成為這幾年各大高校和企業(yè)屆最受歡迎的數(shù)據(jù)挖掘軟件。第13 期KDnuggets 關(guān)于數(shù)據(jù)挖掘軟件使用的調(diào)查 對(duì)于過去的12 個(gè)月里實(shí)際的項(xiàng)目過程中使用了哪些數(shù)據(jù)挖掘(分析)軟件,R、Excel 和RapidMiner 則名列三甲(去年R 排名第二)。另一份關(guān)于最常使用的底層語言依次為R 語言、SQL、Java 和Python。 R語言的優(yōu)勢 幾乎覆蓋了整個(gè)統(tǒng)計(jì)領(lǐng)域最前沿的算法。 廣泛、便捷的數(shù)據(jù)接口。比如R-bas
11、e 可以良好的接入CSV(Comma Separated Values) 數(shù)據(jù)擴(kuò)展包,直接讀入SPSS、SAS、Minitab、Stata、Excel 等文件通過數(shù)據(jù)庫,讀取MySQL、SQL Server、DB2、Oracle 等數(shù)據(jù)庫甚至直接讀取圖片、語音、網(wǎng)頁等非結(jié)構(gòu)化數(shù)據(jù) 同其他語言的調(diào)用。 強(qiáng)大、完善的繪圖功能。R 提供了為“高級(jí)”(High level)、“低級(jí)”(Low level) 和“交互式”(Interactive) 三種繪圖方式基于Graphical Programming Language 的完整繪圖框架ps、pdf、png、jpeg、bmp、gif、SVG、LATEX、HTML 輸出,甚至動(dòng)畫 最重要的一點(diǎn):R is free (in both senses)。 R語言的操作界面控制臺(tái)通過交互式操作,輸入命令后敲回車即可看到運(yùn)行結(jié)果。R語言可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年心肺復(fù)蘇操作理論試題
- 精神病低保申請(qǐng)書(6篇)
- 概率論第一章 隨機(jī)事件與概率
- 電路分析第3章電阻電路的一般分析
- 煤炭保供應(yīng)急預(yù)案
- 外研版必修 第二冊(cè)Unit 1 Food for Thought Using language課件
- 8.1薪火相傳的傳統(tǒng)美德-課件+內(nèi)嵌視頻 統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 勘測設(shè)計(jì)面試題及答案
- 天津市腫瘤診療質(zhì)量提升行動(dòng)實(shí)施方案
- java各算法面試題及答案
- 2024北京西城區(qū)四年級(jí)(下)期末語文試題及答案
- 【航線補(bǔ)貼績效評(píng)估實(shí)證研究-以華夏航空公司為例19000字(論文)】
- 電梯五方對(duì)講設(shè)計(jì)方案
- 24 唐詩三首 《茅屋為秋風(fēng)所破歌》課件
- 小升初英語作文寫作專題訓(xùn)練題100題(含范文詳解)
- 國際化創(chuàng)新型人才培養(yǎng)模式與中俄合作辦學(xué)實(shí)踐案例分析
- 兒童重癥肺炎護(hù)理常規(guī)
- 附件6工貿(mào)高風(fēng)險(xiǎn)企業(yè)高危領(lǐng)域較大以上安全風(fēng)險(xiǎn)管控清單
- 一次性使用無菌醫(yī)療器械管理制度
- 2025甘肅省安全員《B證》考試題庫
評(píng)論
0/150
提交評(píng)論