




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 收稿日期:2014-02-28 作者簡介:李平榮(1979-,男,甘肅天水人,隴南師范高等專科學校講師,主要研究計算機硬件技術.-45-大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術與應用李平榮(隴南師范高等專科學校,甘肅成縣 742500摘 要:隨著數(shù)據(jù)挖掘技術研究的進步與發(fā)展,并伴隨著大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術的發(fā)展和應用帶來一個很大的機遇,數(shù)據(jù)挖掘技術將進入一個新的發(fā)展時期.文章全面介紹了大數(shù)據(jù),數(shù)據(jù)挖掘的基本概念以及數(shù)據(jù)挖掘的分析方法,最后給出了大數(shù)據(jù)時代的挖掘技術的應用領域及將來發(fā)展方向.關鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)提取中圖分類號:Tu7 文獻標識碼:A 文章編號:1009-8135(2014
2、03-0045-031 基本概念介紹1.1 大數(shù)據(jù)2011年5月,麥肯錫全球研究院在大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領域中指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)要素;而人們對于大數(shù)據(jù)的運用預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來.2012年3月29日,美國政府在白宮網(wǎng)站上發(fā)布了大數(shù)據(jù)研究和發(fā)展倡議,表示將投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”12 數(shù)據(jù)挖掘的基本分析方法分析方法是數(shù)據(jù)挖掘的核心工作,通過科學可靠的算法才能實現(xiàn)數(shù)據(jù)的挖掘,找出數(shù)據(jù)中潛在的規(guī)律.通過不同的分析方法,將解決不同類型的問題,在現(xiàn)實中針對不同的分析目標,找出相對應的方法.目前常用的分析
3、方法主要有聚類分析、分類和預測、關聯(lián)分析等.2.1 聚類分析,增強從大數(shù)據(jù)中分析提取信息.“大數(shù)據(jù)”到底有多大?根據(jù)統(tǒng)計,僅在2011年,全球數(shù)據(jù)增量就達到了1.8 ZB ,相當于全世界的每個人產(chǎn)生200 GB 以上的數(shù)據(jù).而且這種增長趨勢仍在快速增長,據(jù)估計,在未來,數(shù)據(jù)將至少保持每年50%的增長速度.1.2 數(shù)據(jù)挖掘數(shù)據(jù)挖掘是一門新興的學科,它誕生于20世紀80年代,主要面向商業(yè)應用的人工智能研究領域.從技術角度看,數(shù)據(jù)挖掘就是從大量的、復雜的、不規(guī)則的、隨機的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有發(fā)覺的、有潛在價值的信息和知識的過程.從商業(yè)角度來說,數(shù)據(jù)挖掘就是從龐大的數(shù)據(jù)庫中抽取、轉換
4、、分析一些潛在規(guī)律和價值,從中獲取輔助商業(yè)決策的關鍵信息和有用知識.聚類分析就是將物理或抽象對象的集合進行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數(shù)據(jù)分類.它是一種無先前知識,無監(jiān)督的學習過程,從數(shù) -46-未知的類.這不同于分類,因為它無法獲知對象的屬性.“物以類聚,人以群分”,通過聚類來分析事物之間類聚的潛在規(guī)律.聚類分析廣泛運用于心理學、統(tǒng)計學、醫(yī)學、生物學、市場銷售、數(shù)據(jù)識別、機器智能學習等領域.聚類分析根據(jù)隸屬度的取值范圍可分為硬聚類和模糊聚類兩種方法.硬聚類就是將對象劃分到距離最近聚類的類,非此即彼,也就是說屬于一類,就必然不屬于另
5、一類.模糊聚類就是根據(jù)隸屬度的取值范圍的大小差異來劃分類.一個樣本可能屬于多個類.常見的聚類算法主要有密度聚類算法、層次聚類算法、劃分聚類算法、網(wǎng)格聚類算法、模型聚類算法等.2.2 分類和預測分類和數(shù)值預測是問題預測的兩種主要類型.分類是預測分類(離散、無序的標號,而預測則是建立連續(xù)值函數(shù)模型.分類是數(shù)據(jù)挖掘的重要基礎,它是對已知的訓練數(shù)據(jù)集表現(xiàn)出來的特性,獲得每個類別的描述或屬性來構造相應的分類器或者分類.分類是一種有監(jiān)督的學習過程,它是根據(jù)訓練數(shù)據(jù)集發(fā)現(xiàn)準確描述來劃分類別.常見的分類算法主要有決策樹、粗糙集、貝葉斯、遺傳算法、神經(jīng)網(wǎng)路等.預測就是根據(jù)分類和回歸來預測將來的規(guī)律.常見的預測方
6、法主要有局勢外推法、時間序列法和回歸分析法2.2.3 關聯(lián)分析在自然界,事物之間存在著千絲萬縷的聯(lián)系,當某一事件發(fā)生時,可能會帶動其它事件的發(fā)生.關聯(lián)分析就是利用事物之間存在的依賴或關聯(lián)知識來發(fā)現(xiàn)事物之間存在的規(guī)律性,然后通過這種規(guī)律性進行預測.如經(jīng)典實例購物籃分析,就是通過分析顧客購物籃中物品的管理規(guī)律,來分析顧客的購物心理和習慣,然后根據(jù)這種規(guī)律來幫助營銷人員制定營銷策略.2.4 人工神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡通過復雜的大批量數(shù)據(jù)進行分析,實現(xiàn)對于計算機或人腦而言非常復雜的模式抽取及趨勢分析,它是建立在自學習的數(shù)學模型基礎之上的,神經(jīng)網(wǎng)絡既可以是有指導的學習,也可以是無指導聚類,但無論哪種,輸入到神
7、經(jīng)網(wǎng)絡中的值都是數(shù)值型的.目前在數(shù)據(jù)挖掘中,最常使用的是BP 網(wǎng)絡和RBF 網(wǎng)絡兩種神經(jīng)網(wǎng)絡32.5 遺傳基因算法算法的適合度.它是一種由生物進化而啟發(fā)的一種學習方法,通過對當前已知的最好假設變異和重組來生成后續(xù)的假設.每一步,用目前適應性最高的假設的后代來代替群體的某個部分,來更新當前群體的一組假設,以便實現(xiàn)各個個體的適應性的提高.遺傳算法由三個基本過程組成:繁殖(選擇、交叉(重組、變異(突變.2.6 可視化技術.可視化技術是數(shù)據(jù)挖掘中應用非常廣泛的一種輔助技術.它借助圖形、圖像、動畫等手段形象地指導操作、引導挖掘和表達結果等.這種手段很好地解決了數(shù)據(jù)挖掘中涉及的比較復雜的數(shù)學方法和信息技術
8、的表現(xiàn)形式,方便了用戶理解和使用技術,為數(shù)據(jù)挖掘技術的推廣普及起到很大的作用.3 數(shù)據(jù)挖掘的基本過程 數(shù)據(jù)挖掘的基本過程如下:圖3-1 數(shù)據(jù)挖掘的基本過程圖3.1 數(shù)據(jù)準備數(shù)據(jù)準備,是從海量的原始數(shù)據(jù)中準備要據(jù)挖掘的數(shù)據(jù),它是長期的、無規(guī)律的數(shù)據(jù)積累的結果.由于原始數(shù)據(jù)不適合數(shù)據(jù)挖掘,所以要先進行預處理,包括數(shù)據(jù)選擇、清洗、推測、轉換等操作.數(shù)據(jù)準備的好壞直接決定著數(shù)據(jù)挖掘的質量和效率.3.2 數(shù)據(jù)挖掘數(shù)據(jù)挖掘是整個程序的關鍵過程,按照數(shù)據(jù)挖掘的目標要求,選擇合適的算法,來挖掘數(shù)據(jù)規(guī)律,常見的算法有決策樹、分類、神經(jīng)網(wǎng)絡、Apriori 算法等.3.3 模式的評價、分析對挖掘過的數(shù)據(jù)結果進行解
9、釋、分析、提取有意義或有使用價值的規(guī)律,還原成人們能夠理解的數(shù)據(jù)語言. -47-知識運用就是對挖掘的評估結果在現(xiàn)實決策中的運用,這是一個非常重要的過程,也是數(shù)據(jù)挖掘的最終目標,價值的體現(xiàn).4 大數(shù)據(jù)時代的數(shù)據(jù)挖掘的應用領域4.1 市場營銷領域市場營銷是數(shù)據(jù)挖掘技術應用最早和最多的領域.通過分析和挖掘用戶的消費習慣和消費特點,來提高商品的銷售業(yè)績.目前,數(shù)據(jù)挖掘在市場營銷方面已經(jīng)不僅僅限于超市購物等方面,已經(jīng)普及到各個金融領域,如保險、電子商務、銀行、電信零售等行業(yè).利用數(shù)據(jù)挖掘技術來分析顧客的消費行為,為本行業(yè)帶來潛在的客戶和效益.4.2 科學研究在科學研究中,經(jīng)常需要分析各種大量的實驗和觀測
10、數(shù)據(jù),并找出相關的規(guī)律和知識.這些數(shù)據(jù)分析和挖掘都需要一定的算法,利用數(shù)據(jù)挖掘技術能科學的找出數(shù)據(jù)之間的規(guī)律以及找出我們未發(fā)現(xiàn)的知識.例如,對外空星體的探索、對DNA 數(shù)據(jù)的分析等等.4.3 制造業(yè)在制造業(yè)領域,通過對零部件生產(chǎn)的各種數(shù)據(jù)分析,來提高生產(chǎn)效率和提高良品率,如分析造成產(chǎn)品缺陷的環(huán)節(jié)及數(shù)據(jù),找出生產(chǎn)過程影響生產(chǎn)率的因素,暴露制造和裝配操作過程中變化情況等各種因素,從而通過重點改進相關環(huán)節(jié)及工藝,來提高企業(yè)的生產(chǎn)效率及利益.4.4 電信業(yè)近些年,隨著電信業(yè)的蓬勃發(fā)展,電信業(yè)的技術和服務已經(jīng)成為一個非常龐大的混合載體,它不僅關系市場,也關系到技術及服務.在將企業(yè)有效資源整合,實現(xiàn)無縫連
11、接的過程中,將產(chǎn)生大量的復雜數(shù)據(jù)集合,如何從龐雜的數(shù)據(jù)中找尋出規(guī)律和運用,能很好的解決上述問題,為行業(yè)的發(fā)展起到很好的作用,如系統(tǒng)負載、數(shù)據(jù)通信速率和容量、用戶行為、利潤率等;采用孤立點分析和聚類方法,查找出盜用模式和異常狀態(tài);利用關聯(lián)和序列模式,找出影響電信發(fā)展的相關因素,更好的推動電信業(yè)務的發(fā)展44.5 Internet 的應用.目前這方面的應用比較多,如搜索引擎、電子商務等.通過數(shù)據(jù)挖掘技術在海量的數(shù)據(jù)中,找到符合用戶需求的信息,例如利用預測分類算法來預知用戶可能需要搜索的信息等.4.6 教育領域在教學管理過程中,如何全面掌握學生的學習狀況、心理狀況、選課情況以及教學評價等信息以及教學資
12、源的最優(yōu)化配置等,都可以使用數(shù)據(jù)挖掘技術來解決.伴隨著大數(shù)據(jù)的數(shù)據(jù)管理,檢索技術研究的進步,數(shù)據(jù)挖掘技術將迎來巨大的發(fā)展機遇,數(shù)據(jù)挖掘技術的應用也將更加廣泛,數(shù)據(jù)挖掘的工具也將更加強大.參考文獻:1胡天狀.數(shù)據(jù)挖掘技術在教育決策支持系統(tǒng)中的應用D.杭州:浙江師范大學,2002.2吳文紹.甘肅省教育管理信息決策支持系統(tǒng)D.蘭州:蘭州理工大學,2006.3丁守哲.基于云計算的建筑設計行業(yè)信息系統(tǒng)開發(fā)模式與實現(xiàn)技術研究D.合肥:合肥工業(yè)大學,2012.4劉華婷,郭仁祥,姜浩.關聯(lián)規(guī)則挖掘Apriori 算法的研究與改進J.計算機應用與軟件,2009(1:146-149.5程軍鋒.Web 數(shù)據(jù)挖掘研究
13、J.重慶三峽學院學報,2013(3:43-45.(責任編輯:于開紅Data Mining Technology and its Applications in Big data EraLI Pingrong(Longnan Teachers College, Chengxian, Gansu, 742500, China Abstract: The advancement in data mining technology research, along with the big data concept being presented, will bring a great opportun
14、ity for the development and application of data mining technology. It will enter a new period of development. This paper gives a comprehensive introduction to the large data as well as the basic concepts and analysis method of data mining. Finally, it points out the application field and developing direction of data mining technology in the future in big data era.Keywords: big
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024~2025學年上海七年級數(shù)冊終質量監(jiān)測試題
- 績效評估與公共設施可持續(xù)發(fā)展戰(zhàn)略匹配度分析考核試卷
- 糖業(yè)生產(chǎn)過程自動化程度提升研究考核試卷
- 電力調度考核試卷
- 部編人教五年級語文下冊全冊教學課件統(tǒng)編版
- 數(shù)字時代創(chuàng)業(yè)企業(yè)危機管理與公關策略培訓考核試卷
- 部編人教版八年級語文上冊全冊教學反思
- 2025年中國PVC-U排水管件螺母數(shù)據(jù)監(jiān)測研究報告
- 2025年中國PE管全自動熱熔焊機數(shù)據(jù)監(jiān)測報告
- 2025年中國LED夾帽燈數(shù)據(jù)監(jiān)測研究報告
- 2025年內蒙古自治區(qū)中考數(shù)學真題試卷(含答案)
- Unit 2 Home Sweet Home 第6課時(Project Reading Plus) 2025-2026學年人教版英語八年級下冊
- xx公司獎金管理制度
- 2025至2030中國彈簧鋼行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 學習解讀《水利水電建設工程驗收規(guī)程》SLT223-2025課件
- 部編版六年級語文上冊古詩、文言文日積月累(必背)
- 職業(yè)技能鑒定題庫-《電氣試驗》
- 萬瑋:《班主任兵法》
- 施工現(xiàn)場防火的安全管理制度
- FM筋膜手法(課堂PPT)
- 小升初數(shù)學重點知識點梳理
評論
0/150
提交評論