




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 大數(shù)據(jù)分析、挖掘與應用數(shù)據(jù)挖掘與智能信息系統(tǒng)實驗數(shù)據(jù)挖掘與智能信息系統(tǒng)實驗室室 一、大數(shù)據(jù)分析與挖掘 大數(shù)據(jù)的基本概念大數(shù)據(jù)的基本概念 比較有代表性:比較有代表性: 1) 3V 1) 3V 定義,即認為大數(shù)據(jù)需滿足定義,即認為大數(shù)據(jù)需滿足3 3 個特點:規(guī)模性個特點:規(guī)模性(Volume)(Volume)、多樣性、多樣性(Variety)(Variety)和高速性和高速性(Velocity)(Velocity)。 2) 4V 2) 4V 定義,即嘗試在定義,即嘗試在3V 3V 的基礎上增加一個新的特性。的基礎上增加一個新的特性。關于第四個關于第四個V V 的說法并不統(tǒng)一,的說法并不統(tǒng)一,ID
2、C IDC 認為大數(shù)據(jù)還應當具認為大數(shù)據(jù)還應當具有價值性有價值性(Value)(Value),大數(shù)據(jù)的價值往往呈現(xiàn)出稀疏性的特,大數(shù)據(jù)的價值往往呈現(xiàn)出稀疏性的特點。而點。而IBM IBM 認為大數(shù)據(jù)必然具有真實性認為大數(shù)據(jù)必然具有真實性(Veracity)(Veracity)。 3) 3) 維基百科對大數(shù)據(jù)的定義則簡單明了:大數(shù)據(jù)是指利維基百科對大數(shù)據(jù)的定義則簡單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。忍時間的數(shù)據(jù)集。二、大數(shù)據(jù)處理架構大數(shù)據(jù)處理模式大數(shù)據(jù)處理模式 1 1)流處理)流處理(Stream
3、 Processing)(Stream Processing),即直接處理,即直接處理 流處理的基本理念是數(shù)據(jù)的價值會隨著時間的流流處理的基本理念是數(shù)據(jù)的價值會隨著時間的流逝而不斷減少。因此,盡可能快地對最新的數(shù)據(jù)做出分逝而不斷減少。因此,盡可能快地對最新的數(shù)據(jù)做出分析并給出結果是所有流數(shù)據(jù)處理模式的共同目標。析并給出結果是所有流數(shù)據(jù)處理模式的共同目標。 2 2)批處理)批處理(Batch Processing)(Batch Processing),即先存儲后處理,即先存儲后處理 Google Google 公司在公司在2004 2004 年提出的年提出的MapReduceMapReduce編
4、程模編程模型是最具代表性的批處理模式。型是最具代表性的批處理模式。 MAPREDUCE執(zhí)行流程圖 MapReduceMapReduce模型首先將用戶的原始數(shù)據(jù)源進行模型首先將用戶的原始數(shù)據(jù)源進行分塊,然后分別交給不同的分塊,然后分別交給不同的MapMap任務區(qū)處理。任務區(qū)處理。MapMap任務任務從輸入中解析出從輸入中解析出Key/ValueKey/Value對集合,然后對這些集合執(zhí)對集合,然后對這些集合執(zhí)行用戶自行定義的行用戶自行定義的MapMap函數(shù)得到中間結果,并將該結果函數(shù)得到中間結果,并將該結果寫入本地硬盤。寫入本地硬盤。ReduceReduce任務從硬盤上讀取數(shù)據(jù)之后,任務從硬盤上
5、讀取數(shù)據(jù)之后,會根據(jù)會根據(jù)key key 值進行排序,將具有相同值進行排序,將具有相同key key 值的組織在值的組織在一起。最后用戶自定義的一起。最后用戶自定義的ReduceReduce函數(shù)會作用于這些排函數(shù)會作用于這些排好序的結果并輸出最終結果。好序的結果并輸出最終結果。 MapReduceMapReduce的核心設計思想:的核心設計思想: 1)1)將問題分而治之;將問題分而治之; 2)2)把計算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計算,有效把計算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計算,有效的避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通訊開銷。的避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通訊開銷。 MapReduceMapReduce模
6、型簡單,且現(xiàn)實中很多問題都模型簡單,且現(xiàn)實中很多問題都可用可用MapReduceMapReduce模型來表示。因此該模型公開后,立刻模型來表示。因此該模型公開后,立刻受到極大的關注,并在生物信息學、文本挖掘等領域受到極大的關注,并在生物信息學、文本挖掘等領域得到廣泛的應用。得到廣泛的應用。大數(shù)據(jù)處理的基本流程大數(shù)據(jù)處理的基本流程 1)1)數(shù)據(jù)抽取與集成數(shù)據(jù)抽取與集成 2)2)數(shù)據(jù)分析數(shù)據(jù)分析 面臨著一些新的挑戰(zhàn):數(shù)據(jù)量大并不一定意味面臨著一些新的挑戰(zhàn):數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價值的增加,相反這往往意味著數(shù)據(jù)噪音的增多著數(shù)據(jù)價值的增加,相反這往往意味著數(shù)據(jù)噪音的增多; ;大數(shù)據(jù)時代的算法需要進
7、行調(diào)整,準確率不再是大數(shù)據(jù)大數(shù)據(jù)時代的算法需要進行調(diào)整,準確率不再是大數(shù)據(jù)應用的最主要指標應用的最主要指標; ;數(shù)據(jù)結果好壞的衡量。數(shù)據(jù)結果好壞的衡量。 3 3)數(shù)據(jù)解釋)數(shù)據(jù)解釋( (可視化技術可視化技術) )三、天體光譜大數(shù)據(jù)分析與挖掘 我國已建造一臺大天區(qū)面積多目標光纖光譜望遠鏡我國已建造一臺大天區(qū)面積多目標光纖光譜望遠鏡(LAMOSTLAMOST),是國家重大科學工程項目,也是世界上光譜),是國家重大科學工程項目,也是世界上光譜獲取率最高的望遠鏡。預計獲取率最高的望遠鏡。預計LAMOSTLAMOST所觀測到的光譜數(shù)據(jù)容所觀測到的光譜數(shù)據(jù)容量將有可能達到量將有可能達到4TB4TB;巡天所
8、覆蓋的波段為;巡天所覆蓋的波段為37003700埃至埃至90009000埃,埃,即其觀測屬性可達數(shù)千維,是典型的高維數(shù)據(jù);數(shù)據(jù)類型:即其觀測屬性可達數(shù)千維,是典型的高維數(shù)據(jù);數(shù)據(jù)類型:圖像和圖像和FITSFITS文件等。文件等。 科學目標科學目標: : “星系紅移巡天星系紅移巡天”、“恒星和銀河系恒星和銀河系的結構的結構 特征特征”和和“多波段認證多波段認證” 。 天體光譜大數(shù)據(jù)分析處理主要內(nèi)容天體光譜大數(shù)據(jù)分析處理主要內(nèi)容: :預處理預處理( (去噪、去噪、歸一化等歸一化等) )、分類與識別分類與識別、測量(紅移等參數(shù))測量(紅移等參數(shù))等。等。 一條SEYFERT 2 SEYFERT 2
9、光譜數(shù)據(jù)圖( (紅移為0)0) 天體光譜是天體電磁輻射按照波長的有序排列,蘊含著天體的重要天體光譜是天體電磁輻射按照波長的有序排列,蘊含著天體的重要物理信息,例如:天體的化學成份、天體的表面溫度、直徑、質(zhì)量、光物理信息,例如:天體的化學成份、天體的表面溫度、直徑、質(zhì)量、光度以及天體的視向運動和自轉(zhuǎn)度以及天體的視向運動和自轉(zhuǎn)。天文學家和天體物理學家通過分析天體天文學家和天體物理學家通過分析天體光譜的信息,不僅可以研究宇宙中物質(zhì)的分布特征,還可以研究天體的光譜的信息,不僅可以研究宇宙中物質(zhì)的分布特征,還可以研究天體的形成和隨時間的演化等重大科學問題形成和隨時間的演化等重大科學問題。 由于天文界對宇
10、宙的認識還比較有限,由于天文界對宇宙的認識還比較有限,LAMOSTLAMOST巡天計劃的一個重要任務是要發(fā)現(xiàn)一些新的、巡天計劃的一個重要任務是要發(fā)現(xiàn)一些新的、特殊類型的天體,因此,如何利用數(shù)據(jù)挖掘技術從海特殊類型的天體,因此,如何利用數(shù)據(jù)挖掘技術從海量天體光譜數(shù)據(jù)中發(fā)現(xiàn)未知的、特殊的天體及天體規(guī)量天體光譜數(shù)據(jù)中發(fā)現(xiàn)未知的、特殊的天體及天體規(guī)律是數(shù)據(jù)挖掘值得研究和探索的新應用領域。律是數(shù)據(jù)挖掘值得研究和探索的新應用領域。 面向特定任務的數(shù)據(jù)挖掘是當前數(shù)據(jù)挖掘面向特定任務的數(shù)據(jù)挖掘是當前數(shù)據(jù)挖掘領域發(fā)展的趨勢之一。以領域發(fā)展的趨勢之一。以LAMOSTLAMOST項目為背景,對天體項目為背景,對天體
11、光譜數(shù)據(jù)挖掘技術進行了研究,其研究成果不僅具有光譜數(shù)據(jù)挖掘技術進行了研究,其研究成果不僅具有重要的理論價值,而且可直接應用到重要的理論價值,而且可直接應用到LAMOSTLAMOST中,為國中,為國家重大科學工程提供技術支撐。家重大科學工程提供技術支撐。近年來主持承擔的部分課題1 1 海量高維天體光譜數(shù)據(jù)挖掘及其并行化研究(海量高維天體光譜數(shù)據(jù)挖掘及其并行化研究(6127226361272263),國家自),國家自然科學基金,然科學基金,2013.1-2016.12,2013.1-2016.12,(在研)(在研)2 2 面向面向LAMOST LAMOST 天文光譜特征線的數(shù)據(jù)挖掘方法研究(天文光
12、譜特征線的數(shù)據(jù)挖掘方法研究(6107314561073145),),國家自然科學基金,國家自然科學基金,2011.1-2013.12,2011.1-2013.12,(在研)(在研)3 3 面向天文光譜的數(shù)據(jù)挖掘算法性能分析與并行化研究面向天文光譜的數(shù)據(jù)挖掘算法性能分析與并行化研究(6111112031761111120317),國家自然科學基金委國際合作與交流項目,),國家自然科學基金委國際合作與交流項目,2011.6-2011.12,2011.6-2011.12,(結題)(結題)4 4 基于加權和約束概念格的數(shù)據(jù)挖掘方法與天體光譜數(shù)據(jù)挖掘技術基于加權和約束概念格的數(shù)據(jù)挖掘方法與天體光譜數(shù)據(jù)挖
13、掘技術(6077301460773014),國家自然科學基金,),國家自然科學基金,2008.1-2010.12,2008.1-2010.12,(結題)(結題)5 5 基于數(shù)據(jù)網(wǎng)格的分布式數(shù)據(jù)挖掘方法研究(基于數(shù)據(jù)網(wǎng)格的分布式數(shù)據(jù)挖掘方法研究(6091112047860911120478),國家),國家自然科學基金委國際合作與交流項目,自然科學基金委國際合作與交流項目,2009.9-2010.3,2009.9-2010.3,(結題)(結題)6 6 基于背景知識的數(shù)據(jù)挖掘方法及其在基于背景知識的數(shù)據(jù)挖掘方法及其在LAMOSTLAMOST中的應用(中的應用(6057307560573075),),
14、國家自然科學基金,國家自然科學基金,2006.1-2008.12,2006.1-2008.12,(結題)(結題)7 7 海量天體光譜數(shù)據(jù)挖掘算法研究與實現(xiàn)海量天體光譜數(shù)據(jù)挖掘算法研究與實現(xiàn)(2003AA133060) (2003AA133060) ,國家,國家“863863”高技術計劃子課題,高技術計劃子課題,2003.8-2005.82003.8-2005.8(結題)(結題)主要成果之一:基于概念格的天體光譜離群數(shù)據(jù)挖掘系統(tǒng) 將概念格中每個概念節(jié)點內(nèi)涵描述為天體光將概念格中每個概念節(jié)點內(nèi)涵描述為天體光譜數(shù)據(jù)特征子空間,提出了一種天體光譜離群數(shù)據(jù)識譜數(shù)據(jù)特征子空間,提出了一種天體光譜離群數(shù)據(jù)識
15、別方法。首先將概念節(jié)點的內(nèi)涵縮減看作天體光譜特別方法。首先將概念節(jié)點的內(nèi)涵縮減看作天體光譜特征子空間,并依據(jù)稀疏度系數(shù)閾值確定稀疏子空間;征子空間,并依據(jù)稀疏度系數(shù)閾值確定稀疏子空間;其次對于稀疏子空間,依據(jù)稠密度系數(shù)判定祖先概念其次對于稀疏子空間,依據(jù)稠密度系數(shù)判定祖先概念節(jié)點內(nèi)涵是否為稠密子空間,進而判斷出概念節(jié)點外節(jié)點內(nèi)涵是否為稠密子空間,進而判斷出概念節(jié)點外延中包含的數(shù)據(jù)對象是否為天體光譜離群數(shù)據(jù);最后延中包含的數(shù)據(jù)對象是否為天體光譜離群數(shù)據(jù);最后以離散化天體光譜數(shù)據(jù)作為形式背景,實驗驗證了利以離散化天體光譜數(shù)據(jù)作為形式背景,實驗驗證了利用該方法識別出的天體光譜離群數(shù)據(jù)是準確的、完備用
16、該方法識別出的天體光譜離群數(shù)據(jù)是準確的、完備的和有效的。的和有效的。典型論文1 Jifu Zhang, Sulan Zhang, Kai H. Chang, and Xiao Qin. An 1 Jifu Zhang, Sulan Zhang, Kai H. Chang, and Xiao Qin. An Outlier Mining Algorithm Based on Constrained Concept Outlier Mining Algorithm Based on Constrained Concept Lattice, International Journal of Syst
17、ems ScienceLattice, International Journal of Systems Science(acceptaccept)2 Sulan Zhang, Ping Guo, Jifu Zhang, Xinxin Wang, and Witold 2 Sulan Zhang, Ping Guo, Jifu Zhang, Xinxin Wang, and Witold Pedrycz. A Completeness Analysis of Frequent Weighted Pedrycz. A Completeness Analysis of Frequent Weigh
18、ted Concept Lattices and Their Algebraic PropertiesConcept Lattices and Their Algebraic Properties,Data & Data & Knowledge EngineeringKnowledge Engineering,818182 (2012) 82 (2012) :104104117 117 3 Jifu Zhang3 Jifu Zhang,Yiyong Jiang, Kai H. Chang et al. A Concept Yiyong Jiang, Kai H. Chang e
19、t al. A Concept Lattice Based Outlier Mining Method in Low Dimensional Lattice Based Outlier Mining Method in Low Dimensional Subspaces. Pattern Recognition Letters,2009,30 (15) : 1434-Subspaces. Pattern Recognition Letters,2009,30 (15) : 1434-1439 1439 4 4 張繼福;張素蘭;蔣義勇張繼福;張素蘭;蔣義勇. . 基于約束概念格的天體光譜局部離群
20、數(shù)基于約束概念格的天體光譜局部離群數(shù)據(jù)挖掘系統(tǒng),光譜學與光譜分析,據(jù)挖掘系統(tǒng),光譜學與光譜分析,20092009,2929(2 2):):551-555 551-555 5 5 張繼福等張繼福等. . 基于概念格的天體光譜離群數(shù)據(jù)識別方法,自動化學報,基于概念格的天體光譜離群數(shù)據(jù)識別方法,自動化學報,20082008,3434(9 9):):1060-1066 1060-1066 6 Jianghui Cai6 Jianghui Cai;Jifu ZhangJifu Zhang;Zhao Xujun. A Star Spectrum Zhao Xujun. A Star Spectrum Ou
21、tlier Mining System Based on Simulated Annealing, Outlier Mining System Based on Simulated Annealing, International Journal of Innovative Computing, Information International Journal of Innovative Computing, Information and Controland Control,20082008,4 4(9 9):):2263-2271 2263-2271 主要成果之二:天體光譜數(shù)據(jù)相關性分
22、析系統(tǒng) 以國家重大科學工程以國家重大科學工程LAMOSTLAMOST項目為背項目為背景,利用一階謂詞邏輯作為天體光譜知識表示景,利用一階謂詞邏輯作為天體光譜知識表示技術,提出了一種約束技術,提出了一種約束FPFP樹及其構造算法,從樹及其構造算法,從而有效地提高了天體光譜數(shù)據(jù)相關性分析的針而有效地提高了天體光譜數(shù)據(jù)相關性分析的針對性和效率,并在此基礎上,提出了一種基于對性和效率,并在此基礎上,提出了一種基于約束約束FPFP樹的天體光譜數(shù)據(jù)相關性分析方法。實樹的天體光譜數(shù)據(jù)相關性分析方法。實驗結果分析表明,利用該相關性分析方法挖掘驗結果分析表明,利用該相關性分析方法挖掘天體光譜數(shù)據(jù)特征和物理化學性
23、質(zhì)之間存在的天體光譜數(shù)據(jù)特征和物理化學性質(zhì)之間存在的相關性,是可行的和有價值的。相關性,是可行的和有價值的。典型論文1 Jifu Zhang, Xujun Zhao, Sulan Zhang, Shu Yin, and Xiao 1 Jifu Zhang, Xujun Zhao, Sulan Zhang, Shu Yin, and Xiao Qin. Interrelation Analysis of Celestial Spectra Data Qin. Interrelation Analysis of Celestial Spectra Data using Constrained Fr
24、equent Pattern Treesusing Constrained Frequent Pattern Trees,Knowledge-Knowledge-Based Systems 41 (2013): 77-88. Based Systems 41 (2013): 77-88. 2 Jianghui Cai, Xujun Zhao, Shiwei Sun, Jifu Zhang, 2 Jianghui Cai, Xujun Zhao, Shiwei Sun, Jifu Zhang, Haifeng Yang.Stellar spectra association rule mining Haifeng Yang.Stellar spectra association rule mining method based on weighted frequent pattern tree. Research method based on weighted frequent pattern tree. Res
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 庫房標識卡管理制度
- 棄土場公司管理制度
- 影像科設備管理制度
- 德州俱樂部管理制度
- 快遞分揀機管理制度
- 快餐廳員工管理制度
- 急診科設備管理制度
- 總經(jīng)理提成管理制度
- 感官訓練室管理制度
- 成品紙庫房管理制度
- 結構動力學完整版本
- 2025年八年級數(shù)學下學期期末總復習八年級數(shù)學下學期期末測試卷(2)(學生版+解析)
- 四級閱讀測試題及答案
- 農(nóng)村供水水質(zhì)管理制度
- 建筑工地應急預案方案
- T/CIE 208-2024兒童機器人教育評價指南
- 2025年高考英語課后續(xù)寫高頻考點話題分類第07講 讀后續(xù)寫之成長類主題(講義)
- 2025年廣東中考百校聯(lián)考語文試卷 2025年廣東中考百校聯(lián)考語文試卷
- 2025年公路市場調(diào)研報告
- 生物+2025云南新高考自主命題沖刺金卷及答案
- 糖尿病眼病試題及答案
評論
0/150
提交評論