




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
大數(shù)據(jù)應用基礎信息學院認知大數(shù)據(jù)系統(tǒng)1.3大數(shù)據(jù)技術及大數(shù)據(jù)處理流程01認知大數(shù)據(jù)系統(tǒng)大數(shù)據(jù)相關技術01大數(shù)據(jù)處理流程02大數(shù)據(jù)工具比較03一、大數(shù)據(jù)相關技術
大數(shù)據(jù)需要特殊的技術,以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。近年來,大數(shù)據(jù)相關技術和應用引起了從研究人員到商業(yè)人士越來越廣泛的關注。
云計算、物聯(lián)網(wǎng)、人工智能等技術基礎的發(fā)展極大地推動了大數(shù)據(jù)服務的發(fā)展。云存儲:是一種網(wǎng)上在線存儲(英語:Cloudstorage)的模式,即把數(shù)據(jù)存放在通常由第三方托管的多臺虛擬服務器上。使用者可以在任何時間、任何地方,透過任何可連網(wǎng)的裝置連接到云上方便地存取數(shù)據(jù)。云計算:云計算(cloudcomputing)是分布式計算的一種,指的是通過網(wǎng)絡“云”將巨大的數(shù)據(jù)計算處理程序分解成無數(shù)個小程序,然后,通過多部服務器組成的系統(tǒng)進行處理和分析這些小程序得到結(jié)果并返回給用戶。一、大數(shù)據(jù)技術物聯(lián)網(wǎng):物聯(lián)網(wǎng)是新一代信息技術的重要組成部分,也是"信息化"時代的重要發(fā)展階段。其英文名稱是:"Internetofthings(IoT)"。顧名思義,物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng)。它利用局部網(wǎng)絡或互聯(lián)網(wǎng)等通信技術把傳感器、控制器、機器、人員和物等通過新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實現(xiàn)信息化、遠程管理控制和智能化的網(wǎng)絡。物聯(lián)網(wǎng)是互聯(lián)網(wǎng)的延伸。一、大數(shù)據(jù)技術人工智能:人工智能(ArtificialIntelligence,縮寫為AI)亦稱智械、機器智能,指由人制造出來的機器所表現(xiàn)出來的智能。通常人工智能是指通過普通計算機程序來呈現(xiàn)人類智能的技術。例如:在線客服、虛擬個人助理(Siri)、面部識別、可穿戴設備……一、大數(shù)據(jù)技術歷程從數(shù)據(jù)分析全流程的角度,大數(shù)據(jù)技術主要包括數(shù)據(jù)采集與預處理、數(shù)據(jù)存儲和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化等幾個層面的內(nèi)容。第二階段:數(shù)據(jù)存儲與管理第四階段:數(shù)據(jù)可視化第一階段:數(shù)據(jù)采集與預處理二、大數(shù)據(jù)處理流程第三階段:數(shù)據(jù)處理與分析2.1數(shù)據(jù)采集與預處理
數(shù)據(jù)無處不在,網(wǎng)站、政務系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、生產(chǎn)系統(tǒng)、監(jiān)控攝像頭、傳感器等,每時每刻都在不斷產(chǎn)生數(shù)據(jù),需要相應的設備或軟件進行采集。采集到的數(shù)據(jù)由于來源眾多、類型多樣,數(shù)據(jù)缺失和語義模糊等問題不可避免,所以必須采用“數(shù)據(jù)預處理”把數(shù)據(jù)變成可用的狀態(tài)。2.1數(shù)據(jù)采集與預處理數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是利用各種技術手段,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個接口。被采集的數(shù)據(jù)類型復雜多樣,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù):就是保存在關系數(shù)據(jù)庫中的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù):是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,包括所有格式的傳感器數(shù)據(jù)、辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻、視頻等信息。半結(jié)構(gòu)化數(shù)據(jù):就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱為自描述的結(jié)構(gòu),包括日志文件、XML文檔、JSON文檔、Email等。2.1數(shù)據(jù)采集與預處理數(shù)據(jù)預處理是指對所收集數(shù)據(jù)進行分類或分組前所做的審核、篩選、排序等必要的處理,主要采用數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約的方法來完成數(shù)據(jù)的預處理任務。數(shù)據(jù)清洗:是指將大量原始數(shù)據(jù)中的“臟”數(shù)據(jù)“洗掉”,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。需要清洗的數(shù)據(jù)主要類型包括:殘缺數(shù)據(jù)、錯誤數(shù)據(jù)、重要數(shù)據(jù)。數(shù)據(jù)清洗的內(nèi)容主要包括:一致性查檢查、無效值和缺失值的處理。數(shù)據(jù)集成:是將不同應用系統(tǒng)、不同數(shù)據(jù)形式,在原應用系統(tǒng)不做任何改變的條件下,進行數(shù)據(jù)采集、轉(zhuǎn)換好儲存的數(shù)據(jù)整合過程。通常采用聯(lián)邦式、基于中間件模型和數(shù)據(jù)倉庫等方法來構(gòu)造集成的系統(tǒng)。
數(shù)據(jù)轉(zhuǎn)換:采用線性或非線性的數(shù)學變換方法將多維數(shù)據(jù)壓縮成較少維的數(shù)據(jù),消除它們在時間、空間、屬性及精度等特征表現(xiàn)方面的差異。
數(shù)據(jù)規(guī)約:是指盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量保持數(shù)據(jù)的原始狀態(tài)。數(shù)據(jù)規(guī)約可以分為3類,分別是特征規(guī)約、樣本規(guī)約、特征值規(guī)約。2.2數(shù)據(jù)存儲與管理大數(shù)據(jù)時代必須解決海量數(shù)據(jù)的高效存儲問題,為了應對大數(shù)據(jù)對存儲系統(tǒng)的挑戰(zhàn),數(shù)據(jù)存儲系統(tǒng)必須提升3個方面的問題:提升系統(tǒng)的存儲容量、提升系統(tǒng)的吞吐量、提升系統(tǒng)的容錯性。當前主流大數(shù)據(jù)存儲方式為分布式系統(tǒng)、NoSQL數(shù)據(jù)庫和云存儲技術。分布式文件系統(tǒng)(DistributedFileSystem,DFS):分布式文件系統(tǒng)通過網(wǎng)絡將大量零散的計算機連接在一起,形成一個巨大的計算機集群,使各主機均可以充分發(fā)揮其價值。此外,集群之外的計算機只需要經(jīng)過簡單的配置就可以加入到分布式文件系統(tǒng)中,具有極強的可擴展能力。NoSQL數(shù)據(jù)庫(NotOnlySQL):泛指非關系型的數(shù)據(jù)庫,區(qū)別于關系數(shù)據(jù)庫,它們不保證關系數(shù)據(jù)的ACID特性。NoSQL有如下優(yōu)點:易擴展,NoSQL數(shù)據(jù)庫種類繁多,但是一個共同的特點都是去掉關系數(shù)據(jù)庫的關系型特性。數(shù)據(jù)之間無關系,這樣就非常容易擴展。無形之間也在架構(gòu)的層面上帶來了可擴展的能力。云存儲(Cloudstorage)技術:是一種網(wǎng)上在線存儲的模式,即把數(shù)據(jù)存放在通常由第三方托管的多臺虛擬服務器,而非專屬的服務器上。托管公司運營大型的數(shù)據(jù)中心,需要數(shù)據(jù)存儲托管的人,則透過向其購買或租賃存儲空間的方式,來滿足數(shù)據(jù)存儲的需求。數(shù)據(jù)備份、歸檔和災難恢復是云存儲可能的3個用途。2.3數(shù)據(jù)處理與分析數(shù)據(jù)分析是指收集、處理數(shù)據(jù)并獲取數(shù)據(jù)中隱含的信息的過程。具體地說,數(shù)據(jù)分析就是建立數(shù)據(jù)分析模型,對數(shù)據(jù)進行核對、篩查、復算、判斷等操作,將目標數(shù)據(jù)的實際情況與理想情況進行對比分析,從而發(fā)現(xiàn)審計線索,搜集審計證據(jù)的過程。推測或解釋數(shù)據(jù)并確定如何使用數(shù)據(jù)。檢查數(shù)據(jù)是否合法。給決策制定合理建議。診斷或推斷錯誤原因。預測未來將要發(fā)生的事情。2.3數(shù)據(jù)處理與分析數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于數(shù)據(jù)中的信息的過程。數(shù)據(jù)挖掘算法包括分類、聚類、回歸分析和關聯(lián)規(guī)則等。分類:分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。聚類分析:聚類是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關聯(lián)性很低。回歸分析:回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達數(shù)據(jù)映射的關系來發(fā)現(xiàn)屬性值之間的依賴關系。關聯(lián)分析:關聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關聯(lián)或相互關系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導出其他數(shù)據(jù)項的出現(xiàn)。特征分析:特征分析是指從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關于這些數(shù)據(jù)的特征,這些特征即為此數(shù)據(jù)庫的總體特征。2.4數(shù)據(jù)可視化數(shù)據(jù)可視化概念。是指將大型數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。具體指利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋。觀測、跟蹤數(shù)據(jù)。利用變化的數(shù)據(jù)生成實時變化的可視化圖表,可以讓人們一看出各種參數(shù)的態(tài)變化過程,有效地跟蹤各種參數(shù)值。分析數(shù)據(jù)。利用可視化技術,實時呈現(xiàn)當前分析結(jié)果,引導用戶參與分析過程,根據(jù)用戶反反饋信息執(zhí)行后續(xù)分析操作,完成用戶與分析算法的全程交互,實現(xiàn)數(shù)據(jù)分析算法與用戶領域知識結(jié)合。輔助理解數(shù)據(jù)。幫助普通用戶更快、更準確地理解數(shù)據(jù)背后的含義,如用不同的顏色區(qū)分不同對象、用動畫顯示變化過程、用圖結(jié)構(gòu)展示對象之間的復雜關系等。增強數(shù)據(jù)吸引力。枯燥的數(shù)據(jù)被制作成具有強大視覺沖擊力和說服力的圖像,可以增強讀者的閱讀興趣。實訓三:大數(shù)據(jù)分析、挖掘與可視化工具比對02實訓三:大數(shù)據(jù)分析、挖掘與可視化工具比對背景:為了高效進行數(shù)據(jù)分析與數(shù)據(jù)呈現(xiàn),請你查閱國內(nèi)外主流的大數(shù)據(jù)分析與可視化呈現(xiàn)工具,并對比分析工具。實訓三大數(shù)據(jù)分析、挖掘與可視化工具比對任務一:查詢國外常用的數(shù)據(jù)分析工具【任務描述】搜索查閱對比Python程序與R語言相關內(nèi)容,對比兩個系統(tǒng)的特點
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個性化教學與課程實施的社會學視角-洞察闡釋
- 游戲客服試題及答案
- 2024年溫州市工人業(yè)余大學輔導員考試真題
- 2024年重慶南川區(qū)事業(yè)單位遴選真題
- 2024年遼源市融發(fā)資本運營集團有限公司及招聘工作人員真題
- 山西省朔州市懷仁市懷仁市第一中學校等(青桐鳴聯(lián)考)2025屆高三下學期高考模擬數(shù)學試題
- 2024-2025年高三數(shù)學5月針對性測試三
- 廣西幼師幼兒園教育活動設計與指導課程標準
- 2025年二手電商信用體系建設與平臺可持續(xù)發(fā)展研究
- 透皮貼劑生物相容性研究行業(yè)深度調(diào)研及發(fā)展項目商業(yè)計劃書
- 管道工程焊接工藝評定方案
- (完整版)食品安全自查管理制度
- 結(jié)構(gòu)力學A(一)知到智慧樹章節(jié)測試課后答案2024年秋中南大學
- 醫(yī)院藥事質(zhì)量控制崗位職責
- 習慣性違章行為匯編
- 《大學生創(chuàng)業(yè)導論》期末考試復習題庫(含答案)
- 《中國急性腎損傷臨床實踐指南(2023版)》解讀
- 建筑裝飾的室內(nèi)裝修工藝與施工技術考核試卷
- 有機合成工(高級)職業(yè)技能鑒定理論試題及答案
- 果酒生產(chǎn)作業(yè)指導書
- 商法學習通超星期末考試答案章節(jié)答案2024年
評論
0/150
提交評論