




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
4.4初識大數(shù)據(jù)高教版《信息技術》基礎模塊(下冊)了解大數(shù)據(jù)隨著智能手機的普及,“低頭族”的群體不斷壯大。很多人會在閑暇時間“刷手機”,而且一刷就停不下來。為什么這些APP里的內(nèi)容都是我們愛看的?它們怎么就這么“懂”我們的喜好呢?了解大數(shù)據(jù)1大數(shù)據(jù)的基礎知識從技術的角度看,大數(shù)據(jù)指的是傳統(tǒng)數(shù)據(jù)處理應用軟件不足以處理的大或復雜的數(shù)據(jù)集。從資源的角度看,大數(shù)據(jù)指的是海量、高速增長和多樣化的信息資產(chǎn)。體量大產(chǎn)生速度快類型多價值密度低了解大數(shù)據(jù)2大數(shù)據(jù)采集與分析的相關技術大數(shù)據(jù)處理主要是指從海量數(shù)據(jù)中獲取需要的信息并進行加工分析得到有用的知識,通常在大數(shù)據(jù)管理平臺上進行。數(shù)據(jù)存儲與預處理數(shù)據(jù)采集數(shù)據(jù)挖掘數(shù)據(jù)呈現(xiàn)大量的數(shù)據(jù)有用的信息數(shù)據(jù)了解大數(shù)據(jù)數(shù)據(jù)存儲與預處理數(shù)據(jù)采集數(shù)據(jù)挖掘數(shù)據(jù)呈現(xiàn)數(shù)據(jù)存儲與預處理數(shù)據(jù)采集,指從傳感器或其他采集設備中獲取數(shù)據(jù)。采集的數(shù)據(jù)包括實時數(shù)據(jù)和非實時數(shù)據(jù)。采集的數(shù)據(jù)維度越多、越密集,大數(shù)據(jù)潛在的價值越大。數(shù)據(jù)預處理主要指數(shù)據(jù)清洗,即消除在數(shù)據(jù)采集的過程中由于人為疏忽、設備異常或采樣方法不合理等因素造成的數(shù)據(jù)誤差、數(shù)據(jù)遺失、數(shù)據(jù)重復等不同類型的問題數(shù)據(jù),提高數(shù)據(jù)質量和完整性。了解大數(shù)據(jù)數(shù)據(jù)存儲與預處理數(shù)據(jù)采集數(shù)據(jù)挖掘數(shù)據(jù)呈現(xiàn)大數(shù)據(jù)的存儲需要分布式文件系統(tǒng)和分布式數(shù)據(jù)庫的支持。傳統(tǒng)的關系數(shù)據(jù)庫不能有效地滿足大數(shù)據(jù)中半結構化及非結構化數(shù)據(jù)的存儲與索引處理。NoSQL(NotOnlySQL)泛指非關系型數(shù)據(jù)庫,是大數(shù)據(jù)存儲中常用的數(shù)據(jù)庫。非結構化數(shù)據(jù)是指數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等等。什么叫非結構化數(shù)據(jù)?了解大數(shù)據(jù)數(shù)據(jù)存儲與預處理數(shù)據(jù)采集數(shù)據(jù)挖掘數(shù)據(jù)呈現(xiàn)旨在發(fā)現(xiàn)哪些行為或現(xiàn)象總是一起發(fā)生。其典型例子是購物籃分析從中發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的關系,找出顧客購買行為模式,分析結果可以應用于商品貨架布局、存貨安排等。分類預測聚類關聯(lián)規(guī)則指通過觀察大量數(shù)據(jù)后得出規(guī)則以建立類別模式,將數(shù)據(jù)中各屬性分門別類地加以定義。例如,智能手機中的相冊自動分類。是利用歷史數(shù)據(jù)來預測未來可能發(fā)生的行為或現(xiàn)象。例如,根據(jù)以往的氣象數(shù)據(jù)預測天氣、利用用戶搜索歷史預測旅游景點的訪客人數(shù)等。是根據(jù)相似度將數(shù)據(jù)區(qū)分為不同聚類,使同一聚類內(nèi)的個體距離較近或變異較小,不同聚類間的個體距離較遠或變異較大。例如,根據(jù)客戶的網(wǎng)絡瀏覽習慣推送個性化內(nèi)容。了解大數(shù)據(jù)數(shù)據(jù)存儲與預處理數(shù)據(jù)采集數(shù)據(jù)挖掘數(shù)據(jù)呈現(xiàn)大數(shù)據(jù)的可視化技術,能夠幫助人們有效理解數(shù)據(jù),最終真正利用好大數(shù)據(jù)。從數(shù)據(jù)展示的角度來看,可視化技術可以分為數(shù)據(jù)的結構可視化、功能可視化、關聯(lián)關系可視化和發(fā)展趨勢可視化。了解大數(shù)據(jù)3大數(shù)據(jù)與物聯(lián)網(wǎng)的關系物聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù),大數(shù)據(jù)助力物聯(lián)網(wǎng)。物聯(lián)網(wǎng)數(shù)據(jù)本身就是一種大數(shù)據(jù),是通過大量傳感器收集的。數(shù)據(jù)的分析、處理必須跟上物聯(lián)網(wǎng)的節(jié)奏,所以,物聯(lián)網(wǎng)推動了大數(shù)據(jù)的發(fā)展。了解大數(shù)據(jù)4大數(shù)據(jù)應用場景在金融服務領域可以用于風險分析和管理、客戶忠誠度分析、交易監(jiān)管等;在公共領域可以用于網(wǎng)絡安全、能耗管理等;在醫(yī)療健康領域可以用于藥品發(fā)現(xiàn)和開發(fā)分析、患者護理質量分析、健康保險、醫(yī)療設備供應鏈管理等;在零售領域可以用于市場和用戶分析、預測銷售等;在環(huán)保領域可以用于空氣質量監(jiān)測、排污管理等。生活中與大數(shù)據(jù)相關的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 決策支持系統(tǒng)在項目中的應用試題及答案
- 智慧物流配送體系2025年資金申請報告:物流行業(yè)物流機器人市場前景分析
- 西方政治制度與城市治理策略試題及答案
- 告別舊版技術的網(wǎng)絡試題及答案
- 安全高壓電工考試題庫及答案
- 機電工程基礎實踐技能測評試題及答案
- 機電工程運輸與搬運試題
- 及時反饋2025年信息管理師試題及答案
- 西方政治制度的社會共識探討試題及答案
- 機電工程設備選型與試題及答案2025
- 農(nóng)場轉讓合同協(xié)議書模板
- 2025-2030中國共享單車服務行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025年法律職業(yè)資格(客觀題)重點考點大全
- 2024年直播電商高質量發(fā)展報告
- 浙江專升本免試題目及答案
- 吉林省長春市2025屆高三質量監(jiān)測(四)英語試卷+答案
- 中等職業(yè)學校英語課程標準
- 北京市海淀區(qū)2023-2024學年五年級下學期語文期末考試試卷(含答案)
- 2025-2030瀝青市場投資前景分析及供需格局研究研究報告
- 剪輯考試試題及答案
- 智能財務導論 課件全套 陳俊 第1-12章 智能財務的發(fā)展 -數(shù)智時代的會計倫理
評論
0/150
提交評論