




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《大數據導論》課程期末復習資料《大數據導論》課程講稿章節目錄:第1章大數據概述
(1)大數據的概念
(2)大數據的特征
(3)大數據的數據類型
(4)大數據的技術
(5)大數據的應用
第2章大數據采集與預處理
(1)大數據采集
(2)大數據預處理概述
(3)數據清洗
(4)數據集成
(5)數據變換
(6)數據規約
第3章大數據存儲
(1)大數據存儲概述
(2)數據存儲介質
(3)存儲系統結構
(4)云存儲概述
(5)云存儲技術
(6)新型數據存儲系統
(7)數據倉庫
第4章大數據計算平臺
(1)云計算概述
(2)云計算平臺
(3)MapReduce平臺
(4)Hadoop平臺
(5)Spark平臺
第5章大數據分析與挖掘
(1)大數據分析概述
(2)大數據分析的類型及架構
(3)大數據挖掘
(4)大數據關聯分析
(5)大數據分類
(6)大數據聚類
(7)大數據分析工具
第6章大數據可視化
(1)大數據可視化概述
(2)大數據可視化方法
(3)大數據可視化工具
第7章社交大數據精選文庫(1)社交大數據
(2)國內社交網絡大數據的應用
(3)國外社交網絡大數據的應用
第8章交通大數據
(1)交通大數據概述
(2)交通監測應用
(3)預測人類移動行為應用
第9章醫療大數據
(1)醫療大數據簡介
(2)臨床決策分析應用
(3)醫療數據系統分析
第10章大數據的挑戰與發展趨勢
(1)大數據發展面臨的挑戰
(2)大數據的發展趨勢一、客觀部分:(單項選擇、多項選擇)(一)、單項選擇1.以下不是NoSQL 數據庫的是()
A.MongoDB
B.HBase
C.Cassandra
D.DB2★考核知識點:NoSQL與NewSQL 主流系統參考講稿章節:3.7附1.1.1(考核知識點解釋):目前市場上主要的NoSQL數據存儲工具有:BigTable、Dynamo、Hbase、MongoDB、CouchDB、Hypertable還存在一些其他的開源的NoSQLCassandra等數據庫,Neo4j、OracleBerkeleyDB、Apache另外,NewSQL 數據庫。例如:GoogleSpanner、VoltDB、RethinkDB、Clustrix、TokuDB和MemSQL 等。2以下不是目前主流開源分布式計算系統的是()A.Azure
B.Hadoop
C.Spark-- 2精選文庫D.Storm★考核知識點:主流開源分布式計算系統
參見講稿章節:4.2
附1.1.2:(考核知識點解釋)
由于Google沒有開源Google分布式計算模型的技術實現,所以其他互聯網公司只能根據Google三篇技術論文中的相關原理,搭建自己的分布式計算系統。Yahoo的工程師DougCutting和MikeCafarella在2005年合作開發了分布式計算系統Hadoop。后來,Hadoop被貢獻給了Apache基金會,成為了Apache基金會的開源項目。Hadoop采用MapReduce分布式計算框架,并根據GFS開發了HDFS分布式文件系統,根據BigTable開發了HBase數據存儲系統。盡管和Google內部使用的分布式計算系統原理相同,但是 Hadoop在運算速度上依然達不到Google論文中的標準。不過,Hadoop的開源特性使其成為分布式計算系統的事實上的國際標準。Yahoo,Facebook,Amazon以及國內的百度、阿里巴巴等眾多互聯網公司都以Hadoop為基礎搭建自己的分布式計算系統。Spark也是Apache基金會的開源項目,它由加州大學伯克利分校的實驗室開發,是另外一種重要的分布式計算系統。它在Hadoop的基礎上進行了一些架構上的改良。Storm是Twitter主推的分布式計算系統,它由BackType團隊開發,是Apache基金會的孵化項目。它在Hadoop的基礎上提供了實時運算的特性,可以實時地處理大數據流。Hadoop,Spark和Storm是目前最重要的三大分布式計算系統,Hadoop常用于離線的、復雜的大數據處理,spark常用于離線的、快速的大數據處理,而storm常用于在線的、實時的大數據處理。3.Apriori算法是一種()算法
A.關聯規則
B.聚類
C.分類
D.預測
★考核知識點:大數據挖掘算法
參見講稿章節:5.3-5.7-- 3精選文庫附1.1.2:(考核知識點解釋)
關聯分析(Associationanalysis)是從有噪聲的、模糊的、隨機的海量數據中,挖掘出隱藏的、事先不知道、但是有潛在關聯的信息或知識的過程,或稱關聯規則學習(Associationrulelearning
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法,算法有兩個關鍵步驟:一是發現所有的頻繁項集;二是生成強關聯規則。FP(FrequentPattern)-growth算法基于Apriori構建,但采用了高級的數據結構減少掃描次數,大大加快了算法速度。分類(Classification)任務是在給定數據基礎上構建分類模型,根據分類模型確定目標對象屬于哪個預定義的目標類別。常用的分類算法有:決策樹、感知機、K近鄰、樸素貝葉斯、貝葉斯網絡、邏輯斯諦回歸、支持向量機、遺傳算法、人工神經網絡等。 聚類分析(Clusteranalysis)簡稱聚類(Clustering),是把數據對象劃分成子集(類)的過程,每個子集稱為一個簇(Cluster),同一個簇中的數據之間存在最大相似性,不同簇之間的數據間存在最大的差異性。K-MEANS (K-均值)算法是一種劃分聚類方法,以k為參數,將n個對象分為k個簇,以使簇(類)內具有較高的相似度,而簇間的相似度最低。(二)、多項選擇1.大數據的特征包括( )
A.體量大(Volume)
B.多樣性(Variety)
C.速度快(Velocity)
D.價值高(Value)★考核知識點:大數據的特征
參考講稿章節:1.2
附1.2.1(考核知識點解釋):
目前在描述大數據特征時,一般是按照國際數據公司IDC所提的“4V”模型來刻畫,即體量大(Volume)、多樣性(Variety)、速度快(Velocity)、價值高(Value)。1).體量大(Volume):數據量大是大數據的基本屬性。數據規模的大小是用計-- 4精選文庫算機存儲容量的單位來計算的,數量的單位從TB級別躍升到PB級別、EB級別,甚至ZB級別。2).多樣性(Variety):大數據除了體量大外,另一個最重要的特征就是數據類型的多樣化。即數據存在形式包括結構化數據、半結構化數據和非結構化數據。3)速度快(Velocity):大數據環境中速度快有兩層含義:一是數據產生速度快;二是要求數據分析處理速度快。4)價值高(Value):大數據擁有大量有價值信息,通過提煉的信息,能夠在更高的層面和視角,將在更大的范圍幫助用戶提高決策力,洞察未來創造出更大的價值和商機。2.按照數據結構分類,數據可分為( )
A.結構化數據
B.半結構化數據
C.非結構化數據
D.無結構數據★考核知識點:按照數據結構分,大數據的數據類型
參考講稿章節:1.3
附1.2.2(考核知識點解釋):
大數據不僅僅體現在數據量大,也體現在數據類型多。按照數據結構分,數據可分為結構化數據、半結構化數據和非結構化數據。 在現有大數據的存儲中,結構化數據僅有20%,其余80%則在存在于物聯網、電子商務、社交網絡等領域的半結構化數據和非結構化數據。據統計,全球結構化數據增長速度約為63%。32%,半結構化數據和非結構化數據的增速高達 (1)結構化數據:結構化數據,通常存儲在關系數據庫中,并用二維表結構通過邏輯表達實現。 所有關系型數據庫(如SQLServer、Oracle、MySQL、DB2等)中的數據全部為結構化數據。生活中我們常見的結構化數據有企業計劃系統(EnterpriseResourcePlanning,ERP)、醫療的醫院信息系統(HospitalInformationSystem,HIS)、校園一卡通核心數據庫-- 5精選文庫 (2)半結構化數據就是介于完全結構化數據和完全無結構化的數據之間的數據。例如郵件、HTML、報表、具有定義模式的XML數據文件等。典型應用場景如郵件系統、檔案系統、教學資源庫等。半結構化數據的格式一般為純文本數據,其數據格式較為規范,可以通過某種方式解析得到其中的每一項數據。最常見的半結構化數據是日志數據,采用XML、JSON等格式的數據
(3)非結構化數據是指非純文本類數據,沒有標準格式,無法直接解析出相應的值。非結構化數據無處不在,常風的包括Web網頁.即時消息或者時間數據(如微博、微信、Twitter等數據)、富文本文檔(RichTextFormat,RTF)、富媒體文件(RichMedia)、實時多媒體數據(如各種視頻,音頻、圖像文件)3.根據產生主體的不同,大數據可以分為()
A.產量企業應用產生的數據
B.大量個人用戶產生的數據
C.由巨量機器產生的數據
D.科研數據★考核知識點:根據產生主體分,大數據的數據類型
參考講稿章節:1.3
附1.2.3(考核知識點解釋):
數據可根據產生主體的不同分為三類:
(1)由少量企業應用而產生的數據。關系型數據庫中的數據、數據倉庫中的數據。(2)大量個人用戶產生的數據。社交媒體,如微博、博客、QQ、微信、Facebook、Twitter等產生的大量文字、圖片、視頻、音頻數據)、企業應用的相關評論數據、電子商務在線交易、供應商交易的日志數據。(3)由巨量機器產生的數據。應用服務器日志(Web站點、游戲)、傳感器數據(天氣、水、智能電網)、圖像和視頻監控、RFID、二維碼或者條形碼掃描的數據。4.根據作用方式不同,大數據可以分為()-- 6精選文庫A.交互數據
B.社交數據
C.交易數據
D.個人數據★考核知識點:根據作用方式的不同,大數據的數據類型分類
參考講稿章節:1.3
附1.2.4(考核知識點解釋):
數據還可根據作用方式的不同分為兩類:
(1)交互數據:指相互作用的社交網絡產生的數據,包括人為生成的社交媒體交互和機器設備交互生成的新型數據。(2)交易數據:交易數據是指來自于電子商務和企業應用的數據。包括EPR(網絡公關系統)、B2B(企業對企業)、B2C(企業對個人)、C2C(個人對個人)、O2O(線上線下)、團購等系統產生的數據。這些數據存儲在關系型數據庫和數據倉庫中,可以執行聯機分析處理(OLAP)和聯機事務處理(OLTP)。隨著大數據的發展,此類數據的規模和復雜性一直在提高。 交互和交易這兩類數據的有效融合是大數據發展的必然趨勢,大數據應用要有效集成這兩類數據,并在此基礎上,實現對這些數據的處理和分析。5.Google分布式計算模型不包括()
A.GFS
B.BigTable
C.MapReduce
D.RDD★考核知識點:Google的分布式計算模型
參見講稿章節:4.2、4.3
附1.2.5:(考核知識點解釋)
2003年到2004年間,Google發表了MapReduce、GFS(GoogleFileSystem和BigTable三篇技術論文,提出了一套全新的分布式計算理論。MapReduce 是分布式計算框架。GFS是分布式文件系統。BigTable是基于GoogleFileSystem的數據存儲系統。這三大組件組成Google的分布式計算模型。-- 7精選文庫在Google云計算平臺的技術架構中,除了少量負責特定管理功能的節點(如GFSmaster、分布式鎖Chubby和Scheduler等),所有的節點都是同構的,即同時運行GFSchunkserver、BigTableServer和MapReduceJob等核心功能模塊,與之相對應的則是數據存儲、數據管理和編程模型三項關鍵技術。6.根據數據分析深度,可將數據分析分為( )A.關聯性分析
B.預測性分析
C.規則性分析
D.描述性分析★考核知識點:根據數據分析深度,數據分析的類型參見講稿章節:5.2附1.2.6:(考核知識點解釋)根據數據分析深度,可將數據分析分為 3個層次:描述性分析(DescriptiveAnalysis),預測性分析(PredictiveAnalysis)和規則性分析(PrescriptiveAnalysis)。1描述性分析基于歷史數據來描述發生的事件。例如,利用回歸分析從數據集中發現簡單的趨勢,并借助可視化技術來更好地表示數據特征。2預測性分析用于預測未來事件發生的概率和演化趨勢。例如,預測性模型使用對數回歸和線性回歸等統計技術發現數據趨勢并預測未來的輸出結果。3規則性分析用于解決決策制定和提高分析效率。例如,利用仿真來分析復雜系統以了解系統行為并發現問題,并通過優化技術在給定約束條件下給出最優解決方案。7.根據數據分析的實時性,可將數據分析分為( )A.實時數據分析
B.預測性分析
C.規則性分析
D.離線數據分析★考核知識點:按照數據分析的實時性,數據分析的類型-- 8精選文庫參見講稿章節:5.2
附1.2.7:(考核知識點解釋)
按照數據分析的實時性,一般將數據分析分為實時數據分析和離線數據分析。實時數據分析也稱在線數據分析,能夠實時處理用戶的請求。離線數據分析通過數據采集工具將日志數據導入專用分析平臺進行分析,非實時處理數據。二、主觀部分:
(一)、名詞解釋
1.流處理
★考核知識點:數據處理
參考講稿章節:1.5
附2.1.1(考核知識點解釋):
數據處理有兩種范式,批處理和流處理。批處理:“靜止數據”轉變為“正使用數據”,先存儲后處理(Store-then-Process),先把信息存下來,稍后一次性地處理掉;對于批量數據,多采用批處理,批處理擅長全時智能,但速度慢,需要批處理加速。流處理:“動態數據”轉變為“正使用數據”,直接處理(Straight-throughProcess),任務來一件做一件,信息來一點處理一點,有的直接過濾掉,有的存起來。對于流數據,多采用流處理,獲得實時智能,速度快。2.磁盤陣列
★考核知識點:磁盤陣列
參考講稿章節:3.2
附2.1.2(考核知識點解釋):
磁盤陣列(RedundantArraysofIndependentDisks,RAID),全稱為“冗余的獨立磁盤陣列”。冗余是為了補救措施、保證可靠性而采取的一種方法,獨立是指磁盤陣列不在主機內而是自成一個系統。磁盤陣列是由很多價格較便宜的磁盤,組合成一個容量巨大的磁盤組,利用個別磁盤提供數據所產生加成效果提升整個磁盤系統效能。RAID可以讓很多磁盤驅動器同時傳輸數據,在邏輯上又是-- 9精選文庫一個磁盤驅動器,故使用此技術可以達到單個磁盤幾倍、幾十倍甚至上百倍的速率。在很多RAID模式中都有較為完備的相互校驗/恢復功能,大大提高了系統容錯度和穩定性。3.云存儲
★考核知識點:云存儲的定義
參考講稿章節:3.4
附2.1.3(考核知識點解釋):
云存儲是在云計算(cloudcomputing)概念上延伸和發展出來的一個新的概念,是一種新興的網絡存儲技術。它是云計算的重要組成部分,也是云計算的重要應用之一。云存儲是指通過集群應用、網絡技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。4.NoSQL
★考核知識點:NoSQL
參考講稿章節:3.7
附2.1.4(考核知識點解釋):
NoSQL(NotOnlySQL)泛指非關系型、分布式和不提供ACID的數據庫設計模式,它不是單純地反對關系型數據庫,而是強調鍵值(Key-Value)存儲數據庫和文檔數據庫的優點。5.數據倉庫
★考核知識點:數據倉庫的定義
參考講稿章節:3.8
附2.1.5(考核知識點解釋):
WilliamH.Inmon在1992年出版BuildingtheDataWarehouse一書,第一次給出了數據倉庫的清晰定義和操作性極強的指導意見,真正拉開了數據倉庫得到大規模應用的序幕。在該書中,將數據倉庫定義為: “一個面向主題的(subjectoriented)、集成的(integrate),相對穩定的(non-volatile)、反映歷史變化(timevariant)的數據集合,用于支持管理決策。6.云計算
★考核知識點:云計算的定義-- 10精選文庫參見講稿章節:4.1
附2.1.6:(考核知識點解釋)
云計算(Cloud Computing)是一種分布在大規模數據中心、能動態的提供各種服務器資源以滿足科研、電子商務等領域需求的計算平臺。同時,云計算是分布式計算、并行計算和網絡計算的發展,是虛擬化、效用計算、IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)等概念混合演進并躍升的結果。簡單的說,云計算是基于互聯網相關服務的增加、使用和交付模式,通過互聯網來提供一般為虛擬化的動態易擴展資源。狹義云計算指IT基礎設施的交付和使用模式;廣義云計算指服務的交付和使用模式。兩種云計算均通過網絡以按需、易擴展的方式獲得所需服務。這種服務可以是IT和軟件、互聯網相關,也可是其他服務。云計算的核心思想,是將大量用網絡連接的計算資源統一管理和調度,構成一個計算資源池,向用戶按需服務。提供資源的網絡被稱為“云”。“云”中的資源在使用者看來是可以無限擴展的,并且可以隨時獲取、按需使用、隨時擴展、按使用付費。7.RDD
★考核知識點:RDD彈性分布式數據集
參見講稿章節:4.5
附2.1.7:(考核知識點解釋)
RDD彈性分布式數據集,簡單來說,是一種自定義的可并行數據容器,可以存放任意類型的數據。彈性是指有容錯的機制,若一個RDD分片去失,Spark可以根據粗粒度的日志數據更新記錄的信息(Spark中稱為“血統”)重構它:分布式指的是能對其進行并行的操作。除了這兩點,它還能通過persist或者cache函數被緩存在內存里或磁盤中,共享給其他計算機,可以避免Hadoop那樣存取帶來的開銷。8.大數據分析
★考核知識點:大數據分析的概念
參見講稿章節:5.1
附2.1.8:(考核知識點解釋)-- 11精選文庫大數據分析是大數據理念與方法的核心,是指對海量增長快速、內容真實、類型多樣的數據進行分析,從中找出可以幫助決策的隱藏模式、未知的相關關系以及其他有用信息的過程。9.數據挖掘
★考核知識點:數據挖掘的概念
參見講稿章節:5.3
附2.1.9:(考核知識點解釋)
數據挖掘(DataMining,DM)簡單來說就是在大量的數據中提取或挖掘信息,通過仔細分析來揭示數據之間有意義的聯系、趨勢和模式。10.關聯分析
★考核知識點:關聯分析的概念
參見講稿章節:5.4
附2.1.10:(考核知識點解釋)
關聯分析(Associationanalysis)是從有噪聲的、模糊的、隨機的海量數據中,挖掘出隱藏的、事先不知道、但是有潛在關聯的信息或知識的過程,或稱關聯規則學習(Associationrulelearning)。11.分類分析
★考核知識點:分類的概念
參見講稿章節:5.6
附2.1.11:(考核知識點解釋)
分類(Classification)任務是在給定數據基礎上構建分類模型,根據分類模型確定目標對象屬于哪個預定義的目標類別。構建分類模型:通過分析已知訓練樣本類別的數據集屬性,通過訓練建立相應分類模型,是監督學習(supervisedlearning)過程,數據集被稱為訓練數據集。使用模型分類:評估模型的分類預測準確率,使用測試數據集進行評估;當準確率可以接受時,用分類模型對未知數據進行分類。12.聚類分析
★考核知識點:聚類分析的概念
參見講稿章節:5.7
附2.1.12:(考核知識點解釋)-- 12精選文庫聚類分析(Clusteranalysis)簡稱聚類(Clustering),是把數據對象劃分成子集(類)的過程,每個子集稱為一個簇(Cluster),同一個簇中的數據之間存在最大相似性,不同簇之間的數據間存在最大的差異性。(二)、簡答
1.人類社會的數據產生方式經歷了哪些階段?簡述各階段的特點。★考核知識點:數據產生方式變革、大數據的數據來源
參見講稿章節:1.1
附2.2.1(考核知識點解釋):
人類歷史上從未有哪個時代和今天一樣產生如此海量的數據,人類社會的數據產生方式大致經歷了3個階段:運營式系統、用戶原創內容階段、感知式系統階段。(1)運營式系統:
數據庫的出現使得數據管理的復雜度大大降低,實際中數據庫大都為運營系統所采用,作為運營系統的數據管理子系統,如超市的銷售記錄系統、銀行的交易記錄系統、醫院病人的醫療記錄等。人類社會數據量第一次大的飛躍正是建立在運營式系統廣泛使用數據庫開始,這些數據規范、有秩序、強調數據的一致性,且這些數據的產生方式是被動的。(2)用戶原創內容階段:
互聯網的誕生促使人類社會數據量出現第二次大的飛躍,但真正的數據爆發產生于Web2.0時代,其重要標志就是用戶原創內容。以博客、微博為代表的新型社交網絡的出現和快速發展,使得用戶產生數據的意愿更加強烈;新型移動設備出現,易攜帶、全天候接入網絡的移動設備使得人員在網上發現自己意見的途徑更為便捷
數據結構復雜,無秩序,不強調數據的一致性或只強調弱一致性,這些數據的產生方式是主動的。 (3)感知式系統:
人類社會數據量第三次大的飛躍最終導致了大數據的產生,這次飛躍的根本原因在于感知式系統的廣泛使用。微小帶著處理功能的傳感器設備廣泛布置于社-- 13精選文庫會的各個角落,通過這些設備對整個社會的運轉進行監控,這些設備會源源不斷地產生新數據,這些數據的產生方式是自動的,數據呈現多源異構、分布廣泛、動態演化等。 簡單來說,數據產生經歷了被動、主動和自動三個階段,這些被動、主動和自動的數據共同構成了大數據的數據來源。2.大數據處理的關鍵技術都有哪些?并做簡要描述。★考核知識點:大數據處理的關鍵技術(處理流程)
參考講稿章節:1.4
附2.2.2(考核知識點解釋):
大數據處理的關鍵技術主要包括:數據采集和預處理、數據存儲、數據計算處理、數據分析和挖掘、數據可視化展示等。1).數據采集,又稱數據獲取,是大數據生命周期的第一個環節,通過RFID射頻識別技術、傳感器、交互型社交網絡以及移動互聯網等方式獲得的各種類型的結構化、半結構化及非結構化的海量數據。2).數據預處理是數據分析和挖掘的基礎,是將接收數據進行抽取、清洗、轉換、歸約等并最終加載到數據存儲的過程。3).數據存儲,需要將采集到的數據進行存儲管理,建立相應的數據庫。4).數據計算處理。單臺計算機必然無法完成海量的數據處理工作,需要分布式架構的計算平臺。5).數據分析與挖掘,是基于商業目的,有目的的進行收集、整理、加工和分析數據,提煉有價值信息的一個過程。6).大數據可視化技術,可以提供更為清晰直觀的數據表現形式,將錯綜復雜的數據和數據之間的關系,通過圖片、映射關系或表格,以簡單、友好、易用的圖形化、智能化的形式呈現給用戶,供其分析使用。3.簡述網絡大數據的一般采集過程。
★考核知識點:大數據采集
參見講稿章節:2.2-- 14精選文庫附2.2.3:(考核知識點解釋)
大數據采集主要包括:系統日志采集、網絡數據采集、數據庫采集和其他數據采集四種。網絡數據采集常用的是通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。網絡大數據的一般采集過程:先在URL隊列中寫入一個或多個目標鏈接作為爬蟲爬取信息的起點;爬蟲從URL隊列中讀取鏈接,并訪問該網站;從該網站爬取內容;從網頁內容中抽取出目標數據和所有URL鏈接;從數據庫中讀取已經抓取過內容的網頁地址;過濾URL,將當前隊列中的URL和已經抓取過的URL進行比較;如果該網頁地址沒有被抓取過,則將該地址(SpiderURL)寫入數據庫,并訪問該網站;如果該地址已經被抓取過,則放棄對這個地址的抓取操作;獲取該地址的網頁內容,并抽取出所需屬性的內容值;將抽取的網頁內容寫入數據庫,并將抓取到的新鏈接加入URL隊列。4.解釋為什么要進行數據預處理。★考核知識點:影響數據質量因素
參考講稿章節:2.3
附2.2.4(考核知識點解釋):
高質量的數據是能夠滿足應用需求的數據。數據質量涉及很多因素,包括準確性、完整性、一致性、時效性、可信性和可解釋性。1)不完整數據的出現可能有多種原因:重要的信息并非總是可以得到、用戶輸入時的遺漏、用戶理解錯誤導致相關數據沒有記錄、設備故障導致的輸入缺失、記錄中不一致數據的刪除、記錄歷史或被修改的數據被忽略、缺失的數據,特別是某些屬性缺失值的元組。2)不正確數據的出現原因有:收集數據的設備出現故障、人為或計算機內部錯誤在數據輸入時出現、數據傳輸中的錯誤也可能出現、出于個人隱私考慮,用戶故-- 15精選文庫意向強制輸入字段輸入不正確的信息。3)不一致數據,如命名約定或所用的數據代碼不一致、輸入字段(如日期)的格式不一致等。4)時效性:數據更新不及時對數據質量產生負面影響。5)可信性反映了有多少數據是用戶信賴的。6)可解釋性反映了數據是否容易被理解。以上因素影響數據質量,低質量的數據將導致低質量的挖掘效果,因此需要對數據進行預處理。5.試給出幾種對數據缺失值的處理方法。★考核知識點:數據清洗
參考講稿章節:2.4
附2.2.5(考核知識點解釋):
對缺失值的處理一般是想方設法的把他補充上或者干脆棄之不用,一般的處理方法有以下幾種:
(1)忽略元組。通常當在缺少類標號時,通過這樣的方法來填補缺失值。除非元組有多個屬性缺少值,否則該方法的有效性不高,而且大量有價值的數據有可能被忽略。(2)人工填寫缺失值。由于用戶自己最了解關于自己的數據,因此,這個方法產生數據偏離的問題最小,但該方法十分費時,尤其是當數據集很大、存在很多缺失值時,靠人工填寫的方法不具備實際的可操作性。(3)使用一個全局常量填充缺失值。該方法是將缺失的屬性值用同一個常數進行替換,如"Unkown”。這種方法雖然簡單,但可用性較差。由于此方法大量采用同一屬性值,又可能會誤導挖掘程序得出有偏差甚至錯誤的結論,因此,也要謹慎使用。(4)使用屬性的中心度量(如均值或中位數)填充缺失值:
均值和中位數從不同角度反映了數據的某些統計特征,例如,對于對稱分布的數據而言,缺失的數據與均值的偏差期望是最小的,因此用均值補充缺失值可以在最大限度上控制人工添加的值對數據整體特征的影響。-- 16精選文庫(5)使用與給定元組屬同一類的所有樣本的屬性均值或中位數:
例如,如果將顧客按信用風險分類,并假設顧客收入的數據分布是對稱的,則將具有相同信用風險顧客的平均收入替代數據庫列表中收入income列的缺失值;如果顧客收入的數據分布是傾斜的,則中位數是更好的選擇。(6)使用最可能的值填充缺失值。可以用回歸、使用貝葉斯形式化的基于推理的工具或決策樹歸納確定。例如,利用數據集中其他客戶顧客的屬性,可以構造一棵決策樹來預測家庭月總收入的缺失值。6.大數據預處理技術都有哪些?并做簡要描述。★考核知識點:大數據預處理技術
參考講稿章節:2.3-2.7
附2.2.6(考核知識點解釋):
主流數據預處理技術:數據清洗、數據集成、數據變換、數據規約
1.數據清洗。數據清洗過程主要包括數據的缺省值處理、噪聲數據處理、數據不一致處理。2.數據集成。數據集成過程是將多個數據源中的數據合并存放到一個一致的數據存儲(如數據倉庫)中。其中數據源可以包含多個數據庫、數據立方體或一般文件。 數據集成需要考慮諸多問題,如數據集成中對象匹配問題、冗余問題和數據值的沖突檢測與處理問題。3.數據變換。數據變換是把原始數據轉化為適合于數據挖掘的數據形式。數據轉換主要包括光滑、聚集、數據泛化、數據規范化和新屬性構造。4.數據規約。數據歸約得到數據集的簡化表示,它小得多,但能夠產生同樣的(或幾乎同樣的)分析結果。數據歸約是指在盡可能保持數據原貌的前提下,最大限度地精簡數據量保持數據的原始狀態。有許多數據歸約策略,包括數據聚集(例如建立數據立方體)、屬性子集選-- 17精選文庫擇(例如通過相關分析去掉不相關的屬性)、維度歸約(例如使用諸如最小長度編碼或小波等編碼方案)和數據數值歸約(例如使用聚類或參數模型等較小的表示“替換"數據)、數據離散化。7.簡述數據集成過程應考慮哪些問題及如何解決。★考核知識點:數據集成
參考講稿章節:2.5
附2.2.7(考核知識點解釋):
數據集成需要考慮諸多問題,如數據集成中對象匹配問題、冗余問題和數據值的沖突檢測與處理問題。(1)對象匹配:模式集成和對象匹配涉及到實體識別問題。例如,如何才能確定一個數據庫中的customer_id和另一個數據庫中的cust_number指的是相同屬性?在集成期間,當一個數據庫的屬性與另一個數據庫的屬性匹配時,必須特別注意數據的結構。這旨在確保源系統中的函數依賴和參照約束與目標系統中的匹配。(2)冗余:一個屬性如果能由另一個或一組屬性導出,則這個屬性可能是冗余的。有些冗余可以被相關分析檢測到。對于數值屬性,可以使用相關系數(CorrelationCoefficient)和協方差(Covariance)來評估一個屬性的值如何隨另一個屬性變化。(3)數據值的沖突檢測與處理:對于來自同一個世界的某一實體,在不同的數據庫中可能有不同的屬性值。例如:某一表示長度的屬性在不同數據庫中分別用“厘米”和“分米”表示。檢測到這類數據值沖突后,可以根據需要修改某一數據庫的屬性值以使來自不同的數據庫中但為同一實體的屬性值統一起來。8.簡述大數據面臨存儲的問題與挑戰。★考核知識點:大數據存儲面臨的問題與挑戰
參考講稿章節:3.1
附2.2.8(考核知識點解釋):
隨著結構化數據和非結構化數據數量的不斷增長,以及分析數據來源的多樣-- 18精選文庫化,之前的存儲系統設計已經無法滿足大數據應用的需求。 對于大數據的存儲,存在以下問題和挑戰:
1.容量問題:大數據通常可達到pb級的數據規模,因此大數據存儲系統需要達到相應等級的擴展能力。 2.延遲問題:大數據應用還存在實時性的問題,很多大數據應用環境,如涉及網上交易或者金融類相關的應用,都需要較高的每秒進行讀寫操作的次數 3.安全問題:某些特殊行業的應用,例如金融數據、醫療信息以及政府情報等又都自己的安全標準和保密性需求
4.成本問題對于使用大數據環境的企業,成本控制是關鍵問題
5.數據的積累,需要基于大數據的應用要求較長的數據保存時間,為了實現長期的數據保存,需要存儲廠商開發出能持續進行數據一致性檢測、備份和容災等保證長期高可用性的技術
6.靈活性大數據存儲系統的基礎設置規模龐大,保證存儲系統的靈活性和擴展性是一大挑戰。為了應對大數據對存儲系統的挑戰,數據存儲領域的工作者通過不懈努力提升數據存儲系統的能力,主要提升有3個方面:提升系統的存儲容量、提升系統的吞吐量、系統的容錯性等。9.簡述傳統存儲系統架構分類
★考核知識點:存儲系統架構
參考講稿章節:3.3
附2.2.9(考核知識點解釋):
經過多年發展,存儲系統架構由早期的DAS(Direct-AttachedStorage,直連式存儲)發展到NAS(Network-AttachedStorage,網絡附加存儲)和SAN(StorageAreaNetwork,存儲區域網絡),現在已經進入到云存儲階段。1.直連式存儲(DirectAttachedStorage,DAS)是最早出現的最直接的擴展數據存儲模式,即與普通的PC架構一樣,存儲設備與主機系統直接相連,掛接在服務器內部總線上。2.網絡附加存儲(NetworkAttachedStorage,NAS)是一種采用直接與網-- 19精選文庫絡介質相連的特殊設備實現數據存儲的模式。3.存儲區域網絡(StorageAreaNetwork,SAN)指存儲設備相互連接并與服務器群相連而成網絡,創造了存儲的網絡化。通過專用高速網將一個或多個網絡存儲設備和服務器連接起來的專用存儲系統,數據處理服務器上的操作系統可以像訪問本地盤數據一樣對這些存儲設備進行高速訪問。10.云存儲技術具有哪些特點?并加以解釋
★考核知識點:云存儲的特點
參考講稿章節:3.4
附2.2.10(考核知識點解釋):
云存儲技術具有以下特點
(1)可靠性。云存儲通過增加冗余度提高存儲的可靠性。但是增加可靠性受到可靠性原理、成本及性能等方面的制約,因此在在保證可靠性的同時,提高系統的整體運行效率是當前一個亟待解決問題。(2)可用性。企業需要全天候地為世界不同地區的用戶提供服務支持,因此可用性至關重要。對于云存儲平臺,冗余的架構部分可以減少停機風險。同時,多路徑、控制器、不同的光纖網、RAID技術、端到端的架構控制/監控和成熟的變更管理過程等方案均可提高云存儲可用性。(3)安全性。云存儲服務間傳輸以及保存的數據都有被截取或篡改的隱患,因此當服務通過云交付時,數據分片混淆存儲和數據加密傳輸成為了實現用戶數據私密性和保證安全性的重要手段。(4)動態伸縮性。指的是讀/寫性能和存儲容易的擴展與縮減。一個設計優良的云存儲系統可以在系統運行過程中簡單地通過添加或移除節點來自由擴展和縮減,這些操作對用戶來說是透明的。 (5)低成本。云存儲可以降低企業級存儲成本,包括購置存儲的成本、驅動存儲的成本、修復存儲的成本及管理存儲的成本。11.云存儲架構分哪些層次,各層實現了什么功能?★考核知識點:云存儲架構
參考講稿章節:3.4-- 20精選文庫附2.2.11(考核知識點解釋):
云存儲是一個由網絡設備、存儲設備、服務器、應用軟件、公用訪問接口、接入網和客戶端程序等組成的復雜系統。以存儲設備為核心,通過應用軟件來對外提供數據存儲和業務訪問服務。云存儲的架構由上而下可以分為訪問層、應用接口層、基礎管理層和存儲層。1)存儲層:云存儲的最基礎部分。云存儲中的存儲設備通常分布在不同地域且數量非常龐大,通過互聯網、廣域網或FC光纖通道網絡把各個存儲設備連接在一起。統一存儲設備管理系統在存儲設備的上一層,它能夠完成多鏈路冗余管理,存儲設備的邏輯虛擬化管理以及硬件設備的狀態監控與故障維護。2)基礎管理層:云存儲最核心最難以實現的部分,基礎管理層的主要功能是使云存儲中多個存儲設備之間可以協同工作,以便對外提供同一種服務,能夠提供更大、更好、更強的數據訪問性能,它所采用的技術主要有集群系統、分布式文件系統和網格計算等。為了保證云存儲中的數據不會被未授權的用戶所訪問,它還提供了CDN內容分發系統以及數據加密技術。同時,為了確保云存儲中的數據不丟失以及云存儲自身的安全和穩定,它還采取了各種數據備份、數據容災技術和措施。3)應用接口層:云存儲中靈活性最好的部分,根據實際業務類型的不同,不同的云存儲運營單位開發的應用服務接口及提供的應用服務也不一樣。例如在線音樂播放應用平臺、網絡硬盤應用平臺、IPTV和視頻點播應用平臺、遠程教學應用平臺等。4)訪問層:用戶獲得云存儲系統的授權后,就可以通過標準的公用應用接口進行登錄并享受云存儲服務。云存儲提供的訪問類型和訪問手段會根據云存儲運營單位的不同而有所不同。12.存儲虛擬化技術有哪幾個實施層次,分別敘述這幾個層次的特點。★考核知識點:存儲虛擬化實施層次
參考講稿章節:3.5
附2.2.12(考核知識點解釋):
根據不同的虛擬化實現位置,虛擬化還可以分為基于主機虛擬化、基于存儲-- 21精選文庫設備虛擬化和基于存儲網絡虛擬化。1)基于主機虛擬化。基于主機的虛擬化存儲的核心技術是,通過增加一個運行在操作系統下的邏輯卷管理軟件將磁盤上的物理塊號映射成邏輯卷號,從而把多個物理磁盤陣列映射成一個統一的虛擬邏輯塊,來進行存儲虛擬化的控制和管理。2)基于存儲設備虛擬化。基于存儲設備虛擬化技術依賴于提供相關功能的存儲設備的陣列控制器模塊,常見于高端存儲設備,其主要應用針對異構的SAN存儲構架。3)基于存儲網絡虛擬化。基于存儲網絡虛擬化技術的核心是在存儲區域網中增加虛擬化引擎實現存儲資源的集中管理,其具體實施一般是通過具有虛擬化支持能力的路由器或交換機實現的。13.云存儲關鍵技術
★考核知識點:云存儲技術
參考講稿章節:3.5-3.6
附2.2.13(考核知識點解釋):
云存儲技術是多種技術的集合體,這些技術涉及硬件、軟件和網絡等計算機技術的各個方面,具有高可用性、高可靠性、高安全性和低成本等特征。1.存儲虛擬化。存儲虛擬化可以將系統中不同廠商、不同型號、不同通信技術、不同類型的存儲設備映射為一個統一的存儲資源池,屏蔽了存儲實體之間的物理位置及異構特征,從而對這些存儲資源進行統一分配管理。在虛擬化存儲環境中,服務器及應用系統面對的都是物理設備的邏輯映像,且不會隨物理設備的改變而變化,實現了資源對系統管理員的透明性,在降低構建存儲系統成本的同時使管理和維護資源變得容易。云存儲的虛擬化將存儲資源虛擬化為全局命名空間,并通過多租戶技術給使用者提供存儲資源,在此過程中,數據可以在存儲資源池中跨節點、跨數據中心流動。 根據不同的虛擬化實現位置,虛擬化還可以分為基于主機虛擬化、基于存儲設備虛擬化和基于存儲網絡虛擬化。2.分布式存儲。-- 22精選文庫 (1)分布式塊存儲。塊存儲就是服務器直接通過讀寫存儲空間中的一個或一段地址來存取數據。(2)分布式對象存儲。對象存儲是為海量數據提供Key-Value這種通過鍵值查找數據文件的存儲模式;對象存儲引入對象元數據來描述對象特征,對象元數據具有豐富的語義;引入容器概念作為存儲對象的集合。對象存儲系統底層基于分布式存儲系統來實現數據的存取,其存儲方式對外部應用透明。這樣的存儲系統架構具有高可擴展性,支持數據的并發讀寫,一般不支持數據的隨機寫操作。 (3)分布式文件系統。文件存儲系統可提供通用的文件訪問接口,如POSIX、NFS、CIFS、FTP等,實現文件與目錄操作、文件訪問、文件訪問控制等功能。目前的分布式文件系統存儲的實現有軟硬件一體和軟硬件分離兩種方式。主要通過NAS虛擬化,或者基于x86硬件集群和分布式文件系統集成在一起,以實現海量非結構化數據處理能力。 3.數據縮減
云存儲中的數據縮減技術,滿足了海量信息爆炸式增長趨勢,一定程度上節約企業存儲成本,提高效率。 (1)自動精簡配置。自動精簡配置技術是利用虛擬化方法減少物理存儲空間的分配,最大限度提升存儲空間利用率。 (2)自動存儲分層。自動存儲分層(AutomatedStorageTier'AST)技術主要用來幫助數據中心最大限度地降低成本和復雜性。(3)重復數據刪除。“重復刪除”技術(De-duplication)作為一種數據縮減技術可對存儲容量進行優化。它通過刪除數據集中重復的數據,只保留其中一份,從而消除冗余數據。4.負載均衡。龐大的數據量必然會用來支持海量的請求,云存儲一個典型特點就是實現這些請求在系統內部的負載均衡。在傳統的負載均衡中,處于網絡邊緣的設備將來自不同地址的請求均勻地、最優化地發送到各個承載設備上。而在云存儲中,除了在網絡邊緣實現DNS動態均勻解析的負載均衡設備,還有在系統內部的負載均衡機制,即在節點資源之間的負載均衡。14.NoSQL普遍采用的技術-- 23精選文庫★考核知識點:NoSQL普遍采用的技術
參考講稿章節:3.7
附2.2.14(考核知識點解釋):
NoSQL系統普遍采用的一些技術有以下幾種。 (1)簡單數據模型。不同于分布式數據庫,大多數NoSQL系統采用更加簡單的數據模型.(2)元數據和應用數據的分離。NoSQL數據管理系統需要維護兩種數據:元數據和應用數據。元數據是用于系統管理的,如數據分區到集群中節點和副本的映射數據。應用數據就是用戶存儲在系統中的商業數據。(3)弱一致性。NoSQL系統通過復制應用數據來達到一致性。這種設計使得更新數據時副本同步的開銷很大,為了減少這種同步開銷,弱一致性模型如最終一致性和時間軸一致性得到廣泛應用。15.請分析相比于關系型數據庫,NoSQL數據存儲管理系統的主要優勢與劣勢。★考核知識點:新興數據存儲系統
參見講稿章節:3.7
附2.2.15:(考核知識點解釋)
相對于關系型數據庫,NoSQL數據存儲管理系統的主要優勢有以下幾方面。(1)避免不必要的復雜性。關系型數據庫提供各種各樣的特性和強一致性,但是許多特性只能在某些特定的應用中使用,大部分功能很少被使用。NoSQL系統則提供較少的功能來提高性能。(2)高吞吐量。一些NoSQL數據系統的吞吐量比傳統關系數據管理系統要高很多,如Google使用MapReduce每天可處理20PB存儲在Bigtable中的數據。(3)高水平擴展能力和低端硬件集群。NoSQL數據系統能夠很好地進行水平擴展,與關系型數據庫集群方法不同,這種擴展不需要很大的代價。而基于低端硬件的設計理念為采用NoSQL數據系統的用戶節省了很多硬件上的開銷。 (4)避免了昂貴的對象-關系映射。許多NoSQL系統能夠存儲數據對象,這就避免了數據庫中關系模型和程序中對象模型相互轉化的代價。-- 24精選文庫 雖然NoSQL數據庫提供了高擴展性和靈活性,但是它也有自己的缺點,主要有以下幾方面.(1)數據模型和查詢語言未經數學驗證。SQL這種基于關系代數和關系演算的查詢結構有著堅實的數學保證,即使一個結構化的查詢本身很復雜,但是它能夠獲取滿足條件的所有數據.由于NoSQL系統都沒有使用SQL,而使用SQL的一些模型還未有完善的數學基礎。這也是NoSQL系統較為混亂的主要原因之一(2)不支持ACID特性。這為NoSQL帶來優勢的同時也是其缺點,畢竟事務在很多場合下還是需要的,ACID特性使系統在中斷的情況下也能夠保證在線事務能夠準確執行。(3)功能簡單。大多數NoSQL系統提供的功能都比較簡單,這就增加了應用層的負擔,例如,如果在應用層實現ACID特性,那么編與代碼的程序員一定非常痛苦。 (4)沒有統一的查詢模型。NOSQL系統一般提供不同查詢模型,這一定限度上增加了開發者的負擔。16.數據倉庫有哪些特點?并做簡要描述。★考核知識點:數據倉庫的特點
參考講稿章節:3.8
附2.2.16(考核知識點解釋):
(1)數據倉庫中的數據是面向主題組織的。數據倉庫是按照面向主題的方式進行數據組織的,也就是在較高層次上對分析對象的數據作個完整、一致的描述,能有效地刻畫出分析對象所涉及的各項數據及數據間的聯系。這種數據組織方式更能適合較高層次的數據分析,便于發現數據中蘊含的模式和規律。 主題通常是在一個較高層次上將數據歸類的標準,每個主題對應一個宏觀分析領域。(2)數據倉庫的數據是集成的。 數據倉庫中每一主題對應的源數據在原有的各分散數據庫中可能是重復出現的、不一致的,數據倉庫中的數據不能從原有的數據庫系統中直接得到。-- 25精選文庫 事務處理系統中的操作型數據在進入數據倉庫之前,必須經過統一和綜合,演變為分析型數據。(3)數據倉庫的數據是穩定的。數據倉庫中存放的是供分析決策用的歷史數據,而不是聯機事務處理的當前數據,涉及的數據操作主要是數據查詢,一般不進行數據的增、刪、改操作,業務系統中的數據經集成進入數據倉庫之后極少或根本不再更新。 如果對數據倉庫中的數據進行了修改,就失去了統計分析正確性的基礎一一數據的真實性。(4)數據倉庫的數據是隨時間不斷變化的。數據倉庫中的數據不是永遠不變的。數據倉庫數據是隨時間變化的,數據倉庫系統需要不斷獲取聯機事務處理系統不同時刻的數據,經集成后追加到數據倉庫中,因此數據倉庫中數據的碼(鍵)都包含時間項,以表明數據的歷史時期,并可在時間維度上對數據進行分析。 此外,數據倉庫中的數據也有時間期限,在新數據不斷進入的同時,過時的數據也要從數據倉庫中排除出去。17.簡述數據倉庫與數據庫的區別。 ★考核知識點:數據倉庫
參考講稿章節:3.8
附2.2.17:(考核知識點解釋)
數據倉庫是在數據庫的基礎上發展起來的,數據倉庫把數據從各個信息源中提取出來后,
依照數據倉庫使用的公共數據模型,進行相應變換后與倉庫中現有數據集成在一起。在數據
倉庫中,數據可以被直接訪問,查詢和分析處理速度很快。數據倉庫的特點決定了它與傳統
的數據庫系統之間必然存在很大的差異。二者之間的區別主要體現在以下幾個方面。 (1)數據庫中存儲的都是當前使用的值,而數據倉庫中的數據都是一些歷史的、存檔的、歸納的、計算的數據。-- 26精選文庫 (2)數據庫的數據主要是面向業務操作程序的,可以重復處理,主要是用來進行事務處理的。而數據倉庫卻是面向主題,主要是用來分析應用的。 (3)數據庫的數據結構是高度結構化的,比較復雜,適用于操作計算。而數據倉庫的數據卻比較簡單,適用于分析處理。(4)數據庫中的數據使用頻率是很高的。數據倉庫中的數據則不是很高。(5)通常對數據庫中事務的訪問,只需要訪問少量的記錄數據。而對數據倉庫中事務的訪問就可能需要訪問大量的記錄。 (6)對數據的響應時間一般要求比較高,通常是以秒為單位。而對數據倉庫的響應時間要求則較低,通常比較長。18.云計算有哪些特點?并做簡要描述。 ★考核知識點:云計算的特點
參見講稿章節:4.1
附2.2.18:(考核知識點解釋)
云計算的特點如下:
(1)超大規模。“云”具有相當大的規模,Google云計算己經擁有上百萬臺服務器;Amazon、IBM、Microsoft、Yahoo等公司的“云”均擁有幾十萬臺服務器;一般企業私有云則可擁有數百上千臺服務器。“云”能賦予用戶前所未有的計算能力。 (2)高可靠性。分布式數據中心可將云端的用戶信息備份到地理上相互隔離的數據庫主機中,甚至連用戶自己也無法判斷信息的確切備份地點。該特點不僅提供了數據恢復的依據,也使得網絡病毒和網絡黑客的攻擊因為失去目的性而變成徒勞,大大提高系統的安全性和容災能力。(3)虛擬化。云計算支持用戶在任意位置、使用各種終端獲取應用服務。所請求的資源來自“云”,而非固定的有形的實體。應用在“云”中某處運行,但用戶無需了解,也不用擔心應用運行的具體位置。(4)高擴展性。目前主流的云計算平臺均根據SPI架構,構建在各層集成功能各異的軟硬件設備和中間件軟件。大量中間件軟件和設備提供針對該平臺的通用接口,允許用戶添加本層的擴展設備。部分云與云之間提供對應接口,允許-- 27精選文庫用戶在不同云之間進行數據遷移。類似功能更大程度上滿足了用戶需求,集成了計算資源,是未來云計算的發展方向之一
(5)按需服務。“云”是一個龐大的資源池,可以像自來水、電、煤氣那樣計費,并按需購買。(6)極其廉價。“云”的特殊容錯措施可以采用極其廉價的節點來構成云。“云”的自動化集中式管理,使大量企業無需負擔日益高昂的數據中心管理成本,“云”的通用性使資源的利用率較之傳統系統大幅提升,因此用戶可以充分享受“云”的低成本優勢。19.簡述云計算的體系架構分層及每層的含義。
★考核知識點:云計算體系架構
參見講稿章節:4.1
附2.2.19:(考核知識點解釋)云計算可以按需提供彈性資源,它的表現形式是一系列服務的集合。結合當前云計算的應用與研究,其體系架構可分為核心服務、服務管理、用戶訪問接口三層。1)核心服務層將硬件基礎設施、軟件運行環境、應用程序抽象成服務,這些服務具有可靠性強、可用性高、規模可伸縮等特點,滿足多樣化的應用需求。 2)服務管理層為核心服務提供支持,進一步確保核心服務的可靠性、可用性與安全性。3)用戶訪問接口層實現端到云的訪問。20.簡述云計算的核心服務模型。
★考核知識點:云計算服務模型
參見講稿章節:4.1
附2.2.20:(考核知識點解釋)-- 28精選文庫IaaS、PaaS、SaaS是云計算的三種服務模型。 基礎設施即服務(IaaS):消費者通過Internet可以從完善的計算機基礎設施獲得服務。 平臺即服務(PaaS):PaaS實際上是指將軟件研發的平臺作為一種服務,以SaaS的模式提交給用戶。 軟件即服務(SaaS):軟件即服務。它是一種通過Internet提供軟件的模式,用戶無需購買軟件,而是向提供商租用基于Web的軟件,來管理企業經營活動。21.試對MapReduce編程模型原理進行描述。 ★考核知識點:MapReduce編程模型原理
參見講稿章節:4.3
附2.2.21:(考核知識點解釋)
MapReduce編程模型結合用戶實現的Map和Reduce函數,可完成大規模地并行化計算。MapReduce編程模型的原理是:用戶自定義的Map函數處理一個輸入的基于key-valuepair的集合,輸出中間基于key-valuepair的集合,MapReduce庫把中間所有具有相同key值的value值集合在一起后傳遞給Reduce函數,用戶自定義的Reduce函數合并所有具有相同key值的value值,形成一個較小value值的集合。22.請寫出MapReduce程序的執行過程。 ★考核知識點:MapReduce執行過程
參見講稿章節:4.3
附2.2.22:(考核知識點解釋)
MapReduce執行過程主要包括以下幾方面。(1)將輸入的海量數據切片分給不同的機器處理。(2)執行Map任務的Worker將輸入數據解析成key-valuepair,用戶定義的Map函數把輸入的key-valuepair轉成中間形式的key-valuepair。(3)按照key值對中間形式的key-value進行排序、聚合。(4)把不同的key值和相應的value集分配給不同的機器,完成Reduce運算。-- 29精選文庫(5)輸出Reduce結果。23.簡述HDFS集群的構成及各部分的功能。 ★考核知識點:HDFS集群的構成
參見講稿章節:4.4
附2.2.23:(考核知識點解釋)
一個HDFS集群由一個名字節點(NameNode)和若干個數據節點(DataNode)構成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 軟件技術轉讓及服務合同
- 選民行為及其影響試題及答案
- 基礎網絡安全防護措施試題及答案
- 軟件設計師考試2025年常見問題解析試題及答案
- 軟件設計師考試的深刻見解試題與答案
- 比較西方政治制度下的中央與地方關系試題及答案
- 西方國家的國際援助政策試題及答案
- 智能科技對公共政策的變革性影響試題及答案
- 公共政策執行中的溝通策略試題及答案
- 西方政治文化的構成要素試題及答案
- 2023年廣西高考歷史真題(含答案)
- 四川建筑施工資料表格(施工單位用表)全套
- 工作作風不嚴謹的表現及改進措施范文(通用5篇)
- 過濾器檢驗報告
- DB11-T 675-2014 清潔生產評價指標體系 醫藥制造業
- 2023家具采購合同范本專業版-1
- GB/T 29319-2012光伏發電系統接入配電網技術規定
- GB/T 11264-2012熱軋輕軌
- 國學導論·巴蜀文化課件
- 《事業單位人事管理條例》及其配套制度講義課件
- 試卷交接簽字單
評論
0/150
提交評論