




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一章
大數據概述
1.1大數據的產生背景與概念
1.1.1大數據的產生背景大數據的產生可以分為三個階段:萌芽階段(20世紀90年代至21世紀初):1997年,NASA阿姆斯科研中心的大衛?埃爾斯沃斯和邁克爾?考克斯在研究數據的可視化問題時首次使用“大數據”概念;1998年,美國《自然》雜志上發表的一篇名為《大數據科學的可視化》的文章,使大數據正式作為一個專有名詞出現在公共刊物之中。1.1.1大數據的產生背景發展階段(階段從21世紀初至2010年):數據分析的主要技術——Hadoop技術的誕生,使2005年成為大數據發展的重要里程碑。大數據技術先是在美國鋪開,2010年美國信息技術顧問委員會(PITAC)發布的一篇名為《規劃數字化未來》的報告,足以體現美國對發展大數據技術的重視。在這個階段,大數據技術作為一種新興技術初步出現在人們的視野中,但還并未在全球普及。1.1.1大數據的產生背景興盛階段(從2011年至今):2011年,擁有每秒掃描并分析4TB的數據量能力的IBM公司研制出的沃森超級計算機橫空出世,直接打破了世界紀錄,將大數據分析提升到新高度;不久后,麥肯錫發布了《海量數據,創新、競爭和提高生成率的下一個新領域》,詳細描述了大數據的技術架構,并且交代了大數據在各個領域中的應用情況;2012年在瑞士達沃斯召開的世界經濟論壇討論了與大數據相關的一系列問題,并發表了《大數據,大影響》,至此,大數據的全球普及時代來臨。1.1.1大數據的產生背景
199719982005201020112012“大數據”概念的首次使用《大數據科學的可視化》文章的發表Hadoop技術誕生PITAC發布《規劃數字化未來》報告沃森超級計算機橫空出世瑞士達沃斯召開的世界經濟論壇上發表《大數據,大影響》大數據產生大事件年代表1.1.2大數據的概念大數據的概念從產生至今仍沒有一個公認的解釋。以下是兩種被大眾普遍接受的對大數據的定義:麥肯錫的《大數據:下一個創新、競爭和生產率的前沿》:所謂大數據,主要是指無法在一定時間內用傳統數據庫工具對其內容進行獲取、存儲、管理和分析的數據集。研究機構Gartner:大數據是指需要新處理模式才能具有更強的決策力,洞察發現力和流程優化能力的海量,高增長率和多樣化的信息資產。1.1.3數據的單位數據的單位有:bit,B,KB,MB,GB,TB等。其中,最小的存儲單位是bit。單位換算:1B=8bit
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB1.1.4大數據的分類按字段類型分類:文本類、數值類、時間類按數據結構分類:結構化數據、半結構化數據、非結構化數據按事物描述分類:狀態類數據、事件類數據、混合類數據按數據處理分類:原始數據、衍生數據按數據粒度分類:明細數據、匯總數據按更新方式分類:批量數據、實時數據1.2大數據的特點和技術概述
1.2.1大數據的特點volume(海量)過去,MB的存儲容量就已經能滿足很多人數據存儲的需求了,但隨著信息技術的不斷發展以及數據來源的不斷增多,數據呈現幾何指數爆發式的增長,人們日益增加的存儲需求促使存儲單位從過去的GB到TB,乃至現在的PB、EB級別,并不可避免的會增加到ZB級別。截至2020年,全球數據量達到了60ZB。variety(多樣)廣泛的數據來源決定了大數據的多樣性1.2.1大數據的特點velocity(高速)高速是區別大數據與傳統數據最顯著的特征。數據的增長速度和處理速度是大數據高速性的重要體現。大數據采用實時分析而非批量分析,而數據輸入、處理與丟棄立刻見效,幾乎不存在延遲。例:截至2019年,Facebook的日均上傳照片約有3億張;曾經需要歷經10年破譯的人體基因30億對堿基數據,現在僅需15分鐘即可完成;1.2.1大數據的特點value(價值)價值是大數據的核心特征;大數據作為重要的基礎型戰略資源,其核心價值在于應用;數據雖然海量,但某一對象或者模塊數據的價值密度很低,有價值的數據所占比例很小;相比于傳統數據,大數據最大的價值在于通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,并通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識,并運用于各個領域。1.2.2大數據技術概述大數據采集采集來源:智能硬件端、多種傳感器端、網頁端、移動APP應用端等;大數據采集的過程:將各種采集來源匯集到數據庫中,并使用數據庫進行簡單的處理工作;采集的數據:RFID數據、傳感器數據、用戶行為數據、社交網絡交互數據及移動互聯網數據等各種類型的結構化、半結構化及非結構化的海量數據。1.2.2大數據技術概述大數據采集采集的主要方式數據抓取:抓取對象通常為網絡數據,通過網絡爬蟲或網站公開API等方式從網站上抓取數據信息。數據導入:導入對象通常為數據庫數據和系統日志數據,企業通過在采集端部署大量數據庫(一般使用Redis、MongoDB和HBase等NoSQL數據庫),并在這些數據庫之間進行負載均衡和分片,來完成數據采集。物聯網傳感設備自動信息采集:指通過物聯網傳感器將測量到的物理變量(如聲音、溫度、濕度、電流、距離等)的測量值轉化為數字信號并傳送到數據采集點的過程。,常見的物聯網傳感器包括:接近傳感器、溫度傳感器、化學傳感器、圖像傳感器和氣體傳感器等。1.2.2大數據技術概述數據預處理數據預處理是指在對數據進行挖掘以前,需要對原始數據進行清理、集成與變換等一系列處理工作,以達到挖掘算法進行知識獲取研究所要求的最低規模和標準。隨著數據量的爆發增長,很多數據都存在殘缺、混亂、冗余等問題,而數據預處理可以有效地規避這些問題,它能糾正錯誤的數據、將殘缺的數據補充完整、將冗余的數據清除,挑出需要的數據,再將這些數據集成。1.2.2大數據技術概述數據預處理預處理常見方法數據清洗:通過光滑噪聲、填充缺失值、識別或刪除離群點、糾正數據不一致的方法,以達到數據格式標準化、異常數據清除、數據錯誤糾正、重復數據的清除的目的。數據集成:合并來自多個來自不同或者相同數據源的數據,然后統一存儲在同一數據儲存(如數據倉庫)中。數據變換:數據變換的目的是將不同的數據變換成合適挖掘的形式,常用的方法有規范化、屬性構造、概念分層。數據規約:通過尋找目標數據的有用特征,在不損壞數據原貌的基礎上減小數據規模,從而達到精簡數據量的目標。1.2.2大數據技術概述大數據處理大數據處理是在進行了預處理的基礎上對數據的進一步處理,是將數據儲存到分布式環境后的深度處理。常用軟件:Hadoop分布式大數據處理系統Hadoop組成部分:用于分布式存儲大容量文件的HDFS(HadoopDistributedFileSystem)、用于對海量數據集(TB級別)進行分布式計算的MapReduce、超大型數據表HBase1.2.2大數據技術概述大數據處理MapReduce定義:大數據處理最重要的一種分布式計算模型模型本質:實現Map(映射)函數、Reduce(歸約)函數計算邏輯:“分治”1.2.2大數據技術概述大數據處理MapReduce計算邏輯以計算1+2+3+4+5+6+7+8+9的結果為例子:1+2+34+5+67+8+96152445Map(映射)Reduce(歸約)1.2.2大數據技術概述大數據分析大數據分析是通過對數據的分析,創建模型。步驟:先從問題的定義入手,明確數據分析的目的;緊接著進行數據準備工作,包括在大型數據庫和數據倉庫提取目標數據集,并對提取到的目標數據集進行數據完整性以及一致性的檢查、去除噪音、填補丟失域、刪除無效數據等的一系列數據再加工過程;接著根據數據的類型以及數據的特點選擇算法,對進行上一步加工后的數據集進行數據分析;最終將數據分析的結果解釋成能被用戶理解的知識,傳遞給用戶。常用方法:分類、聚類、關聯規則、預測模型等。1.2.2大數據技術概述大數據分析常用方法分類:是根據重要數據類的特征向量值及約束條件,構造分類函數或者分類模型的一種數據分析的形式。典型算法有:樸素貝葉斯算法、KNN、SVM等。聚類:是指將具有相似特征屬性的數據聚集在一起,從而使得不同的數據群有著分明的特征區別。通過聚類分析,我們能從中發現各種數據屬性之間存在的相互干系,以及相似數據屬性之間存在的分布模式。典型算法有:BIRCH算法、K-means算法、EM算法等。1.2.2大數據技術概述大數據分析常用方法關聯規則:是指通過索引系統中的所有數據,找出所有能把一組事件或數據項與另一組事件或數據項聯系起來的規則,以獲得預先未知的和被隱藏的,不能通過數據庫的邏輯操作或統計的方法得出的信息。關聯分析一般用支持度(Support)和置信度(Confidence)兩個閾值來度量關聯規則的相關性,并不斷引入興趣度、相關性等參數,使得所挖掘到的關聯規則更符合需求,關聯規則挖掘算法是關聯規則挖掘研究的主要內容,Apriori算法和FP-Growth(頻繁模式增長)算法都是比較著名的關聯規則算法。以Apriori算法為例:Apriori算法主要包括三個步驟:①用戶先指定一個最小支持度;②找到事務數據庫中所有大于還有等于最小支持度的數據項集;③利用頻繁項集生成我們所需要的關聯規則,并使用第一步已經指定的最小支持度來進行取舍,最后得到強關聯規則;1.2.2大數據技術概述大數據分析常用方法預測模型:是從歷史數據中找出變化規律,建立模型,并由這個模型預測未來數據的種類和特征的方法。包括可以在結構化與非結構化數據中使用以確定未來結果的算法和技術,可為預測、優化、預報和模擬等許多業務系統所使用。而預測模型的建立著重關注于數據的精度和不確定性,因此通常會使用預測方差進行度量。1.3大數據的應用與價值體現
1.3.1大數據的應用概述大數據的應用領域電商行業:利用大數據進行精準營銷,是大數據技術最早應用的行業。電商平臺會借助大數據技術對區域消費特征、客戶消費習慣、消費熱點等進行預測。例:淘寶、京東金融行業:隨著信息技術在金融業的廣泛應用,海量數據都存儲在金融機構中,數據創造的利潤抵不上其管理成本迫使金融業不得不去尋找可以將這些數據轉換成可以創造實際價值的內容的方法,而大數據的深度挖掘技術為其提供了有效的解決方案。大數據在金融業的應用主要分布在三個領域:銀行:繪制客戶畫像、精準營銷、風險管理與風險控制、運營優化保險:客戶細分和精準營銷、產品設計、運營優化、欺詐行為分析證券:股價預測、客戶關系管理、智能投資顧問、投資景氣指數
1.3.1大數據的應用概述大數據的應用領域
醫療行業:大量的病例、藥物報告、病情報告、治療方案,使得大數據的處理和分析技術在醫療保健領域的使用中非常有效。例:新冠疫情期間的健康寶和通行卡、遠程診療系統智慧城市:城市的規模不斷擴大,城市的人口不斷增長、城市的結構越來越復雜、精細化的城市治理勢在必行。大數據對于提高公共管理和工共服務水平十分有效。在實現信息透明和信息共享、評估政府部門績效、政策制定與決策、智慧城市建設方面的應用都是一次重大的突破。1.3.1大數據的應用概述大數據的應用領域教育行業:大數據為用戶提供的個性化服務的功能也已經在教育領域中實現,從校長到老師,老師到家長,家長到學生,大數據都能根據不同角色所需,為他們提供個性化分析報告,不斷優化教育機制、整合教育資源、明確教學方向、改進教學方式等,而也正是這種應用,讓鄉村的孩子也能通過網絡接受大城市更加優秀的教育。大數據還可以幫助老師和家長找到不同孩子之間學習上存在的差距從而有針對性地為學生制定出適合他們的一套有效的學習方案;依賴大數據技術,教育部門能做出更加合理、更加科學的決策,從而跟隨時代不斷地優化教育機制,推動教育改革。1.3.1大數據的應用概述大數據的應用領域農業領域:農業與大數據的結合應用可以節約農產品資源、增加農產品流通率,促進農業生產力發展,有利于實現農業可持續發展。農業生產過程會產生大量的數據,包括種植物的生長狀況信息的數據、植物生長所需要素(例如,土壤、溫度等)信息的數據、環境氣象信息的數據、農藥化肥信息的數據等,這些數據通常通過遙感圖像以及傳感器獲取農作物生長環境中的各項指數數據,再把這些采集的數據傳送到本地或云端的數據中心,從而對農業生產的歷史數據和實時監控數據進行分析,提高對農作物各項相關數據的關聯監測能力。1.3.1大數據的應用概述大數據的應用領域環境領域:大數據技術在環境保護領域的應用有兩個亮點。第一個是實時且不間斷地檢測環境的變化,應用大數據工具收集到大量關于各項環境質量指標的數據信息,并將這些數據信息傳輸到中心數據庫進行數據的處理以及分析,用于環境治理方案的制定;第二個是實時檢測環境治理效果,動態更新治理方案。技術人員采用可視化方法將環境數據分析結果和治理模型立體化展現,為了檢測制定的環境保護方案是否是有效的,技術人員通過用于測試的模擬環境數據,建立模型來模擬真實環境。社會安全領域:國家可以通過大數據技術監控違法亂紀行為并且應用大數據貢酒抓捕在逃罪犯,企業也可以利用大數據技術防御黑客惡意的網絡攻擊等。1.3.1大數據的應用概述大數據的應用領域交通領域:大數據技術在交通領域的應用主要集中在兩方面。一方面我們可以利用大數據傳感器實時收集到各個路段車輛數量的數據,從而了解到不同路段在不同時段的車輛通行密度情況,合理地根據這些信息對道路規劃(例如某個路段是否在某個時間段只能單行、某個路段是否在某個時段只能允許單號車輛同行等)進行及時的調整;另一個方面,我們可以利用大數據來實現信號燈的合理安排,提高已有線路的運行能力??挂哳I域:大數據在抗疫領域的應用主要集中在兩方面。一方面是利用大數據進行疫情的輿情分析,大數據技術已經成為疫情背景下分析民情民意必不可少的一部分,它能精準地分析出民眾的需求和問題;另一方面,大數據技術還可以通過收集用戶實時的位置信息或者在各種app鐘留存的地址信息實時追蹤感染者的移動軌跡并記錄感染者的人群接觸史,通過建立知識圖譜,精準定位疫情的傳播途徑,防止疫情的擴散。1.4大數據時代的思維變革
1.4大數據時代的思維變革維克托·邁爾-舍恩伯格在《大數據時代》一書中提出:“大數據,一場生活、工作與思維的大變革?!贝髷祿硇畔L暴正在變革我們的生活、工作以及思維方式。大數據時代的到來將會給我們帶來三個思維轉變,即從樣本思維轉變為總體思維,從精確思維轉變為容錯思維,從因果思維轉變為相關思維,從自然思維轉變為智能思維。1.4大數據時代的思維變革更多不是隨機樣本,而是全體數據由于采集與分析大量的數據在以前是十分復雜與困難的,故我們常用隨機取樣是采集與分析大量數據,但這個方法只能以將從小部分數據中得來的規律推廣到總體,若是存在偏見,則結果也會存在偏差;并且也只能回答我們在設計取樣之初提出的問題,無法解答我們在分析數據過程中產生的新問題,缺乏調查延展性。相比于小數據,大數據更加強調數據的多樣性和整體性。大數據時代,采取全數據模式,即采用所有數據,可以理解為“樣本=總體”,只有將思維方式從樣本思維轉變為總體思維,才能更加全面并且系統地把握數據反映出來規律或者現實;此外,基于大數據時代的全數據模式,我們收集到的數據從少量轉變為海量,并且我們收集的數據也已經不再僅僅局限于某一段特定的時間,而是擴大到那些實時更新的數據,得益于收集到的實時更新的海量數據,大數據分析還具有即時性。1.4大數據時代的思維變革更雜不是精確性,而是混雜性混雜性:隨著數據量的增加,數據的錯誤率也在增加;接受不同格式的數據,只有5%的數據是結構化且能使用傳統數據庫,如果不接受混亂,剩下95%的非結構化數據都無法被利用。伴隨著數據的混雜性的不斷增長,數據的多樣性也同時在增長。小數據時代,我們追求數據的精確性;大數據時代,得益于大數據技術的不斷突破和發展,大量非結構化的數據的分析和處理能力日趨增強,數據量的爆發式增長及數據采集頻率的增加必然會造成結果的不準確,一些錯誤數據也會混入數據庫,但因為大數據的海量性,我們不需要擔心某個或某些數據點對結果的不利影響,仍可以利用這些數據預測趨。錯誤數據的固有特性,是由測量、記錄和交流數據使用的工具所產生的問題。1.4大數據時代的思維變革更好不是因果關系,而是相關關系確定相關關系只是通過識別良好的關聯來幫助我們分析某一個現象,而不是用來揭示其內部的運作機制。找準相關關系,我們必須聚焦于“是什么”而非“為什么”。相關關系分析法通過研究和分析數據之間存在的線性相關關系以及復雜的非線性相關關系,不僅能幫助人們很有效地解決了偏見可能會造成的偏差,還能幫助人們挖掘出更多隱藏在數據之中不容易被注意到的關聯性,這對于我們捕捉當下情況和預測未來趨勢是非常有幫助的。相關關系的核心在于量化兩個數據值之間的數據關系,要明確相關關系,找到良好的關聯物便是關鍵所在。1.5國家大數據戰略
1.5.1國家大數據戰略的歷史沿革2012年11月,廣東省率先啟動大數據戰略,根據《廣東省實施大數據戰略工作方案》,廣東省將建立省大數據戰略工作領導小組等,為保證大數據戰略有效實施,廣東省還將建設政務數據中心,并未高等院校和企業等成立大數據研究機構提供支持。廣東省還將在政府各部門開展數據開放試點,并通過部門網站向社會開放可供下載和分析使用的數據,進一步推進政務公開。2014年3月,大數據首次寫入政府工作報告。2015年10月,黨的十八屆五中全會正式提出“實施國家大數據戰略,全面推進我國大數據發展和應用,加快建設數據強國,推動數據資源開放共享,釋放技術紅利、制度紅利和創新紅利,促進經濟轉型升級”。這表明我國已將大數據視作戰略資源并上升為國家戰略,期望運用大數據推動經濟發展、完善社會治理、提升政府服務和監管能力。2016年12月,為貫徹落實《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》和《促進大數據發展行動綱要》,加快實施國家大數據戰略,推動大數據產業健康快速發展,工信部編制了《大數據產業發展規劃(2016-2020年)》。1.5.1國家大數據戰略的歷史沿革2017年12月,習近平主席主持中央政治局就實施國家大數據戰略第二次集體學習。習近平總書記在主持學習時強調,大數據發展日新月異,我們應該審時度勢、精心謀劃、超前布局、力爭主動,深入了解大數據發展現狀和趨勢及其對經濟社會發展的影響,分析我國大數據發展取得的成績和存在的問題,推動實施國家大數據戰略,加快完善數字基礎設施,推進數據資源整合和開放共享,保障數據安全,加快建設數字中國,更好服務我國經濟社會發展和人民生活改善;
1.5.1國家大數據戰略的歷史沿革習近平總書記還強調,要推動大數據技術產業創新發展。我國網絡購物、移動支付、共享經濟等數字經濟新業態新模式蓬勃發展,走在了世界前列。我們要瞄準世界科技前沿,集中優勢資源突破大數據核心技術,加快構建自主可控的大數據產業鏈、價值鏈和生態系統。要加快構建高速、移動、安全、泛在的新一代信息基礎設施,統籌規劃政務數據資源和社會數據資源,完善基礎信息資源和重要領域信息資源建設,形成萬物互聯、人機交互、天地一體的網絡空間。要發揮我國制度優勢和市場優勢,面向國家重大需求,面向國民經濟發展主戰場,全面實施促進大數據發展行動,完善大數據發展政策環境。要堅持數據開發、市場主導,以數據為紐帶促進產學研深度融合,形成數據驅動型創新體系和發展模式,培育造就一批大數據領軍企業,打造多層次、多類型的大數據人才隊伍;1.5.1國家大數據戰略的歷史沿革
另外,習近平總書記也指出了,要構建以數據為關鍵要素的數字
經濟
。建設現代化經濟體系離不開大數據發展和應用。我們要堅
持以供給側結構性改革為主線,加快發展數字經濟,推動實體經濟
和數字經濟融合發展,推動互聯網、大數據、人工智能同實體經濟
深度融合,繼續做好信息化和工業化深度融合這篇大文章,推動制
造業加速向數字化、網絡化、智能化發展。要深入實施工業互聯網
創新發展戰略,系統推進工業互聯網基礎設施和數據資源管理體系
建設,發揮數據的基礎資源作用和創新引擎作用,加快形成以創新
為主要引領和支撐的數字經濟。2018年5月,習近平在向中國國際大數據產業博覽會的致辭中指出,我們秉持創新、協調、綠色、開放、共享的發展理念,圍繞建設網
絡強國、數字中國、智慧社會,全面實施國家大數據戰略,助力中
國經濟從高速增長轉向高質量發展。1.5.1國家大數據戰略的歷史沿革2019年11月,黨的第十九屆四中全會召開為推進國家治理體系和治理能力現代化進行戰略布局。政府數字化轉型的成效,直接關乎國家治理現代化的成就。十九屆四中全會明確提出,“建立健全運用互聯網、大數據、人工智能等技術手段進行行政管理的制度規則,推進數字政府建設,加強數據有序共享,依法保護個人信息”,為政府數字化轉型規定了方向。2020年《關于構建更加完善的要素市場化配置體制機制的意見》的發表,大數據被正式列為新型生產要素。2021年11月30日,工業和信息化部發布《“十四五”大數據產業發展規劃》。《“十四五”大數據產業發展規劃》提出“十四五”時期的總體目標,到2025年我國大數據產業測算規模突破3萬億元,年均復合增長率保持25%左右,創新力強、附加值高、自主可控的現代化大數據產業體系基本形成。1.5.2國家大數據戰略的時代背景“全球化”的世界背景以及“一帶一路”總體戰略的提出在全球化的大背景下,世界各國之間相互聯系、相互依賴,相互滲透,關系越來越密切,已經成為一個不可分割的有機整體,為了順應時代潮流,我國提出“人類命運共同體”理念,并據此提出“一帶一路”總體戰略。大數據時代的到來,更加拉近了國與國之間的距離,國家大數據戰略,需要立足于“人類命運共同體”理念。因此,國家大數據戰略必須服務于“一帶一路”,實現以數字驅動“一帶一路”,通過大數據技術的利用,來解決“一帶一路”建設中存在的風險。由于“一帶一路”涉及沿線國家的經濟、政治、金融等多個領域,不僅涵蓋的領域眾多,涵蓋的國家、地區、企業、團體甚至個人也很多,這導致了非結構化數據與結構化數據混雜在一起,為了降低數據結構復雜性來帶的風險,我們必須應用大數據技術對各個領域、各個對象涵蓋的海量數據進行收集、清洗、處理和分析,構建大數據指標體系,為“一帶一路”提供智能決策支持,從而不斷推進數字化的“一帶一路”的建設。1.5.2國家大數據戰略的時代背景國家安全面臨錯綜復雜的形勢習總書記指出:“當前我國國家安全內涵和外延比歷史上任何時候都要豐富,時空領域比歷史上任何時候都要寬廣,內外因素比歷史上任何時候都要復雜,必須堅持總體國家安全觀,以人民安全為宗旨,以政治安全為根本,以經濟安全為基礎,以軍事、文化、社會安全為保障,以促進國際安全為依托,走出一條中國特色國家安全道路。貫徹落實總體國家安全觀,必須既重視外部安全,又重視內部安全,對內求發展、求變革、求穩定、建設平安中國,對外求和平、求合作、求共贏、建設和諧世界;既重視國土安全,又重視國民安全,堅持以民為本、以人為本,堅持國家安全一切為了人民、一切依靠人民,真正夯實國家安全的群眾基礎;既重視傳統安全,又重視非傳統安全,構建集政治安全、國土安全、軍事安全、經濟安全、文化安全、社會安全、科技安全、信息安全、生態安全、資源安全、核安全等于一體的國家安全體系;既重視發展問題,又重視安全問題,發展是安全的基礎,安全是發展的條件,富國才能強兵,強兵才能衛國;既重視自身安全,又重視共同安全,打造命運共同體,推動各方朝著互利互惠、共同安全的目標相向而行。1.5.2國家大數據戰略的時代背景國家安全面臨錯綜復雜的形勢在當下大數據時代,數據安全直接關乎于國家安全和公共利益,故而國家安全的重點將聚焦于數據安全。2021年6月11日,十三屆全國人大常委會第二十九次會議通過了我國第一部有關數據安全的專門法律——《數據安全法》,并且于2021年9月1日起開始施行。《數據安全法》的通過,是我國首次將數據安全提升至國家安全層面。1.5.2國家大數據戰略的時代背景我國經濟發展的不平衡不充分我國經濟發展的不平衡不充分主要體現在兩方面:第一,我國供給和需求仍然存在不平衡的問題,隨著人們生活水平的不斷提高,其需求結構正在轉向中高端產品,供給結構仍然還停留在主要供給低端產品,導致低端供給過剩、中高端供給不足,因此供給結構無法很好地適應需求結構的變化;第二,傳統產業利用大數據技術進行產業重塑或者轉型的成效并不理想,數字經濟與傳統產業的融合并不徹底,許多產業的創新能力依然無法適應經濟高質量發展的要求,創新驅動經濟增長的新格局還未形成。因此,我國一方面需要利用大數據技術助力傳統產業的轉型升級;另一方面需要大數據技術與實體經濟進行深度融合,開發出新產業、新業態、新模式;并且,我國還需要借助大數據技術,不斷提升產業技術創新能力,從而不斷提高企業的生產效率和運營效率,實現新舊產業的可持續發展。1.5.2國家大數據戰略的時代背景社會治理的迫切需求以前,我國的社會治理存在著一個不容忽視的問題——“數據孤島”問題?!皵祿聧u”指的是政府與社會各個部分之間的數據無法連接互動,從而影響政府治理的效率。而大數據技術在社會治理中的應用,很好地解決了這個問題。借助大數據體系,將現有數據通公布在一個開放的網絡平臺并允許社會各界無償使用。這些數據不僅可以直接給百姓提供服務,還可以用于企業、科研機構以及公益組織等的進一步處理和分析;政府也可以通過平臺上的反饋信息,評估政策的施行效果,并對政策進行及時的調整。至此,“數據孤島”問題迎刃而解的同時,政府也提高了其基礎服務能力。除了數據的共享,政府還可以借助大數據技術將原始大數據進行加工和分析,最終將這些分析好的數據用于預測未來可能發生的事件或者是找到一些潛藏的關聯關系,從而增強政府決策的科學性。1.5.3國家大數據戰略的內涵必須堅持以創新作為發展的驅動力我國既是世界上擁有網民數量最多的國家,也是重要的大數據資源集散地,構筑在網絡技術與數據開發利用基礎上的新技術、新產品、新服務以及新產業、新業態,為吸引企業、社會組織以及公眾的參與提供了巨大的數據空間和大眾創業、萬眾創新的發展平臺。堅持創新驅動發展的大數據戰略不僅能夠成功激發企業和全社會運用大數據的創新活力,為經濟社會發展釋放潛能和創造力,而且有助于借用民智,營造跨地域、跨領域、跨行業集成融合的大數據應用生態,進而實現大數據驅動全社會創新發展的良好局面,增強大數據集成創新能力與國家大數據競爭力。1.5.3國家大數據戰略的內涵必須堅持政府數字治理體系變革與經濟社會發展方式整體改革相協調大數據是數字時代的新型戰略資源,其開發利用水平取決于大數據與政府公共管理、企業生產經營與社會自我培育的深度融合。換句話說,既要高度重視大數據技術與政府數據治理雙重遞進、疊加作用而帶來的國家治理體系與政府治理能力的現代化,充分運用互聯網、大數據、人工智能等手段擴大數據開放、優化政府流程、改進行政方式、提高決策科學化精準化;也要統籌推進大數據戰略與經濟發展、社會治理的無縫對接。只有堅持政府、企業和社會大數據戰略的整體化推進和數據治理的國家統籌,才能形成完整的大數據開發利用合力。單獨強調某一方面,都會帶來數據治理的碎片化與數據綜合效用的衰減。1.5.3國家大數據戰略的內涵必須堅持速度、結構與質量效益相統一大數據是信息時代的新型戰略資源,其開發利用必須將速度、結構與質量效益相統一。大數據技術的應用,通過對海量數據的挖掘和分析,及時反饋這些數據背后潛藏的信息,將這些分析出的信息與政府、各個行業以及百姓生活的深度融合,以此提高政府治理能力、促進各個行業的產業結構優化以及可持續發展、不斷改善人民的生活水平,從而形成完整的大數據開發利用鏈條。在這個過程中,大數據的速度、結構與質量效益缺一不可,否則可能會導致數據綜合效用的衰減。1.5.3國家大數據戰略的內涵必須保證安全性與開放性的兼顧國家在進行數據公開和共享的同時其實存在著極大的安全隱患(例如,數據遭受異常流量攻擊、數據泄露等),此時保障數據的安全性就極為重要了,沒有數據安全就不存在可持續的大數據開發利用。國家大數據戰略的有效實施,依賴于國家抵御數據風險的能力的不斷增強,實現數據開放與數據安全之間的平衡,是建設數字中國的必由之路。1.5.4國家大數據戰略的意義大數據是推動數字經濟發展的關鍵要素大數據正在引領我國的經濟發展進入數字經濟時代。中國工程院院長周濟在“第二屆IT2020高端論壇”上提出,“云計算和大數據時代已經到來,而且以及深切改變了人們的工作和生活方式,這勢必重塑全球科技和經濟競爭格局,為中國經濟引擎升級帶來新的挑戰和機遇”[]。隨著大數據技術在經濟活動以及生產活動中的廣泛應用,將實現我國傳統產業結構和形態向數字化和智能化方向轉型升級,并促進我國產業類型以及產業模式的推陳出新,加速我國經濟結構的轉變,從而推動我國經濟的高質量發展。大數據還推動了不同產業之間的深度融合,“互聯網+產業”便是一個很好的例子,通過大數據技術,使得各行各業(例如電商、金融、教育、交通、醫療等)能更精準地為客戶提供個性化產品以及服務。1.5.4國家大數據戰略的意義大數據是增強國家競爭力的重大機遇大數據已經成為塑造國家競爭力的戰略制高點之一,世界各國紛紛把推進大數據的技術創新作為國家的重要發展戰略。中國緊跟世界發展潮流,將國家大數據戰略落到實處,當前,我國正在為從“數據大國”轉型成“數據強國”而不斷努力。隨著中國大數據技術的不斷創新和突破,到2025年,其產生的數據將超過美國。數據的快速產生和各項配套政策的落實推動我國大數據行業高速發展,預計未來我國行業大數據市場規模增速將維持在15%-25%之間,到2025年中國大數據產業規模將達19508億元的高點。大力發展大數據有利于將我國數據資源優勢轉化為國家競爭優勢,實現數據規模、質量和應用水平同步提升,發掘和釋放數據資源的潛在價值,有效提升國家競爭力。1.5.4國家大數據戰略的意義大數據是提高治理能力的有效驅動力在大數據時代,互聯網成為了政府治理的平臺。我國建立電子政務系統,更多地依賴數據進行決策,從而提高政府民意搜集能力以及及時應對各類問題的變通能力,達到高效且精準施政的目的。大數據技術的應用,將政府的決策依據轉向數據,這使得政府的決策更加科學,推動了政府治理理念的革新,將治理模式轉向現代化治理。1.5.4國家大數據戰略的意義大數據加速數字中國的建設從2015年12月16日在第二屆世界互聯網大會開幕式上強調“中國正在實施‘互聯網+’行動計劃,推進‘數字中國’建設”,到2017年致第四屆世界互聯網大會的賀信中指出:“中國數字經濟發展將進入快車道”;從黨的十九大報告提出加強應用基礎研究,“為建設科技強國、質量強國、航天強國、網絡強國、交通強國、數字中國、智慧社會提供有力支撐”,再到2017年12月8日下午中共中央政治局集體學習時強調“推進數據資源整合和開放共享,保障數據安全,加快建設數字中國”……習近平總書記為“數字中國”建設把舵定向,不僅標定了前進路徑,更擘畫了清晰未來[]。數字中國的建設時國家大數據戰略實施過程中的極為重要的一環。數字中國的建設保證了信息化技術在我國各項事業發展進程中的有效應用,通過對海量數據的挖掘和分析,向各行各業提供精準的信息資源,推動社會主義現代化強國的建設。1.6
本章小結
本章小結本章從大數據的產生背景與概念、大數據的特點和技術概述、大數據的應用與價值體現、大數據時代的思維變革以及國家大數據戰略五個方面帶領我們初步了解大數據。大數據產生的三個重要階段,大數據的“4V”特點以及五大類技術,大數據在各個領域的應用及展現其價值的“三重門”理論,還有大數據給我們帶來的思維變革,以及國家大數據戰略的內涵和意義都是需要我們了解并掌握的。本章學習目的在于對大數據有基礎的了解。感謝觀看
第2章開源大數據平臺開源大數據平臺學習目標了解兩種常用開源大數據分析平臺——Hadoop和Spark的起源、發展及應用現狀理解兩種平臺各自的體系結構、基本運行機制及適用范圍掌握其安裝部署過程及基本使用方法,為大數據分析的應用打下基礎學習要點Hadoop和Spark的起源、發展及應用現狀Hadoop和Spark的生態系統和體系結構Hadoop和Spark的安裝和使用方法目錄Hadoop平臺Hadoop概述Hadoop生態系統和體系結構Hadoop的安裝和使用Spark平臺Spark概述Spark生態系統和體系結構RDD的運行原理Spark的安裝和使用目錄Hadoop平臺Hadoop概述Hadoop生態系統和體系結構Hadoop的安裝和使用Hadoop的起源Apache軟件基金會旗下開源分布式計算平臺由DougCutting創始開發的文本搜索庫源自Google實驗室發表的兩篇學術論文:SanjayG,HowardG,Shun-TakL.TheGoogleFileSystem.Proc.ofSOSP.2003:29-43.DeanJ,GhemawatS.MapReduce.Simplifieddataprocessingonlargeclusters.CommunicationsoftheACM.2008,51(1):107-113.(DeanJ,GhemawatS.MapReduce:Simplifieddataprocessingonlargeclusters.OSDI2004.)最先應用于Yahoo!廣告系統的數據挖掘2008年4月,打破世界紀錄成為排序1TB數據最快的系統由910個節點構成的集群進行運算排序時間只用了209秒同年5月再次將紀錄刷新至62秒DougCuttingHadoop的核心技術Hadoop是一套大數據存儲和處理的解決方案Hadoop核心技術:HDFS:HadoopDistributedFileSystem,被設計成適合運行在通用硬件上的分布式文件系統。MapReduce:一種編程模型,用于大規模數據集(大于1TB)的并行運算。綜合衡量一套大數據處理系統是否可用標準:容錯性能編程模式的可用性性能或成本比Hadoop的特性高可靠性高效性可擴展性低成本良好的跨平臺性用戶友好性Hadoop的應用現狀互聯網領域:國外:Google和Yahoo!等網站、Facebook、Microsoft、Cisco等國外公司或平臺國內:百度、阿里巴巴、網易、華為、騰訊、中國移動等
舉例:淘寶、華為學術界:國外:卡耐基梅隆大學、加州大學伯克利分析、康奈爾大學、斯坦福大學、華盛頓大學、普渡大學等國內:清華大學、中國人民大學、中國科學院大學等目錄Hadoop平臺Hadoop概述Hadoop生態系統和體系結構Hadoop的安裝和使用Hadoop的版本發展/releases.htmlHadoop的體系結構Hadoop1.0Hadoop的體系結構Hadoop1.0在實際應用中仍然存在著許多問題。HDFS:可用性:單點故障問題擴展性:不支持水平擴展系統性能:會受限于單個名稱節點的吞吐量隔離性:單個名稱節點也難以提供不同程序之間的隔離性MapReduce:可用性:單點故障問題資源受限資源化分不合理Hadoop的體系結構Hadoop2.0在1.0的基礎上進行了豐富和完善。Hadoop的生態系統目錄Hadoop平臺Hadoop概述Hadoop生態系統和體系結構Hadoop的安裝和使用部署準備硬件準備:分布式模式:至少需要2臺計算機或1臺計算機上的2臺虛擬機單機或偽分布式模式:可使用1臺計算機。操作系統準備:Linux系統(如Ubuntu操作系統)Linux系統的安裝主要有兩種方式:虛擬機安裝:計算機比較新或者配置內存4G以上雙系統安裝:計算機較舊或配置內存小于等于4G本書介紹的是虛擬機安裝方法下載安裝-Ubuntu虛擬機安裝Ubuntu虛擬機安裝軟件下載新建虛擬機安裝Ubuntu用戶及環境設置下載安裝-Ubuntu虛擬機安裝軟件下載:下載并安裝VirtualBox虛擬機軟件官網或鏡像網站下載好所需要的Ubuntu的鏡像文件(ISO文件)本書使用的版本為Ubuntu16.04,使用的鏡像網站為阿里開源鏡像站下載安裝-Ubuntu虛擬機安裝新建虛擬機:打開VirtualBox,單擊“新建”按鈕給虛擬機命名為“Ubuntu”,選擇操作系統類型與版本選擇內存大小選擇“現在創建虛擬硬盤”選項選擇虛擬硬盤文件類型為“VDI(VirtualBox磁盤鏡像)”將虛擬硬盤的存儲分配方式選擇為“動態分配”選擇文件存儲的位置和容量大小單擊“創建”按鈕,完成虛擬機的創建完成上述步驟后,可以在VirtualBox中看到新建好的虛擬機,代表虛擬機已經創建成功了。下載安裝-Ubuntu虛擬機安裝安裝Ubuntu:設置“存儲”單擊“啟動”按鈕啟動虛擬機,若彈出提示,在下拉列表中選擇ISO文件啟動后,選擇語言為“中文(簡體)”,單擊“安裝Ubuntu”按鈕檢查是否連接網絡及是否安裝第三方軟件,單擊“繼續”按鈕。確認安裝類型,選擇“其他選項”,單擊“繼續”按鈕單擊“新建分區表”按鈕創建分區,添加交換空間和根目錄全部設置完成后,單擊“現在安裝”按鈕,確認將改動寫入磁盤選擇時區,在鍵盤布局中將兩列均設置為漢語設置用戶名和密碼單擊“繼續”按鈕,開始安裝安裝完畢后,單擊“現在重啟”按鈕重啟虛擬機下載安裝-Ubuntu虛擬機安裝用戶及環境設置:創建Hadoop用戶SSH登錄權限設置安裝和配置Java下載安裝-Ubuntu虛擬機安裝創建Hadoop用戶:第一步,按快捷鍵Ctrl+Alt+T,或者在搜索欄中搜索終端,打開終端窗口(命令行界面),輸入如下命令創建新用戶。
$sudouseradd-mhadoop-s/bin/bash由此創建了名為“hadoop”的用戶,同時指定使用bash作為shell解析相關命令。第二步,輸入如下命令將登錄密碼設置為“hadoop”(也可設置其他密碼,密碼將需按照提示輸入兩次)。
$sudopasswdhadoop第三步,輸入如下命令如下:“hadoop”用戶增加管理員權限以方便后續部署。
$sudoadduserhadoopsudo此后的操作請登錄“hadoop”用戶來進行。下載安裝-Ubuntu虛擬機安裝SSH登錄權限設置:SSH協議是建立在應用層和傳輸層基礎上的安全協議,可以提供安全的網絡傳輸環境。Hadoop名稱節點(NameNode)啟動集群中的數據節點(DataNode)時,需要通過SSH登錄來實現。SSH包括客戶端client(無須安裝,Ubuntu操作系統已自動安裝)和服務器端server(需要安裝)??刹捎孟旅娴拿畎惭bSSHserver:
$sudoapt-getinstallopenssh-server如果本步安裝失敗,可以先嘗試執行$sudoapt-getupdate命令進行更新。安裝以后,使用如下命令:
$sshlocalhost然后輸入yes和密碼后即可登錄本機。下載安裝-Ubuntu虛擬機安裝SSH登錄權限設置:為了使名稱節點能夠順利登錄集群中的任何一個節點,我們可以用下面的命令將所有機器配置為無密碼登錄方式。
$exit
$cd~/.ssh/
$ssh-keygen-trsa此時系統會要求你指定一個文件來保存密鑰,可以按回車鍵使用默認的文件。接著輸入下面的代碼繼續完成所有機器的無密碼登錄配置。
$cat./id_rsa.pub>>./authorized_keys此時再次執行$sshlocalhost命令即可不需要密碼登錄了,SSH配置結束。下載安裝-Ubuntu虛擬機安裝安裝和配置Java:在Ubuntu中直接通過下面的命令安裝jdk1.8:
$sudoapt-getinstallopenjdk-8-jreopenjdk-8-jdk除此之外,還需配置JAVA_HOME環境變量以避免訪問時反復寫絕對路徑第一步,進入文件~/.bashrc編輯模式):
$vim~/.bashrc
如果報錯“程序Vim已包含在以下軟件包中”,可以先以下命令:
$sudoapt-getinstallvim第二步,單擊i按鍵開啟編輯模式,添加如下語句:
exportJAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
exportJRE_HOME=${JAVA_HOME}/jre
exportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
exportPATH=${JAVA_HOME}/bin:$PATH
輸入完畢后,單擊Esc按鍵退出編輯模式,輸入“:wq”(w保存,q退出)命令,按回車鍵后回到命令行界面。下載安裝-Ubuntu虛擬機安裝安裝和配置Java:第三步,執行下列命令使修改生效:
$source~/.bashrc第四步,執行下列命令查看Java是否安裝成功:
$java-version
若返回下圖所示內容,則Java安裝成功。下載安裝-Hadoop的下載安裝Hadoop的下載安裝Hadoop官方網站:/本書選擇的是Hadoop3.1.3版本單機安裝配置偽分布式安裝配置分布式安裝配置下載安裝-Hadoop的下載安裝單機安裝配置:將hadoop-3.1.3.tar.gz安裝至虛擬機的/usr/local/目錄中,命令如下:
$sudotar-zvxf~/下載/hadoop-3.1.3.tar.gz-C/usr/local可以重命名并修改訪問權限,以方便后續調用,命令如下:
$cd/usr/local/
$sudomv./hadoop-3.1.3/./hadoop#將文件夾名改為hadoop
$sudochown-Rhadoop:hadoop./hadoop#修改文件權限檢查Hadoop是否可用,命令如下:
$cd/usr/local/hadoop
$./bin/hadoopversion如果可用,則會顯示Hadoop版本信息,表示單機安裝Hadoop成功。下載安裝-Hadoop的下載安裝偽分布式安裝配置:Hadoop的運行方式是由配置文件決定的,默認情況下為單機模式。如果需要配置為偽分布式模式,則需要修改相應配置文件。第一步,修改配置文件第二步,初始化文件系統第三步,啟動所有進程,執行以下命令第四步,訪問web,查看Hadoop集群信息下載安裝-Hadoop的下載安裝第一步,修改配置文件:core-site.xml和hdfs-site.xml在目錄/usr/local/hadoop/etc/hadoop/中打開hdfs-site.xml,將內容修改為:<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property></configuration>
dfs.replication表示副本的數量,偽分布式要設置為1。
.dir表示存儲fsimage文件的本地磁盤目錄。
dfs.datanode.data.dir表示HDFS數據存放的本地磁盤目錄。下載安裝-Hadoop的下載安裝第二步,初始化文件系統執行下列語句:
$hadoopnamenode–format
如果報錯“找不到hadoop”,則可以使用以下命令行打開環境變量配置的界面:
$vim~/.bashrc
打開設置環境變量的界面后,添加語句:
exportPATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin同樣輸入“:wq”(w保存,q退出)命令,退出編輯模式。使配置立即生效:
$source~/.bashrc檢查是否配置成功
$hadoop-version
如果報錯“mkdir:無法創建目錄/usr/local/hadoop/logs:權限不夠”,可通過以下命令行解決:
$sudochown-Rhadoop/usr/local/hadoop#此處前一個hadoop為用戶名下載安裝-Hadoop的下載安裝第三步,啟動所有進程,執行以下命令:
$start-all.sh第四步,使用瀏覽器訪問http://localhost:9870查看Hadoop集群中NameNode和Datanode的信息。下載安裝-Hadoop的下載安裝分布式安裝配置:為了降低分布式模式部署難度,本書簡單使用兩個節點(兩臺虛擬機:Master節點和Slave節點)來搭建集群環境與單機安裝過程類似,我們要在Master節點和Slave節點上完成創建“hadoop”用戶、安裝SSH服務端、安裝Java環境的步驟,并且在Master節點上安裝Hadoop,并完成配置完成上述步驟后,進行下述步驟:第一步,網絡配置。第二步,設置SSH無密碼登錄。第三步,配置PATH變量。下載安裝-Hadoop的下載安裝第一步,網絡配置在虛擬機的網絡設置中將兩臺虛擬機的網絡連接方式改為“橋接網卡”模式因為采用導入虛擬機鏡像文件的方式安裝Linux系統,有可能出現兩臺機器的MAC地址是相同的,因此,在虛擬機的網絡設置中還需要使用“刷新”按鈕隨機改變機器的MAC地址網絡配置完成以后,可以在終端使用ifconfig命令查看機器的IP地址:
$ifconfig
其中inet地址即為我們需要查看的IP地址,本書的兩臺機器IP地址分別為07和09下載安裝-Hadoop的下載安裝第一步,網絡配置修改各個節點的主機名,在Master節點上執行如下命令修改主機名:
$sudovim/etc/hostname
將主機名內容直接刪除,并修改為“Master”,保存退出v(需要重啟Linux系統才能看到主機名的變化)在Master節點中執行如下命令打開并修改Master節點中的“/etc/hosts”文件:
$sudovim/etc/hosts在hosts文件中增加如下兩條IP和主機名映射關系:
07Master
09Slave1下載安裝-Hadoop的下載安裝第一步,網絡配置完成了Master節點的配置后,參照上面的方法,把Slave節點上的“/etc/hostname”文件中的主機名修改為“Slave1”,同時,修改“/etc/hosts”的內容,在hosts文件中增加相同的IP和主機名映射關系重新啟動Slave節點的Linux系統在各個節點上都執行如下命令測試是否可以互相連通:
$pingMaster-c3
$pingSlave1-c3如果可以連通,輸出如圖所示下載安裝-Hadoop的下載安裝第二步,設置SSH無密碼登錄讓Master節點可以SSH無密碼登錄到各個Slave節點上,生成Master節點的公匙。
$cd~/.ssh
如果本步執行后顯示沒有該目錄,可以先執行一次$sshlocalhost命令
$rm./id_rsa*
$ssh-keygen-trsa讓Master節點能夠SSH無密碼登錄本機,在Master節點上執行如下命令:
$cat./id_rsa.pub>>./authorized_keys完成后可以執行如下命令來進行驗證:
$sshMaster執行成功后如圖所示。下載安裝-Hadoop的下載安裝第二步,設置SSH無密碼登錄執行如下命令返回原來的終端:
$exit在Master節點上,將上公匙傳輸給Slave1節點:
$scp~/.ssh/id_rsa.pubhadoop@Slave1:/home/hadoop/切換到Slave1節點上,執行如下命令將SSH公匙加入授權:
$mkdir~/.ssh
$cat~/id_rsa.pub>>~/.ssh/authorized_keys
$rm~/id_rsa.pub
這樣,在Master節點上就可以SSH無密碼登錄到各個Slave節點了切換到Master節點上執行如下命令進行檢驗:
$sshSlave1運行成功的結果如圖所示,這意味著此時Master已經可以登錄到各個Slave節點了。下載安裝-Hadoop的下載安裝第三步,配置PATH變量在Master節點上執行以下命令:
$vim~/.bashrc在文件中添加以下內容:
exportPATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin保存后執行:
$source~/.bashrc下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環境在配置集群/分布式模式時,需要修改“/usr/local/hadoop/etc/hadoop”目錄下的配置文件,在此不再贅述。我們僅設置正常啟動所必須的設置項,包括workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共五個文件,更多設置項可查看官方說明。文件workers:將workers文件中原來的localhost刪除,只添加“Slave1”。下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環境文件core-site.xml:修改為以下內容<configuration><property><name>fs.defaultFS</name><value>hdfs://Master:9000</value></property><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abaseforothertemporarydirectories.</description></property></configuration>下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環境文件hdfs-site.xml:修改為以下內容<configuration><property><name>node.secondary.http-address</name><value>Master:50090</value></property><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環境文件mapred-site.xml:修改為以下內容<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>Master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>Master:19888</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property></configuration>下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環境文件yarn-site.xml:修改為以下內容。<configuration><property><name>yarn.resourcemanager.hostname</name><value>Master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環境配置完成后,把Master節點上的“/usr/local/hadoop”文件夾復制到各個節點上,命令如下:
$cd/usr/local
$tar-zcf~/hadoop.master.tar.gz./hadoop
$cd~
$scp./hadoop.master.tar.gzSlave1:/home/hadoop切換到Slave1節點上執行如下命令:
$sudotar-zxf~/hadoop.master.tar.gz-C/usr/local
$sudochown-Rhadoop/usr/local/hadoop下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環境在Master節點執行名稱節點的格式化:
$hdfsnamenode-format
在Master節點上啟動Hadoop:
$start-dfs.sh
$start-yarn.sh
$mr-jobhistory-daemon.shstarthistoryserver
通過命令jps可以查看各個節點所啟動的進程。如果已經正確啟動,則在Master節點上可以看到NameNode、ResourceManager、SecondrryNameNode和JobHistoryServer進程,如圖所示。下載安裝-Hadoop的下載安裝第四步,配置集群/分布式環境在Slave節點可以看到DataNode和NodeManager進程,如圖所示在Master節點上執行命令:
$hdfsdfsadmin–report如果屏幕信息中的“Livedatanodes”不為0,則說明數據節點啟動成功結果如圖所示目錄Spark平臺Spark概述Spark生態系統和體系結構RDD的運行原理Spark的安裝和使用Hadoop的流程和缺陷企業對于大數據處理往往會產生不同的需求復雜的批量數據處理需要分鐘到小時級響應基于歷史數據的交互式查詢需要秒級到分鐘級響應基于實時數據流的處需要毫秒到秒級響應……Hadoop的流程和缺陷一個Hadoop應用的多個MapReduce操作之間都是相互獨立的每個操作的結果一般都會存入磁盤(如HDFS)后續操作需要再次從磁盤讀取數據導致了多次磁盤讀/寫,會對Hadoop計算造成巨大的時間開銷。Hadoop的執行流程Hadoop的流程和缺陷缺陷:磁盤I/O開銷大,無法滿足多階段和交互式計算需求系統的表達能力有限,很多操作無法轉化為MapReduce操作面對上述企業對于大數據處理的諸多需求:僅僅能滿足復雜的批量數據處理需求不能滿足基于歷史數據的交互式查詢要求不能滿足基于實時數據流的處理要求……一種高效、低延遲的大數據處理架構——Spark產生了Spark的發展及應用官網:/2009年由美國加州伯克利大學的AMPLab最早進行開發2010年開源發布2013年加入Apache軟件基金會2014年打破Hadoop保持的排序紀錄Spark:206個節點
23分鐘Hadoop:2000個節點
72分鐘在超1000家國內外企業和科研機構均有應用,如淘寶、百度、騰訊、亞馬遜、eBay、日立、NASAJPL等。Spark執行流程Spark將數據從磁盤載入內存后,迭代計算等的中間結果會保留在內存中,從而避免了反復從磁盤中讀取數據的時間開銷。相較于MapReduce優點:基于內存計算框架使得計算效率得以明顯提升適合實時數據流的處理但MapReduce更適合執行數據量巨大的批處理操作目錄Spark平臺Spark概述Spark生態系統和體系結構RDD的運行原理Spark的安裝和使用Spark的生態系統Spark的設計理念:Onestacktorulethemall已成為伯克利數據分析軟件棧BDAS的重要組成部分下圖為BDAS的體系結構Spark的體系結構每個應用會被分解成若干相關的計算任務(Task),分布在不同的工作節點中執行。(1)集群資源管理器(ClusterManager):負責管理調度所有Spark應用的計算資源;除了自帶的資源管理器,也支持ApacheMesos或HadoopYARN。(2)工作節點(WorkerNode):負責運行具體的任務(Task)。工作節點上,對每個應用都對應有一個執行進程(Executor)負責該應用在該節點上所有任務的執行和數據的存儲。(3)任務控制節點(Driver):為每個應用申請計算資源,并對各節點上的執行進程進行分配和監控。Spark的體系結構一個Spark應用由一個任務控制節點(Driver)和若干個作業(Job)構成一個作業(Job)由多個階段(Stage)構成一個階段(Stage)由多個彼此沒有Shuffle依賴關系的任務(Task)組成Spark的體系結構一個Spark應用的運行流程如下:(1)由任務控制節點創建一個SparkContext作為通向Spark集群的入口,為應用構建基本的運行環境,并向資源管理器申請計算資源Spark的體系結構一個Spark應用的運行流程如下:(2)資源管理器為應用分配相應的資源,并啟動計算節點上的進程(Executor);Spark的體系結構一個Spark應用的運行流程如下:(3)進程啟動后,主動向SparkContext申請計算任務;SparkContext則會將計算任務分解成若干個RDD,并按照這些RDD彼此之間的關聯關系(DAG圖)將他們分為不同的任務集合(TaskSet,也稱Stage);最后由任務調度器(TaskScheduler)將Task發放給具體的進程Spark的體系結構一個Spark應用的運行流程如下:(4)計算節點上的任務執行完成后,會通過任務調度器逐層反饋給SparkContext,當所有任務都執行完成后,SparkContext會向資源管理器注銷以釋放計算資源。目錄Spark平臺Spark概述Spark生態系統和體系結構RDD的運行原理Spark的安裝和使用RDD的特點Spark的核心概念:RDD:ResillientDistributedDataset彈性分布式數據集合提供了一種高度受
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《汽車貸款提前還款合同模板》
- 倉儲設施安全檢查與物業管理服務合同
- 企業債務財產保全法律文書解除合同
- 企事業單位內部停車位銷售及使用管理合同范本
- 資產重組財務擔保合同會計處理指南
- 老人健康講座課件
- 美術課件制作介紹
- 美術色彩知識課件
- 安全生產約談會
- 消防安全形勢分析會議記錄
- DB45∕T 1098-2024 橡膠瀝青路面施工技術規范
- 2025年沈陽水務集團招聘筆試沖刺題2025
- 《蠶絲》教學課件
- 中央軍校面試題庫及答案
- 2025年廣東省高考地理試卷真題(含答案)
- 江西省金控科技產業集團有限公司招聘筆試題庫2025
- Unit 1 Happy Holiday 第4課時(Section B 1a-1d) 2025-2026學年人教版英語八年級下冊
- 2025年連云港市中考語文試卷真題(含標準答案及解析)
- 2025-2030年中國期貨行業市場深度調研及競爭格局與投資策略研究報告
- 2025-2030年中國農業科技行業市場深度調研及前景趨勢與投資研究報告
- 2025至2030中國家用血壓計行業發展趨勢分析與未來投資戰略咨詢研究報告
評論
0/150
提交評論