




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.:.;編號:SY-.密級:受控電力大數據處置、存儲與分析的調研報告2021年12月PAGE PAGE 58目 錄 TOC o 1-3 h z u HYPERLINK l _Toc436920259 1、什么是大數據 PAGEREF _Toc436920259 h 4 HYPERLINK l _Toc436920260 1.1、Volume體積 PAGEREF _Toc436920260 h 4 HYPERLINK l _Toc436920261 1.2、Variety多樣 PAGEREF _Toc436920261 h 4 HYPERLINK l _Toc436920262 1.3、Velo
2、city效率 PAGEREF _Toc436920262 h 5 HYPERLINK l _Toc436920263 1.4、Veracity價值 PAGEREF _Toc436920263 h 5 HYPERLINK l _Toc436920264 2、大數據關鍵技術 PAGEREF _Toc436920264 h 5 HYPERLINK l _Toc436920265 2.1、大數據采集技術 PAGEREF _Toc436920265 h 6 HYPERLINK l _Toc436920266 2.2、大數據預處置技術 PAGEREF _Toc436920266 h 6 HYPERLINK
3、 l _Toc436920267 2.3、大數據存儲及管理技術 PAGEREF _Toc436920267 h 7 HYPERLINK l _Toc436920268 2.4、大數據分析及發掘技術 PAGEREF _Toc436920268 h 7 HYPERLINK l _Toc436920269 2.5、大數據展現與運用技術 PAGEREF _Toc436920269 h 8 HYPERLINK l _Toc436920270 3、數據處置與分析 PAGEREF _Toc436920270 h 8 HYPERLINK l _Toc436920271 3.1、傳統方式 PAGEREF _To
4、c436920271 h 9 HYPERLINK l _Toc436920272 3.2、Hadoop大數據新方法 PAGEREF _Toc436920272 h 10 HYPERLINK l _Toc436920273 3.3、大規模并行分析數據庫 PAGEREF _Toc436920273 h 11 HYPERLINK l _Toc436920274 3.4、大數據方法的互補 PAGEREF _Toc436920274 h 12 HYPERLINK l _Toc436920275 3.5、大數據運用案例 PAGEREF _Toc436920275 h 13 HYPERLINK l _Toc
5、436920276 4、展望電力大數據時代 PAGEREF _Toc436920276 h 14 HYPERLINK l _Toc436920277 4.1、電力大數據價值分析 PAGEREF _Toc436920277 h 14 HYPERLINK l _Toc436920278 4.2、電力大數據運用前景 PAGEREF _Toc436920278 h 14 HYPERLINK l _Toc436920279 4.3、電力大數據開展與挑戰 PAGEREF _Toc436920279 h 15 HYPERLINK l _Toc436920280 5、邁向電力大數據時代 PAGEREF _To
6、c436920280 h 15 HYPERLINK l _Toc436920281 5.1、電力大數據關健技術 PAGEREF _Toc436920281 h 16 HYPERLINK l _Toc436920282 5.2、電力大數據開展戰略 PAGEREF _Toc436920282 h 16 HYPERLINK l _Toc436920283 6、電力大數據實際 PAGEREF _Toc436920283 h 16 HYPERLINK l _Toc436920284 6.1、實時海量數據是堅強智能電網的重要資產 PAGEREF _Toc436920284 h 17 HYPERLINK l
7、 _Toc436920285 6.2、對實時數據的接入、存儲與處置、監測與智能分析 PAGEREF _Toc436920285 h 17 HYPERLINK l _Toc436920286 6.3、電網實時數據調研現狀 PAGEREF _Toc436920286 h 17 HYPERLINK l _Toc436920287 6.4、大數據效力IT創新、提高消費效率 PAGEREF _Toc436920287 h 19 HYPERLINK l _Toc436920288 7、大數據技術實現 PAGEREF _Toc436920288 h 19 HYPERLINK l _Toc436920289
8、7.1、物理架構圖 PAGEREF _Toc436920289 h 19 HYPERLINK l _Toc436920290 7.2、數據處置向大數據處置的過渡 PAGEREF _Toc436920290 h 20 HYPERLINK l _Toc436920291 7.3、大數據中心技術Hadoop PAGEREF _Toc436920291 h 20 HYPERLINK l _Toc436920292 8、Hadoop引見與案例分析 PAGEREF _Toc436920292 h 20 HYPERLINK l _Toc436920293 8.1、Hadoop引見 PAGEREF _Toc4
9、36920293 h 21 HYPERLINK l _Toc436920294 8.2、Hadoop中心技術 PAGEREF _Toc436920294 h 21 HYPERLINK l _Toc436920295 8.2.1、HDFS PAGEREF _Toc436920295 h 21 HYPERLINK l _Toc436920296 8.2.2、MapReduce PAGEREF _Toc436920296 h 23 HYPERLINK l _Toc436920297 8.3、Hadoop優點和缺陷 PAGEREF _Toc436920297 h 30 HYPERLINK l _Toc
10、436920298 8.4、NoSQL數據庫引見 PAGEREF _Toc436920298 h 31 HYPERLINK l _Toc436920299 8.4.1、MongoDB PAGEREF _Toc436920299 h 32 HYPERLINK l _Toc436920300 8.4.2、CouchDB PAGEREF _Toc436920300 h 33 HYPERLINK l _Toc436920301 8.4.3、HBase PAGEREF _Toc436920301 h 34 HYPERLINK l _Toc436920302 8.4.4、Redis PAGEREF _To
11、c436920302 h 35 HYPERLINK l _Toc436920303 8.4.5、BaseX PAGEREF _Toc436920303 h 35 HYPERLINK l _Toc436920304 9、Hadoop數據存儲HBase PAGEREF _Toc436920304 h 36 HYPERLINK l _Toc436920305 9.1、HBase簡介 PAGEREF _Toc436920305 h 36 HYPERLINK l _Toc436920306 9.2、邏輯視圖 PAGEREF _Toc436920306 h 37 HYPERLINK l _Toc43692
12、0307 9.3、物理存儲 PAGEREF _Toc436920307 h 37 HYPERLINK l _Toc436920308 9.4、系統架構 PAGEREF _Toc436920308 h 41 HYPERLINK l _Toc436920309 9.5、關鍵算法流程 PAGEREF _Toc436920309 h 44 HYPERLINK l _Toc436920310 9.6、訪問接口 PAGEREF _Toc436920310 h 48 HYPERLINK l _Toc436920311 10、Hadoop查詢與分析工具 PAGEREF _Toc436920311 h 48 H
13、YPERLINK l _Toc436920312 10.1、Hive PAGEREF _Toc436920312 h 48 HYPERLINK l _Toc436920313 10.2、Mahout PAGEREF _Toc436920313 h 561、什么是大數據大數據幾乎已成為一切商業領域共有的最新趨勢,然而大數據終究是什么?現實上,大數據是個非常簡單的術語就像它所說的一樣,是非常大的數據集。那么終究有大多?真實的答案就是“如他所想的那么大!那么為什么會產生如此之大的數據集?由于當今的數據曾經無所不在并且存在著宏大的報答:搜集通訊數據的RFID傳感器,搜集天氣信息的傳感器,挪動設備給社交
14、網站發送的GPRS數據包,圖片視頻,在線購物產生的買賣記錄,應有盡有!大數據是一個宏大的數據集,包含了任何數據源產生的信息,當然前提是這些信息是我們感興趣的。然而大數據的含義絕不只與體積相關,由于大數據還可以用于尋覓新的真知、構成新的數據和內容;我們可以運用從大數據中提取的真知、數據和內容去使商業更加靈敏,以及回答那些之前被以為遠超當前范疇的問題。這也是大數據被從以下4個方面定義的緣由:Volume體積、Variety多樣、Velocity效率以及VeracityValue,價值,也就是大數據的4V。下面將簡述每個特性以及所面臨的挑戰:1.1、Volume體積Volume說的是一個業務必需捕獲
15、、存儲及訪問的數據量,僅僅在過去兩年內就消費了世界上一切數據的90%。現今的機構已完全被數據的體積所淹沒,隨便的就會產生TB甚至是PB級不同類型的數據,并且其中有些數據需求被組織、防護竊取以及分析。1.2、Variety多樣世界上產生的數據有80%都是半構造化的,傳感器、智能設備和社交媒體都是經過Web頁面、網絡日志文件、社交媒體論壇、音頻、視頻、點擊流、電子郵件、文檔、傳感系統等生成這些數據。傳統的分析方案往往只適宜構造化數據,舉個例子:存儲在關系型數據庫中的數據就有完好的構造模型。數據類型的多樣化同樣意味著為支持當下的決策制定及真知處置,我們需求在數據儲存和分析上面進展根本的改動。Vari
16、ety代表了在傳統關系數據庫中無法隨便捕獲和管理的數據類型,運用大數據技術卻可以輕松的儲存和分析。1.3、Velocity效率Velocity那么需求對數據進展近實時的分析,亦稱“sometimes 2 minutes is too late!。獲取競爭優勢意味著他需求在幾分鐘,甚至是幾秒內識別一個新的趨勢或機遇,同樣還需求盡能夠的快于他競爭對手。另外一個例子是時間敏感性數據的處置,比如說捕捉罪犯,在這里數據必需被搜集后就完成被分析,這樣才干獲取最大價值。對時間敏感的數據保質期往往都很短,這就需求組織或機構運用近實時的方式對其分析。1.4、Veracity價值經過分析數據我們得出如何的抓住機遇
17、及收獲價值,數據的重要性就在于對決策的支持;當他著眼于一個能夠會對他企業產生重要影響的決策,他希望獲得盡能夠多的信息與用例相關。單單數據的體積并不能決議其能否對決策產生協助 ,數據的真實性和質量才是獲得真知和思緒最重要的要素,因此這才是制定勝利決策最堅實的根底。2、大數據關鍵技術大數據技術,就是從各種類型的數據中快速獲得有價值信息的技術。大數據領域曾經涌現出了大量新的技術,它們成為大數據采集、存儲、處置和呈現的有力武器。大數據處置關鍵技術普通包括:大數據采集、大數據預處置、大數據存儲及管理、大數據分析及發掘、大數據展現和運用大數據檢索、大數據可視化、大數據運用、大數據平安等。2.1、大數據采集
18、技術數據是指經過RFID射頻數據、傳感器數據、社交網絡交互數據及挪動互聯網數據等方式獲得的各種類型的構造化、半構造化或稱之為弱構造化及非構造化的海量數據,是大數據知識效力模型的根本。重點要突破分布式高速高可靠數據爬取或采集、高速數據全映像等大數據搜集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評價模型,開發數據質量技術。大數據采集普通分為大數據智能感知層:主要包括數據傳感體系、網絡通訊體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對構造化、半構造化、非構造化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處置和管理等。必需著重攻克針對大數據源的智
19、能識別、感知、適配、傳輸、接入等技術。根底支撐層:提供大數據效力平臺所需的虛擬效力器,構造化、半構造化及非構造化數據的數據庫及物聯網絡資源等根底支撐環境。重點攻克分布式虛擬存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化接口技術,大數據的網絡傳輸與緊縮技術,大數據隱私維護技術等。2.2、大數據預處置技術主要完成對已接納數據的辨析、抽取、清洗等操作。1抽取:因獲取的數據能夠具有多種構造和類型,數據抽取過程可以協助 我們將這些復雜的數據轉化為單一的或者便于處置的構型,以到達快速分析處置的目的。2清洗:對于大數據,并不全是有價值的,有些數據并不是我們所關懷的內容,而另一些數據那么是完全錯誤的
20、干擾項,因此要對數據經過過濾“去噪從而提取出有效數據。2.3、大數據存儲及管理技術大數據存儲與管理要用存儲器把采集到的數據存儲起來,建立相應的數據庫,并進展管理和調用。重點處理復雜構造化、半構造化和非構造化大數據管理與處置技術。主要處理大數據的可存儲、可表示、可處置、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件系統DFS、能效優化的存儲、計算融入存儲、大數據的去冗余及高效低本錢的大數據存儲技術;突破分布式非關系型大數據管理與處置技術,異構數據的數據交融技術,數據組織技術,研討大數據建模技術;突破大數據索引技術;突破大數據挪動、備份、復制等技術;開發大數據可視化技術。開發新型數據庫技術,
21、數據庫分為關系型數據庫、非關系型數據庫以及數據庫緩存系統。其中,非關系型數據庫主要指的是NoSQL數據庫,分為:鍵值數據庫、列存數據庫、圖存數據庫以及文檔數據庫等類型。關系型數據庫包含了傳統關系數據庫系統以及NewSQL數據庫。開發大數據平安技術。改良數據銷毀、透明加解密、分布式訪問控制、數據審計等技術;突破隱私維護和推理控制、數據真偽識別和取證、數據持有完好性驗證等技術。2.4、大數據分析及發掘技術大數據分析技術。改良已有數據發掘和機器學習技術;開發數據網絡發掘、特異群組發掘、圖發掘等新型數據發掘技術;突破基于對象的數據銜接、類似性銜接等大數據交融技術;突破用戶興趣分析、網絡行為分析、情感語
22、義分析等面向領域的大數據發掘技術。數據發掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實踐運用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據發掘涉及的技術方法很多,有多種分類法。根據發掘義務可分為分類或預測模型發現、數據總結、聚類、關聯規那么發現、序列方式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據發掘對象可分為關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環球網Web;根據發掘方法分,可粗分為:機器學習方法、統計方法、神經網絡方法和數據庫方法。機器學習中,可細分為:歸納學習方法(決策樹
23、、規那么歸納等)、基于范例學習、遺傳算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探求性分析(主元分析法、相關分析法等)等。神經網絡方法中,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。從發掘義務和發掘方法的角度,著重突破:1.可視化分析。數據可視化無論對于普通用戶或是數據分析專家,都是最根本的功能。數據圖像化可以讓數據本人說話,讓用戶直觀的感遭到結果。2.數據發掘算法。圖像化是將機器
24、言語翻譯給人看,而數據發掘就是機器的母語。分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數據,發掘價值。這些算法一定要可以應付大數據的量,同時還具有很高的處置速度。3.預測性分析。預測性分析可以讓分析師根據圖像化分析和數據發掘的結果做出一些前瞻性判別。4.語義引擎。語義引擎需求設計到有足夠的人工智能以足以從數據中自動地提取信息。言語處置技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等。5.數據質量和數據管理。數據質量與管理是管理的最正確實際,透過規范化流程和機器對數據進展處置可以確保獲得一個預設質量的分析結果。2.5、大數據展現與運用技術大數據技術可以將隱藏于海量數據中的
25、信息和知識發掘出來,為人類的社會經濟活動提供根據,從而提高各個領域的運轉效率,大大提高整個社會經濟的集約化程度。在我國,大數據將重點運用于以下三大領域:商業智能、政府決策、公共效力。例如:商業智能技術,政府決策技術,電信數據信息處置與發掘技術,電網數據信息處置與發掘技術,氣候信息分析技術,環境監測技術,警務云運用系統道路監控、視頻監控、網絡監控、智能交通、反電信詐騙、指揮調度等公安信息系統,大規模基因序列分析比對技術,Web信息發掘技術,多媒體數據并行化處置技術,影視制造渲染技術,其他各種行業的云計算和海量數據處置運用技術等。3、數據處置與分析3.1、傳統方式傳統上,為了特定分析目的進展的數據
26、處置都是基于相當靜態的藍圖。經過常規的業務流程,企業經過CRM、ERP和財務系統等運用程序,創建基于穩定數據模型的構造化數據。數據集成工具用于從企業運用程序和事務型數據庫中提取、轉換和加載數據到一個暫時區域,在這個暫時區域進展數據質量檢查和數據規范化,數據最終被方式化到整齊的行和表。這種模型化和清洗過的數據被加載到企業級數據倉庫。這個過程會周期性發生,如每天或每周,有時會更頻繁。ETL,是英文 Extract-Transform-Load 的縮寫,用來描畫將數據從來源端經過抽取extract、轉換transform、加載load至目的端的過程。ETL是構建數據倉庫的重要一環,用戶從數據源抽取出
27、所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。在傳統數據倉庫中,數據倉庫管理員創建方案,定期計算倉庫中的規范化數據,并將產生的報告分配到各業務部門。他們還為管理人員創建儀表板和其他功能有限的可視化工具。同時,業務分析師利用數據分析工具在數據倉庫進展高級分析,或者通常情況下,由于數據量的限制,將樣本數據導入到本地數據庫中。非專業用戶經過前端的商業智能工具對數據倉庫進展根底的數據可視化和有限的分析。傳統數據倉庫的數據量很少超越幾TB,由于大容量的數據會占用數據倉庫資源并且降低性能。從時間或本錢效益上看,傳統的數據倉庫等數據管理工具都無法實現大數據的處置和分析
28、任務。也就是說,必需將數據組織成關系表整齊的行和列數據,傳統的企業級數據倉庫才可以處置。由于需求的時間和人力本錢,對海量的非構造化數據運用這種構造是不真實踐的。此外,擴展傳統的企業級數據倉庫使其順應潛在的PB級數據需求在新的公用硬件上投資巨額資金。而由于數據加載這一個瓶頸,傳統數據倉庫性能也會遭到影響。1ZB=1024EB ,1EB = 1024PB,1PB = 1024TB ,1TB = 1024GB3.2、Hadoop大數據新方法在Hadoop 出現之前,高性能計算和網格計算不斷是處置大數據問題主要的運用方法和工具,它們主要采用音訊傳送接口Message Passing Interface
29、,MPI提供的API 來處置大數據。高性能計算的思想是將計算作業分散到集群機器上,集群計算節點訪問存儲區域網絡SAN 構成的共享文件系統獲取數據,這種設計比較適宜計算密集型作業。當需求訪問像PB 級別的數據的時候,由于存儲設備網絡帶寬的限制,很多集群計算節點只能空閑等待數據。而Hadoop卻不存在這種問題,由于Hadoop 運用專門為分布式計算設計的文件系統HDFS,計算的時候只需求將計算代碼推送到存儲節點上,即可在存儲節點上完成數據本地化計算,Hadoop 中的集群存儲節點也是計算節點。在分布式編程方面,MPI 是屬于比較底層的開發庫,它賦予了程序員極大的控制才干,但是卻要程序員本人控制程序
30、的執行流程,容錯功能,甚至底層的套接字通訊、數據分析算法等底層細節都需求本人編程實現。這種要求無疑對開發分布式程序的程序員提出了較高的要求。相反,Hadoop 的MapReduce 卻是一個高度籠統的并行編程模型,它將分布式并行編程籠統為兩個原語操作,即map 操作和reduce 操作,開發人員只需求簡單地實現相應的接口即可,完全不用思索底層數據流、容錯、程序的并行執行等細節。這種設計無疑大大降低了開發分布式并行程序的難度。Hadoop得以在大數據處置運用中廣泛運用得益于其本身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分布式架構,將大數據處置引擎盡能夠的接近存儲,對例如像
31、ETLExtract-Transform-Load這樣的批處置操作相對適宜,由于類似這樣操作的批處置結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個義務打碎,并將碎片義務(Map)發送到多個節點上,之后再以單個數據集的方式加載(Reduce)到數據倉庫里。3.3、大規模并行分析數據庫不同于傳統的數據倉庫,大規模并行分析數據庫可以以必需的最小的數據建模,快速獲取大量的構造化數據,可以向外擴展以包容TB甚至PB級數據。對最終用戶而言最重要的是,大規模并行分析數據庫支持近乎實時的復雜SQL查詢結果,也叫交互式查詢功能 ,而這正是Hadoop顯著缺失的才干。大規模并行分析數據庫在
32、某些情況下支持近實時的大數據運用。大規模并行分析數據庫的根本特性包括:大規模并行處置的才干: 就像其名字闡明的一樣,大規模并行分析數據庫采用大規模并行處置同時支持多臺機器上的數據采集、處置和查詢。相對傳統的數據倉庫具有更快的性能,傳統數據倉庫運轉在單一機器上,會遭到數據采集這個單一瓶頸點的限制。無共享架構:無共享架構可確保分析數據庫環境中沒有單點缺點。在這種架構下,每個節點獨立于其他節點,所以假設一臺機器出現缺點,其他機器可以繼續運轉。對大規模并行處置環境而言,這點尤其重要,數百臺計算機并行處置數據,偶爾出現一臺或多臺機器失敗是不可防止的。列存儲構造:大多數大規模并行分析數據庫采用列存儲構造,
33、而大多數關系型數據庫以行構造存儲和處置數據。在列存儲環境中,由包含必要數據的列決議查詢語句的“答案,而不是由整行的數據決議,從而導致查詢結果瞬間可以得出。這也意味著數據不需求像傳統的關系數據庫那樣構呵斥整齊的表格。強大的數據緊縮功能:它們允許分析數據庫搜集和存儲更大量的數據,而且與傳統數據庫相比占用更少的硬件資源。例如,具有10比1的緊縮功能的數據庫,可以將10 TB字節的數據緊縮到1 TB。數據編碼包括數據緊縮以及相關的技術是有效的擴展到海量數據的關鍵。商用硬件: 像Hadoop集群一樣,大多數一定不是全部大規模并行分析數據庫運轉在戴爾、IBM等廠商現成的商用硬件上,這使他們可以以具有本錢效
34、益的方式向外擴展。在內存中進展數據處置:有些一定不是全部大規模并行分析數據庫運用動態RAM或閃存進展實時數據處置。有些(如SAP HANA)完全在內存中運轉數據,而其他那么采用混合的方式,即用較廉價但低性能的磁盤內存處置“冷數據,用動態RAM或閃存處置“熱數據。然而,大規模并行分析數據庫確實有一些盲點。最值得留意的是,他們并非被設計用來存儲、處置和分析大量的半構造化和非構造化數據。3.4、大數據方法的互補Hadoop,NoSQL 和大規模并行分析數據庫不是相互排斥的。相反的這三種方法是互補的,彼此可以而且應該共存于許多企業。Hadoop擅優點理和分析大量分布式的非構造化數據,以分批的方式進展歷
35、史分析。NoSQL 數據庫擅長為基于Web的大數據運用程序提供近實時地多構造化數據存儲和處置。而大規模并行分析數據庫最擅長對大容量的主流構造化數據提供接近實時的分析。例如,Hadoop完成的歷史分析可以移植到分析數據庫供進一步分析,或者與傳統的企業數據倉庫的構造化數據進展集成。從大數據分析得到的見解可以而且應該經過大數據運用實現產品化。企業的目的應該是實現一個靈敏的大數據架構,在該架構中,三種技術可以盡能夠無縫地共享數據和見解。很多預建的銜接器可以協助 Hadoop開發者和管理員實現這種數據集成,同時也有很多廠商提供大數據運用。這些大數據運用將Hadoop、分析數據庫和預配置的硬件進展捆綁,可
36、以到達以最小的調整實現快速部署的目的。另外一種情況,Hadapt提供了一個單一平臺,這個平臺在一樣的集群上同時提供SQL和Hadoop/MapReduce的處置功能。Cloudera也在Impala和Hortonworks工程上經過開源倡議推行這一戰略。但是,為了充分利用大數據,企業必需采取進一步措施。也就是說,他們必需運用高級分析技術處置數據,并以此得出有意義的見解。數據科學家經過屈指可數的言語或方法執行這項復雜的任務。分析的結果可以經過工具可視化,也可以經過大數據運用程序進展操作,這些大數據運用程序包括本人開發的運用程序和現成的運用程序。3.5、大數據運用案例讓Hadoop和其他大數據技術
37、如此引人注目的部分緣由是,他們讓企業找到問題的答案,而在此之前他們甚至不知道問題是什么。這能夠會產生引出新產品的想法,或者協助 確定改善運營效率的方法。不過,也有一些曾經明確的大數據用例,無論是互聯網巨頭如谷歌,Facebook和阿里巴巴還是更多的傳統企業。它們包括:引薦引擎:網絡資源和在線零售商運用Hadoop根據用戶的個人資料和行為數據匹配和引薦用戶、產品和效力。LinkedIn運用此方法加強其“他能夠認識的人這一功能,而亞馬遜利用該方法為網上消費者引薦相關產品。情感分析:Hadoop與先進的文本分析工具結合,分析社會化媒體和社交網絡發布的非構造化的文本,包括Tweets和Facebook
38、,以確定用戶對特定公司,品牌或產品的心情。分析既可以專注于宏觀層面的心情,也可以細分到個人用戶的心情。風險建模:財務公司、銀行等公司運用Hadoop和下一代數據倉庫分析大量買賣數據,以確定金融資產的風險,模擬市場行為為潛在的“假設方案做預備,并根據風險為潛在客戶打分。欺詐檢測:金融公司、零售商等運用大數據技術將客戶行為與歷史買賣數據結合來檢測欺詐行為。例如,信譽卡公司運用大數據技術識別能夠的被盜卡的買賣行為。營銷活動分析:各行業的營銷部門長期運用技術手段監測和確定營銷活動的有效性。大數據讓營銷團隊擁有更大量的越來越精細的數據,如點擊流數據和呼叫概略記錄數據,以提高分析的準確性。客戶流失分析:企
39、業運用Hadoop和大數據技術分析客戶行為數據并確定分析模型,該模型指出哪些客戶最有能夠流向存在競爭關系的供應商或效力商。企業就能采取最有效的措施挽留欲流失客戶。社交圖譜分析:Hadoop和下一代數據倉庫相結合,經過發掘社交網絡數據,可以確定社交網絡中哪些客戶對其他客戶產生最大的影響力。這有助于企業確定其“最重要的客戶,不總是那些購買最多產品或花最多錢的,而是那些最可以影響他人購買行為的客戶。用戶體驗分析: 面向消費者的企業運用Hadoop和其他大數據技術將之前單一 客戶互動渠道如呼叫中心,網上聊天,微博等數據整合在一同, ,以獲得對客戶體驗的完好視圖。這使企業可以了解客戶交互渠道之間的相互影
40、響,從而優化整個客戶生命周期的用戶體驗。網絡監控:Hadoop 和其他大數據技術被用來獲取,分析和顯示效力器,存儲設備和其他IT硬件的數據,使管理員可以監視網絡活動,診斷瓶頸等問題。這種類型的分析,也可運用到交通網絡,以提高燃料效率,當然也可以運用到其他網絡。研討與開展: 有些企業如制藥商運用Hadoop技術進展大量文本及歷史數據的研討,以協助新產品的開發。當然,上述這些都只是大數據用例的舉例。現實上,在一切企業中大數據最引人注目的用例能夠尚未被發現。這就是大數據的希望。4、展望電力大數據時代4.1、電力大數據價值分析電力系統作為經濟開展和人類生活依賴的能量供應系統,也具有大數據的典型特征。電
41、力系統是最復雜的人造系統之一,其具有地理位置分布廣泛、發電用電實時平衡、傳輸能量數量龐大、電能傳輸光速可達、通訊調度高度可靠、實時運轉從不停頓、艱苦缺點瞬間擴展等特點,這些特點決議了電力系統運轉時產生的數據數量龐大、增長快速、類型豐富,完全符合大數據的一切特征,是典型的大數據。在智能電網深化推進的情勢下,電力系統的數字化、信息化、智能化不斷開展,帶來了更多的數據源,例如智能電表從數以億計的家庭和企業終端帶來的數據,電力設備形狀監測系統從數以萬計的發電機、變壓器、開關設備、架空線路、高壓電纜等設備中獲取的高速增長的監測數據,光伏和風電功率預測所需的大量的歷史運轉數據、氣候觀測數據等。因此在電力系
42、統數據爆炸式增長的新情勢下,傳統的數據處置技術遇到瓶頸,不能滿足電力行業從海量數據中快速獲取知識與信息的分析需求,電力大數據技術的運用是電力行業信息化、智能化開展的必然要求。中國電機工程學會信息化專委會在2021 年3 月發布了,將2021 年定為“中國大數據元年,掀起了電力大數據的研討熱潮。根據白皮書描畫,電力大數據的特征可概括為3V 和3E。3V 為體量大(Volume)、速度快(Velocity) 和類型多(Variety) ; 3E 為數據即能量(Energy) 、數據即交互(Exchange) 和數據即共情(Empathy)。其3V 的描畫和其他行業的描畫比較接近,3E 的描畫具有典
43、型的電力行業特征,表達了大數據在電力系統運用中的宏大價值。數據即能量簡而言之,就是指經過大數據分析到達節能的目的,電力大數據運用的過程,就是電力數據能量釋放的過程;數據即交互是指電力大數據與國民經濟其他領域數據進展交互交融,才干發揚其更大價值;數據即共情是指電力大數據嚴密聯絡千家萬戶、廠礦企業,只需情系用電戶,滿足客戶需求,電力企業方能以數據取勝。電力大數據貫穿發、輸、變、配、用等電力消費及管理的各個環節,是能源變革中電力工業技術革新的必然過程,不僅是技術上的提高,更是涉及電力系統管理體制、開展理念和技術道路等方面的艱苦變革,是下一代電力系統在大數據時代下價值形狀的躍升。對建立堅強智能電網而言
44、,亟需開展大數據相關技術研討,為電力大數據時代的到來奠定實際根底和技術積累。4.2、電力大數據運用前景4.3、電力大數據開展與挑戰5、邁向電力大數據時代5.1、電力大數據關健技術5.2、電力大數據開展戰略6、電力大數據實際6.1、實時海量數據是堅強智能電網的重要資產6.2、對實時數據的接入、存儲與處置、監測與智能分析6.3、電網實時數據調研現狀1某省實時數據分布12某省實時數據分布23某市實時數據分布6.4、大數據效力IT創新、提高消費效率7、大數據技術實現7.1、物理架構圖7.2、數據處置向大數據處置的過渡7.3、大數據中心技術Hadoop8、Hadoop引見與案例分析8.1、Hadoop引
45、見Hadoop是一個處置、存儲和分析海量的分布式、非構造化數據的開源框架。最初由雅虎的Doug Cutting創建,Hadoop的靈感于 MapReduce ,MapReduce是谷歌在2000年代初期開發的用于網頁索引的用戶定義函數。它被設計用來處置分布在多個并行節點的PB級和EB級數據。Hadoop集群運轉在廉價的商用硬件上,這樣硬件擴展就不存在資金壓力。Hadoop如今是Apache軟件聯盟(The Apache Software Foundation)的一個工程,數百名奉獻者不斷改良其中心技術。根本概念:與將海量數據限定在一臺機器運轉的方式不同,Hadoop將大數據分成多個部分,這樣每
46、個部分都可以被同時處置和分析。8.2、Hadoop中心技術Hadoop的中心就是HDFS和MapReduce,而兩者只是實際根底,不是詳細可運用的高級運用,Hadoop旗下有很多經典子工程,比如HBase、Hive等,這些都是基于HDFS和MapReduce開展出來的。要想了解Hadoop,就必需知道HDFS和MapReduce是什么。8.2.1、HDFSHDFSHadoop Distributed File System,Hadoop分布式文件系統,它是一個高度容錯性的系統,適宜部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,適宜那些有著超大數據集large data set的運用程序
47、。HDFS的設計特點:1、大數據文件,非常適宜上T級別的大文件或者一堆大數據文件的存儲,假設文件只需幾個G甚至更小就沒啥意思了。2、文件分塊存儲,HDFS會將一個完好的大文件平均分塊存儲到不同計算器上,它的意義在于讀取文件時可以同時從多個主機取不同區塊的文件,多主機讀取比單主機讀取效率要高得多得都。3、流式數據訪問,一次寫入多次讀寫,這種方式跟傳統文件不同,它不支持動態改動文件內容,而是要求讓文件一次寫入就不做變化,要變化也只能在文件末添加內容。4、廉價硬件,HDFS可以運用在普通PC機上,這種機制可以讓給一些公司用幾十臺廉價的計算機就可以撐起一個大數據集群。5、硬件缺點,HDFS以為一切計算
48、機都能夠會出問題,為了防止某個主機失效讀取不到該主機的塊文件,它將同一個文件塊副本分配到其它某幾個主機上,假設其中一臺主機失效,可以迅速找另一塊副本取文件。HDFS關鍵元素:Hadoop運用主/從Master/Slave架構,主要角色有NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker組成。NameNode節點作為Master效力器,有三部分功能。第一:處置客戶端的文件訪問。第二:管理文件系統的命名空間操作,如翻開、封鎖、重命名等。第三:擔任數據塊到數據節點之間的映射。從這個意義上說,它扮演中心效力器的角色。DataNode節
49、點作為Slave效力器,同樣有三部分功能。第一:管理掛載在節點上的存儲設備。第二:呼應客戶端的讀寫懇求。第三:從內部看,每個文件被分成一個或多個數據塊,被存放到一組DataNode,在Namenode的一致調度下進展數據塊的創建、刪除和復制。1NameNodeNameNode是HDFS的守護程序,是 Hadoop 中的主效力器,它管理文件系統稱號空間和對集群中存儲的文件的訪問2DataNode集群中每個從效力器都運轉一個DataNode后臺程序,后臺程序擔任把HDFS數據塊讀寫到本地文件系統。需求讀寫數據時,由NameNode通知客戶端去哪個DataNode進展詳細的讀寫操作。3Block將一
50、個文件進展分塊,通常是64M4Secondary NameNodeSecondary NameNode是一個用來監控HDFS形狀的輔助后臺程序,假設NameNode發生問題,可以運用Secondary NameNode作為備用的NameNode。5JobTrackerJobTracker后臺程序用來銜接運用程序與Hadoop,用戶運用提交到集群后,由JobTracker決議哪個文件處置哪個task執行,一旦某個task失敗,JobTracker會自動開啟這個task。6TaskTrackerTaskTracker擔任存儲數據的DataNode相結合,位于從節點,擔任各自的task。在Hadoo
51、p的系統中,會有一臺Master,主要擔任NameNode的任務以及JobTracker的任務。JobTracker的主要職責就是啟動、跟蹤和調度各個Slave的義務執行。還會有多臺Slave,每一臺Slave通常具有DataNode的功能并擔任TaskTracker的任務。TaskTracker根據運用要求來結合本地數據執行Map義務以及Reduce義務。8.2.2、MapReduceMapReduce引見:MapReduce是一種編程模型,用于大規模數據集的并行運算。MapReduce的設計目的是方便編程人員在不熟習分布式并行編程的情況下,將本人的程序運轉在分布式系統上。MapReduce
52、的命名規那么由兩個術語組成,分別是Map(映射)與Reduce(化簡),是它們的主要思想,都是從函數式編程言語里借來的。當前的軟件實現是指定一個Map映射函數,用來把一組鍵值對映射成一組新的鍵值對,指定并發的Reduce化簡函數,用來保證一切映射的鍵值對中的每一個共享一樣的鍵組。MapReduce處置過程:1 Input輸入從文件中讀取原始數據原始數據 2Map映射將原始數據映射成用于Reduce的數據 List3Reduce合并將一樣Key值的中間數據合并成最終數據MapKey, List 4Output輸出將最終處置結果輸出到文件 結果文件上述就是MapReduce大致處置過程,在Map前
53、還能夠會對輸入的數據有Split(分割)的過程,保證義務并行效率,在Map之后還會有Shuffle(混合)的過程,對于提高Reduce的效率以及減小數據傳輸的壓力有很大的協助 。后面會詳細提及這些部分的細節。MapReduce簡單案例1:通俗說MapReduce是一套從海量源數據提取分析元素最后前往結果集的編程模型,將文件分布式存儲到硬盤是第一步,而從海量數據中提取分析我們需求的內容就是MapReduce做的事了。下面以一個計算海量數據最大值為例:一個銀行有上億儲戶,銀行希望找到存儲金額最高的金額是多少,按照傳統的計算方式,我們會這樣:Java代碼:Longmoneys.Longmax=0L;
54、for(inti=0;imax)max=moneysi;假設計算的數組長度少的話,這樣實現是不會有問題的,還是面對海量數據的時候就會有問題。MapReduce會這樣做:首先數字是分布存儲在不同塊中的,以某幾個塊為一個Map,計算出Map中最大的值,然后將每個Map中的最大值做Reduce操作,Reduce再取最大值給用戶。MapReduce的根本原理就是:將大的數據分析分成小塊逐個分析,最后再將提取出來的數據匯總分析,最終獲得我們想要的內容。當然怎樣分塊分析,怎樣做Reduce操作非常復雜,Hadoop曾經提供了數據分析的實現,我們只需求編寫簡單的需求命令即可達成我們想要的數據。MapRedu
55、ce簡單案例2:1從實際部分來進展講解MapReduce下面是一個關于一個程序員是如何給妻子講解什么是MapReduce.我問妻子:“他真的想要弄懂什么是MapReduce? 她很堅決的回答說“是的。 因此我問道:我: 他是如何預備洋蔥辣椒醬的?以下并非準確食譜,請勿在家嘗試妻子: 我會取一個洋蔥,把它切碎,然后拌入鹽和水,最后放進混合研磨機里研磨。這樣就能得到洋蔥辣椒醬了。妻子: 但這和MapReduce有什么關系?我: 他等一下。讓我來編一個完好的情節,這樣他一定可以在15分鐘內弄懂MapReduce.妻子: 好吧。我:如今,假設他想用薄荷、洋蔥、番茄、辣椒、大蒜弄一瓶混合辣椒醬。他會怎樣
56、做呢?妻子: 我會取薄荷葉一撮,洋蔥一個,番茄一個,辣椒一根,大蒜一根,切碎后參與適量的鹽和水,再放入混合研磨機里研磨,這樣他就可以得到一瓶混合辣椒醬了。我: 沒錯,讓我們把MapReduce的概念運用到食譜上。Map和Reduce其實是兩種操作,我來給他詳細講解下。Map映射: 把洋蔥、番茄、辣椒和大蒜切碎,是各自作用在這些物體上的一個Map操作。所以他給Map一個洋蔥,Map就會把洋蔥切碎。 同樣的,他把辣椒,大蒜和番茄一一地拿給Map,他也會得到各種碎塊。 所以,當他在切像洋蔥這樣的蔬菜時,他執行就是一個Map操作。 Map操作適用于每一種蔬菜,它會相應地消費出一種或多種碎塊,在我們的例
57、子中消費的是蔬菜塊。在Map操作中能夠會出現有個洋蔥壞掉了的情況,他只需把壞洋蔥丟了就行了。所以,假設出現壞洋蔥了,Map操作就會過濾掉壞洋蔥而不會消費出任何的壞洋蔥塊。Reduce化簡:在這一階段,他將各種蔬菜碎都放入研磨機里進展研磨,他就可以得到一瓶辣椒醬了。這意味要制成一瓶辣椒醬,他得研磨一切的原料。因此,研磨機通常將map操作的蔬菜碎聚集在了一同。妻子: 所以,這就是MapReduce?我: 他可以說是,也可以說不是。 其實這只是MapReduce的一部分,MapReduce的強大在于分布式計算。妻子: 分布式計算? 那是什么?請給我解釋下吧。我: 沒問題。我: 假設他參與了一個辣椒醬
58、競賽并且他的食譜博得了最正確辣椒醬獎。得獎之后,辣椒醬食譜大受歡迎,于是他想要開場出賣自制品牌的辣椒醬。假設他每天需求消費10000瓶辣椒醬,他會怎樣辦呢?妻子: 我會找一個能為我大量提供原料的供應商。我:是的.就是那樣的。那他能否單獨完成制造呢?也就是說,單獨將原料都切碎? 僅僅一部研磨機又能否能滿足需求?而且如今,我們還需求供應不同種類的辣椒醬,像洋蔥辣椒醬、青椒辣椒醬、番茄辣椒醬等等。妻子: 當然不能了,我會雇傭更多的工人來切蔬菜。我還需求更多的研磨機,這樣我就可以更快地消費辣椒醬了。我:沒錯,所以如今他就不得不分配任務了,他將需求幾個人一同切蔬菜。每個人都要處置滿滿一袋的蔬菜,而每一個
59、人都相當于在執行一個簡單的Map操作。每一個人都將不斷的從袋子里拿出蔬菜來,并且每次只對一種蔬菜進展處置,也就是將它們切碎,直到袋子空了為止。這樣,當一切的工人都切完以后,任務臺每個人任務的地方上就有了洋蔥塊、番茄塊、和蒜蓉等等。妻子:但是我怎樣會制造出不同種類的番茄醬呢?我:如今他會看到MapReduce脫漏的階段攪拌階段。MapReduce將一切輸出的蔬菜碎都攪拌在了一同,這些蔬菜碎都是在以key為根底的 map操作下產生的。攪拌將自動完成,他可以假設key是一種原料的名字,就像洋蔥一樣。 所以全部的洋蔥keys都會攪拌在一同,并轉移到研磨洋蔥的研磨器里。這樣,他就能得到洋蔥辣椒醬了。同樣
60、地,一切的番茄也會被轉移到標志著番茄的研磨器里,并制造出番茄辣椒醬。2從MapReduce產生過程和代碼的角度來講解假設想統計過去10年計算機論文出現最多的幾個單詞,看看大家都在研討些什么,那搜集好論文后,該怎樣辦呢?方法一:我可以寫一個小程序,把一切論文按順序遍歷一遍,統計每一個遇到的單詞的出現次數,最后就可以知道哪幾個單詞最搶手了。這種方法在數據集比較小時,是非常有效的,而且實現最簡單,用來處理這個問題很適宜。方法二:寫一個多線程程序,并發遍歷論文。這個問題實際上是可以高度并發的,由于統計一個文件時不會影響統計另一個文件。當我們的機器是多核或者多處置器,方法二一定比如法一高效。但是寫一個多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年中國牛膝市場運行態勢及行業發展前景預測報告
- 中國汽車傳動軸行業市場運營現狀及投資規劃研究建議報告
- 開關控制裝備項目投資可行性研究分析報告(2024-2030版)
- 2025年 常寧市市級機關遴選考試筆試試題附答案
- 漁船避風港口航道疏浚采砂工程項目可行性研究報告
- 中國樓宇工程市場競爭態勢及行業投資潛力預測報告
- 中國晶圓制造設備市場全面調研及行業投資潛力預測報告
- 中國水產品干腌加工行業市場調查研究及投資前景預測報告
- 玻璃調棒行業深度研究分析報告(2024-2030版)
- 中國高密度聚乙烯薄膜行業調查報告
- 三生事業六大價值
- 鋯石基本特征及地質應用
- 絲網除沫器小計算
- 制缽機的設計(機械CAD圖紙)
- 學校財務管理制度
- 三年級下冊美術課件-第15課色彩拼貼畫|湘美版(共11張PPT)
- 水稻病蟲統防統治工作總結
- 水在不同溫度下的折射率、粘度和介電常數
- howdoyoucometoschoolPPT課件
- 四柱特高弟子班絕密資料——席學易
- 廣安市教育局文件材料歸檔范圍及保管期限表
評論
0/150
提交評論