大數據導論 課件 張良均 第4、5章 大數據分析、數據可視化_第1頁
大數據導論 課件 張良均 第4、5章 大數據分析、數據可視化_第2頁
大數據導論 課件 張良均 第4、5章 大數據分析、數據可視化_第3頁
大數據導論 課件 張良均 第4、5章 大數據分析、數據可視化_第4頁
大數據導論 課件 張良均 第4、5章 大數據分析、數據可視化_第5頁
已閱讀5頁,還剩77頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據分析實例引入:個性化用戶畫像實現精準營銷大數據分析技術主流的大數據分析處理框架實例引入:個性化用戶畫像實現精準營銷用戶想購買一輛汽車,由于該用戶經常通過某個網站瀏覽不同品牌和價格的汽車商品簡介,因此,用戶的瀏覽記錄被存儲在該網站后臺數據庫中,包含瀏覽的產品價位、汽車品牌、汽車的功能配置參數等。汽車銷售的技術人員也可以獲取用戶的基本信息和消費記錄,通過大數據分析算法對該用戶的個人喜好和購買能力進行分析,最終得到用戶可能會購買的汽車品牌信息。汽車銷售的實例中,購車用戶的特征可以通過用戶的歷史瀏覽數據進行描繪,形成該用戶的用戶畫像,并依據特征對該用戶未來的消費趨勢進行預測,把用戶可能會購買的商品推薦給用戶,實現在大數據時代下的精準營銷策略。大數據實現精準營銷精準營銷是在精準定位的基礎上,依據現代信息技術特別是近些年發展快速的大數據技術,對企業的營銷實施可衡量并且回報率高的精準策略,降低企業的營銷成本,提升市場競爭力。精準營銷以用戶為中心,通過現代化技術手段直接與用戶溝通,使企業收集大量的用戶數據,借助大數據分析技術,將用戶數據加工為有用信息,然后企業利用加工后的信息,為用戶推薦個性化產品,使用戶享受到專業的客戶服務。。精準營銷的關鍵在于如何精準地找到產品的目標人群,再讓產品深入用戶心坎里,讓用戶認識產品、了解產品、信任產品到最后依賴產品。大數據實現精準營銷以選購汽車為例,為了滿足用戶的需求,汽車企業應從多個角度進行營銷。一方面,將產品做好、做精、做強、生產出更多符合不同用戶要求的產品。另一方面,將汽車產品信息傳達給目標用戶,引領用戶的選擇,尋找吻合度高、對受眾影響大的媒體進行宣傳,在訪問量較大的網站上進行汽車廣告推送,增大用戶點擊感興趣的商品的概率。在網站上推送的汽車車型,由訪問該網站的用戶特征決定。通過用戶畫像進行精準營銷。什么是用戶畫像阿蘭·庫珀(AlanCooper)最早提出了用戶畫像(Persona)的概念,認為“用戶畫像是真實用戶的虛擬代表,是建立在一系列真實數據之上的目標用戶模型”。用戶畫像也稱為用戶的信息標簽。用戶畫像的主要用途是幫助商家了解用戶,對用戶了解得越深,刻畫出的畫像就越準確,用戶畫像被大量地應用在精準營銷和智能推薦領域,是真實世界的用戶在網絡世界的映射什么是用戶畫像大數據時代的用戶畫像和傳統的畫像完全不同,傳統的用戶畫像指的是畫家利用畫筆對用戶的外貌進行描繪,體現出的是用戶的輪廓和形態。互聯網時代下的用戶畫像是根據用戶社會屬性、生活習慣和消費行為等信息抽象出的一個標簽化的用戶模型,即構建用戶畫像的核心工作是給用戶貼“標簽”,標簽是通過對用戶數據分析得到的高度精練的特征標識。互聯網時代的用戶畫像表現出來的信息更加豐富,信息種類也不局限于視覺特征,凡是能夠對用戶的特征進行描述的信息,都可以放到用戶畫像里面。大數據算法構建出來的用戶畫像具有更加豐富的屬性,可以被更多的上層應用使用通過對用戶數據的分析,可以對用戶進行畫像,給出某個特定用戶的相關信息,如年齡區間、從事的職業、婚姻狀況、家庭成員、消費習慣、個人愛好、是否從事體育運動、消費習慣、經常購買哪類商品等構建個性化用戶畫像用于構建用戶畫像的數據,不僅需要數量多,而且還要和業務場景緊密結合,在本章介紹的汽車銷售實例中,為了精準地推送給用戶汽車的廣告,首先要對用戶進行用戶畫像,將用戶的特征描述清楚,然后再根據畫像的特征進行精準營銷如果用戶畫像勾勒出來的是一個年齡在20~30歲的年輕人,從事IT行業,平時喜歡選購電子產品,那么可以分析出該年輕人會比較鐘情于經濟型轎車如果給出的用戶畫像是一個對美術比較感興趣的人,熱愛網絡小說和文學,偏好人文社科書籍,也熱愛音樂和舞蹈,那么可能會對外觀設計和內飾風格比較注重,同時也會關注車輛的舒適性和安全性能,感興趣的可能是運動型多用途汽車的車型獲取信息的便利性增大構建個性化用戶畫像用戶畫像的主要步驟可以分為如下3步首先需要明確研究的目標,即對哪些用戶進行畫像。例如,為了研究電商平臺用戶流失的情況,就要將那些購物體驗較差的用戶設定為目標用戶;如果要研究潛在客戶是否能成為正式客戶,就要將那些目前還未接觸過本產品但采購了同類型其他品牌商品的用戶設定為目標用戶對目標用戶的所有的相關數據進行收集,如用戶的性別、職業、年齡、地域、消費層次等基本信息;也可以是用戶的行為信息,如瀏覽記錄、搜索過的關鍵詞、發表過的評論等通過大數據分析技術,包括描述性統計分析、數據挖掘算法等,為用戶貼上相應的標簽,標示出用戶的興趣、偏好和需求等。通過用戶畫像實現精準營銷構建好用戶畫像后,即可對用戶需求、基本特征、用戶價值進行分析,實現精準營銷用戶需求分析:了解用戶需要什么,才能精準地提供需要的服務和商品。通過大數據分析實現對用戶畫像,可以得到準確的用戶需求。在移動互聯網時代,用戶的消費數據不斷積累,利用用戶消費數據可勾畫出用戶可能需要哪類商品,用戶的需求隱含在其瀏覽和選購過程中,是更深層次需求的挖掘,需要對用戶的消費習慣進行分析。通過用戶畫像實現精準營銷用戶基本特征分析:用戶畫像是對一個用戶全方位的展示,為了讓用戶的畫像內容豐富,標簽要盡量多。用戶畫像的目的之一是為企業找到目標用戶,目標用戶是可能要購買企業產品的,并且是有能力購買的。例如,用戶購買產品的類型、采購的頻率、采購商品的價格、用戶所在的區域等基本屬性信息就非常重要,了解了基本屬性信息,企業可以和用戶進行溝通,將產品推薦給用戶通過大數據分析技術,包括描述性統計分析、數據挖掘算法等,為用戶貼上相應的標簽,標示出用戶的興趣、偏好和需求等。用戶價值分析:在對人物畫像時,可以根據大數據分析給出人物的價值特征。用戶價值可以理解為用戶在系統中的商業變現能力,包括廣告價值、付費價值。實例引入:個性化用戶畫像實現精準營銷大數據分析技術主流的大數據分析處理框架大數據分析技術1.數據分析與數據挖掘大數據時代的戰略意義不僅在于掌握龐大的數據信息,還在于發現和理解信息內容及信息與信息之間的關系,而大數據分析就是大數據研究領域的核心內容之一。大數據分析是決策過程中的決定性因素,也是大數據時代發揮數據價值的關鍵環節。大數據分析核心即為挖掘。數據分析的定義是用適當的統計分析方法對收集來的大量數據進行分析,將數據加以匯總和理解并消化,以求最大化地開發數據的功能、發揮數據的作用數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程大數據分析技術1.數據分析與數據挖掘數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,而隨著計算機的不斷發展,數據分析也得以推廣。數據分析是數學與計算機科學相結合的產物數據分析的目的是將隱藏在一大批看來雜亂無章的數據中的信息集中和提煉出來,從而找出所研究對象的內在規律大數據分析技術1.數據分析與數據挖掘數據挖掘是指通過人工智能、機器學習等方法,從大量的數據中挖掘出未知的且有價值的信息和知識的過程數據挖掘主要側重解決4類問題,即分類、聚類、關聯和預測數據挖掘的重點在于尋找未知的模式與規律,尋找那些事先未知的但又非常有價值的信息,主要采用統計學、人工智能、機器學習等方法進行挖掘數據分析是將數據變成信息的方法,數據挖掘是將信息變成認知的方法,如果想要從數據中提取一定的規律往往,需要數據分析和數據挖掘結合使用大數據分析技術2.數據認知隨著大數據技術和體系的發展,越來越多的人使用大數據技術。大數據技術是以數據為核心的,人們對大數據的認知和傳統數據有著很大區別。數據的質量也有區別,數據質量分析的主要任務是檢測原始數據中是否存在臟數據,臟數據一般是指不符合要求的數據數據完整性數據準確性數據重復性數據的一致性大數據分析技術2.數據認知科學地分析數據特征是數據分析的基礎,對數據分析而言,對數據特征的準確把握是至關重要的。數據特征分析常用的方法有分布分析、對比分析、統計分析、相關性分析分布分析分布分析是指根據數據在坐標圖里分布的特點來對數據進行分析的方法,在生產工作正常的情況下,產品的質量不可能完全相同,但也不會相差太大,而是圍繞著一定的平均值,在一定的范圍內變動和分布。分布分析是通過對質量的變動分布狀態的分析發現問題的一種重要方法。大數據分析技術2.數據認知科學地分析數據特征是數據分析的基礎,對數據分析而言,對數據特征的準確把握是至關重要的。數據特征分析常用的方法有分布分析、對比分析、統計分析、相關性分析對比分析對比分析主要是分析兩個相互聯系的指標,從數量上展示和說明研究對象的各種關系(規模的大小、水平的高低、速度的快慢等)是否協調,分析其中的差異,從而揭示事物代表的發展變化情況和變化規律。對比分析分為絕對數比較和相對數比較大數據分析技術2.數據認知科學地分析數據特征是數據分析的基礎,對數據分析而言,對數據特征的準確把握是至關重要的。數據特征分析常用的方法有分布分析、對比分析、統計分析、相關性分析統計分析統計分析是對定量數據進行統計描述,常從集中趨勢度量和離中趨勢度量兩個方面分析。集中趨勢度量。集中趨勢度量是指數據向某一中心靠攏的傾向,核心是尋找數據的代表值或中心值,通過算數平均數、中位數和眾數來度量。離中趨勢度量是指一組數據中各數據以不同程度的距離偏離中心的趨勢。衡量離中趨勢的4個度量值分別為極差、分位距、標一組準差和方差,其中分位距最常用的是四分位距。大數據分析技術2.數據認知科學地分析數據特征是數據分析的基礎,對數據分析而言,對數據特征的準確把握是至關重要的。數據特征分析常用的方法有分布分析、對比分析、統計分析、相關性分析相關性分析數據相關性是指數據之間存在某種關系,該關系一般通過相關系數來體現,而相關系數就是用于反映變量之間相關關系密切程度的統計指標。相關系數是研究變量之間線性相關程度的量,是按積差方法計算,以兩個變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩個變量之間的相關程度。常見的相關系數有兩類,分別是皮爾遜積矩相關系數(Pearson相關系數)和斯皮爾曼秩相關系數(Spearman等級相關系數)。大數據分析技術3.數據處理對海量的數據進行處理時,處理的方式包括數據清洗、數據規約、數據變換。數據清洗包括4個方面:缺失值分析處理異常值分析處理重復值分析處理數據一致性分析處理大數據分析技術3.數據處理數據規約技術能在很大程度上移除數據中錯誤的實例或樣本屬性,不但能提升數據挖掘的速度,還會提升數據挖掘的準確度。數據規約算法可分為5類:特征選取(FeatureSelection)實例選取(InstanceSelection)離散化(Discretization)特征提取(FeatureExtraction)實例生成(InstanceGeneration)大數據分析技術3.數據處理數據規約算法說明算法說明特征選取用于減少數據的維度,從數據維度的角度出發,目的在于移除數據集合中的不相關或冗余屬性,最終選出一個能代表或接近原始集合數據分布的屬性子集實例選取用于減少數據集合中實例樣本數據樣本的數量,目的在于選出能代表集合特征的實例子集,其隨機選取的方式被稱為取樣,常用在大體量數據集合中,防止數據的過擬合離散化又稱作特征簡化,用于簡化樣本屬性的描述,是將一種定量化的數據轉換為另一種定量化數據的過程,該過程會將數據集合中的數值屬性進行離散化處理,轉化為在一定區間內的有限數值。在后續的挖掘過程中,可將數據屬性當成固定區間內的可計算數值進行處理特征提取用于生成新的屬性或樣本,主要分為線性和非線性提取兩種方式。實例生成算法除了移除數據集合中的數據,在規約的過程中還會對原始集合中的樣本進行改動,抽取多個樣本特征,生成更能代表數據特征的新樣本實例生成大數據分析技術3.數據變換數據變換是將數據進行轉換或歸并,通過平滑處理、數據泛化、規格化等方法將數據轉換成適用于數據挖掘的形式方法方法說明平滑處理幫助去除數據中的噪聲合計處理對數據進行總結或合計操作數據泛化處理用更抽象的概念取代低層次或數據層的數據對象規格化處理將有關屬性數據按比例投射到特定的小范圍之中屬性構造根據已有屬性集構造新的屬性,以在數據處理過程中起幫助作用大數據分析技術4.分析建模分析建模是挖掘大數據價值的關鍵,在大數據分析中,常用的分析模式:聚類分類回歸關聯規則智能推薦時間序列模式識別大數據分析技術5.模型評估模型的可用性,指的是模型不僅要在過去的數據集中預測準確,還要在未來的數據集中也能夠預測準確。通過模型評估可以知道模型的效果,預測結果的準確性,有利于對模型進行修正。目前主要的算法有:分類算法回歸算法聚類算法關聯規則智能推薦算法大數據分析技術分類算法評估算法指標說明分類算法準確率準確率是分類算法中最常用的評估指標,它表示正確分類的樣本數占總樣本數的比例,數值越高越好精確率精確率反映了在所有被預測為正類的樣本中,有多少是真正的正類樣本,數值越高越好召回率召回率反映了所有真正為正類的樣本中,有多少被正確地預測為正類,數值越高越好F1值F1值是精確率和召回率的調和平均值,用于平衡精確率和召回率,數值越高越好ROC曲線ROC曲線是通過繪制真陽性率(TruePositiveRate,TPR)和假陽性率(FalsePositiveRate,FPR)之間的關系而得到的曲線,TPR指分類器正確識別正例的能力,FPR指在所有實際為負例的樣本中,模型錯誤地預測為正例的樣本比例,TPR越接近1越好,FPR越接近0表示算法性能越好AUCAUC(AreaUndertheCurve)是ROC曲線下的面積,用于衡量分類器性能。AUC值越接近1,表示分類器性能越好大數據分析技術回歸算法評估算法指標說明回歸算法平均絕對誤差(MeanAbsoluteError,MAE)對于每個觀測值,計算預測值與實際觀測值之間的差異的絕對值,對所有差異值進行求和,并除以觀測值的總數,得到MAE,MAE值越小表示模型擬合度越好均方誤差(MeanSquaredError,MSE)對于每個觀測值,計算模型的預測值與實際觀測值之間的差異,并將其平方計算后求和,再除以觀測值的總數,得到平均差異值。MSE值越小表示模型擬合度越好均方根誤差(RootMeanSquaredError,RMSE)對于每個觀測值,計算模型的預測值與實際觀測值之間的差異,并將其平方計算后進行求和,并除以觀測值的總數,得到平均差異值后計算其平方根。RMSE值越小表示模型擬合度越好決定系數(R2)R2反映模型對數據的擬合程度,值越接近1表示模型擬合度越好大數據分析技術聚類和關聯規則算法評估算法指標說明聚類算法輪廓系數輪廓系數是衡量聚類效果的一種指標,值越接近1表示樣本更適合被聚類到其所在的簇,值越低則表示樣本在不同聚類之間的邊界上關聯規則支持度支持度反映了規則在所有事務中應用的頻繁程度,數值越高越好置信度置信度表示規則的預測精度,數值越高越好大數據分析技術智能推薦算法評估算法指標說明智能推薦算法準確率準確率、召回率和F1值是智能推薦算法中最常用的評估指標,數值越高越好召回率F1值平均精確率(AveragePrecision,AP)AP是智能推薦算法中較為常用的一種評估指標,表示在所有被推薦的項目中,用戶真正感興趣的項目占所有推薦項目的比例,數值越高越好平均倒數排名(MeanReciprocalRank,MRR)MRR反映了用戶對推薦結果的滿意程度,數值越高越好實例引入:個性化用戶畫像實現精準營銷大數據分析技術主流的大數據分析處理框架主流的大數據分析處理框架主流的分析處理框架介紹目前主流的大數據分析處理框架有批處理框架、流式處理框架、圖計算處理框架等。運用較多的是批處理和流式處理框架批處理框架:最早出現的大數據分析處理方式是批處理,批處理是對數據先進行存儲再分析處理,是一種集中式的數據分析處理。流式處理框架:隨著數據不斷地變化,流式處理框架的使用逐漸成為一種趨勢。流式處理框架將源源不斷的數據組成了數據流,只要有新數據就及時處理,不需要做持久性的操作。圖計算處理框架:隨著圖數據的規模爆炸式增長,處理圖數據的圖計算處理框架應運而生,圖計算處理框架也被認為是新興數據驅動市場的支撐技術主流的大數據分析處理框架HadoopHadoop生態系統子項目說明Hive一個數據倉庫系統,提供了類似于SQL的查詢語言HBase一種分布的、可伸縮的列式數據存儲庫,支持隨機、實時讀/寫訪問Pig分析大數據集的一個平臺Sqoop可高效傳輸批量數據的一種工具Flume一種用于高效采集、匯總、移動大量日志數據的服務ZooKeeper一種用于維護配置信息、命名,提供分布式同步等的集中服務Spark一個開源的數據分析集群計算框架Storm一個分布式的、容錯的實時計算系統Avr一個數據序列化系統HadoopHadoop的技術優勢高可靠性。HDFS采用了備份恢復機制,MapReduce中的任務采用了監控機制,Hadoop按位存儲和處理數據的能力值得人們信賴。可擴展性。Hadoop是在可用的計算機集群間分配數據并完成計算任務的,集群可以很方便地擴展到數以千計的節點中。高效性。Hadoop可以在節點之間動態地移動數據,在數據所在節點進行并行處理,并保證各個節點的動態平衡,因此處理速度非常快。高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。經濟性。Hadoop是開源軟件,可以運行在成本較低的計算機之上,它由普通的服務器構建的節點組成,因此Hadoop的成本比較低。HadoopHadoop的技術劣勢抽象層次低。實際開發過程中,許多的業務邏輯沒有辦法從高層撰寫相關的邏輯代碼,需要去底層手動進行編碼。即使是完成一個非常簡單的任務,都需要編寫一個完整的MapReduce代碼,然后編譯打包運行。表達能力有限。現實中一些實際的問題沒有辦法用MapReduce的映射和歸約環節來解決。執行迭代操作效率低。對于MapReduce來說,MapReduce本身將整個作業劃分成多個階段進行,每一個階段完成后將結果寫入HDFS,供下一個MapReduce作業階段調用。高代價的磁盤輸入輸出,造成了執行迭代操作效率低。實時性差。MapReduce計算框架是針對批處理設計的,因此在實時交互查詢應用中一般很難實現。主流的大數據分析處理框架SparkSpark是一個強大的分布式處理和易于使用的大數據框架,可以解決各種復雜的數據問題,有很多商業機構在生產環境中使用,有些機構甚至在幾十萬個節點集群上運行,操作PB級的數據屬性介紹組件SparkSQL、SparkStreaming、SparkMLlib和SparkGraphX等支持語言Java、Scala和Python等功能日志抽取、清洗、轉化、加載、SQL查詢、模式識別和機器學習等SparkSpark的運行架構包含4個部分,分別是任務控制節點(DriverProgram)、集群管理器(ClusterManager)、工作節點(WorkerNode)和執行進程(Executor)。就系統結構而言,Spark采用主/從模式,包含一個主服務器和若干個Worker。當Spark需要執行一個應用程序時,SparkContext(Spark功能的主要入口點)會向集群管理器申請資源,并請求運行執行進程,同時向執行進程發送程序代碼,接著在執行器上執行任務(Task)。當運行完畢后,再將執行結果返回給任務控制節點,也可以存儲在HDFS或HBase中。主流的大數據分析處理框架Flink任何類型的數據都是作為事件流產生的,例如,信用卡交易、傳感器測量、機器日志、網站或移動應用程序上的用戶交互所產生的數據都以流的形式生成。ApacheFlink正是為處理流數據而設計的。Flink技術原理。ApacheFlink是一個流式處理框架,其分布式的計算模式使其成為一個可伸縮的開源流式處理平臺,用于無界數據集和有界數據集的狀態計算,其核心模塊是一個數據流引擎,主要通過Java代碼實現。對時間和狀態的精確控制,使Flink運行時無界流能運行任何類型的應用程序。有界流由專門的固定大小的數據集設計的數據結構和算法進行內部處理,從而獲得優異的性能。Flink功能強大,支持開發和運行多種不同種類的應用程序。Flink的主要特性包括對流式和批處理的支持一體化、精細的狀態管理、事件時間支持和對狀態的唯一一致性保障等FlinkFlink提供3層API,如圖所示,從上至下依次為SQL/TableAPI、DataStreamAPI、ProcessFunction。層級越高,代碼越簡潔;層級越低,表達能力越弱。FlinkFlink生態系統Flink社區正在努力支持Catalog、SchemaRegistries以及MetadataStores,包括API和SQL客戶端的支持,并且正在添加數據定義語言(DataDefinitionLanguage,DDL)支持,以便添加表和流到Catalog中。在Flink社區中還有一個巨大的工作是集成Flink與Hive生態系統。Flink和Hadoop、Spark一樣,是Apache軟件基金會下的頂級項目,Flink也有生態系統,Flink框架中有部署層、核心層、庫和API。其中,API提供了復雜事件處理(ComplexEventProcessing,CEP)接口,主要是獲取大量流數據中的重要信息。Flink和Spark一樣,提供一個機器學習的庫,里面包含許多數據挖掘的算法和機器學習的算法,如支持向量機、回歸問題、K-Means等一些常用算法FlinkFlink技術優勢Flink以流數據處理為核心,考慮到MapReduce計算框架存在的諸多問題,設計彌補了MapReduce不能分析處理實時計算的局限,因此Flink優勢極為明顯。Flink擅長處理無界和有界數據集Flink具有低處理延遲Flink旨在以任何規模運行有狀態流應用程序Flink是一個分布式系統,需要計算資源才能執行應用程序FlinkFlink應用場景Flink因其豐富的功能集而成為開發和運行多種不同類型應用程序的絕佳選擇。Flink可以應用于事件驅動型應用、數據分析、數據管道等方向事件驅動型應用是一類具有狀態的應用數據分析任務需要從原始數據中提取有價值的信息和指標,傳統的分析方式通常是利用批查詢,借助一些先進的流處理引擎,實時地進行數據分析,而Flink恰好同時支持流式及批量分析應用數據管道以持續流模式運行,支持從一個不斷生成數據的源頭讀取記錄,并將數據以低延遲移動到終點,可以用于轉換、豐富數據。很多常見的數據轉換和增強操作可以利用Flink的SQL接口實現。Flink在數據管道中典型的應用場景有電子商務中的實時查詢索引構建和電子商務中的持續ETL等主流的大數據分析處理框架StormApacheStorm是一個分布式的流式處理框架,采用的是事件流的形式,多個輸入和處理組件構成一個處理網絡,中間的處理結果都存儲在內存中,保證數據處理的時效性,有效地滿足實時分析的用戶需求。Storm可以很方便地在一個計算機集群中編寫與擴展復雜的實時計算,因此用于實時處理。Storm保證每個消息都會得到處理,而且處理速度很快,在一個小集群中,每秒可以處理數條百萬條消息。StormStorm集群由一個主節點和多個工作節點組成,Storm集群架構如圖所示。主節點運行了一個名為“Nimbus”的守護進程,用于分配代碼、布置任務及檢測故障。每個工作節點都運行了一個名為“Supervisor”的守護進程,用于監聽工作、開始并終止工作進程。Nimbus和Supervisor均具備快速失敗的能力,而且它們是無狀態的,使得它們在運行中更為健壯,兩者的協調工作是由ApacheZooKeeper來完成的。StormStorm擁有編程簡單、容錯性高、可擴展性強、可靠性強、高效等特點。Storm有許多應用領域,包括實時分析、在線機器學習、信息流處理(可以使用Storm處理新的數據和快速更新數據庫)、連續性的計算(例如使用Storm連續查詢,然后將結果返回給客戶端,如將微博上的熱門話題轉發給用戶)、分布式RPC(RemoteProcedureCall,遠過程調用協議,通過網絡從遠程計算機程序上請求服務)、ETL等。主流的大數據分析處理框架Graph圖(Graph)是用于表示對象之間關聯關系的一種抽象數據結構,使用頂點(Vertex)和邊(Edge)進行描述,其中,頂點表示對象,邊表示對象之間的關系。圖計算,便是以圖作為數據模型來表達問題并予以解決的過程。以高效解決圖計算問題為目標的系統軟件稱為圖計算系統。典型圖計算處理框架包括了Ligra框架、Gemini框架和GraphBIG框架。Ligra框架Gemini框架GraphBIG框架小結大數據分析技術是大數據技術體系的重點內容,通過大數據分析可以對用戶進行精準畫像,進而向用戶推薦適合的產品,目前大多數的推薦系統都利用了大數據分析。本章介紹了大數據分析技術、大數據分析的主流處理框架,通過大數據分析處理框架,用戶可以非常方便地使用經典的數據分析方法。隨著數據量和數據類型的增加,大數據分析的技術也會不斷地演進。通過本章的學習,讀者可以加深對大數據分析的認識,培養邏輯思維和數學能力,并對數據分析和利用有更高層次的認知大數據可視化實例引入:某機場數據可視化大屏數據可視化圖形設計指南數據可視化主要技術主流的數據可視化工具實例引入:某機場數據可視化大屏2020年,民航局發布了建設“平安、綠色、智慧、人文”四型機場的行動綱要,其中“智慧機場”是指建設生產要素全面物聯、數據共享、協同高效、智能運行的機場。新型基礎設施建設(簡稱“新基建”)是提供數字轉型、智能升級、融合創新等服務的基礎設施體系,包括信息基礎設施、融合基礎設施、創新基礎設施。基礎設施創新有利于大家用新眼光觀察問題,用新思路分析問題,用新方法解決問題。某機場是一座符合新基建標準的國際機場,其中的數據可視化大屏是點睛之筆。該大屏通過大規模數據可視化、時序數據可視化技術實現了交互式數據可視化。通過某機場的可視化大屏能夠更好地捕捉機場內外的實時信息,真正做到了智慧型機場,充分體現了現代可視化技術所具有的特點,即智慧性、即時性、交互性。以某機場數據可視化大屏作為切入點,能夠更好地了解數據可視化的主要技術、熟悉目前主流的數據可視化工具大屏顯示的應用領域和行業數據可視化大屏是大數據處理和分析的熱門應用之一,它可以將大量的數據進行可視化展示,使得數據在時間和空間上更具有可讀性和可操作性。通過數據可視化大屏,可以快速有效地理解數據之間的關系,從而更好地掌握數據的內在規律。大屏幕顯示系統是集多種信息接收處理顯示、多類人員操作控制于一體的多媒體互動系統,可以將數據可視化的結果以大屏幕的形式展示出來,涉及聲、光、電多方面技術問題,也會涉及多個部門的管理協調問題,還與使用場所結構密不可分。目前大屏幕顯示系統廣泛應用到通信、電力、軍事指揮、工業過程控制等領域大屏幕顯示系統在日常生活中也有廣泛的應用,如多媒體課堂教學、電視節目播放、視頻監控等方面機場數據可視化大屏設計機場數據可視化大屏是專門為監控中心量身打造的大屏解決方案,該設計基于機場所在的應用場景,增加了一些特色功能機場大屏數據可視化適用于對機場內部的信息進行精準監控,包括對機場內的交通工具開展即時的精準定位,以及速率信息內容的傳回、車輛追蹤、運動軌跡回看、越界警報、限速警報、安全事故剖析等各類信息,從而確保機場場景安全、提高機場貨運量。機場大屏數據可視化會實時播報飛機航班運作的實況。機場大屏數據可視化系統軟件應融合大數據技術,對航運本機場的飛機航班、本省甚至全國與本機場關聯的飛機航班開展可視化展現,確保機場飛機航班安全運作機場數據可視化大屏設計為實現機場運維管理,可視化大屏系統結合地理信息系統,應用三維仿真技術,對機場飛行區、航站區等關鍵區域進行全方位三維實景展現。針對飛行區站坪進行實時監控,動態展示機場站坪全景,對跑道開閉狀態、當前航班運行狀態、場內車輛運行狀態、登機橋運行狀態實現全方位動態監視。實例引入:某機場數據可視化大屏數據可視化圖形設計指南數據可視化主要技術主流的數據可視化工具數據可視化圖形設計指南人類對事物的認知和世界的了解大多基于視覺,合理的利用視覺特征設計數據的可視化界面可以達到事半功倍的效果。數據可視化圖形設計并沒有固定的范式,在不影響傳遞信息的基礎上要積極探索、勇于創新。數據可視化是通過視覺語言的方式來將數據表達得更為直觀明了,從而讓用戶快速獲取信息。可視化技術可以提高人們直觀上獲取信息的能力。本節將講解數據可視化、數據可視化的發展方向,然后對可視化圖形設計進行介紹,包括基礎圖表、一般的數據可視化圖形設計流程。了解數據可視化一般而言,可視化指將抽象之物形象化。所謂一圖勝千言,研究表明,人每天所接受的信息大部分是通過視覺獲得的,可視化將不可見的事物(如氣流)通過可見的形式表達,從而讓人可以去觀察和理解相應事物,獲得更多信息。數據可視化分析是利用形象思維將大規模、高緯度、多種類數據映射為高清晰度、多維交互、大屏拼接的視覺符號,幫助人們從中發現規律的同時更高效地認知數據,是發現數據所反映的實質的科學技術分析手段。數據可視化主要包括文本可視化、網絡可視化、時空數據可視化和多維數據可視化等方面。隨著計算機技術的發展,交互式可視化逐漸成為除了上述可視化方向之外的新研究熱點數據可視化的發展方向數據可視化是近年來不斷發展的交叉學科,是藝術和科技的融合。技術與時俱進,把握技術的發展方向,需要用發展的理念推動新的發展,適應新的形勢,推動新的實踐。可視化在學術界的優秀成果涵蓋城市數據可視化、科學可視化、圖可視化、高維數據可視化、人機交互(Human-ComputerInteraction,HCI)、AR/VR、數據敘事、可視分析等多個方面。可視化是一個高度綜合的交叉型領域,隨著時代與技術的發展,可視化的深度和廣度同樣在不斷地擴展。現在的研究內容包括大規模科學數據可視化、城市數據可視化、靈活構建可視化、新聞數據可視化、生物醫學領域數據可視化分析、文化遺產應用數據可視化、理解和診斷深度學習模型等多種方向。旅游業的數據可視化景區綜合管理服務平臺是一個利用數據可視化技術分析旅游大數據的具體應用,其統計景區內外客流數據、實時客流數據、客流總數、區域客流排名、新老客戶占比、游客停留時長、各時段客流人數、歷史客流等數據。可以使用旅游熱點可視化界面展示景區的熱點區域,游客集中區域等信息。旅游業的數據可視化可以通過游客畫像可視圖顯示“年度游客對比統計”“游客渠道來源”“消費業態占比”“來源城市排行”“游客年齡分布”“實時入園游客數”幫助行業內商家制定更為科學合理的旅行方案,做到資源合理整合、提高收益率。旅游業的數據可視化通過景區管理可視化,結合實時的游客流量數據和“旅游單位數量與產值分布”等數據,管理者能夠確定景區內的重點監測區域,排除重點區域的安全隱患,方便景區管理,降低管理成本,避免發生重大安全事故。電商業的數據可視化電商企業運轉過程中會產生大量數據,從海量數據中提取有效信息是電商企業發展的需求。而圖形、圖表等展示方式可在幾秒內提供有效信息,利用這些數據,決策者可以通過電子商務可視化系統來實現實時管理,獲得數據驅動的洞察力,以便做出更好的決定。包括以下主要內容:全系統可視全程可視實時可視雙向可視電商業的數據可視化電商銷量數據分析可視化大屏,可以呈現了該電商平臺的銷量信息數據,如“近七日銷量”“資金儲備使用情況”“各季度銷量”等,為電商公司提供更加方便、快捷和更加自動化、智能化的服務。教育業的數據可視化教育資源可視化,通過結合“教職工社保情況”“教師人數”“學生人數”“招生數量”等數據項對我國目前的教育資源進行數據可視化分析,對比不同地區的教育資源分配情況,對未來進一步優化教育資源配置提供數據支持。基礎圖表數據可視化有很多類型的圖表,如常見的柱狀圖、餅圖、折線圖、散點圖和氣泡圖,還有特殊用途的漏斗圖、甘特圖、核密度圖、箱線圖、熱力圖等,不同類型的圖表在不同的數據表示中有各自的優勢柱狀圖。柱狀圖可以通過垂直或水平條顯示維度字段的分布。柱狀圖能直觀地表現出各組數據的差異性,最適合比較不同類別的數據大小,但不太適合數據集較大的數據。餅圖。餅圖通過比例的形式來顯示局部和整體之間的大體關系。餅圖的每個部分都標有標簽,進而可以用于直觀顯示各項占總體的比例,適用于具有整體意義的各項相同數據。但是餅圖的缺點也比較明顯,其數據分類不夠精細,不適合分類較多的情況。同餅圖一樣,環形圖也經常用做占比分析。基礎圖表折線圖。與柱狀圖相比,折線圖不僅可以展示數量,還可以直觀地反映事物隨時間序列變化的趨勢。散點圖和氣泡圖。散點圖的數據通常是點的集合,呈現成對的數和它們所代表的趨勢或分布關系。散點圖可以衍生出氣泡圖,通過氣泡的面積大小來呈現x軸、y軸以外的第三維數據大小。散點圖適用于二維數據集,氣泡圖適用于三維數據集。散點圖、氣泡圖的優點是能夠直觀反映數據的集中情況。一般的數據可視化圖形設計流程圖形設計的過程中存在諸多矛盾,必須善于從多種矛盾中抓住主要矛盾,提出主要的任務,從而掌握工作的中心環節。不同的信息內容主題需要不同的藝術手法來表現設計效果,以使人們對所傳達的信息產生共鳴。一般的數據可視化圖形設計流程包含如下幾個步驟:根據業務場景抽取關鍵指標確立指標分析維度選定可視化圖表類型頁面設計整體細節調優實例引入:某機場數據可視化大屏數據可視化圖形設計指南數據可視化主要技術主流的數據可視化工具數據可視化主要技術數據可視化是一種新穎的數據分析技術,同時作為一種表達數據的方式,數據可視化是對現實世界的抽象表達,借助圖形化手段來直觀地表達數據隱含規律和內在知識。根據目標的不同,數據可視化技術可以分為四類,即對比、分布、組成、關系。數據關系應用場景可選類型圖表對比一個維度的數據比較、數據單純性展示、排序數據展示,更加關注數據間的差異柱狀圖、橫向柱狀圖分布一個維度各項指標占總體的占比情況,分布情況,重點在于找到數據集中的范圍,找出其中的規律餅圖、環形圖組成查看數據靜態或動態組成,組成是數據的細化問題,部分占比關系展示堆疊圖、堆疊柱狀圖、堆疊面積圖關系查看數據之間的相關性,常結合統計學相關性分析方法散點圖、氣泡圖數據可視化主要技術可視化技術之-對比比較不同元素之間或不同時刻之間的值。對于不同元素,可以根據元素包含的變量數目分為單元素多變量和單元素單變量。如果是單元素多變量,如企業自身不同產品銷量對比,那么可以采用多變量柱狀圖。如果是單元素單變量,如多個企業產值比較,那么可以采用柱狀圖。柱狀圖如下所示。數據可視化主要技術可視化技術之-分布查看數據分布特征,常用于數據異常發現、進行數值過濾和數據基本統計性特征分析。單個變量的分布,根據數據點數量多少分別采用折線圖和柱狀圖;兩個變量的分布可以采用直方圖、散點圖;多個變量的分布可以采用平行坐標法數據可視化主要技術可視化技術之-組成組成是指查看數據靜態或動態組成。動態組成可以根據數據時間特點,分為短期數據的動態組成和長期數據的動態組成。對于靜態組成,若為簡單的總體組成,可以采用餅圖;若關注相對整體的增減可以采用瀑布圖;若組成元素包含子元素,可以采用堆疊比例柱狀圖;若關注組成及其具體數值,可以采用樹圖。數據可視化主要技術可視化技術之-關系查看變量之間的相關性,常結合統計學相關性分析方法,通過視覺結合使用者的專業知識與場景需求判斷多個因素之間的影響關系。根據變量的多少進行劃分,若是兩個變量可以采用散點圖;若是3個變量可以采用氣泡圖,用散點半徑表示第3個變量;超過3個變量可以采用平行坐標法數據可視化主要技術大數據具有5V特點,即Volume、Variety、Value、Velocity、Veracity,與大數據基本特點相關的可視化技術包括大規模數據可視化、時序數據可視化和數據可視化生成技術。大規模數據可視化。大規模數據可視化一般認為是處理數據規模達到TB或PB級別的數據,常用于科學計算數據,例如氣象模擬、數值風洞、核模擬、洋流模擬、星系演化模擬等領域時序數據可視化。時序數據可視化是一種將數據點按時間順序展示的技術,旨在揭示數據隨時間變化的趨勢、模式和異常。這種可視化方法對于分析歷史數據、監控實時數據流、預測未來趨勢以及識別數據中的周期性變化尤為重要數據可視化生成技術。數據可視化形成了從底層編程到上層交互式定制的多層次生成方式。編程式數據可視化生成方式通過利用編程語言和庫,將復雜的數據集轉換成直觀的圖形表示,為數據科學家和開發者提供了創建精細定制化視覺表示的能力實例引入:某機場數據可視化大屏數據可視化圖形設計指南數據可視化主要技術主流的數據可視化工具主流的數據可視化工具在各種數據展現方法中,數據可視化技術被認為是最容易為人類所接受的表現形式。數據可視化技術的優劣將直接影響數據的最終應用與決策。學習使用主流的數據可視化工具的過程中,應該具備突破陳規、勇于創新的思想觀念,不斷地在實踐中感受工匠精神,鍛煉精益求精的意志品質。如今,數據可視化的工具越來越多,主流的可視化工具有基于類庫的可視化工具,如D3和ECharts;也有各種優秀的商用BI軟件,如Tableau、FineBI和PowerBI數據可視化類庫隨著Ja

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論