《大數據概論及應用實踐(通識版)》全套教學課件_第1頁
《大數據概論及應用實踐(通識版)》全套教學課件_第2頁
《大數據概論及應用實踐(通識版)》全套教學課件_第3頁
《大數據概論及應用實踐(通識版)》全套教學課件_第4頁
《大數據概論及應用實踐(通識版)》全套教學課件_第5頁
已閱讀5頁,還剩485頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據概論及應用實踐第1章緒論第2章大數據技術概述第3章數據采集與數據預處理第4章數據存儲與管理第5章數據分析與挖掘第6章數據可視化第7章大數據安全第8章大數據思維第9章數據開放與共享第10章大數據的法律政策規范第11章大數據應用全套可編輯PPT課件

第一章

緒論大數據概論及應用實踐IntroductiontoBigDataandApplicationPractice第1章

緒論大數據時代悄然來臨,帶來了信息技術發展的巨大變革,開啟一次重大的時代轉型,并深刻影響著社會生產和人們生活的方方面面。企業和學術機構紛紛加大技術、資金和人員投入力度,加大對大數據關鍵技術的研發與應用,以期在“第三次信息化浪潮”中占得先機、引領市場。同時世界各國政府均高度重視大數據技術的研究和產業發展,紛紛把大數據上升為國家戰略加以重點推進。大數據的時代的到了,它的影響力和作用力正迅速觸及社會的每個角落,特別是隨著計算機技術的進步以及移動互聯網、物聯網、云計算、5G移動通信網絡技術的發展,多源異構、形式多樣的數據正在沿著“摩爾定律”呈爆炸式增長,所到之處,或是顛覆,或是提升,都讓人們深切感受到了大數據實實在在的威力。數據1.1大數據時代1.2大數據的技術挑戰和科學意義1.3本章小結1.4目錄CONTENTS習題1.5本課件是可編輯的正常PPT課件

本節主要介紹數據的定義、數據的類型、數據組織形式、數據的生命周期、數據的價值以及大數據特征。數

據PART01本課件是可編輯的正常PPT課件1.1.1

數據的定義數據和信息:數據是指對客觀事物的屬性、狀態以及相互之間的關系等進行記載的描述客觀事件的物理符號或是物理符號的組合,它們是可識別的、抽象的。信息是較為宏觀的概念,它是由數據有序排列組合而成,傳遞給讀者某個方法或者概念等不同的信息。一段時間。項目是一次性(或者說是臨時性)的,每個項目都具有明確的開始和結尾。數據是信息的基本組成單位,離散的數據幾乎沒有任何有用的價值。本課件是可編輯的正常PPT課件1.1.2

數據的類型常見的數據類型通常包括文本、圖片、視頻、音頻等文本:文本是一種由若干行字符構成的計算機文件。通常文本數據是不能參與算數運算的任何字符,也稱之為字符型數據。圖片:圖片是指由圖形、圖像等構成的平面媒體。圖片的格式很多,大體上可以分為點陣圖和矢量圖兩大類。音頻:人類能夠聽到的所有聲音都稱之為音頻,它可能包括噪音等。在即使是中,數字化的聲音數據就是音頻數據。音頻數據一般用音頻文件的格式來保存。視頻:視頻泛指將一系列靜態影像以電信號的方式加以捕捉、記錄、處理、儲存、傳送與重現的各種技術。因此視頻數據是指連續的圖像序列。本課件是可編輯的正常PPT課件1.1.3

數據組織形式根據數據結構的不同,數據可分為結構化數據、半結構化數據和非結構化數據結構化數據多數存在于傳統的關系型數據庫中,是我們熟知的使用的數據形式,數據結構事先已經定義好,非常方便使用二維表格形式描述,便于存儲和管理。非結構化數據不同于傳統的結構化數據,其數據結構很難描述,不規則或者不完整,沒有統一的數據結構或者模型,無法提前預知。半結構化的數據介于結構化數據與非結構化數據之間,可以用一定數據結構來描述,但通常數據內容與結構混疊在一起,結構變化很大,本質上不具有關系性,不能簡單地用二維表格來實現結構描述。半結構化數據通常是自描述的結構,多數以樹或者圖的數據模型進行存儲。本課件是可編輯的正常PPT課件1.1.4數據生命周期數據都存在生命周期,通常為四個階段第一階段:數據采集,需要借助工具去實現數據轉換,形成高質量的、標準化的數據,把數據變成一種可用的狀態。第二階段:數據存儲與管理,“多源異構”的數據決定了數據的存儲方式也是比較多樣的,但是通常還是存放到數據庫系統中進行管理。第三階段:分析與挖掘,為了充分發揮存儲設備和數據的價值,需要對數據生命周期進行認真分析,在不同的階段對數據采取不同的管理策略。第四階段:可視化顯示本課件是可編輯的正常PPT課件1.1.4數據生命周期數據全生命周期包含了以下八個階段數據采集階段:為了進行分析,首先必須記錄或采集數據,這是創建組織內尚不存在的信息的行為。被采集到的數據可能來自公司的外部或內部。采集的數據數據維護階段:捕捉數據后,生命周期的第二階段可以定義為向發生數據合成和數據使用的點提供數據。數據合成階段:數據合成涉及統計方法的使用,這些方法結合了許多數據來源或測試,以獲得更好的總體估計或被問到的有關數據問題的答案。一些人把這個稱為數據建?;蚴褂脷w納推理以轉換數據。另一些人將數據合成視為數據維護的子集。數據使用階段:數據使用就是如何使用數據來支持業務的任務,此階段可以定義為將數據應用到企業需要自行運行和管理的任務。如戰略規劃、客戶關系管理、處理發票、向供應商發送訂購單等。本課件是可編輯的正常PPT課件1.1.4數據生命周期數據分析階段:數據分析是以創建新的信息和產生業務洞察力為目的檢查原始數據的科學性。它包含技能、科學、迭代探索和對過去業務績效的調查,以獲得洞察力并推動未來的業務規劃。在它最基本的層次,它意味著用數據分析的方法來回答問題。一些人將數據分析視為數據使用的子集。數據發布階段:數據發布是向組織外部發送數據的行為,可以發布數據以供廣泛使用,通常將數據發送到業務部門。例如向客戶發送結算單。數據存檔階段:單個數據值可能會使用相當長的一段時間,但其生命周期最終都會到盡頭。那時,組織應該將數據值存檔。數據存檔是從有效使用的數據中刪除數據,并將其存儲以備潛在的未來使用的過程,數據存檔是存儲數據的位置,但是它沒有定期維護,且使用率可能很少。數據清除階段:數據清除涉及刪除不再有用或不需要的數據,在數據生命周期結束時,將從企業中刪除數據項的每個副本,這通常是從歸檔中完成的。管理者應創建數據保留政策以實施正確的數據清除實踐。本課件是可編輯的正常PPT課件1.1.5

數據的價值大數據時代,數據的根本價值是可以為人們提供價值大數據時代,數據的采集往往是為了某個特定的目的。對于數據采集者來說,數據的價值是確定,并且是不斷地被人所熟知的。數據的價值不會因為不斷使用而消減,反而會因為不斷重組而產生更大的價值?;跀祿膬r值特性,各種途徑收集上來的各種不同類型的數據都應當盡可能長時間地保存下來,同時也在一定條件下與全社會分享,產生更多更大的價值。在大數據時代,當今和未來最有價值的商品是數據。因此,要實現大數據時代思維方式的轉撥,就必須要正確認識數據的價值,數據已經具備了經濟的屬性。本課件是可編輯的正常PPT課件1.1.6

大數據的特征美國國家標準技術研究院認為大數據由具有規模巨大(Volume)、種類繁多(Variety)、增長速度快(Valocity)和變化多樣(Variability),且需要一個可擴展體系結構來有效存儲、處理和分析的廣泛的數據集組成。數據的價值不會因為不斷使用而消減,反而會因為不斷重組而產生更大的價值。IBM在大數據概念提出的早期,也對大數據給出了一個“4V特性”的定義,與上述的表述略有不同,強調了大數據的數量(Volume)、多樣性(Variety)、速度(Velocity)和真實性(Veracity)等方面,后來也將數據價值(Value)吸收進來,成為大數據的“5V特性”。麥肯錫全球研究機構給出的大數據的定義,綜合了“現有技術無法處理”和“數據特征”定義,它任務大數據是指大小超過經典數據庫軟件工具收集、存儲、管理和分析能力的數據集,這一定義是站在經典數據庫的處理能力的基礎上看待大數據的。本課件是可編輯的正常PPT課件1.1.6

大數據的特征綜合上述定義,大數據的特征通常被定義為“4V特征”,即規模龐大(Volume)、種類繁多(Variety)、變化頻繁(Velocity)和價值巨大但價值密度低(Value)規模龐大:是指數據集相當于現有計算和存儲能力而言,規模龐大。種類繁多:是指在大數據面對的應用場景中,數據種類多。變化頻繁:是指數據所描述的事物狀態在頻繁、持續的變化。價值巨大且價值密度低:是指帶大數據中,通過數據分析,在無序數據中建立關聯可以獲得大量高價值、非顯而易見的隱含知識,從而具有巨大的價值。本課件是可編輯的正常PPT課件

當下我們正處于大數據時代。人類社會信息科技的發展為大數據時代的到來提供了技術支撐,數據產生方式的變革是促進大數據到來至關重要的因素。大數據時代PART02本課件是可編輯的正常PPT課件1.2.1

大數據的發展歷程大數據的發展過程大致分為三個階段:萌芽時期、發展時期和大規模應用期。萌芽時期(約為20世紀90年代至21世紀初)在這一階段,大數據只是作為一個概念或者假設,少數學者對其進行了研究和討論。并且在這一階段數據挖掘理論和數據庫技術的逐步成熟,一批商業智能工具和知識管理技術開始被應用,如數據倉庫、專家系統、知識管理系統等。種類繁多:是指在大數據面對的應用場景中,數據種類多。本課件是可編輯的正常PPT課件1.2.1

大數據的發展歷程大數據的發展過程大致分為三個階段:萌芽時期、發展時期和大規模應用期。發展時期(約為21世紀初至2010年)21世紀前十年,互聯網行業迎來了一個快速發展的時期。在這一階段,大數據作為一個新名字,開始受到理論界的關注,其概念和特點得到進一步的豐富,相關的數據處理技術層出不窮,大數據的開始顯現出活力。Web2.0應用在這一時期也迅猛發展,同時非結構化數據和半結構化數據大量產生,傳統處理方法難以應對,帶動了大數據技術的快速突破,大數據解決也逐漸走向成熟,形成了并行計算與分布式系統兩大核心技術,谷歌的GFS和MapReduce等大數據技術受到追捧,Hadoop也盛行起來。本課件是可編輯的正常PPT課件1.2.1

大數據的發展歷程大數據的發展過程大致分為三個階段:萌芽時期、發展時期和大規模應用期。大規模應用期(約為2011年至今)2011年之后大數據的發展可以說是進入了全面興盛的時期,越來越多的學者對大數據的研究從基本概念、特性轉到數據資產、思維變革等多個角度。大數據的應用也滲透到各行各業中,不斷變革原有行業技術和創造出新的技術。數據驅動決策、信息社會智能化程度等都大幅提高。0本課件是可編輯的正常PPT課件1.2.2

大數據時代的驅動力信息科技為大數據時代提供技術支撐

信息科技的進步是大數據時代的物質基礎。信息科技技術需要解決信息存儲、信息處理和信息傳輸三大核心問題。存儲設備容量不斷增加CPU處理能力大幅提升網絡帶寬不斷增加本課件是可編輯的正常PPT課件1.2.2

大數據時代的驅動力數據提高方式的變革促成大數據時代的來臨

總體而言,人類社會數據產生的方式大致經歷了三個階段:運營式系統階段、用戶原創內容階段和感知式系統階段。運營式系統階段用戶原創內容階段感知式系統階段本課件是可編輯的正常PPT課件1.2.3

世界各國的大數據發展戰略大數據時代到來以后,世界各國都非常重視大數據的發展。

根據瑞士洛桑國際管理學院2017年度的《世界數字競爭力排名》顯示,各國數字競爭力與其整體競爭力呈現出高度一致的態勢,即數字競爭力強的國家,其整體的競爭力也非常強,同時也更容易產生顛覆性的創新。本課件是可編輯的正常PPT課件1.2.4

大數據的影響大數據對科學研究的影響

大數據的核心價值是為人類提供認識復雜系統的新思維和新手段。圖靈獎得主吉姆?格雷博士總結到,人類自古以來在科學研究上經歷了四種范式,即:實驗、理論、計算和數據。大數據對社會發展的影響

大數據的產生對社會發展將會產生深遠的影響。比如,大數據決策成為一種新的決策方式;大數據成為提升國家治理能力的新方法;大數據應用促進新一代信息技術與各行業的融合發展;大數據開發推動新技術和新應用的不斷涌現。本課件是可編輯的正常PPT課件1.2.4

大數據的影響大數據對就業市場的影響

大數據的興起促使了行業的變革,也相應的產生了很多新的崗位,大數據相關崗位,比如數據治理工程師、數據分析工程師、數據挖掘工程師、數據算法工程師等崗位逐漸成為市場上最熱門的職位之一,具有廣闊的發展前景。大數據對人才培養的影響

大數據時代的快速發展,導致行業的變革,對人才具備的技能也提出了新的要求。高等院校作為培養人才的的基地,也將在很大程度上對信息技術相關專業的現有教學和科研體制進行改變,從而培養出更高水平的人才。本課件是可編輯的正常PPT課件PART03大數據的技術挑戰和科學意義

大數據時代的到來,數據來源的多樣化以及超大規模數量的產生,人們從看似無序的數據中尋找有序、有價值的關聯關系是在數據集上進行分析、挖掘出重要信息。在這一變化的過程中,對數據存儲、計算模型、應用軟件和系統等都提出了全新的挑戰,同時對已有的思維模式、計算模式、理論和方法等都產生深遠的影響。本課件是可編輯的正常PPT課件1.3.1

大數據帶來的思維模式的變革抽樣與全樣:盡可能采集全面而完整的數據

在統計方法中,由于數據不容易獲取,數據分析的主要手段就是進行隨機抽樣分析,其成功的關鍵依賴于抽樣的絕對隨機性。效率與非精確:寧愿放棄數據的精確性,也要盡可能收集更多的數據

當數據量小的時候,對數據的基本要求是盡量精確無誤。因果與關聯:基于歸納得到的關聯關系與基于邏輯推理的因果關系同樣具有價值

于因果關系分析和基于關聯關系分析進行預測的方法,通常是人們對數據分析從而預測某事是否會發生常用的方法。本課件是可編輯的正常PPT課件1.3.2

大數據計算面臨的挑戰數據規模帶來的挑戰。隨著數據規模的增大,受到挑戰最大的是數據的存儲和計算能力。應對數據的規模性,通常有兩個思路:一個思路是“分而治之”。

它是指將計算任務分解,并交由不同的計算節點來并發執行。也就是說,當存儲和計算的能力超出一臺計算機的極限時,在將數據存儲在不同節點的基礎上,將計算任務進行分解,并交由不同的計算機節點來并發執行。另一個思路是充分利用數據的特征,“變蠻算為巧算”。

需要進一步考察不同大數據集的特點,考察基于這個數據集的查詢或計算任務的特點,有針對性地設計優化方法。本課件是可編輯的正常PPT課件1.3.3

大數據學科與職業人才培養目標

大數據專業面向國家發展戰略和大數據產業發展需求,致力于培養德智體美全面發展,踐行社會主義核心價值觀,具有良好的職業道德和人文素養,具備大數據平臺架構設計與運行維護、數據建模和分析以及解決行業應用問題的能力,信息化時代的終身學習能力,面向健康醫療、電子商務、金融、交通等大數據相關領域,能夠承擔大數據平臺架構設計、數據采集、存儲與管理、數據分析與可視化任務,能在相應領域從事各行業大數據分析、處理、服務、開發和利用工作的具有社會責任感、創新精神、國際視野和較強實踐能力的高素質、應用型高級專門人才。本課件是可編輯的正常PPT課件1.3.3

大數據學科與職業專業知識體系

從學科角度而言,大數據可以理解為一個跨多學科領域的,從數據中獲取知識的科學方法、技術和系統的集合。因此,大數據專業知識體系涵蓋了計算機、數學、統計學等多個學科領域,結合了諸多領域中的理論和技術,包括應用數學、統計學、模式識別、機器學習、人工智能、深度學習、數據可視化、數據挖掘、數據倉庫、分布式計算、云計算、系統架構設計等典型的大數據分析過程本課件是可編輯的正常PPT課件1.3.3

大數據學科與職業專業課程體系

大數據專業課程體系涵蓋了通識教育課、學科基礎課、專業基礎課、專業核心課、專業課以及綜合實踐課等。(1)通識教育課:思政類課程、軍體類課程、外語課、創新創業課等;(2)學科基礎課:高等數學、線性代數、概率論與數理統計等;(3)專業基礎課:程序設計、計算機系統基礎及組成原理、離散數學、計算機網絡、算法與數據結構、數據庫系統、操作系統、軟件工程等;(4)專業核心課:大數據導論、網絡爬蟲與數據采集、數據清洗、NoSQL數據庫、數據可視化、分布式并行編程、機器學習等;(5)專業課:云計算、數據安全、數據倉庫、數據挖掘等;(6)綜合實踐課:課程設計、畢業設計等;本課件是可編輯的正常PPT課件1.3.3

大數據學科與職業實踐課程要求

大數據專業不僅是知識的傳承,更重要的是能力的錘煉,以期滿足國家與社會發展的需要。專業主管機構設置了一系列的大數據人才評價系統,包括數據分析工程師、數據治理工程師、數據安全工程師、數據算法工程師、大數據咨詢工程師等不同的級別的評價規則。因此需要學生事先做好規劃、深入學習。同時在培養的過程中,注重基礎知識與實踐的結合。本課件是可編輯的正常PPT課件1.3.3

大數據學科與職業職業道德

(1)大數據安全與職業道德

大數據的蓬勃發展,促使了很多行業和崗位的衍生。目前,大多數軟件都是開源的、可免費使用的,這就給了一些公司可乘之機。其中最典型的就是網絡爬蟲技術。

(2)行業從業者的道德規范

大數據領域的從業者,也應該遵從軟件開發職業中的道德準則。本課件是可編輯的正常PPT課件1.3.4

大數據與其他新興技術的關系云計算、大數據和物聯網被稱為“第三次信息化浪潮”的“三朵浪花”。

云計算大大減少了企業減少IT系統的成本,降低了企業信息化的門檻。大數據為企業提供了海量的數據,幫助企業從大量數據中分析或挖掘出有價值的信息,提供決策支持。物聯網以“萬物互聯”為目標,通過傳感器等,把人和物通過新的方法連接起來,形成人與物、物與物的相連,實現遠程管理控制。

大數據與云計算、物聯網、人工智能、區塊鏈之間存在著“千絲萬縷”的聯系,下大數據與云計算、物聯網、人工智能、區塊鏈之間存在著“千絲萬縷”的聯系,下面將詳細技術他們之間的關系。將詳細技術他們之間的關系。本課件是可編輯的正常PPT課件云計算

(1)云計算的定義

概括來說,云計算是各種虛擬化、效用計算、服務計算、網格計算、自動計算等概念的混合演進并集大成之結果。它既是技術上的突破(技術上的集大成),也是商業模式上的飛躍(用多少付多少,沒有浪費)。這也決定了其將成為未來的IT產業主導技術與運營模式。

(2)云計算的服務模式和運營模式

云計算的服務模式包括三種典型的模式,即基礎設施即服務(InfrastructureasaService,IaaS)、平臺即服務(PlatformasaService,PaaS)和軟件即服務(SoftwareasaServi,SaaS)。1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件云計算

(3)云計算的應用

隨著云計算技術的飛速發展,數據量也在飛速的增長。但是“云端”只是一個形象的說法,實際上數據并不會在“天上的云朵”里,而是必須要“落地”,也就說,這些云端的數據實際上是被保存在全國各地大大小小的數據中心里。通常,云計算數據中心包括一整套復雜的設施,包括刀片服務器、寬帶網絡、環境控制設備、監控設備以及各種安全裝置。

同時,云計算在電子政務、教育、企業、醫療等領域的應用不斷深化,對提高政府服務水平、促進產業轉型升級和培育發展新興產業都起到了關鍵的作用。1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件物聯網

(1)物聯網的定義

物聯網(TheInternetofThings,IoT)是新一代信息技術的重要組成部分,被稱為是“萬物相連的互聯網”。這包含兩層含義,第一,物聯網的核心和基礎仍然是互聯網,是互聯網的延伸和擴展;第二,網絡的邊緣延伸和擴展到了普通非智能的物品,物品利用傳感器、紅外感應器、激光掃描器等信息傳感設備接入網絡并實現物品之間的互連,實現信息化和遠程管理控制。

1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件物聯網

(2)物聯網的關鍵技術

物聯網的關鍵技術包括識別和感知技術、網絡與通信技術、數據挖掘與融合技術等。識別和感知技術主要實現如何識別物體唯一標識、定位物體位置、物體移動情況等各種信息的采集,比較常用的技術有二維碼技術、RFID、傳感器、紅外感應技術、生物特征識別、聲音及視覺識別技術等。網絡與通信技術包括短距離無線通信技術和遠程通信技術短距離無線通信技術包括NFC(手機給公交卡充值),藍牙,WiFi,RFID(公交卡)等;遠程通信技術包括互聯網,2G/3G/4G移動通信網絡,衛星通信網絡等。數據挖掘與融合技術是對物聯網中存在的各種不同類型的系統產生的大量不同來源的不同類型的數據,進行有效整合、處理和挖掘。

1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件物聯網

(3)物聯網的應用

物聯網已經廣泛應用于智慧家居、智慧社區、智慧交通、智慧醫療、智慧農業、智慧工業能領域,對國家數字化建設與社會發展起到了重要的推動作用。云計算、大數據與物聯網的應用,將在第10章進行舉例并做詳細闡述。

1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件大數據與云計算、物聯網之間的關系

大數據、云計算和物聯網可以說是IT領域的“三駕馬車”,三者相輔相成,既有聯系又有區別。

三者的聯系在于它們都是數據存儲和處理服務,都需要占用大量的存儲和計算資源,因而都要用到數據存儲技術、海數據管理技術等,而云計算所具備的彈性伸縮和動態調配、資源虛擬化,以及環保節能等基本要素可以滿足大數據處理技術的需求。物聯網的傳感器源源不斷產生的大量數據,構成了大數據的重要來源,實現了人工產生階段向自動產生階段的轉變。同時,物聯網需要借助于云計算和大數據技術,實現對物聯網數據的分析和處理。

1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件人工智能

(1)人工智能的定義

人工智能(ArtificialIntelligence,AI)是研究、開發用于模擬、延伸和擴展人的只能的理論、方法、技術及應用系統的一門新的技術科學。人工智能包含的領域很廣,包括機器學習、深度學習、智能機器人、圖像識別、專家系統和自然語言處理等,其目標是使機器能夠勝任一些通常需要人類智能才能完成的復雜工作。

(2)人工智能的關鍵技術

人工智能的關鍵技術目前比較流行包含了機器學習、知識圖譜、自然語言處理、人機交互、計算機視覺、生物特征識別、AR/VR等7個關鍵技術。1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件人工智能

(3)人工智能的應用

隨著數字化時代的到來,人工智能被廣泛應用。特別是在家居、制造、金融、醫療、安防、交通、零售、教育和物流等多領域。

(4)大數據與人工智能的關系

人工智能和大數據是緊密相關的兩種技術,兩者既有聯系又有區別。首先,大數據為人工智能提供數據支撐。其次,人工智能提供更高效、更精準的大數據處理和分析工具。最后,大數據和人工智能的結合可以促進技術的創新和發展。1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件區塊鏈

(1)區塊鏈的定義

狹義上來講,區塊鏈是一種按照時間順序將數據區塊以順序相連的方式組合成的一種鏈式數據結構,并以密碼學方式保證的不可篡改和不可偽造的分布式賬本。廣義上來講,區塊鏈技術是利用塊鏈式數據結構來驗證與存儲數據、利用分布式節點共識算法來生成和更新數據、利用密碼學的方式保證數據傳輸和訪問的安全、利用由自動化腳本代碼組成的智能合約來編程和操作數據的一種全新的分布式基礎架構與計算方式。1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件區塊鏈

(2)區塊鏈的關鍵技術

區塊鏈的四大核心技術包括分布式賬本、非對稱加密、共識機制、智能合約。分布式賬本是指在分布在每個節點記錄的完整賬目,這些詳細的賬目記錄可以參與監督、交易,擁有很高的合法性,也可以作為證據。非對稱加密是指存儲在區塊鏈上的交易信息雖然是透明的,但是賬號身份卻是嚴格保密的,當你得到數據擁有者的授權后,才能正常訪問存儲數據,很大程度上保障數據和個人隱私安全。共識機制是為了防止數據被篡改,共識機制“人人平等”、“少數服從多數”的特點,適應很多應用場景,能在效率和安全性中取得平衡,而當區塊鏈的節點足夠多時,造假的情況也會少了很多。智能合約是指基于區塊鏈中不可篡改的數據,智能合約可以自動化執行原先預定好的條款和規則。1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件區塊鏈

(3)區塊鏈的應用

區塊鏈技術可以看做是一個去中心化、不可篡改的分布式數據庫,因為它不需要中心化的機構來管理,所有的節點都可以共同維護賬本的完整性。區塊鏈技術從根本上改變了數據存儲和信息傳遞的方式,同時也為數字貨幣的發展和數字資產的管理帶來了新的思路和工具。區塊鏈技術的應用也不僅限于貨幣和數字資產領域,它也可以在金融、政府管理、企業管理、醫療健康等領域發揮重要的作用。

(4)大數據與區塊鏈的關系

同樣,區塊鏈和大數據都是新一代信息技術,二者既有區別,有存在著緊密的聯系。我們可以從三個方面了解大數據與區塊鏈的聯系。1.3.4

大數據與其他新興技術的關系本課件是可編輯的正常PPT課件

當今人類已經步入大數據時代,人類的生活被數據緊緊“環繞”,并產生了深刻的變革。本章小結PART04本課件是可編輯的正常PPT課件本章小結

當今人類已經步入大數據時代,人類的生活被數據緊緊“環繞”,并產生了深刻的變革。處于大時代浪潮下的我們應該接近數據、了解數據,并利用好數據。因此本章首先從數據的基礎知識講起,講解了數據的概率、類型、組織形式、生命周期、價值以及特性等,然后介紹了大數據時代到來的背景及發展歷程,同時總結了世界各國的大數據發展戰略。最后從大數據對思維模式帶來的變革、面臨的挑戰、職業發展的影響以及與其他新興技術的關系幾個方面,簡要介紹了大數據的技術挑戰和科學意義。

1.4

本章小結本課件是可編輯的正常PPT課件習

題PART05

大數據時代悄然來臨,帶來了信息技術發展的巨大變革,開啟一次重大的時代轉型,并深刻影響著社會生產和人們生活的方方面面。本課件是可編輯的正常PPT課件習題

1、什么是大數據?大數據的特征是什么?2、大數據的基本類型有哪些?3、大數據發展的三個重要階段是什么?4、大數據帶來的影響有哪些?并進行簡單的闡述。5、大數據帶來的思維變革有哪些?6、大數據時代面臨的挑戰有哪些?

1.5習題本課件是可編輯的正常PPT課件感謝您的耐心觀看大數據概論及應用實踐IntroductiontoBigDataandApplicationPractice第二章

大數據技術概述大數據概論及應用實踐IntroductiontoBigDataandApplicationPractice第2章

大數據技術概述大數據技術作為新一代信息產業的有力的技術支持,能夠幫助人們存儲管理好大數據,并從大體量、高復雜的數據中提取價值。大數據技術是指從各種各樣類型的海量數據中快速獲取到有價值信息的技術。

大數據關鍵技術涵蓋數據采集、存儲、處理、應用等多方面的技術。大數據的處理過程可以分為大數據采集、大數據與處理、大數據存儲及管理、大數據分析及挖掘、大數據展示等環節。圖2-1大數據的相關技術大數據處理的基本流程2.1大數據處理的主要模式2.2本章小結2.3習題2.4目錄CONTENTS本課件是可編輯的正常PPT課件

大數據的數據來源廣泛,數據類型多樣化,應用需求也不盡相同,但是基本的處理流程是一致的。大數據處理的基本流程PART01本課件是可編輯的正常PPT課件2.1.1

數據采集與預處理大數據的重要特征之一就是多源異構,這意味著數據來源極其廣泛,數據類型極為復雜。要想處理大數據,必須對所需數據源的數據進行抽取和集成,同時制定一系列的規則,對數據進行情緒,保證數據質量及可信性。這項技術并不是一項全新的技術,但是隨著新的數據源的涌現,數據采集與預處理的方法也在不斷地更新發展之中。目前常用的采集方法有基于管理信息系統的采集方法、基于互聯網信息系統的采集方法、基于物聯網的采集方法以及網絡爬蟲等方法。本課件是可編輯的正常PPT課件2.1.2

數據存儲與管理大數據存儲與管理的主要目的是用存儲器把采集到的數據存儲起來,建立相應的數據庫,并進行管理和調用。在大數據時代,從多渠道獲取到的原始數據往往缺乏一致性,數據結構混雜,并且數據量在急劇增長,傳統的關系型數據庫管理系統不足以支撐。因此,在大數據時代,數據存儲與管理技術逐漸轉化到結構化、半結構化和非結構化的存儲與管理技術上,解決了大數據的可存儲、可表示、可處理、可靠性及有效傳輸等關鍵問題,通俗來講解決了海量文件的存儲與管理,海量小文件的存儲、索引和管理,海量大文件的分開與存儲,系統可擴展性與可靠性。本課件是可編輯的正常PPT課件

2.1.3

數據分析與挖掘大數據處理的核心就是對大數據進行分析,只有通過分析才能獲取到智能的、深入的、有價值的信息。越來越多的應用涉及大數據,這些大數據的屬性,包括數量、速度、多樣性等都印發了大數據不斷增長的復雜性,所以,大數據的分析方法在大數據領域就顯得尤為重要。利用數據挖掘進行數據分析的常用方法主要有分類、回歸分析、聚類、關聯規則等,將在第6章對這些分析方法展開詳細描述。本課件是可編輯的正常PPT課件2.1.4

數據可視化大數據時代下,數據井噴式增長,分析人員將哲學龐大的數據匯總并進行分析,而分析出的成果如果是密密麻麻的文字,那么就沒有幾個人能理解,所以我們就需要將數據可視化。圖表甚至動態圖的形式將數據更加直觀地展現給用戶,從而減少用戶的閱讀和思考時間,以便很好地做出決策,因此可視化技術是最佳的結果展示方式之一。數據可視化技術是一個新興領域,有很多新的發展,必須滿足實時性、操作簡單、更豐富的展現以及多種數據支持等特性。將在第7章對這些分析方法展開詳細描述。本課件是可編輯的正常PPT課件

大數據的應用類型很多,主要的處理模式可以分為流處理模式和批處理模式兩種。流處理模式是直接處理,批處理模式則是先存儲后處理。大數據處理的主要模式PART02本課件是可編輯的正常PPT課件2.2.1

流處理模式流處理模式的基本概念是,數據的價值會隨著時間的流逝不斷減少。因此,盡可能地對最新的數據做出分析并給出結果是流處理模式的主要目標。流處理模式將數據視為流,將源源不斷的數據組成數據流,當產生新的數據時立即處理并返回所需的結果。數據的實時處理是比較具有挑戰性,數據流本身具有持續到達、速度快、規模巨大等特點,通常不會對所有數據進行永久化存儲,同時由于數據不斷地變化,系統很難準確的掌握數據的全貌,但是對響應時間又有要求,流處理的過程基本在內存中完成,處理方式更多地依賴于在內存中設計靈活的概要數據結構。內存容量是限制流處理的一個主要瓶頸。本課件是可編輯的正常PPT課件

2.2.2

批處理模式MapReduce編程模型MapReduce模型首先將原始數據進行分塊,然后分別交給不同的Map任務去處理。Map任務從輸入中解析出key/value對集合,然后對這些集合執行用戶自行定義的Map函數以得到中間結果,并把這些結果寫入本地硬盤。Reduce任務從硬盤上讀取到數據以后,根據key值進行排序,并把具有相同key的數據組織在一起。最后,用戶自定義的Reduce函數會作用于這些排好序的結果并輸出最終結果。MapReduce的核心設計思想有兩點。第一點是將問題分而治之,把待處理的數據分成多個模塊分別交給多個Map任務去并發處理。第二點是把計算推到數據而不是推到計算,從而有效地避免數據傳輸過程中產生的大量通信開銷。本課件是可編輯的正常PPT課件

本章的目的是對大數據技術做一個簡單的介紹,以便讀者在深入詳細的學習大數據之前,對大數據技術體系有一個系統的了解。主要從大數據處理的基本流程及涉及的相關技術,以及大數據處理的主要模式進行了介紹。本章小結PART03本課件是可編輯的正常PPT課件本章小結

本章的目的是對大數據技術做一個簡單的介紹,以便讀者在深入詳細的學習大數據之前,對大數據技術體系有一個系統的了解。主要從大數據處理的基本流程及涉及的相關技術,以及大數據處理的主要模式進行了介紹。

大數據技術作為新一代信息產業的有力的技術支持,能夠幫助人們存儲管理好大數據,并從大體量、高復雜的數據中提取價值。大數據技術是指從各種各樣類型的海量數據中快速獲取到有價值信息的技術。

大數據關鍵技術涵蓋數據采集、存儲、處理、應用等多方面的技術。大數據的處理過程可以分為大數據采集、大數據與處理、大數據存儲及管理、大數據分析及挖掘、大數據展示等環節。本章對大數據處理的基本流程和各類大數據關鍵技術進行簡單的介紹。如圖2-1為大數據的相關技術。2.3本章小結本課件是可編輯的正常PPT課件習

題PART04

本章主要從大數據處理的基本流程及涉及的相關技術,以及大數據處理的主要模式進行了介紹。本課件是可編輯的正常PPT課件習題

1、大數據處理的基本流程由哪幾個步驟組成?2、大數據處理基本流程涉及的關鍵技術有哪些?3、大數據的主要處理模式是什么?它們的區別是什么?

2.4習題本課件是可編輯的正常PPT課件感謝您的耐心觀看大數據概論及應用實踐IntroductiontoBigDataandApplicationPractice第三章

數據采集與數據預處理大數據概論及應用實踐IntroductiontoBigDataandApplicationPractice第3章

數據采集與數據預處理隨著云計算、大數據、人工智能、物聯網、5G移動通信等新一代信息技術的發展和應用,產生了海量的數據。這些數據增長速度迅速,來源廣泛,類型多樣,且有時效性,如通過網站、政務系統、辦公系統、微博等應用系統收集的數據,抖音小視頻、快手、視頻號等收集的音頻視頻數據,監控攝像頭,傳感器等技術收集的圖像,微信、Email、購物網站等收集的文本、日志相關的數據。對于這些來源廣泛且類型多樣的數據,數據缺失、數據重復、語義模糊等問題是不可避免的,通常是無法直接使用,實現數據的最大價值,這就必須要采取相應的措施解決這些問題,通過對數據做必要的清洗、集成、轉換等被稱之為“數據預處理”的過程,是對數據進行分析的第一步,也是為后續的數據挖掘和分析的奠定良好基礎。概述3.1數據采集3.2數據預處理3.3拓展實訓3.4目錄CONTENTS本章小結3.5習題3.6本課件是可編輯的正常PPT課件

數據采集(DataAcquisition,DAQ)也稱為數據獲取或數據收集,是指利用不同的設備和技術通過一系列的流程自動采集數據,并傳到存儲空間中進行分析、處理的過程。概

述PART01本課件是可編輯的正常PPT課件3.1

概述在大數據時代,數據的價值在各個行業的推廣和應用過程中已經充分顯現,數據也成為至關重要的資產。如何有效的獲取這些規模巨大、產生速度迅速、類型多的數據,即數據采集,是進行數據挖掘和分析的重要前提。數據采集(DataAcquisition,DAQ)也稱為數據獲取或數據收集,是指利用不同的設備和技術通過一系列的流程自動采集數據,并傳到存儲空間中進行分析、處理的過程。在很多情況下,即使采集的數據得到了有效的集成,也難以直接使用,主要有兩大原因,一是數據源數據的單位、類型、格式和應用要求等難以統一;二是在數據采集、傳輸、集成等一系列的步驟中難免產生錯誤。因此,在應用之前,需要對數據進行預處理,可以通過數據清洗、類型轉換、數據脫敏等操作,達到數據完整性、一致性、有效性的管理。本課件是可編輯的正常PPT課件

本節主要介紹數據采集的概念、數據采集的原則、數據采集的數據來源和數據采集的方法。數據采集PART02本課件是可編輯的正常PPT課件3.2.1

數據采集的概述數據采集,是大數據分析的前奏,是數據價值挖掘和分析的重要一環,數據價值的挖掘和分析都是建立在數據采集的基礎之上。不同的數據類型在采集時既有聯系又有區別,如表3-1所示。本課件是可編輯的正常PPT課件3.2.2數據采集的原則數據采集的原則如下:大。數據量越大其分析的價值就越大。數據量越大,越能提供準確的統計結果,減少數據量少引起的偏差,從而幫助人們發現更多的趨勢和模式,提高預測和預測精度,從而能夠該曬決策和規劃,為進一步的決策提供有利的基礎數據支撐。全。數據信息的缺失、不全面很可能導致不能得出正確的結果。比如對某本書籍銷量的分析,我們盡可能地收集信息,比如那些人群購買的,通過什么渠道購買的,所屬地區等多種類型的信息,足夠多的數據面來支撐分析需求,能夠精準的獲某一類型的信息,能夠進行精準分析,制定進一步的營銷策略。本課件是可編輯的正常PPT課件3.2.2數據采集的原則數據采集的原則如下:細。數據更重要的是能滿足分析需求,收集充分全面的屬性、維度、指標,使存儲的數據更高質量,最終實現直通、高效的數據分析。準。只有正確的信息和數據才能整理分析后得到正確的結果和結論。數據信息的正確性要求我們通過各種渠道獲取信息進行比對。時。高效性和及時性。高效性是指在采集數據時一定要有明確的目標,帶著問題去收集數據,使數據更加高效和針對性。同時,采集數據的及時性,提高了數據應用的及時性,能夠創造更大的價值。本課件是可編輯的正常PPT課件3.2.3數據采集的來源數據來源大致分為四類管理信息系統通常是指企事業單位、政府機關等組織內部的業務平臺,在業務活動中會產生大量的數據,這些數據既包括終端用戶輸入的原始數據,也包括系統二次加工處理產生的數據,與企業的經營、管理密不可分,具有極高的潛在應用價值,通常存儲于關系型數據庫中,多為結構化數據。互聯網信息系統主要是指互聯網上的各種信息系統或網絡平臺,例如電子商務系統(如淘寶商城、京東商城)、社交平臺(如新浪微博、微信)、搜索引擎(如百度)、自媒體系統(如抖音、快手)、電子政務平臺、在線醫療、在線教育以及各種POS終端、網絡支付系統等.本課件是可編輯的正常PPT課件3.2.3數據采集的來源數據來源大致分為四類物聯網信息系統主要是指通過傳感器設備或智能設備感知、監控、樊噲、控制現實世界客觀事物的信息系統,廣泛應用于智能交通、現場指揮、行業生產等場合。與互聯網系統系統相比,物聯網信息系統收集到的數據,具有如下特點:數據規模更大、數據傳輸速率更快、數據類型更加多樣化??茖W研究信息系統主要是指科學大數據,可以來自科研院所、個人觀察所得到的科學實驗數據及傳感數據。本課件是可編輯的正常PPT課件3.2.4

數據采集的方法針對四種不同的數據源,相應的采集方法也分為四類管理信息系統的數據采集方法管理信息系統的數據通常使用關系型數據庫MySQL、SQLServer和Oracle等來存儲業務數據,即數據以單行記錄或多行記錄的形式被寫入到數據庫中。隨著數據源源不斷地增加,經過長年累月的累積,積累了海量又珍貴的數據??梢越柚鶨TL工具,把分散在不同位置的系統數據,通過抽取、轉換、加載到數據倉庫中,再由特定的處理分析系統對數據進行后續的分析,滿足各種決策分析需求。對于產生的數據比如客戶數據、財務數據等保密性要求極高的數據,一般會與專業的數據技術服務商合作,使用特定的系統接口等技術手段來保護數據的完整性和私密性。本課件是可編輯的正常PPT課件3.2.4

數據采集的方法針對四種不同的數據源,相應的采集方法也分為四類互聯網信息系統的數據采集方法作為當下大數據時代最大的數據來源之一,互聯網源源不斷地產生各種數據,比如網上商城產生的數據,像商品數據、訂單數據、用戶反饋、瀏覽記錄等大量的信息,有文檔、音頻、視頻、圖片等多種類型,可以數據可以用于個性化推薦、營銷策略制定等多方面的分析與預測。互聯網上的很多數據都是動態產生的,實時性很強,一般為非結構化數據或半結構化數據。目前主要的采集方法是通過網絡爬蟲(如Nutch、Scrapy等)或者是通過某些網上提供的公開的API(如百度、新浪微博),并根據用戶需求將某些數據屬性進行抽取。而訪問日志等信息則可以使用系統日志的方法進行采集。本課件是可編輯的正常PPT課件3.2.4

數據采集的方法針對四種不同的數據源,相應的采集方法也分為四類網絡爬蟲網絡爬蟲是一種按照一定的規則,自動抽取信息的程序或腳本,又成網絡蜘蛛或網絡機器人。通過網絡爬蟲采集方法傾向于獲取盡可能多的數據,但是考慮到數據的效率和質量,關鍵在于爬蟲策略,也就是說在網絡爬蟲過程中,采取何種策略能夠保證抽取到的內容更全、速度更快、匹配度更高。常見的策略包括深度優先策略、寬度優先策略、反向鏈路書策略、大站優先策略等。本課件是可編輯的正常PPT課件3.2.4

數據采集的方法針對四種不同的數據源,相應的采集方法也分為四類API采集API定義了一個網站與另一個網站之間通信的標準語法,即便是這兩個網站的架構不同或者是實現的語言不同。通常是網站的管理者自行編寫的一種程序接口。這類接口封裝了網站的核心算法,只通過簡單調用即可實現對網站數據的請求,滿足使用者快速獲取網站的部分數據。API采集技術很大程度上受限于平臺開發者,一般免費提供API服務的網站中,通常都會限制采集時間和采集頻率,對于開放的免費數據也因為數據的安全性和私密性,不能完全放開,從而不能完全滿足用戶需求。本課件是可編輯的正常PPT課件3.2.4

數據采集的方法針對四種不同的數據源,相應的采集方法也分為四類物聯網信息系統的數據采集方法物聯網信息系統的數據主要是通過傳感器進行數據傳輸,把物理世界的信息轉化為可讀的數字信號以待出來。目前根據各行各業的特定應用,大量的傳感器設備被廣泛部署,會周期性并持續地產生海量數據。在基于傳感器技術進行采集的過程,涉及到眾多數據源的選取,同時由于受傳感器設備和通信傳輸系統的限制,采集到的數據類型差異很多、組織形式也多種多樣、量綱也差異很多,存在文本、圖片、音頻、視頻等多種不同的形式。本課件是可編輯的正常PPT課件3.2.4

數據采集的方法針對四種不同的數據源,相應的采集方法也分為四類科學研究信息系統的數據采集方法科研數據因其特殊性,數據的采集方案都是經過科研人員精心設計的,需要通過特定的儀器進行采集并傳送到數據中心進行處理。但是在不同科研領域,采用的方法也各不相同,比如輿情分析、用戶行為分析及個性化推薦、交通監管等,可采用前面介紹的爬蟲技術結合數據感知層的通用感知設備完成數據采集;而在宇宙奧秘探索、基因組研究、量子等領域,數據是需要特定的以前,比如射電望遠鏡、電子顯微鏡、LHC等。本課件是可編輯的正常PPT課件3.2.4

數據采集的方法針對四種不同的數據源,相應的采集方法也分為四類其他數據采集方法系統日志采集方法。系統日志是由系統運行產生,包含了系統的行為、狀態以及用戶和系統的交互。其含義是非常廣泛的,可以是感知層采集到的數據、計算機軟硬件系統運行的記錄、網絡監控的性能測量及流量管理等都屬于系統日志。在進行系統日志設計時,遵循以用戶/系統行為認知的原則,需要根據應用的要求選擇日志需要包含的內容,并根據內容的形式和應用方法設計有效的存取格式。例如,對于通話記錄一類的需要頻繁查詢的海量日志倉庫,可以選擇數據庫而不是文本文件,確保高效的查詢。本課件是可編輯的正常PPT課件PART03數據預處理

大數據預處理,是指對采集到的海量數據進行挖掘和分析處理前,需要先原始數據進行數據清洗、數據轉換、數據集成及數據歸約等多項工作,從而提高數據質量,盡可能滿足后續數據分析的目的,得出切實可行的結論,為客戶的應用提供有利的支撐。本課件是可編輯的正常PPT課件3.3數據預處理大數據預處理,是指對采集到的海量數據進行挖掘和分析處理前,需要先原始數據進行數據清洗、數據轉換、數據集成及數據歸約等多項工作,從而提高數據質量,盡可能滿足后續數據分析的目的,得出切實可行的結論,為客戶的應用提供有利的支撐。大數據預處理的流程如圖3-3所示。圖3-3大數據預處理流程圖本課件是可編輯的正常PPT課件3.3.1數據清洗數據質量

高質量的數據應該具備四大要素:完整性、一致性、準確性和及時性。數據的完整性主要指數據記錄和數據信息是否完整,是否存在缺失的情況。數據的一致性主要包括數據記錄的規范性和數據邏輯的一致性。數據記錄中準確性通常是指數據具有不正確的字段活不符合要求的數值。數據從產生到可以采集有一定的時間要求,在數據的刷新、修改和提取等方面的快速響應,這也是保證數據質量的一個重要方面。高質量的數據是數據應用的基礎核心,必須把握以下幾點:①制定規范的數據質量度量標準;②建立有效的數據質量監管體系;③建立完善的數據質量管理制度。高質量的數據離不開數據標準、數據分析、數據檢驗及管理制度的綜合作用。本課件是可編輯的正常PPT課件3.3.1數據清洗數據清洗的內容及方法

對于采集到的“臟數據”,分析產生的原因和存在的形式,構建數據清洗的模型和算法,利用對應的技術手段進行“清洗”把原始數據轉換成滿足數據分析或應用要求的格式,從而提高數據的質量。(1)不完整性處理

一般從三個方面進行處理,即補充缺失值、直接刪除記錄和重新采集。(2)不一致性處理可以利用數據自身與外部的聯系手動進行修車,或者通過已知屬性間的依賴關系查找違反函數依賴的值,或使用知識工程檢測違反規則的數據。本課件是可編輯的正常PPT課件不完整性處理

對于數據記錄出現缺失的情況,一般從三個方面進行處理,即補充缺失值、直接刪除記錄和重新采集。①補充缺失值

人工補充

針對缺失值非常少的情況,可以根據業務知識或經驗推測進行人工補充,但是在大數據集中通常是不可行的。

使用全局常量補充

將缺失的字段值用同一個常數、缺省值、最大值等進行替換,但是這種方式容易誤導數據分析程序出現誤差,甚至是錯誤的結論。該方法雖然簡單,但是可用性太差,不推薦使用。3.3.1數據清洗本課件是可編輯的正常PPT課件不完整性處理①補充缺失值

統計補充法統計補充法有兩種:均值不變法和標準差不變法。

均值不變法是指使用該字段的一般水平的統計數據進行補充,比如均值、中位數或眾數等。在此情況下,補充后的數據均值保持不變,從而降低了填充數據對數據整體特征的影響。例如,某一門票的平均價格是35,則可以使用這個數值來補充價格所有缺失的記錄。

標準不變法是指在確保補充前后字段的標準差保持不變的前提下,對缺失值進行補充。其數值是由字段的所有非缺失值計算而得。3.3.1數據清洗本課件是可編輯的正常PPT課件不完整性處理①補充缺失值

預測估算法

預測估算法是指有些字段的值可以根據其他同類別沒有缺失值的字段進行推斷,從而得出該字段最大可能的數值并進行填充。比如可以用身份證號碼推算出年齡,或者使用回歸、決策樹歸納、貝葉斯推理、最近鄰方法、神經網絡等方法推斷出最有可能的值,是目前主流的用于補充缺失值的方法。3.3.1數據清洗本課件是可編輯的正常PPT課件不完整性處理②刪除缺失值當數據記錄數量很多并且出現缺失值的數據記錄再整個數據中的占比比較小時,或者字段的缺失率高但字段不重要,或者字段雖然重要但沒有有效辦法進行補充,都可以直接進行刪除。這種方法盡管操作起來比較便捷,但是可能會改變數據的整體分布,對于只缺失某個字段就忽略其他的所有字段,也是對數據資源的一種浪費,因此進行此類處理時需要慎重。③重新采集對于某些字段非常重要且缺失率又比較高,又沒有有效的方法進補充時,可以嘗試通過其他的渠道重新采集獲取所需的信息。3.3.1數據清洗本課件是可編輯的正常PPT課件不一致性處理

分析不一致數據產生的根本原因,通過和原始記錄對比進行更正數據輸入的錯誤。對于數據記錄所有屬性值完全相同的,則保留一個數據對象,刪除其他重復數據;對于相似但屬性值不完全相同的數據記錄,則先確定是否代表同一對象,若是,則進行數據歸并,出來不一致的值,否則需要確定相似數據對象的區分屬性,避免意外的合并,比如同盟同性的數據記錄,需要通過身份證號碼來加以區分。此外,對于不一致性數據情況的處理,可以利用數據自身與外部的聯系手動進行修車,或者通過已知屬性間的依賴關系查找違反函數依賴的值,或使用知識工程檢測違反規則的數據。3.3.1數據清洗本課件是可編輯的正常PPT課件不準確性處理不準確性數據產生的原因有很多,針對不同的原因采取對應的策略,我們可以采用不完整性和不一致性的某些處理方法。這里我們重點介紹對噪聲數據的預處理。噪聲數據是由于隨機錯誤或者偏差等多種原因,造成的錯誤或異常的數據。對于這些噪聲數據需要進行平滑處理,常用的方法有分箱法、回歸法、聚類以及人機交互檢測法等。①分箱法

分箱法是通過考察鄰近的數據來對有序數據進行平滑處理的方法。它將有序的數據等寬或等深分配到一系列箱中,然后考察箱子中相鄰數據的值進而實現數據的平滑。

通常來說,寬度越大,平滑效果越明顯。3.3.1數據清洗本課件是可編輯的正常PPT課件不準確性處理

②回歸法

回歸法是采用構造擬合函數,利用一個(或一組)變量值來預測另一個變量值,根據實際值和預測值的偏離情況識別出噪聲數據,然后將得到的預測值替換數據中引起噪聲的屬性值,從而實現噪聲數據的平滑處理。通常使用線性回歸法和非線性回歸法。其中,線性回歸是旨在找出擬合兩個變量的最佳直線,使得當已知一個變量的值時,能夠預測出另外一個變量的值。多線性回歸涉及兩個以上的變量,是線性回歸的擴展,它將數據擬合到一個多維面上。3.3.1數據清洗本課件是可編輯的正常PPT課件不準確性處理

③人機交互檢測法

人機交互檢測法是使用人與計算機交互檢查的方法來幫助發現噪聲數據。利用專分析人員的背景知識和實踐經驗,進行人工篩選或制作規則集,再由計算機自動處理,從而檢測出不符合也就邏輯的噪聲數據。當規則集設計合理,比較貼近數據集合的應用領域需求時,這種方法有助于提高數據篩選的準確率。3.3.1數據清洗本課件是可編輯的正常PPT課件3.3.1數據清洗數據清洗的注意事項

根據對數據質量的要求和數據清洗的內容及方法,在進行數據清洗時,需要注意以下事項。①數據清洗時可優先進行缺失值、異常值和數據類型轉換的操作,最后進行重復值處理。②在對缺失值、異常值進行處理時,要根據業務需求選擇恰當的處理方法。③在數據清洗之前,最重要的是了解數據存儲表的結構和發現需要處理的值,才能將數據清洗徹底。④數據量的大小也直接影響著處理方式,根據數據對結果的影響,選擇合適的處理方法。⑤對于直接導入數據表的數據,一般需要對所有列依次地進行清洗,來保證數據處理的徹底。本課件是可編輯的正常PPT課件3.3.1數據清洗數據清洗的過程

不管采用那種數據清洗的方法,數據清洗的過程大概由六個基本步驟組成。

如右圖所示。本課件是可編輯的正常PPT課件3.3.2數據集成基本概念

數據集成是將來自多個數據源的數據按照一定的規則整合成起來進行統一存儲,維護數據源整體的上數據一致,以便提升挖掘的速度和準確度。數據集成時,按照不同需求在不同數據源與集成目標之間,通過統一的數據源訪問接口,執行用戶對數據源的訪問請求,并根據一定的規則進行匹配,完成完成數據的轉換和整合,還需要消除數據冗余,并針對不同特征或數據間的關系進行關聯性分析。

如右圖所示本課件是可編輯的正常PPT課件需要解決的問題

在數據集成過程中,數據的轉換、移動等都不可避免,同時由于技術的不斷更新換代,在集成過程中難免出現一些問題,主要集中在以下幾個方面:

(1)異構性

異構性包括模式異構性和系統異構性。模式異構是指在數據源在存儲模式上的差異,比如關系模式、對象模式、文檔模式等。異構模式是指數據源所依賴的應用系統、數據庫系統以及操作系統之間的差異。因此,在進行數據集成時需要為異構數據提供統一的標識、存儲和管理,屏蔽它們之間的差異,提供統一的訪問模式。3.3.2數據集成本課件是可編輯的正常PPT課件需要解決的問題

(2)一致性和冗余

數據的一致性設計沖突數據的識別和處理,即判斷來自不同數據源的實體是否為同一實體。

冗余是數據集成中另一個常見問題。在數據集中,某個屬性(如產品總價)可能會由另一個屬性或多個屬性(產品單價和銷售數量)組成,這就導致數據挖掘需要對相同的信息進行重復處理,從而降低了工作效率。對于冗余問題,可以利用相關性分析方法來進行檢測。3.3.2數據集成本課件是可編輯的正常PPT課件需要解決的問題

(3)數據的轉換

根據不同的集成目標的需求,對于不同類型的數據,制定轉換規則,完成數據的整合、轉換成統一的數據格式。在數據集成過程中,元數據和主數據是非常重要的,通常需要主數據引用作為元數據標簽附加到非結構化數據上,在此基礎上完成多種異構數據源的集成。例如,某段視頻可能包含某家企業的信息(主數據),通過將其與企業商標、名稱等圖像進行匹配,增設標簽(元數據)從而與企業信息建立關聯。3.3.2數據集成本課件是可編輯的正常PPT課件需要解決的問題

(4)數據的遷移及協調更新

隨著用戶業務的更新,當新的應用系統替代原有的應用系統時,根據目標應用系統的數據結構需求,必須將原有應用系統的業務數據進行轉換并遷移到新的應用系統。處于統一數據集成環境中的多個應用系統,當其中某些應用系統的數據發生更新時,其他的應用系統需要及時被通知,以便及時的完成必要的數據移動。3.3.2數據集成本課件是可編輯的正常PPT課件3.3.3數據轉換通過數據清洗,原始數據中的“臟數據”被逐一清理;通過數據集成,解決了不同來源數據不一致的問題;而數據轉換,是將待處理的數據進行轉換或歸并,構成一個適合數據挖掘的形式。

數據轉換的方法有很多,常見的包括數據平滑處理、數據聚集處理、數據泛化處理、數據規范化處理、屬性構造、數據離散化處理等,通過線性或非線性的數據轉換方法講維數較高的數據壓縮成維數教授的數據,從而減少不同數據源的原始數據之間的差異,進而獲得高質量的數據,提高分析價值。本課件是可編輯的正常PPT課件3.3.3數據轉換1.數據平滑處理數據平滑處理主要是針對噪聲數據和無關數據進行的處理,也可以處理缺失數據和清洗臟數據,提高數據的信噪比。具體方法包括分箱、回歸和聚類等,這些方法也常應用于數據清洗。2.數據規范化處理數據規范化處理是數據轉換策略比較重要的一種方法。它將一個屬性取值范圍投射到一個特定范圍,以消除數值型屬性因大小不一而造成挖掘結果的偏差。規范化特別適用于分類算法,比如神經網絡的分類算法和基于距離度量的分類算法。前者有助于確保學習結果的正確性,提高學習的效率。后者有助于消除因屬性取值范圍不同兒詳細挖掘結果的公正性的情況。本課件是可編輯的正常PPT課件3.3.4數據脫敏數據脫敏是在給定的規則、策略下對敏感數據進行轉換、修改的技術,它會根據數據保護規范和脫敏策略,通過對數據中的敏感信息實時自動變形,實現對敏感信息的隱藏和保護,最大程度上解決了敏感數據在非可信環境中使用的問題。比如在涉及客戶安全數據或商業性敏感數據的情況下,在不違反系統規則的條件下,需對身份證號、手機號、銀行卡號等進行脫敏處理。數據脫敏不是必須的數據預處理的環節,可以根據需求對數據進行脫敏處理,也可以不進行脫敏處理。本課件是可編輯的正常PPT課件1.數據脫敏原則數據脫敏不僅需要執行“數據漂白”,抹去數據中的敏感內容,同時需要保持原有的數據特征、業務規則和數據關聯性,保證進行大數據分析時不會受到脫敏的影響,達成脫敏前后的數據一致性和有效性,具體如下:

(1)保持原有數據特征。數據脫敏前后必須保持原有數據特征。

(2)保持數據之間的一致性。在不同業務中,數據和數據之間具有一定的關聯性。

(3)保持業務規則的關聯性。保持數據業務規則的關聯性是指數據關聯性和業務語義等保持不變。(4)多次脫敏數據之間的數據一致性。保證數據的持續一致性和廣野業務的持續一致性。3.3.4數據脫敏本課件是可編輯的正常PPT課件2.數據脫敏方法數據脫敏方法包括以下幾種方法:(1)數據替換。用設置的固定虛構值替換真值。(2)無效化。通過對數據值的截斷、加密等方式對敏感數據進行脫敏處理,使其不再具有使用價值。數據無效化與數據替換所達成的效果基本類似。(3)隨機化。采用隨機數據值代替真值,保持替換值的隨機性以模擬樣本的真實性。(4)偏移和取整。通過隨機移位改變數據值,偏移取整在保持了數據的安全性的同時,也最大程度上保證了數據的真實性。(5)掩碼屏蔽。掩碼屏蔽是針對賬戶類數據的部分信息進行脫敏的有利方法,(6)靈活編碼。對于需要特殊脫敏規則時,可使用靈活編碼的方法。3.3.4數據脫敏本課件是可編輯的正常PPT課件

企業員工360度信息整合案例拓展實訓PART04本課件是可編輯的正常PPT課件企業員工360度信息整合案例

案例介紹:A公司是一家創新性原料型生產企業,成立于2001年,由于A公司報銷、人力、評優等系統之間沒有打通,員工入職后需要在各信息系統中填寫信息。管理層決定由人力資源部牽頭實現各系統間信息聯通,建設員工全方位信息數倉作為公司對人才管理的基本資料,用以完善員工發展制度、晉升機制、獎勵機制、招聘機制等制度,為員工制定合理的成長計劃和培養計劃。3.4

拓展實訓本課件是可編輯的正常PPT課件(一)案例實驗步驟一(數據采集)(1)創建模型參照表實3-1基礎信息表,在DMP“【數據加工廠】-【設計區】-【工廠分層】-【ODS操作數據】”路徑下新建主題域和主題,通過“創建自定義模型(全部字段需要手動定義)”的方式創建指定名稱的表。打開數據管理平臺,登錄浪潮數據管理平臺軟件。執行【數據加工廠】-【設計區】-【工廠分層】-【ODS操作數據】。依次點擊右鍵順序創建“新建ODS”、“新建主題域”、“新建主題”。主題創建后,點擊“維表”模塊,點擊“添加維表”在彈出的“請選擇一種創建方式”窗口中,選擇“創建自定義維表”。(2)數據抽取參照表實3-3原始路徑,在DMP“【數據加工廠】-【設計區】-【工廠分層】-【ODS操作數據】-【ETL轉換】”路徑下創建指定名稱的ETL轉換。3.4

拓展實訓本課件是可編輯的正常PPT課件【操作步驟】第一步,根據表實3-3信息新建分組。依次執行【數據加工廠】-【設計區】-【工廠分層】-【ODS操作數據】,選中新建的“編號+姓名”的ODS層,右鍵點擊“新建ETL轉換節點”。在新建的ETL轉換節點下,右鍵點擊“新建分組”,填寫信息保存成功,如圖實3-5、圖實3-6所示。第二步,右鍵點擊“新建ETL轉換”,根據表實3-4填寫信息,選擇組件保存成功,如圖實3-7所示。第三步,點擊“運行”,運行成功,如圖實3-8所示。第四步,選中創建的維表,查看抽取的結果,如圖實3-9、圖實3-10所示。3.4

拓展實訓本課件是可編輯的正常PPT課件(二)案例實驗步驟二(數據處理)(1)創建數據模型

參照表實3-6,在DMP“【數據加工廠】-【設計區】-【工廠分層】【DW數據倉庫】”路徑下主題,通過“創建自定義模型(全部字段需要手動定義)”方式創建指定名稱的模型?!静僮鞑襟E】第一步,執行【數據加工廠】-【數據加工廠】-【設計區】-【工廠分層】-【DW數據倉庫】,選中DW數據倉庫,右鍵點擊“新建主題域”,如圖實3-11所示。第二步,選中第一步新建的主題域,右擊“新建主題”,填寫信息保存成功,如圖實3-12所示。第三步,點擊“模型管理”模塊,點擊“添加模型”,在彈出的“請選擇一種創建方式”窗口選擇“創建自定義模型(全部字段需要手動定義)”,如圖實3-13所示。第四步,點擊“添加”,根據表實3-7員工360度信息表錄入字段名、別名、長度、精度,選擇“數據類型”“是否為空”“是否主鍵”內容,增加完成點擊“完成”,如圖實3-14所示。3.4

拓展實訓本課件是可編輯的正常PPT課件(二)案例實驗步驟二(數據處理)(2)數據抽取參照表實3-8,在DMP“【數據加工廠】-【設計區】-【工廠分層】-【DW數據倉庫】-【ETL轉換】”路徑下創建指定名稱的分組和ETL轉換?!静僮鞑襟E】第一步,執行【數據加工廠】-【數據加工廠】-【設計區】-【工廠分層】-【DW數據倉庫】,選中“DW數據倉庫”,右鍵點擊“新建ETL轉換節點”。右鍵點擊ETL轉換,選擇“新建分組”,如圖實3-15、圖實3-16所示。第二步,選中新建的分組,右擊“新建分組”,填寫信息,保存成功,如圖實3-17所示。第三步,選中新建的分組,右擊“新建ETL轉換”,如圖實3-18所示。第四步,在打開的ETL轉換界面,根據表實3-10的信息選擇組件并進行連接,點擊“保存”-“運行”,轉換日志如圖實3-19所示,處理結果如圖實3-20所示。3.4

拓展實訓本課件是可編輯的正常PPT課件本章小結PART05

本章主要介紹數據采集及數據預處理,包括數據采集來源、原則和方法,以及數據清洗、數據集成、數據轉換、數據脫敏等操作。本課件是可編輯的正常PPT課件3.5本章小結本章小結

數據采集與預處理是大數據處理基本流程的關鍵一環,直接決定了后續分析挖掘結果的質量高低。近年來,隨著新一代信息技術的蓬勃發展,人類社會產生的數據量也在指數級增長,大約每兩年翻一番。世界上每時每刻都在產生大量的數據,包括社交網絡數據、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論