




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
PAGE《大數據導論》課程教案(講稿)適用專業:計算機、軟件工程二○二一年九月第3頁《大數據導論》教案首頁課程名稱大數據導論課程編號學分3課程類型□通識課□專業基礎課□專業主干課□專業選修課任課教師職稱教學層次■本科□專科授課對象計算機/軟件系(專業)年級班教學周數15周學時總數45學時學時分配課堂講授30學時實驗實踐15學時教材名稱大數據導論教材作者李昆侖、熊婷出版社清華大學出版社出版時間2021參考資料《大數據導論》,周蘇主編,清華大學出版社,2016年《大數據導論》,孟憲偉,許桂秋主編,人民郵電出版社,2019年《大數據導論》,林子雨主編,人民郵電出版社,2020年教研室主任意見教研室主任簽字:年月日《大數據導論》教案課程名稱大數據導論授課時間第周,星期,節(年月日)課次1授課方式□理論課□實驗課□其他課時2授課題目大數據概述主要內容:本章主要從各個角度介紹大數據的相關概念,第一章節介紹了大數據的時代背景,第二章節具體介紹大數據的定義、大數據所包含的技術,第三章節介紹了大數據的結構類型以及大數據的未來發展。目的與要求:通過本次課的學習,讓學生掌握大數據的概念,理解什么是大數據,大數據包含哪些技術,通過學習讓學生掌握大數據的結構類型以及未來大數據的發展趨勢,及未來發展的主要領域。重點與難點:重點:大數據的定義、大數據所包含的技術以及大數據的結構類型。難點:大數據所包含的技術、大數據的結構類型教具(多媒體、模型、圖表等):多媒體教學,有配套的教學課件,機房實踐相結合《大數據導論》教案教學內容教學方法時間分配1.1大數據時代1.2大數據的概念1.3大數據的特征1.4發展大數據的意義多媒體教學與機房實踐相結合2個課時課堂設問:1.你是怎樣理解人類社會已經進入了大數據時代?2.用一個例子說明什么是大數據?3.分析下大數據的特點有哪些?教學內容小結:本次課主要介紹大數據與大數據時代給我們帶來的影響,通過前面的導讀案例讓學生初步理解什么是大數據,以及大數據的應用,后面詳細介紹了大數據的相關概念,大數據的結構類型以及大數據未來的發展方向。讓學生通過學習掌握大數據及大數據的相關理論知識,達到我們的教學目標。復習思考題或作業題:什么是大數據?大數據技術的意義何在?大數據的結構類型有哪些?大數據的發展前景如何?大數據的特點有哪些?大數據對我們時代的影響體現在哪些方面?教學后記(此項內容在課程結束后填寫):通過本章的學習,要求學生掌握本章所講述的一些基本概念,掌握大數據的結構類型以及未來的發展趨勢。第11頁《大數據導論》講稿第1章大數據概述1.1大數據時代近年來,伴隨著云計算、大數據、物聯網、人工智能等信息技術的快速發展和傳統產業數字化的轉型,數據量呈現幾何級增長。到2020年底,全球數據規模達40ZB。如果你對這些數字仍然感到難以把控的話,接下來一組名為“互聯網上一天”的數據可以清晰地告訴你,一天之內,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當于《時代》雜志770年的文字量),人類計量數據量的單位也從TB級別上升到PB、EB乃至ZB級別。毫無疑問,大數據時代已經來臨。從2006到在2021年,大數據在IT行業、醫療、民生、金融、學術等多個領域中炙手可熱,行業領導人也對其保持著高度的重視,關注其能夠帶來的科學價值和社會價值。第三次科學技術革命的蓬勃發展,為大數據時代的到來奠定了良好基礎。互聯網的普及、信息技術的發展、云計算的成熟、遍布的智能終端等,無時無刻不記錄著人類產生的“數據足跡”,每個人都在毫無意識地成為數據的提供者。如今的數據已經不單單是信息技術及科學研究領域人員的專有名詞,冠有量詞屬性的“大數據”早已成為一種引人注目的新思潮,成為人們認識事物、分析事物、探索新發現及追求創新的新范疇。1.2大數據的概念通過對大量文獻資料追蹤溯源,發現“大數據”這個詞出現的最早時間在1980年的美國,著名的未來學家托夫勒在其所著的《第三次浪潮》中,將大數據熱情地稱頌為“第三次浪潮的華彩樂章”。在2008年9月,《自然》雜志推出了名為“大數據”的封面專欄。2009年開始,“大數據”才成為互聯網技術行業中的熱門詞匯,被世人推崇討論。目前,盡管大數據的發展已有幾十年的時間,但仍沒有一個統一、完整、科學的定義。1.2.1狹義的大數據所謂大數據,狹義上可以定義為:用現有的一般技術難以管理的大量數據的集合。早期,很多研究機構和學者對大數據的定義的時候一般是將其作為一種輔助工具或從其體量特征來進行定義。比如,高德納(Gartner)咨詢管理公司數據分析師MervAdrian認為,大數據是一種在正常的時間和空間范圍內,常規的軟件工具難以計算、提出相關數據分析的能力。作為大數據研究討論先驅者的咨詢公司麥肯錫,2011年在其大數據的研究報告《BigData:Thenextfrontierforinnovation,competitionandproductivi-ty》中根據大數據的數據規模來對其詮釋,它給出的定義是:大數據指的是規模已經超出了傳統的數據庫軟件工具收集、存儲、管理和分析能力的數據集。需要指出的是,麥肯錫在其報告中同時強調,大數據并不能音譯為超過某一個特定的數字,還是超過某一個特定的數據容量才能名義為大數據,大數據隨著技術的不斷進步,其數據集容量也會不斷的增長,行業的不同也會使大數據的定義而不同。電子商務行業的巨人亞馬遜的專業大數據專家JohnRauser對大數據的定義:大數據,指的是超過了一臺計算機的設備、軟件等處理能力的數據規模、資料信息海量的數據集。總的來說,對大數據的狹義理解,研究者大多從微觀的視角出發,將大數據理解為當前的技術環境難以處理的一種數據集;而從宏觀方面進行定義的,目前則還沒有提出一種可量化的內涵理解,但多數都提出了對于大數據的宏觀理解概念,需要保持著其在不同行業領域是不斷更新、可持續發展的觀念。1.2.2廣義的大數據廣義的大數據定義,主要是以對大數據進行分析管理,挖掘數據背后所蘊含的巨大價值為視角,給出大數據的概念。比如,維基百科對大數據給出的定義是:巨量數據,或稱為大數據、大資料,指的是所涉及的數據量規模巨大到無法通過當前的技術軟件和工具在一定的時間內進行截取、管理、處理,并整理成為需求者所需要的信息進行決策。被譽為“大數據時代的語言家”的維克托·邁爾-舍恩伯格、肯尼思·庫克耶在其專著《大數據時代:生活、工作與思維的大變革》中對大數據的定義為:大數據是人們獲得新的認知、創造新的價值源泉;大數據還未改變市場、組織機構,以及政府與公民關系服務。他還認為大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模的數據基礎上是無法完成的。IBM組織對于大數據的定義則是從大數據的特征進行詮釋,它認為大數據具有3V特征,即:數據量(Volume)、種類(Variety)和速度(Velocity),故大數據是指具有容量難以估計、種類難以計數且增長速度非常快的數據。國際數據公司(IDC)則在IBM的基礎上,根據自己的研究,將3V發展為4V,其認為大數據具有四方面的特征:數據規模巨大(Volume)、數據的類型多種多樣(Variety)、數據的體系紛繁復雜(Velocity)、數據的價值難以估測(Value)。所以IDC對大數據的定義為:大數據,指的是具有規模海量、類型多樣、體系紛繁復雜并且需要超出典型的數據庫軟件進行管理且能夠給使用者帶來巨大價值的數據集。通過對關于大數據的定義進行梳理可以發現,大多研究機構和學者對大數據的定義的普遍從數據的規模量,以及對于數據的處理方式來進行定義的,且其數據的定義也多是從自身的研究視角出發,因此對于大數據的定義可謂是仁者見仁智者見智。本書在參照了學術領域及各個研究機構和行業的基礎上,將大數據定義為:大數據是指在信息爆炸時代所產生的巨量數據或海量數據,并由此引發的一系列技術及認知觀念的變革。它不僅僅是一種數據分析、管理以及處理方式,也是一種知識發現的邏輯,通過將事物量化成數據,對事物進行數據化研究分析。大數據的客觀性、可靠性,既是一種認識事物的新途徑,又是一種創新發現的新方法。1.3大數據的特征要確保數據的可用性,就要分析大數據的數據特征。當前,以IDC的4V特征(規模性(Volume)、多樣性(Variety)、高速性(Velocity)、價值密度低(Value))四個方面來理解,大數據的特征表現為數據規模大(數據存儲量大和增量大)、數據的種類多(數據來源多,數據格式多)、數據處理與流動速度快以及數據的價值密度低,因此,只有具備這些特征的數據才是大數據。從字面來看,“大數據”這個詞可能會讓人覺得只是容量非常大的數據集合而已。但容量只不過是大數據特征的一個方面,如果只拘泥于數據量,就無法深入理解當前圍繞大數據所進行的討論。因為“用現有的一般技術難以管理”這樣的狀況,并不僅僅是由于數據量增大這一個因素所造成的。IBM說:“可以用3個特征相結合來定義大數據:數量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡單的3V,即龐大容量、極快速度和種類豐富的數據。”如下圖所示。按數量、種類和速度來定義大數據如圖所示。1)Volume(數量)用現有技術無法管理的數據量,從現狀來看,基本上是指從幾十TB到幾PB這樣的數量級。當然,隨著技術的進步,這個數值也會不斷變化。如今,存儲的數據數量正在急劇增長中,我們存儲所有事物,包括:環境數據、財務數據、醫療數據、監控數據等。有關數據量的對話已從TB級別轉向PB級別,并且不可避免地會轉向ZB級別。可是,隨著可供企業使用的數據量不斷增長,可處理、理解和分析的數據的比例卻不斷下降。2)Variety(種類、多樣性)隨著傳感器、智能設備以及社交協作技術的激增,企業中的數據也變得更加復雜,因為它不僅包含傳統的關系型數據,還包含來自網頁、互聯網日志文件(包括單擊流數據)、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統的傳感器數據等原始、半結構化和非結構化數據。種類表示所有的數據類型。其中,爆發式增長的一些數據,如互聯網上的文本數據、位置信息、傳感器數據、視頻等,用企業中主流的關系型數據庫是很難存儲的,它們都屬于非結構化數據。當然,在這些數據中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數據進行分析,并從中獲得有用的信息。例如監控攝像機中的視頻數據。近年來,超市、便利店等零售企業幾乎都配備了監控攝像機,最初目的是為了防范盜竊,但現在也出現了使用監控攝像機的視頻數據來分析顧客購買行為的案例。例如,美國高級文具制造商萬寶龍(Montblane)過去是憑經驗和直覺來決定商品陳列布局的,現在嘗試利用監控攝像頭對顧客在店內的行為進行分析。通過分析監控攝像機的數據,將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。美國移動運營商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監控攝像機,可以統計來店人數,還可以追蹤顧客在店內的行動路線、在展臺前停留的時間,甚至是試用了哪一款手機、試用了多長時間等,對顧客在店內的購買行為進行分析。3)Velocity(速度)數據產生和更新的頻率,也是衡量大數據的一個重要特征。就像我們收集和存儲的數據量和種類發生了變化一樣,生成和需要處理數據的速度也在變化。不要將速度的概念限定為與數據存儲相關的增長速率,應動態地將此定義應用到數據,即數據流動的速度。有效處理大數據需要在數據變化的過程中對它的數量和種類執行分析,而不只是在它靜止后執行分析。例如,遍布全國的便利店在24小時內產生的POS機數據,電商網站中由用戶訪問所產生的網站點擊流數據,高峰時達到每秒近萬條的微信短文,全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結冰、積雪等路面狀態)等,每天都在產生著龐大的數據。IBM在3V的基礎上又歸納總結了第四個V一一Veracity(真實和準確)。“只有真實而準確的數據才能讓對數據的管控和治理真正有意義。隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限性被打破,企業愈發需要有效的信息治理以確保其真實性及安全性。”IDC(互聯網數據中心)說:“大數據是一個貌似不知道從哪里冒出來的大的動力。但是實際上,大數據并不是新生事物。然而,它確實正在進入主流,并得到重大關注,這是有原因的。廉價的存儲、傳感器和數據采集技術的快速發展、通過云和虛擬化存儲設施增加的信息鏈路,以及創新軟件和分析工具,正在驅動著大數據。大數據不是一個‘事物’,而是一個跨多個信息技術領域的動力/活動。大數據技術描述了新一代的技術和架構,其被設計用于:通過使用高速(Velocity)的采集、發現和/或分析,從超大容量(Volume)的多樣(Variety)數據中經濟地提取價值(Value)。”這個定義除了揭示大數據傳統的3V基本特征,即Volume(大數據量)、Variety(多樣性)和Velocity(高速),還增添了一個新特征:Value(價值)。大數據實現的主要價值可以基于下面3個評價準則中的1個或多個進行評判:它提供了更有用的信息嗎?它改進了信息的精確性嗎?它改進了響應的及時性嗎?總之,大數據是個動態的定義,不同行業根據其應用的不同有著不同的理解,其衡量標準也在隨著技術的進步而改變。1.4發展大數據的意義大數據作為一場科學技術又一次的飛躍,是在繼互聯網、云計算后的技術變革,其發展和應用,必將對社會的組織結構、國家的治理模式、企業的決策架構、商業的業務策略以及個人的生活方式等產生深遠的影響。盡管未來的時代充滿了變數,但有一點可以預測,即大數據對大數據應用行業的發展具有長遠性的重要作用。從全球范圍內目前大數據的發展的市場規模及其市場細分領域的行業現狀來看,大數據逐步從概念研究進入了實際應用的轉型時期,各國政府無一不加大該領域的扶持力度,爭取占據戰略領導高地。經濟新常態下,我國工業化與信息化逐步進入轉型升級的發展快車道。中央與地方政府對大數據從學術領域到產業發展都高度重視。黨的“十三五”時期發展綱要中明確提出要拓展網絡經濟空間,實施“互聯網+”行動計劃,發展物聯網技術和應用,發展分享經濟,促進互聯網和經濟社會融合發展。實施國家大數據戰略,推進數據資源開放共享的要求。此外,2015年國務院發布的《促進大數據發展行動綱要》(國發〔2015〕50號)文件中也明確提出要“建立標準規范體系,推進大數據產業標準體系建設,加快建立政府部門、事業單位等公共機構的數據標準和統計標準體系,推進數據采集、政府數據開放、指標口徑、分類目錄、交換接口、訪問接口、數據質量、數據交易、技術產品、安全保密等關鍵共性標準的制定和實施。加快建立大數據市場交易標準體系。開展標準驗證和應用試點示范,建立標準符合性評估體系,充分發揮標準在培育服務市場、提升服務能力、支撐行業管理等方面的作用。積極參與相關國際標準制定工作”的相關要求。從我國近些年發展大數據的態勢來看,在地域分布方面,京津冀地區大數據的產業鏈條逐步健全,產業集聚效應開始大放異彩;在長三角地區,大數據的技術產業發展如火如荼,智慧城市、云計算等支撐力量異軍突起。國家近幾年連續出臺大數據發展政策支持意見,提出將大數據作為重點扶持的新支柱產業,各省市積極開展大數據戰略合作,積極引進大數據企業、互聯網巨頭等措施。大數據發展強勢態勢端倪顯現,其發展意義也不再局限于大眾所津津樂道的“啤酒和尿布”案例,通過數據挖掘、實現精準營銷的方面。
《大數據導論》教案課程名稱大數據導論授課時間第周,星期,節(年月日)課次2授課方式□理論課□實驗課□其他課時3授課題目大數據時代的思維變革主要內容:本次課主要介紹大數據時代的大挑戰、大數據時代的三個轉變:(1)樣本=總體,(2)接受數據的混雜性,(3)數據的相關關系。具體還講述了小數據時代的隨機采樣,大數據的簡單算法與小數據的復雜算法以及新的數據庫的設計原則。目的與要求:通過本次課的學習,使學生掌握大數據時代的三個大轉變,數據之間的相關關系,新的數據庫的設計原則,了解小數據時代的隨機采樣方法,大數據的簡單算法與小數據的復雜算法,關聯物在預測中的作用以及如何通過因果關系了解世界。重點與難點:重點:大數據時代的三個大轉變,數據之間的相關關系,新的數據庫的設計原則,大數據的簡單算法與小數據的復雜算法。難點:數據庫的設計原則教具(多媒體、模型、圖表等):多媒體教學,有配套的教學課件,機房實踐相結合《大數據導論》教案教學內容教學方法時間分配2.1大數據及其本質2.2大數據與認識論2.3大數據時代的三大轉變2.4數據將成為一種競爭優勢多媒體教學與機房實踐相結合3個課時課堂設問:亞馬遜圖書推薦系統成功的基礎是什么?大數據時代人們分析信息、理解世界的三大轉變是什么?你怎么理解“相關關系”和“因果關系”?教學內容小結:本章主要學習了大數據時代的三個大轉變,新的數據庫的設計原則以及數據之間的相關關系,通過學習了解小數據時代的隨機采樣方法,了解為什么要樂于接受數據的混雜性,了解了關聯物在預測中的作用以及如何通過因果關系了解世界。復習思考題或作業題:為什么說大數據時代要接受數據的混雜性?簡述大數據時代,為什么要“分析與某事物相關的所有數據,而不是依靠分析少量的樣本數據”?什么是數據的因果關系?什么是數據的相關關系?教學后記(此項內容在課程結束后填寫):本次課詳細講述了大數據時代的三個大轉變,新的數據庫的設計原則以及數據之間的相關關系,通過學習了解數據的因果關系和數據的相關關系等內容。讓學生加深對大數據時代商業規則的理解。第20頁《大數據導論》講稿第2章大數據時代的思維變革【導讀案例】亞馬遜公司的“人與鼠標的戰爭”雖然亞馬遜的故事大多數人都耳熟能詳,但只有少數人知道它早期的書評內容最初是由人工完成的。當時,它聘請了一個由20多名書評家和編輯組成的團隊,他們寫書評、推薦新書,挑選非常有特色的新書標題放在亞馬遜的網頁上。這個團隊創立了“亞馬遜的聲音”這個版塊,成為當時公司皇冠上的一顆寶石,是其競爭優勢的重要來源。亞馬遜公司的創始人及總裁杰夫貝索斯決定嘗試一個極富創造力的想法:根據客戶個人以前的購物喜好,為其推薦相關的書籍。從一開始,亞馬遜就從每一個客戶那里收集了大量的數據。比如說,他們購買了什么書籍?哪些書他們只瀏覽卻沒有購買?他們瀏覽了多久?哪些書是他們一起購買的?客戶的信息數據量非常大,所以亞馬遜必須先用傳統的方法對其進行處理,通過樣本分析找到客戶之間的相似性。但這些推薦信息是非常原始的。亞馬遜的格雷格?林登很快就找到了一個解決方案。他意識到,推薦系統實際上并沒有必要把顧客與其他顧客進行對比,它需要做的是找到產品之間的關聯性。1998年,林登和他的同事申請了著名的“item-to-item”協同過濾技術的專利。方法的轉變使技術發生了翻天覆地的變化。因為估算可以提前進行,所以推薦系統不僅快,而且適用于各種各樣的產品。因此,當亞馬遜跨界銷售除書以外的其他商品時,也可以對電影或烤面包機這些產品進行推薦。由于系統中使用了所有的數據,推薦會更理想。林登做了一個關于評論家所創造的銷售業績和計算機生成內容所產生的銷售業績的對比測試,結果他發現通過數據推薦產品所增加的銷售遠遠超過書評家的貢獻。如今,據說亞馬遜銷售額的三分之一都來自于它的個性化推薦系統。有了它,亞馬遜不僅使很多大型書店和音樂唱片商店歇業,而且當地數百個自認為有自己風格的書商也難免受轉型之風的影響。2.1大數據及其本質在大數據時代,數據的本體論思想被提升到一種前所未有的高度。大數據哲學思想認為:數據不僅僅是一種衡量事物特征的符號和工具,而是世界的本源,世間的萬事萬物及其關系都可以用數來表示,用數據來量化一切。大數據時代的預言家舍恩伯格提出“有了大數據的幫助,人們不會再將世界看作是一連串人們認為或是自然或是社會現象的事件,人們會意識到本質上世界是由信息構成的。”惠勒也提出了“萬物源于比特”的主張,這里的比特是一種基本粒子。它是一個抽象的二進制數字,因此在哲學思想的范圍內。用以標識大數據,但并不是數據的規模,而是數據的本體論對傳統本體論的一種批判,是對傳統本體論的一種變革。“萬物皆數”是大數據時代哲學領域本體論的基本主張。自數據被提升到本體論的高度后,人們也開始思考數據的本質問題,何為數據的本質?不同的哲學分支領域對此做出了不同的回答。學者們一致認為,數據作為一種信息表達方式,與物質的根本屬性相同。2.2大數據與認識論人類的知識是隨著時代的進步而不斷更新的。過去由于認識技術和數據處理供給的現實,人們大多采取“化整為零”的方式,將研究的現象進行分割,通過研究各部分個體,進而找出事物發展的規律。在大數據時代下,通過大數據挖掘所產生的新興的“大數據歸納法”,通過云計算等數據挖掘技術讓“數據發聲”,來探尋事物發展的規律和價值信息,利用新的數據規律對傳統的因果規律進行補充等,對人們傳統認識事物的方式發生了重大的變革。在數字化時代,數據處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數據。而“大數據”全在于發現和理解信息內容及信息與信息之間的關系。所以,在大數據時代,需要新的思維模式,人們的認識和思維也要隨著時代的改變而改變。2.3大數據時代的三大轉變在數字化時代,數據處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數據。而“大數據”全在于發現和理解信息內容及信息與信息之間的關系。實際上,大數據的精髓在于我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法,這三個轉變是相互聯系和相互作用的。第一個轉變就是,在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再是只依賴于隨機采樣。與局限在小數據范圍相比,使用一切數據為我們帶來了更高的精確性,也讓我們看到了一些以前無法發現的細節—大數據讓我們更清楚地看到了樣本無法揭示的細節信息。第二個轉變就是,研究數據如此之多,以至于我們不再熱衷于追求精確度。當我們測量事物的能力受限時,關注最重要的事情和獲取最精確的結果是可取的。這種思維方式適用于掌握“小數據量”的情況,因為需要分析的數據很少,所以我們必須盡可能精準地量化我們的記錄。但是,在這個大數據時代,很多時候,追求精確度已經變得不可行,甚至不受歡迎了。當我們擁有海量即時數據時,絕對的精準不再是我們追求的主要目標。擁有了大數據,我們不再需要對一個現象刨根究底,只要掌握大體的發展方向即可。當然,我們也不是完全放棄了精確度,只是不再沉迷于此。適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。第三個轉變即我們不再熱衷于尋找因果關系。這是因前兩個轉變而促成的。在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系,這會給我們提供非常新穎且有價值的觀點。相關關系也許不能準確地告知我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。在許多情況下,這種提醒的幫助已經足夠大了。2.3.1大數據時代的全數據模式大數據時代的第一個轉變,是要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。很長以來,因為記錄、儲存和分析數據的工具不夠好,為了讓分析變得簡單,人們會把數據量縮減到最少,人們依據少量數據進行分析,而準確分析大量數據一直都是一種挑戰。如今,信息技術的條件已經有了非常大的提高,雖然人類可以處理的數據依然是有限的,但是可以處理的數據量已經大大地增加,而且未來會越來越多。分析問題時是利用所有的數據還是僅僅采用一部分呢?最明智的自然是得到有關被分析事物的所有數據,但是當數量無比龐大時,這又不太現實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當的方法。1934年,波蘭統計學家耶日·奈曼指出,這只會導致更多更大的漏洞。統計學家們證明:采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數量的增加關系不大。雖然聽起來很不可思議,但事實上,研究表明,當樣本數量達到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經濟學中的邊際效應遞減一樣。在商業領域,隨機采樣被用來監管商品質量。這使得監管商品質量和提升商品品質變得更容易,花費也更少。以前,全面的質量監管要求對生產出來的每個產品進行檢查,而現在只需從一批商品中隨機抽取部分樣品進行檢查就可以了。本質上來說,隨機采樣讓大數據問題變得更加切實可行。同理,它將客戶調查引進了零售行業,將焦點討論引進了政治界,也將許多人文問題變成了社會科學問題。隨機采樣取得了巨大的成功,成為現代社會、現代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機性,但是實現采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。更糟糕的是,隨機采樣不適合考察子類別的情況。因為一旦繼續細分,隨機采樣結果的錯誤率會大大增加。因此,當人們想了解更深層次的細分領域的情況時,隨機采樣的方法就不可取了。在宏觀領域起作用的方法在微觀領域失去了作用。隨機采樣就像是模擬照片打印,遠看很不錯,但是一旦聚焦某個點,就會變得模糊不清。隨機采樣也需要嚴密的安排和執行。人們只能從采樣數據中得出事先設計好的問題的結果。所以雖說隨機采樣是一條捷徑,但它并不適用于一切情況。采樣的目的是用最少的數據得到最多的信息,而當我們可以獲得海量數據的時候,它就沒有什么意義了。如今,計算和制表不再像過去一樣困難。感應器、手機導航、網站點擊和微信等被動地收集了大量數據,而計算機可以輕易地對這些數據進行處理。但是,數據處理技術己經發生了翻天覆地的改變,但我們的方法和思維卻沒有跟上這種改變。采樣忽視細節考察的缺陷現在越來越難以被忽視了。在很多領域,從收集部分數據到收集盡可能多的數據的轉變已經發生了。如果可能的話,我們會收集所有的數據,即“樣本=總體”。“樣本=總體”是指我們能對數據進行深度探討。用采樣的方法分析情況,正確率可達97%。對于某些事物來說,3%的錯誤率是可以接受的。但是你無法得到一些微觀細節的信息,甚至還會失去對某些特定子類別進行進一步研究的能力。生活中有很多事情經常藏匿在細節之中,而采樣分析法卻無法捕捉到這些細節。2.3.2接受數據的混雜性大數據時代的第二個轉變,是我們樂于接受數據的紛繁復雜,而不再一味追求其精確性。在越來越多的情況下,使用所有可獲取的數據變得更為可能,但為此也要付出一定的代價。數據量的大幅增加會造成結果的不準確,與此同時,一些錯誤的數據也會混進數據庫。然而,重點是我們能夠努力避免這些問題。我們從不認為這些問題是無法避免的,而且也正在學會接受它們。對“小數據”而言,最基本、最重要的要求就是減少錯誤,保證質量。因為收集的信息量比較少,所以我們必須確保記錄下來的數據盡量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小,為了使結果更加準確,很多科學家都致力于優化測量的工具。在采樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。然而,在不斷涌現的新情況里,允許不精確的出現已經成為一個亮點,而非缺點。因為放松了容錯的標準,人們掌握的數據也多了起來,還可以利用這些數據做更多新的事情。這樣就不是大量數據優于少量數據那么簡單了,而是大量數據創造了更好的結果。“大數據”通常用概率說話。我們可以在大量數據對計算機其他領域進步的重要性上看到類似的變化。我們都知道,如摩爾定律所預測的,過去一段時間里計算機的數據處理能力得到了很大的提高。摩爾定律認為,每塊芯片上晶體管的數量每兩年就會翻一倍。這使得電腦運行更快速了,存儲空間更大了。大數據時代要求我們重新審視數據精確性的優劣。如果將傳統的思維模式運用于數字化、網絡化的21世紀,就有可能錯過重要的信息。如今,我們已經生活在信息時代。我們掌握的數據庫越來越全面,它包括了與這些現象相關的大量甚至全部數據。我們不再需要那么擔心某個數據點對整套分析的不利影響。我們要做的就是要接受這些紛繁的數據并從中受益,而不是以高昂的代價消除所有的不確定性。有時候,當我們掌握了大量新型數據時,精確性就不那么重要了,我們同樣可以掌握事情的發展趨勢。大數據不僅讓我們不再期待精確性,也讓我們無法實現精確性。然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。互聯網上最火的網址都表明,它們欣賞不精確而不會假裝精確。當一個人在網站上見到一個Facebook的“喜歡”按鈕時,可以看到有多少其他人也在點擊。當數量不多時,會顯示像“63”這種精確的數字。當數量很大時,則只會顯示近似值,比方說“4000”。這并不代表系統不知道正確的數據是多少,只是當數量規模變大的時候,確切的數量已經不那么重要了。如今,要想獲得大規模數據帶來的好處,混亂應該是一種標準途徑,而不應該是竭力避免的。傳統的關系數據庫是為小數據的時代設計的,所以能夠也需要仔細策劃。(在那個時代,人們遇到的問題無比清晰,數據庫被設計用來有效地回答這些問題。)傳統的數據庫引擎要求數據高度精確和準確排列。數據不是單純地被存儲,它往往被劃分為包含“域”(字段)的記錄,每個域都包含了特定種類和特定長度的信息。預設場域顯示的是數據的整齊排列。最普遍的數據庫查詢語言是結構化查詢語言(SQL)。但是,這種數據存儲和分析的方法越來越和現實相沖突。我們發現,不精確已經開始滲入數據庫設計這個最不能容忍錯誤的領域。我們現在擁有各種各樣、參差不齊的海量數據。很少有數據完全符合預先設定的數據種類。而且,我們想要數據回答的問題,也只有在我們收集和處理數據的過程中才全知道。這些現實條件導致了新的數據庫設計的誕生。據估計,只有5%的數字數據是結構化的且能適用于傳統數據庫。如果不接受混亂,剩下95%的非結構化數據都無法被利用,比如網頁和視頻資源。通過接受不精確性,我們打開了一個從未涉足的世界的窗戶。我們怎么看待使用所有數據和使用部分數據的差別,以及我們怎樣選擇放松要求并取代嚴格的精確性,將會對我們與世界的溝通產生深刻的影響。隨著大數據技術成為日常生活中的一部分,我們應該開始從一個比以前更大更全面的角度來理解事物,也就是說應該將“樣本=總體”植入我們的思維中。2.3.3突出數據的相關性而不是因果性在傳統觀念下,人們總是致力于找到一切事情發生背后的原因。然而在很多時候,尋找數據間的關聯并利用這種關聯就足夠了。這些思想上的重大轉變導致了第三個變革,我們嘗試著不再探求難以捉摸的因果關系,轉而關注事物的相關關系。相關關系通過識別有用的關聯物來幫助我們分析一個現象,而不是通過揭示其內部的運作機制。當然,即使是很強的相關關系也不一定能解釋每一種情況,比如兩個事物看上去行為相似,但很有可能只是巧合。相關關系沒有絕對,只有可能性。也就是說,不是亞馬遜推薦的每本書都是顧客想買的書。但是,如果相關關系強,一個相關鏈接成功的概率是很高的。通過找到一個現象的良好的關聯物,相關關系可以幫助我們捕捉現在和預測未來。如果A和B經常一起發生,我們只需要注意到B發生了.就可以預測A也發生了。這有助于我們捕捉可能和A一起發生的事情,即使我們不能直接測量或觀察到A。更重要的是,它還可以幫助我們預測未來可能發生什么。當然,相關關系是無法預知未來的,他們只能預測可能發生的事情。但是,這已經極其珍貴了。在小數據時代,相關關系分析和因果分析都不容易,耗費巨大,都要從建立假設開始,然后進行實驗——這個假設要么被證實要么被推翻。但是,由于兩者都始于假設,這些分析就都有受偏見影響的可能,極易導致錯誤。與此同時,用來做相關關系分析的數據很難得到。另一方面,在小數據時代,由于計算機能力的不足,大部分相關關系分析僅限于尋求線性關系。而事實上,實際情況遠比我們所想象的要復雜。經過復雜的分析,我們能夠發現數據的“非線性關系”。大數據時代,專家們正在研發能發現并對比分析非線性關系的技術工具。一系列飛速發展的新技術和新軟件也從多方面提高了相關關系分析工具發現非因果關系的能力。這些新的分析工具和思路為我們展現了一系列新的視野被有用的預測,我們看到了很多以前不曾注意到的聯系,還掌握了以前無法理解的復雜技術和社會動態。但最重要的是,通過去探求“是什么”而不是“為什么”,相關關系幫助我們更好地了解了這個世界。傳統情況下,人類是通過因果關系了解世界的。首先,我們的直接愿望就是了解因果關系。即使無因果聯系存在,我們也還是會假定其存在。研究證明,這只是我們的認知方式,與每個人的文化背景、生長環境以及教育水平無關。當我們看到兩件事情接連發生的封候,我們會習慣性地從因果關系的角度來看待它們。卡尼曼指出,平時生活中,由于惰性,我們很少慢條斯理地思考問題,所以快速思維模式就占據了上風。因此,我們會經常臆想出一些因果關系,最終導致了對世界的錯誤理解。父母經常告訴孩子,天冷時不戴帽子和手套就會感冒。然而,事實上,感冒和穿戴之間卻沒有直接的聯系。有時,我們在某個餐館用餐后生病了的話,我們就會自然而然地覺得這是餐館食物的問題,以后可能就不再去這家餐館了。事實上,我們肚子痛也許是因為其他的傳染途徑。2.4將數據變成一種競爭優勢數十年來,人們對“信息技術”的關注一直偏重其中的“技術”部分,首席信息官(CIO)的職責就是購買和管理服務器、存儲設備和網絡。而如今,信息以及對信息的分析、存儲和預測的能力,正成為一種競爭優勢。大數據將“信息技術”的焦點從“技術”轉變為“信息”,如圖2-2所示。圖2-2大數據將“信息技術”的焦點從“技術”轉變為“信息”過去20年是信息技術的時代,接下來的20年的主題仍會是信息技術。哪些企業能夠更快地處理數據,他們就能夠遠遠超越競爭對手。正如“大數據創新空間曲線”的創始人和首席技術官安德魯?羅杰斯所言,“你分析數據的速度越快,它的預測價值就越大”。企業如今正在漸漸遠離批量處理數據的方式(即先存儲數據,之后再慢慢進行分析處理)而轉向實時分析數據來獲取競爭優勢。對于高管們而言,好消息是:來自大數據的信息優勢不再只屬于谷歌、亞馬遜之類的大企業。Hadoop之類的開源技術讓其他企業可以擁有同樣的優勢。無論是老牌財富100強企業還是新興初創公司,都能夠以合理的價格利用大數據來獲得競爭優勢。《大數據導論》教案課程名稱大數據導論授課時間第周,星期,節(年月日)課次3授課方式□理論課□實驗課□其他課時6授課題目大數據的采集與存儲主要內容:本次課主要介紹大數據的采集與大數據的存儲技術,采集方法:(1)系統日志的采集方法,(2)網頁數據的采集方法,(3)其他數據采集方法。具體還講述大數據的存儲管理系統,包括文件系統、分布式文件系統、數據庫系統以及云存儲。目的與要求:通過本次課的學習,使學生掌握大數據的相關采集方法和大數據的存儲技術,熟悉大數據的各種采集方法的具體應用,了解各種大數據存儲管理系統,掌握云存儲的概念,云存儲的體系架構以及相關技術。重點與難點:重點:大數據采集方法和大數據的存儲技術,大數據存儲管理系統,云存儲的概念,體系架構以及相關技術。難點:大數據存儲管理系統,云存儲的體系架構和相關技術。教具(多媒體、模型、圖表等):多媒體教學,有配套的教學課件,機房實踐相結合《大數據導論》教案教學內容教學方法時間分配3.1數據的概念和分類3.2大數據環境下的數據來源3.3常用的數據采集方法3.4大數據時代的存儲管理系統多媒體教學與機房實踐相結合6個課時課堂設問:1.大數據的來源有哪些?2.簡述常用的數據采集方法?3.非關系型存儲系統有哪些,它們的特點是什么?教學內容小結:本章主要學習了大數據的采集與大數據的存儲技術,具體的采集方法包括:(1)系統日志的采集方法,(2)網頁數據的采集方法,(3)其他數據采集方法。具體還講述大數據的存儲管理系統,包括文件系統、分布式文件系統、數據庫系統以及云存儲。復習思考題或作業題:請具體描述云存儲系統的結構模型。云存儲服務系統的應用有哪些分類?并列舉一些應用。簡述云存儲的特性。教學后記(此項內容在課程結束后填寫):本次課詳細講述了大數據大數據的采集與大數據的存儲技術,大數據的存儲管理系統,包括文件系統、分布式文件系統、數據庫系統以及云存儲。通過學習了解數據的采集與存儲等內容。讓學生加深對大數據相關技術的了解。第33頁《大數據導論》講稿第3章大數據的采集與存儲3.1數據的概念和分類人們無時無刻不在產生著各種各樣的數據。當你在電腦前打開搜索引擎,搜索自己想看的電影的時候,你在產生搜索數據;當你在醫院里就診,醫生給你開出處方的時候,你在產生醫療數據;當你閱讀一本書,遇到精彩的地方情不自禁地把精彩段落摘抄下來的時候,你在產生閱讀數據。與此同時,在現今的互聯網時代,人們時刻也在消費著周圍的人或事物提供給人們的數據。數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合,是可識別的、抽象的符號。數據和信息是兩個不同的概念,信息是較為宏觀的概念,它由數據的有序排列組合而成,傳達給讀者某個概念方法等,而數據則是構成信息的基本單位,離散的數據沒有任何實用價值。在大數據時代,數據也被人們稱為“未來的石油”。大數據的主要數據類型包括結構化、半結構化和非結構化數據,如圖3-2所示,非結構化數據越來越成為大數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年約增長60%。在以云計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始很容易地被利用起來。在各行各業的不斷創新下,大數據會逐步為人類創造更多的價值。圖3-2大數據的主要數據類型3.2大數據環境下的數據來源隨著傳感器、智能穿戴和社交技術的飛速發展,數據的組織形式變得越來越復雜、除了包含傳統的關系型數據庫中的數據之外,大數據的數據格式還包括非結構化的社交網絡數據、監控產生的視頻音頻數據、傳感器數據、交通數據、互聯網文本數據等各種復雜的數據。3.2.1傳統商業數據傳統的商業數據結構相對比較簡單,以結構化數據為主,數據主要來源于企業ERP系統、各種POS終端及網上支付系統等業務系統的數據,傳統商業是主要的數據來源。世界上最大的零售商沃爾瑪公司每小時收集到2.5PB數據,存儲的數據量是美國國會圖書館的167倍。沃爾瑪公司詳細記錄了消費者的購買清單、消費額、購買日期、購買當天天氣和氣溫,通過對消費者的購物行為等結構化數據進行分析,發現商品關聯,并優化商品陳列。沃爾瑪公司不僅采集這些傳統商業數據,還將數據采集的觸角伸入社交網絡。當用戶在社交網絡上談論某些產品或者表達某些喜好時,這些數據都會被沃爾瑪公司記錄下來并加以利用。Amazon公司擁有全球零售業最先進的數字化倉庫,通過對數據的采集、整理和分析,可以優化產品、開展精確營銷和快速出貨。另外,Amazon公司的Kindle電子書積累了上千萬本圖書的數據,并完整記錄著讀者們對圖書的標記和筆記,若對這些數據加以分析,Amazon公司就能從中得知哪類讀者對哪些內容感興趣,從而給讀者做出準確的圖書推薦。3.2.2互聯網數據這里的互聯網數據是指網絡空間交互過程中產生的大量數據,包括通信記錄及QQ、微信、微博等社交媒體產生的數據,其數據復雜且難以被利用。互聯網數據具有大量化、多樣化、快速化等特點。①大量化;在信息化時代背景下,網絡空間數據增長迅猛,數據集合規模已實現了從GB級別到PB級別的飛躍,目前,互聯網產生的數據則需要通過ZB表示。②多樣化;互聯網數據的類型多樣化,包括結構化數據、半結構化數據和非結構化數據。③快速化。互聯網數據一般以數據流形式快速產生,且具有動態變化的特征,其時效性要求用戶必須準確掌握互聯網數據流,以便更好地利用這些數據。互聯網是大數據信息的主要來源,能夠采集什么樣的信息、采集到多少信息及哪些類型的信息,直接影響著大數據應用功能最終效果的發揮。信息數據采集需要考慮采集量、采集速度、采集范圍和采集類型,信息數據采集速度可以達到秒級甚至還能更快;采集范圍涉及微博、論壇、博客,新聞網、電商網站、分類網站等各種網頁;采集類型包括文本、數據、URL、圖片、視頻、音頻等。3.2.3物聯網數據物聯網指在計算機互聯網的基礎上,利用射頻識別、傳感器、紅外感應器、無線數據通信等技術,構造一個覆蓋世界上萬事萬物的TheInternetofThings,也就是“實現物物相連的互聯網絡”。其內涵包含兩個方面:一是物聯網的核心和基礎仍是互聯網,是在互聯網基礎之上延伸和擴展的一種網絡;二是其用戶端延伸和擴展到了任何物品與物品之間。物聯網的定義:通過射頻識別(RadioFrequencyIDentification,RFID)裝置、傳感器、紅外感應器、全球定位系統、激光掃描器等信息傳感設備,按約定的協議,把任何物品與互聯網相連接,以進行信息交換和通信,從而實現智慧化識別、定位、跟蹤、監控和管理的一種網絡體系。物聯網數據是除了人和服務器之外,在射頻識別、物品、設備、傳感器等節點產生的大量數據,包括射頻識別裝置、音頻采集器、視頻采集器、傳感器、全球定位設備、辦公設備、家用設備和生產設備等產生的數據。物聯網數據的主要特點有:數據量更大、傳輸速率更高、數據更加多樣化以及對數據真實性的要求更高。3.3常用的數據采集方法數據采集(DAQ)又稱為“數據獲取”或“數據收集”,是指從傳感器和其他待測設備等模擬和數字被測單元中自動采集非電量或者電量信號,送到上位機中進行分析、處理。數據采集主要是對現實世界進行采樣,以便產生可供計算機處理的數據的過程。針對不同種類的數據來源,數據采集方式也不盡相同。針對內部數據,可以采用查詢數據庫的方式獲取到所需要的數據。針對互聯網數據,采集數據的主要途徑是通過互聯網搜索引擎或者爬蟲工具等,通過輸入搜索關鍵字或者采取一定的抓取規則來獲取所需要的數據信息。針對市場調研數據,如果是互聯網問卷調查只需要進行查詢或者執行數據庫導出操作。3.3.1系統日志的采集方法很多互聯網企業都有自己的海量數據采集工具,多用于系統日志采集,如Facebook公司的Scribe、Hadoop平臺的Chukwa、Cloudera公司的Flume等。這些工具均采用分布式架構,能滿足每秒數百兆的日志數據采集和傳輸需求。1.ScribeScribe是Facebook公司開源的日志收集系統,在Facebook公司內部已經得到大量的應用。Scribe可以從各種日志源上收集日志,存儲到一個中央存儲系統(網絡文件系統或分布式文件系統等),以便于進行集中的統計分析處理。Scribe為日志的“分布式收集,統一處理”提供了一個可擴展的、高容錯的方案。Scribe架構如圖3-3所示。圖3-3Scribe架構2.ChukwaChukwa提供了一種對大數據量日志類數據的采集、存儲、分析和展示的全套解決方案和框架。在數據生命周期的各個階段,Chukwa能夠提供近乎完美的解決方案。Chukwa可以用于監控大規模(2000個以上節點,每天產生數據量在TB級別)Hadoop集群的整體運行情況并對它們的日志進行分析。Chukwa結構如圖3-4所示。圖3-4Chukwa架構Chukwa中主要有3種角色,分別為:Adapter,Agent,Collector。下面對Chukwa中各角色的功能進行簡單介紹。①適配器(ChukwaAdapter)適配器是直接采集數據的接口和工具。每種類型的數據對應一個Adapter,目前包括的數據類型有命令行輸出、log文件和HttpSender等。同時用戶也可以自己實現一個Adapter來滿足需求。②代理(ChukwaAgent)Agent給Adapter提供各種服務,包括啟動和關閉Adapter,將Adapter收集的數據通過HTTP傳遞給Collector,并定期記錄Adapter狀態,以便Adapter出現故障后能迅速恢復。一個Agent可以管理多個Adapter。③收集器(ChukwaCollector)它負責對多個數據源發來的數據進行合并,并定時寫入集群。因為Hadoop集群擅長處理少量的大文件,而對大量小文件的處理則不是它的強項。針對這一點,Collector可以將數據先進行部分合并,再寫入集群,防止大量小文件的寫入。④多路分配器(ChukwaDemux)它利用MapReduce對數據進行分類、排序和去重。⑤存儲系統Chukwa采用了HDFS作為存儲系統。HDFS的設計初衷是支持大文件存儲和小并發高速寫的應用場景,而日志系統的特點恰好相反,它需要支持高并發低速率的寫和大量小文件的存儲,因此Chukwa框架使用多個部件,使HDFS滿足日志系統的需求。⑥數據展示Chukwa不是一個實時錯誤監控系統,但它能夠展示集群中作業運行的時間、占用的CPU及故障節點等整個集群的性能變化,能夠幫助集群管理者監控和解決問題。3.FlumeFlume是Cloudera公司提供的分布式、可靠和高可用的海量日志采集、聚合和傳輸的系統。Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫道各種數據接受方(可定制)的能力。Flume可以被看作是一個管道式的日志數據處理系統,其中數據流由事件(Event)貫穿始終。Event是Flume的基本數據單位,它包含日志數據并且攜帶消息頭,其中日志數據由字節數組組成,這些Event由外部數據源生成。Flume運行的核心是Agent。Flume以Agent為最小的獨立運行單位,一個Agent就是一個JVM。在實際日志系統中,Flume由多個Agent串行或并行組成,完成不同日志數據的分析。每個Agent是一個完整的數據收集工具,并包含3個核心組件,但一個Agent可以包含多個Source、Channel或Sink。Flume的核心結構,如圖3-5所示。圖3-5Flume的核心結構Source是數據的收集端,負責將數據采集后進行特殊的格式化,將數據封裝到事件(Event)中,然后將事件推入Channel中。Flume提供了很多內置的Source類型,支持Avro、Log4j、Syslog、Unix終端輸出和HttpPost等不同格式的數據源,可以讓應用程序同已有的Source直接打交道。如果內置的Source無法滿足需求,用戶可自定義Source。Channel是連接Source和Sink的組件,人們可以將它看作一個數據的緩沖區,它可以將事件暫存到內存中,也可以持久化存儲到本地磁盤上,直到Sink處理完該事件。Channel支持將數據存在內存、JDBC、File等其他持久化存儲系統中。Sink從Channel中取出事件,然后將數據發送到別處(可以是文件系統、數據庫、HDFS,也可以是其他Agent的Source)。在日志數據較少時,它可以將數據存儲在文件系統中,并且設定一定的時間間隔定時保存數據。Flume使用事務性的方式保證傳送事件整個過程的可靠性。Sink必須在事件被存入Channel后,或者已經被傳達到下一個目的地,才能把事件從Channel中刪除掉,這里的目的地包括下一個Agent、HDFS等。這樣數據流里的事件無論是在一個Agent里還是在多個Agent之間流轉,都能保證可靠,因此以上的事務性保證了事件被成功存儲起來。例如,Flume支持在本地保存一份文件Channel作為備份,當Channel將事件存在內存隊列里時,雖然處理速度快,但丟失的話無法恢復,這時可以將備份的數據進行恢復使用。3.3.2網頁數據的采集方法網絡數據采集稱為“網頁抓屏”“數據挖掘”或“網絡收割”,通過“網絡爬蟲”程序實現。網絡爬蟲一般是先“爬”到對應的網頁上,再把需要的信息“鏟”下來。網絡爬蟲(Crawler)作為搜索引擎的基礎構件之一是搜索引擎的數據來源。網絡爬蟲的性能直接決定了系統的及時更新程度和內容的豐富程度,直接影響著整個搜索引擎的效果。下面從幾個方面對網絡爬蟲進行介紹。(1)網絡爬蟲的重要組成模塊網絡爬蟲可以獲取互聯網中網頁的內容。它需要從網頁中抽取用戶需要的屬性內容,并對抽取出的數據進行處理,轉換成適應需求的格式存儲下來,供后續使用。網絡爬蟲采集和處理數據包括如下3個重要模塊。①采集模塊:負責從互聯網上抓取網頁,并抽取需要的數據,包括網頁內容抽取和網頁中鏈接的抽取。②數據處理模塊:對采集模塊獲取的數據進行處理,包括對網頁內容的格式轉換和鏈接的過濾。③數據模塊:經過處理的數據可以分為3類。第一類是SiteURL,即需要抓取數據的網站URL信息;第二類是SpiderURL,即已經抓取過數據的網頁URL;第三類是Content,即經過抽取的網頁內容。網絡爬蟲通過上述3個模塊獲取網頁中用戶需要的內容。它從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的特定停止條件。(2)網絡爬蟲的基本工作流程網絡爬蟲的基本工作流程,如圖3-6所示。具體步驟如下所述。①從SiteURL中抽取一個或多個目標鏈接寫入URL隊列,作為爬蟲抓取信息的起點。②爬蟲的網頁分析模塊從URL隊列中讀取鏈接。③從Internet中獲取該鏈接的網頁信息。④從網頁內容中抽取所需屬性的內容值。⑤將獲取的網頁內容值寫入數據庫的Content,并將此URL存入SpiderURL。⑥從當前網頁中抽取新的網頁鏈接。⑦從數據庫中讀取已經抓取過內容的網頁地址,即SpiderURL中的鏈接地址。⑧將抽取出的URL和已經抓取過的URL進行比較,以過濾URL。⑨如果該網頁地址沒有被抓取過,則將該地址寫入SiteURL;如果該地址已經被抓取過,則放棄存儲此網頁鏈接。圖3-6網絡爬蟲的基本工作流程(3)爬蟲的網頁抓取策略網絡爬蟲從網站首頁獲取網頁內容和鏈接信息后,會根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復執行上述過程,直至達到爬蟲程序滿足某一條件時才停止。因此,待抓取URL隊列是爬蟲很重要的一部分。待抓取URL隊列中的URL以何種順序排列是一個很重要的問題,因為涉及先抓取哪個頁面,后抓取哪個頁面。而決定這些URL排列順序的方法,叫作抓取策略。網絡爬蟲的性能高低關鍵在于網絡爬蟲的抓取策略,即網絡爬蟲在獲取到URL之后在待抓取URL中應該采用什么策略進行抓取。常見的抓取策略有深度優先策略、寬度優先策略、反向鏈接數策略、OPIC策略、大站優先策略等。3.4大數據時代的存儲管理系統在計算機中,目前已經被廣泛使用的存儲管理系統有普通的文件系統、鍵-值數據庫和關系型數據庫。在大數據時代,普通PC的存儲容量已經無法滿足大數據需求,需要進行存儲技術的變革,人們采用分布式平臺來存儲大數據。3.4.1文件系統文件系統是操作系統用于明確存儲設備(常見的是磁盤,也有基于NandFlash的固態硬盤)或分區上的文件的方法和數據結構;即在存儲設備上組織文件的方法。操作系統中負責管理和存儲文件信息的軟件機構稱為文件管理系統,簡稱文件系統。文件系統由三部分組成:文件系統的接口,對對象操縱和管理的軟件集合,對象及屬性。從系統角度來看,文件系統是對文件存儲設備的空間進行組織和分配,負責文件存儲并對存入的文件進行保護和檢索的系統。具體地說,它負責為用戶建立文件,存入、讀出、修改、轉儲文件,控制文件的存取,當用戶不再使用時撤銷文件等。DOS、Windows、OS/2、Macintosh和Unix-based操作系統都有文件系統。在此系統中,文件被放置在分等級的(樹狀)結構中的某一處。文件被放進目錄(Windows中的文件夾)或子目錄。文件系統是軟件系統的一部分,它的存在使應用可以方便地使用抽象命名的數據對象和大小可變的空間。3.4.2分布式文件系統分布式文件系統(DistributedFileSystem,DFS)是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網絡與節點(可簡單的理解為一臺計算機)相連,或是若干不同的邏輯磁盤分區或卷標組合在一起而形成的完整的有層次的文件系統。DFS為分布在網絡上任意位置的資源提供一個邏輯上的樹形文件系統結構,從而使用戶訪問分布在網絡上的共享文件更加簡便。分布式文件系統比普通文件系統更為復雜,例如,使文件系統能夠容忍節點故障且不丟失任何數據,就是一個很大的挑戰。3.4.3數據庫系統數據庫(DataBase)顧名思義就是存放數據的倉庫,數據庫是存在于計算機中,以一定的方式存放數據的倉庫。嚴格意義上來講,數據庫是長期儲存在計算機內、有組織的、可共享的大量數據的集合。數據庫家族如圖3-11所示。圖3-11數據庫家族3.4.4云存儲隨著Internet技術的快速推進,數據量急劇增長,對存儲系統提出了更高的要求——更大存儲容量、更強的性能、更高的安全性級別、進一步智能化等,傳統的存儲區域網絡(StorageAreaNetwork,SAN)或網絡附屬存儲(NetworkAttachedStorage,NAS)技術面對PB級甚至EB級海量數據,存在容量、性能、擴展性和費用上的瓶頸,已經無法滿足新形勢下數據存儲要求。因此,為了應對不斷變大的存儲容量、不斷加入的新型存儲設備、不斷擴展的存儲系統規模,云存儲作為一種全新的解決方案被提出。(1)云存儲的概念及特性云存儲是一種網上在線存儲的模式,即把數據存放在由第三方托管的多臺虛擬服務器中,而非專屬的服務器上。托管(Hosting)公司營運大型的數據中心,需要數據存儲托管的人向數據中心購買或租賃存儲空間來滿足數據存儲的需求;數據中心營運商根據客戶的需求,在后端準備存儲虛擬化的資源,并將其以存儲資源池(StoragePool)的方式提供給客戶,客戶便可自行使用此存儲資源池來存放文件或對象。實際上,這些資源可能被分布在眾多的服務器主機上。從技術角度來說,云存儲是指通過集群技術、網絡技術或分布式技術等技術,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一種技術。以大化小,化整為零的思想是云存儲技術的設計思想。從功能需求來看,云存儲系統相比于傳統的單一的存儲功能來說,功能更加開放化和多元化;從數據管理上看,云存儲需要處理的數據類型更多、數據量更大。總體來說,云存儲有以下特性:①可靠性云存儲采取將多個小文件分為多個副本的存儲模式來實現數據的冗余存儲,數據存放在多個不同的結點上,任意其他的結點發生數據故障時,云存儲系統將會自動將數據備份到新的存儲結點上,保證數據的完整性和可靠性。②安全性云存儲服務商往往資金雄厚,因而有大量專業技術人員的日常管理和維護,從而保障云存儲系統運行安全。通過嚴格的權限管理,運用數據加密、加密傳輸、防篡改、防攻擊、實時監測等技術,降低了病毒和網絡黑客入侵破壞的風險,確保數據不會丟失,為用戶提供安全可靠的數據存儲環境。③管理方便因為大部分的數據都遷移到了云存儲上之后,所有的數據的升級維護任務則由云存儲服務提供商來完成,這樣管理起來更加方便,同時也大大地降低了企業存儲系統上的運營維護成本。④可擴展性云存儲服務具有強大的可擴展性,當企業的發展加速以后,如果發覺公司現有的存儲空間不足,就會考慮擴寬存儲服務器的容量來滿足現有業務的存儲需求,而云存儲服務的特性就可以很方便地在原有基礎上擴展服務空間,滿足需求。擴展存儲需求意味著用戶的成本提高,云存儲提供商的復雜性增加,不僅要為存儲本身提供可擴展性(功能擴展),而且必須為存儲帶寬提供可擴展性(負載擴展)。(2)云存儲系統的結構模型與傳統的存儲設備相比,云存儲系統不僅僅是一個硬件,而且是一個由網絡設備、存儲設備、服務器、應用軟件、公用訪問接口、接入網和客戶端程序等多個部分組成的復雜系統。各部分以存儲設備為核心,通過應用軟件來對外提供數據存儲和業務訪問服務。云存儲系統的結構模型由存儲層、基礎管理層、應用接口層和訪問層組成,如圖3-12所示。圖3-12云儲存系統的結構模型《大數據導論》教案課程名稱大數據導論授課時間第周,星期,節(年月日)課次4授課方式□理論課□實驗課□其他課時6授課題目數據可視化主要內容:本節主要講大數據的可視化,從大數據的發展背景、數據的可變性,大數據的依存環境;具體介紹數據與可視化的關系、數據如何以圖形的形式來表示、數據可視化的方法、工具以及實時可視化。目的與要求:通過本次課的學習,要求學生掌握本章所講述的一些基本概念:數據可視化、數據可視化圖表、實時可視化,掌握數據可視化的主要形式及其特點,通過對數據可視化內容的學習,掌握數據可視化工具的使用,以及實時可視化的概念。重點與難點:重點:數據可視化、數據可視化的主要形式及其特點,數據可視化圖表、數據可視化工具、實時可視化。難點:數據可視化工具,實時可視化教具(多媒體、模型、圖表等):多媒體教學,有配套的教學課件,機房實踐相結合《大數據導論》教案教學內容教學方法時間分配4.1數據可視化概述4.1.1什么是數據可視化4.1.2數據可視化的分類4.2數據可視化圖表4.3數據可視化工具4.4實時可視化多媒體教學與機房實踐相結合6個課時課堂設問:數據與可視化的關系?發展大數據可視化,傳統的數據或信息的表示方式是否還有意義?請簡述你的看法?教學內容小結:本次課主要介紹數據與可視化的關系,數據如何用圖形來表示,并在此基礎上講解一些典型的大數據可視化實例。復習思考題或作業題:什么是數據可視化?數據可視化系統的主要目的是什么?請結合相關文獻資料,簡述數據可視化的7個數據類型是什么?簡述數據可視化的常用工具有哪些?教學后記(此項內容在課程結束后填寫):通過本章的學習,學生掌握了本章所講述的一些基本概念:數據的可視化、南丁格爾極區圖。通過對數據可視化的學習,掌握數據可視化的數據類型和數據可視化的基本任務,以及數據可視化的方法。第60頁《大數據導論》講稿第4章數據可視化【導讀案例】南丁格爾“極區圖”弗洛倫斯·南丁格爾(1820年5月12日~1910年8月13日,圖2-1)是世界上第一個真正意義上的女護士,被譽為現代護理業之母,5.12國際護士節就是為了紀念她,這一天是南丁格爾的生日。除了在醫學和護理界的輝煌成就,實際上,南丁格爾還是一名優秀的統計學家。南丁格爾生活的時代各個醫院的統計資料非常不精確,也不一致,她認為醫學統計資料有助于改進醫療護理的方法和措施。于是,在她編著的各類書籍、報告等材料中使用了大量的統計圖表,其中最為著名的就是極區圖(PolarAreaChart),也叫南丁格爾玫瑰圖(如下圖所示)。南丁格爾發現,戰斗中陣亡的士兵數量少于因為受傷卻缺乏治療的士兵。為了挽救更多的士兵,她畫了這張《東部軍隊(戰士)死亡原因示意圖》(1858年)。這張圖描述了1854年4月~1856年3月期間士兵死亡情況,右圖是1854年4月~1855年3月,左圖是1855年4月~1856年3月,用藍、紅、黑三種顏色表示三種不同的情況,藍色代表可預防和可緩解的疾病治療不及時造成的死亡、紅色代表戰場陣亡、黑色代表其他死亡原因。圖表個扇區角度相同,用半徑及扇區面積來表示死亡人數,可以清晰的看出每個月因各種原因死亡的人數。顯然,1854~1855年,因醫療條件而造成的死亡人數遠遠大于戰死沙場的人數,這種情況直到1856年初才得到緩解。南丁格爾的這張圖表以及其他圖表“生動有力的說明了在戰地開展醫療救護和促進傷兵醫療工作的必要性,打動了當局者,增加了戰地醫院,改善了軍隊醫院的條件,為挽救士兵生命做出了巨大貢獻”。4.1數據可視化概述可視化的歷史非常古老,在古代天文學家繪制的星象圖,音樂家古老的樂譜,都可以把他們歸結為可視化。可視化通常被理解為一個生成圖形圖像的過程。更深刻的認識是可視化是一個認知的過程,即形成某種事物的感知圖像,強化人們的認知理解。正是基于這一點,人們可以認為可視化的終極目標是對事物規律的洞悉,而非所繪制的可視化結果本身。一般意義下可視化的定義:可視化是一種使復雜信息能夠容易和快速被人理解的手段,是一種聚焦在信息重要特征的信息壓縮,是可以放大人類感知的圖形化表示方法。在大數據時代,可視化日益受到重視并得到越來越廣泛的應用。可視化可以應用到簡單問題,也可以應用到復雜系統狀態表示問題。人們可以從可視化的表示中發現新的線索、新的關聯、新的結構、新的知識,促進人機系統的結合,促進科學決策。而數據可視化,是指將數據以圖形、圖像形式表示,并利用數據分析和開發工具發現其中未知信息的處理過程。數據可視化表現是指將晦澀難懂的數據以一種更為友好的形式,如圖形圖像等進行表現。數據可視化表現的目的是讓用戶通過實際感觸,在互動中與數據交流,進而理解數據,最終理解數據背后蘊含的知識、規律。作為可視化表現的基礎,數據可視化技術并不是簡簡單單的把一個數據表格變成一個數據視圖,如折線圖、餅狀圖、直方圖等,數據可視化技術是把復雜的、不直觀的、不清晰而難以理解的事物變得通俗易懂且一目了然,以便于傳播、交流和溝通,以及進一步的相應研究。4.2可視化圖表統計圖表是使用最早的可視化圖形,已經具有數百年的發展歷史,逐漸形成了一套成熟的方法,比較符合人類的感知和認知,因而得到了大量的使用。當然,數據可視化不僅是統計圖表,本質上,任何能夠借助于圖形的方式展示事物原理、規律、邏輯的方法都叫數據可視化。常見的統計圖表包括散點圖、氣泡圖、折線圖、柱狀圖、雷達圖等。下面詳細介紹幾種常見的圖表類型。(1)散點圖。散點圖又稱散點分布圖,是因變量隨自變量而變化的大致趨勢圖。散點圖主要用于解釋數據之間的規律,發現各變量之間的關系,適用于存在大量數據點的情況。散點圖有一定的局限,即數據量小的時候會比較混亂。散點圖的數據點是在直角坐標系平面上,以一個變量為橫坐標,另一變量為縱坐標,利用散點(坐標點)的分布形態反映變量統計關系的一種圖形。它的特點是能直觀表現出影響因素和預測對象之間的總體關系趨勢;能通過直觀醒目的圖形方式,反映變量間的形態變化關系情況,以便于來模擬變量之間的關系。例如,統計時間與股票和基金的投資關系散點圖如圖4-3所示,從圖上可以直觀的看出投資時間越長,股票和基金的回報率也越大。圖4-3統計時間與股票和基金的投資關系散點圖(2)氣泡圖。氣泡圖是散點圖的變種,用氣泡代替散點圖的數值點,面積大小代表數值大小。氣泡圖用來展示各類別占比,適用于了解數據的分布情況。氣泡圖的缺陷是如果分類過多,扇形就會太小,而無法展現圖表。例如,全國物流網點單票成本/收入分布情況氣泡圖,如圖4-4所示。物流網點總利潤除了和單票利潤有關,還和體量(即收件量)有關,這里用散點的面積大小表示收件量。圖4-4全國物流網點單票成本/收入分布情況氣泡圖(3)折線圖。折線圖用來觀察數據隨時間變化的趨勢,適用于有序的類別。折線圖的缺點是無序的類別無法展示數據特點。例如,西南各地年均降水量分布折線圖,如圖4-5所示。圖4-5西南各地年均降水量分布折線圖(4)柱形圖。柱形圖用于展現類別之間的關系,適用于對比、分類數據。其局限是分類過多則無法展示數據特點。例如,某地蒸發量、降水量與徑流量柱形圖,如圖4-6所示。圖4-6某地蒸發量、降水量與徑流量柱形圖(5)熱力圖。熱力圖可以體現數據在空間上的變化規律。例如,某商場客流分布熱力圖,如圖4-7所示,可進行客流分析。不同區域、不同時段人群密度都直觀可見,實時的熱力圖還可以監控人群流向,為商家經營提供準確的數據支撐。圖4-7某商場客流分布熱力圖(6)雷達圖雷達圖將多個分類的數據量映射到坐標軸上,用于對比某項目不同屬性的特點,其優點是可用于了解同類別不同屬性的綜合情況,以及比較不同類別的相同屬性差異。其局限是分類過多或變量過多時,圖中的顯示會比較混亂。例如,某初中兩個班知識點得分率的分析雷達圖,如圖4-8所示。圖4-8某初中兩個班知識點得分率的分析雷達圖除了上述常見的圖表以外,數據可視化還可以使用其他圖表,具體如下:①漏斗圖。漏斗圖適用于業務流程比較規范、周期長、環節多的流程分析,通過漏斗各環節業務數據的比較,能夠直觀地發現和說明問題所在。②樹圖。樹圖是一種流行的、利用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年初升高暑期數學講義專題13 充分必要條件、全稱量詞與存在量詞(重難點突破)(含答案)
- 2003年江蘇省南通市中考數學試題【含答案、解析】
- 義烏市2025年初中畢業生語文學業水平考試調研試卷(5月二模)
- AutoCAD三維圖形準備30課件
- 考研復習-風景園林基礎考研試題附參考答案詳解(突破訓練)
- 風景園林基礎考研資料試題及參考答案詳解(培優b卷)
- 《風景園林招投標與概預算》試題A帶答案詳解(基礎題)
- 2025-2026年高校教師資格證之《高等教育法規》通關題庫附答案詳解(模擬題)
- 2024年山東華興機械集團有限責任公司人員招聘筆試備考題庫含答案詳解(黃金題型)
- 2025年K2學校STEM課程實施與跨學科知識整合研究報告
- 2024年江蘇武進經濟發展集團招聘筆試參考題庫含答案解析
- 安全生產監測與預警
- 部編版小學一至六年級詞語表匯總
- 常州市北郊初級中學英語新初一分班試卷含答案
- 樓梯踏步玻璃槽的施工方案
- 律師費報價函的范本
- 專業方向證明
- 木偶奇遇記 閱讀單
- 華為云桌面解決方案介紹
- 新時代中國特色社會主義理論與實踐(2021版)課后思考題答案
- 2022-2023學年畢節地區赫章縣六年級下學期小升初真題精選數學試卷含答案
評論
0/150
提交評論