大數據及其典型應用_第1頁
大數據及其典型應用_第2頁
大數據及其典型應用_第3頁
大數據及其典型應用_第4頁
大數據及其典型應用_第5頁
已閱讀5頁,還剩49頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息資源管理-擴展知識

大數據及其典型應用2023/2/32引子棱鏡門波士頓馬拉松爆炸案PredPol少數派報告2013大數據元年video一、大數據的相關概念二、國內外大數據分析的研究現狀三、構建大數據分析平臺四、公共安全領域大數據應用案例目錄2023/2/33一、大數據的相關概念

2023/2/34數據管理技術發展歷史數據管理技術歷經人工管理、文件管理、數據庫管理等時代,大數據技術的出現使該領域進入了一個新的發展階段-5-194619511956196119701974197919912001200320082011第一臺計算機ENIAC面世磁帶+卡片人工管理磁盤被發明,進入文件管理時代網絡型SQLE-RGE公司發明第一個網絡模型數據庫,但僅限于GE自己的主機1960年代,IT系統規模和復雜度變大,數據與應用分離的需求開始產生,數據庫技術開始萌芽并蓬勃發展,并在1990年后逐步統一到以關系型數據庫為主導IBME.F.Dodd提出關系模型SQL語言被發明關系型數據庫ORACLE發布第一個商用SQL關系數據庫,后續快速發展數據倉庫數據倉庫開始涌現,關系數據庫開始全面普及且平臺無關,進入成熟期2001年后,互聯網迅速發展,數據量成倍遞增,量變引起質變,開始對數據管理技術提出全新的要求1946年,電腦誕生,數據與應用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級項目,重點支持海量數據分布式管理和分布式計算GFS谷歌發表論文介紹分布式計算大數據發展背景全球信息化發展已步入大數據時代150億個設備連接到互聯網全球每秒鐘發送290萬封電子郵件每天有2.88萬小時視頻上傳到YoutubeFacebook

每日評論達32億條,每天上傳照片近3億張,每月處理數據總量約130萬TB2011年全球產生數據量1.8ZB,預計2020年將增長到35ZB大數據正迅速成為最值得關注的IT領域之一2011年5月,EMCWorld2011大會主題“云計算相遇大數據”,EMC除了一直倡導的云計算外,還拋出"大數據"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國外機構發布"大數據"相關研究報告,予以積極跟進2011年10月,Gartner認為2012年十大戰略技術將包括"大數據"2011年11月底,IDC將"大數據"放入2012年信息通信產業十大預測之一-6-IDC全球數據量預測(1ZB

=1百萬PB=10億TB)Google網站Bigdata關鍵詞搜索及新聞引用量什么是大數據123大數據的定義理解大數據的“4V”特征大數據的產生、增長2023/2/37“大數據”是如何產生的?21世紀是數據信息大發展的時代,移動互聯、社交網絡、電子商務等極大拓展了互聯網的邊界和應用范圍,各種數據正在迅速膨脹并變大。互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數據。

半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創造出了“大數據”這個概念*。如今,這個概念幾乎應用到了所有人類智力與發展的領域中。2023/2/38大數據時代的爆炸增長想駕馭這龐大的數據,我們必須了解大數據的特征。地球上至今總共的數據量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數據;在2011年,這個數字達到了1.8ZB。而有市場研究機構預測:到2020年,整個世界的數據總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1GB

=2^30字節1TB=2^40字節1PB

=2^50字節1EB

=2^60字節1ZB=2^70字節2023/2/39大數據的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數據”的顯著特征,或者說,只有具備這些特點的數據,才是大數據。VolumeVelocityValueVariety2023/2/310大數據的構成大數據=海量數據+復雜類型的數據海量交易數據:企業內部的經營交易信息主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態、歷史數據。通過這些數據,我們能了解過去發生了什么。大數據包括:交易數據和交互數據集在內的所有數據集海量交互數據:源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數據構成。它包括了呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數據、通過管理文件傳輸ManageFileTransfer協議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件等等。可以告訴我們未來會發生什么。海量數據處理:大數據的涌現已經催生出了設計用于數據密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。2023/2/311分析技術:數據處理:自然語言處理技術統計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數據挖掘:關聯規則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數據技術:數據采集:ETL工具數據存取:關系數據庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統等計算結果展現:云計算;標簽云;關系圖等一些相關技術存儲結構化數據海量數據的查詢、統計、更新等操作效率低非結構化數據圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數據轉換為結構化存儲按照非結構化存儲解決方案:Hadoop(MapReduce技術)流計算(twitter的storm和yahoo!的S4)2023/2/3122023/2/313大數據的市場潛力利用GPS數據了解交通狀況智能電表應用級家庭能源監測2012年3月29日奧巴馬政府公布了”大數據研發計劃”。該計劃的目標是改進現有人們從海量和復雜的數據中獲取知識的能力,從而加速美國在科學與工程領域發明的步伐,增強國家安全,轉變現有的教學和學習方式。“大數據戰略”上升為美國最高國策對數據占有和控制,做為在陸權、海權、空權之外的另一種國家核心能力。大數據的浪潮谷歌搜索與流感預測大數據與喬布斯的癌癥治療微博&投資沃爾瑪的啤酒與紙尿布塔吉特預測少女懷孕沃爾瑪蛋撻與颶風用品的關系“魔毯”病人的監控智慧城市&智能化交通谷歌翻譯系統理解大數據數據已經成為可以與物質資產和人力資本相提并論的重要的生產要素

——麥肯錫《大數據:下一個創新、競爭和生產力的前沿》二、國內外大數據分析的研究現狀

流感趨勢預測

2023/2/317全球每年約10%~15%的人群會患上流感,受感染人群約5000萬人,死亡人數約50萬。這可不是個小數字。如果我們能夠盡早提前預測到流感即將爆發,無疑將使全球公眾都將受益:政府和醫療機構提前拿出應對措施,就能挽救大量生命。2008年,谷歌推出了其著名的流感趨勢網站(/flutrends)。該網站假定的前提是:如果用戶患上了流感,則他們會搜索更多同流感相關的信息。如此一來,如果對任何一個國家或地區有關流感的搜索量進行統計,就能較好推斷出某個國家或地區是否正爆發流感。事實上,谷歌的這項統計數據被證實很有效。谷歌的相應數據,同美國疾病控制與預防中心(CDC)等政府機構所統計的數據非常接近(97%)。在某些情況下,谷歌甚至能夠比CDC提前一周預測出哪些地區將爆發流感。2023/2/318全球每星期會有數以百萬計的用戶在網上搜索健康信息。正如您所預料的那樣,在流感季節,與流感有關的搜索會明顯增多;到了過敏季節,與過敏有關的搜索會顯著上升;而到了夏季,與曬傷有關的搜索又會大幅增加。某些搜索字詞非常有助于了解流感疫情。Google流感趨勢會根據匯總的Google搜索數據,近乎實時地對全球當前的流感疫情進行估測。搜索流感相關主題的人數與實際患有流感癥狀的人數之間存在著密切的關系。當然,并非每個搜索“流感”的人都真的患有流感,但將與流感有關的搜索查詢匯總到一起時,便可以找到一種模式。將統計的查詢數量與傳統流感監測系統的數據進行了對比,結果發現許多搜索查詢在流感季節確實會明顯增多。通過對這些搜索查詢的出現次數進行統計,便可以估測出世界上不同國家和地區的流感傳播情況。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature

457,1012-1014(19February2009)2023/2/319上圖顯示了根據歷史查詢所得的美國近幾年的流感估測結果,以及這些結果與官方的流感監測數據的對比。從圖中可以看出,根據與流感相關的Google搜索查詢所得到的估測結果,與以往的流感疫情指示線非常接近。當然,過去的表現并不能保證以后的結果一定準確。2023/2/3202023/2/3212023/2/322卡耐基梅隆大學的JiweiLi和康乃爾大學的ClaireCardie,成功利用Twitter預測了早期流感爆發。他們的方式與Google類似。首先,從Twitter數據流中過濾包含與“流感”相關,并帶有位置標簽的tweet;然后,在地圖上標注這些tweet的位置分布,以及隨時間產生的變化。同時,還制作了流感的動態變化模型。新模型中,流感包括4個階段:無傳染階段、爆發階段、穩定階段以及衰退階段。此外,采用了全新的算法,試圖盡可能快得發現不同時期的轉換節點。實際上,Li和Cardie在2008年6月至2010年6月間,已經利用100萬美國人的360萬條tweet,驗證了該方法的有效性。為了檢驗他們的預測是否成真,Li和Cardie將他們的分析與CDC進行對比。他們說,“我們確信,流感相關tweet與CDC提供的流感疾病案例數目,呈顯著相關。”2023/2/3232023/2/324日本國內有一個網站,你只要打開這個網站用自己的Twitter賬號登錄,就可以在短時間內通過數萬條Twitter找出可能感冒的人,并通過過去的感冒情況和今日的感冒情況進行分析(以及統計目前發燒以及嗓子痛的患者數量),另外該程序還會結合氣溫和濕度的變化來預測將來感冒的流行情況,并制作一個“易感冒日歷”。目前,此類服務正在日本陸續展開。通過這個服務器的分析,大家就能夠知道在自己身邊到底有多少人有感冒的癥狀,并提前做好預防準備。日本國立感染癥研究所將會把全國約

5000個醫療診所的流感患者進行統計并發布數據。經過對比,研究所得出的實際統計數字和網站上預測的結果基本是一致的,那么為什么大數據的結果會很準呢?首先是因為通過網絡信息分析的技術有所進步,已經可以通過各種各樣的留言自動搜索到相關的數據,并自動分類。就像Google現在所使用的技術,就是利用服務器分析與流感關系十分密切的十幾個單詞進行統計。另一個就是大數據所特有的功能。在流感最嚴重的時候,每天會有成千上萬條Tweets發布,即便有一些誤差,但通過數據分析也能分析出數據的精準度。以往,公共機構在發布流感情報的時候至少要延遲一周,在有些偏遠地區的立桿信息也并不確切,而現在,通過網絡能夠有效彌補這些缺憾。2023/2/3252023/2/326淘寶的數據化運營——實例分析分析流程1.分析主題確定及數據指標的選擇;

2.數據倉庫數據提取及清洗;

3.不相關指標剔除;

4.用訓練數據建立模型;

5.用測試數據檢驗模型;

6.預測新的流失用戶,并提取用戶名單;7.制訂挽留策略:對圈定的客戶進一步進行分群,然后逐群制訂有針對的挽留策略。比如有的群組是屬于夜間通話多(和

總體的均值相比)的客戶,那么針對他們的挽留策略可能是

推薦一些夜間通話優惠的資費方案。8.實施挽留行動、收集客戶反饋。9.評估挽留效果:

2023/2/327三、構建大數據分析平臺

四、公共安全領域大數據應用案例

面向公共安全領域的大數據分析技術平臺數據挖掘DataMiner多維分析BIBeans查詢Discoverer數據倉庫管理(OEM)數據提取WarehouseBuilder應用服務器ApplicationServer/PortalDataBase人口

數據外部數據犯罪數據報表ReportsDataMiningOLAP數據轉換中央數據倉庫知識發現信息展現應用系統源數據數據獲取數據管理數據使用2023/2/330刑偵的犯罪預防搜集犯罪的信息推斷罪犯的習慣預測罪案的發生非法出入境判別海關走私模式的分析緊急事件的處理人員的緊急疏散資源的緊急調配緊急狀態的安全管理緊急事件發生的預演交通管理公共安全領域基于大數據的智能分析2023/2/331信息的來源銀行交易歷史資料庫/知識庫公共信息政府數據庫Internet截獲/監聽情報通信情報人工情報2023/2/332問題的關鍵大量的信息(有關/無關)是分析的基礎,也是分析的障礙事件的信息往往是隨機獲得不確定的因素影響分析的結果分析的速度是關鍵2023/2/333飛速膨脹的信息多種學科的邊緣結合有限的記憶和注意范圍長時間持續的分析工作嚴重依賴分析人員的經驗如何用計算機系統支持復雜海量的分析過程?限制…他們承擔了大部分負擔依靠分析人員2023/2/334限制…分析人員的沉重負擔依靠分析人員2023/2/335當前的分析需求從不同的來源有效的集成知識和信息連續的知識積累提供自動的警告為分析人員的查詢提供答案構造不同的案件情節假設2023/2/336定性,定量分析時間&頻率分析Databases經驗自由文本統一的知識系統從不同信息來源和格式獲取數據2023/2/337基本信息

組織個人人工情報事件數據庫銀行交易其它數據源政府數據庫通信情報監聽

反饋

人工情報詢問

檢查模擬聯結事件生成

Events:Meeting(What,Who,Where,When,Frequency)Travel(Who,How,Where,When,Length)Phonecall(Who,When,Length,Content,Frequency)Delivery(Who,When,How,Size,What,Frequent,Payment)Other(What,Who,When,Where)Crime(What,When,Where,Who,How)2023/2/338典型應用1–

刑事罪案自動分析2023/2/339參與分析的數據罪犯–犯罪技巧(爆炸-爆炸物制作,殺人方式,動機等等),屬于特定團伙和團伙中的角色(計劃者,輔助者,領導者,執行者/馬仔等等),戶籍地/暫住地,入獄歷史團伙–成員,角色潛在目標–人群/公共機構/商業機構,他們的位置知識和經驗–這些因素如何相互作用–包括外在的影響和經驗(過去發生的事件)新的信息會源源不斷…2023/2/340模擬案例-西西里,巴勒莫,4/4/03:“Corradi拘捕了

DonMarcello”(公共信息)理解信息Corradi

是巴勒莫警方的的首席偵探DonMarcello是Marcello家族的教父Marcello家族具有很強的報復性巴勒莫警方很可能遭到報復文本信息的理解外部數據訪問外部數據訪問DataMining/先驗知識推理,警報2023/2/341新的信息理解信息Bob是Marcello家族的成員Bob是家族中的計劃者和談判代表Marcello家族的勢力只限于巴勒莫談判代表到外面的地區尋找家族內沒有的炸彈專家炸彈制造和使用是Marcello家族沒有的技術,Parsi

地區的黑手黨家族有這樣的專家Per是Parsi

地區的黑手黨炸彈專家同時間服刑的罪犯經常會一起合作犯案Per和Bob有同時間服刑的歷史Marcello家族有可能以炸彈攻擊的方式報復DonMarcello的被拘捕Bob有可能計劃用炸彈攻擊巴勒莫警方巴勒莫,4/4/03:“Corradi

拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi

出現”(警方通報)文本信息的理解外部數據訪問外部數據訪問外部數據訪問DataMining/先驗知識外部數據訪問外部數據訪問DataMining/先驗知識DataMining/先驗知識推理,警報外部數據訪問2023/2/342新的信息巴勒莫,4/4/03:“Corradi

拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi

出現”(警方通報)羅馬,5/5/03:“Fabrizzi

將會29號在巴勒莫法庭宣判

DonMarcello"(公共信息)巴勒莫,7/5/03:“這個月巴勒莫會發生一些事情”(警方情報)

…有可能報復巴勒莫警方–可能是一起炸彈攻擊有可能針對Fabrizzi

法官–可能的攻擊手段,謀殺或是炸彈攻擊基于時間的相關分析(所有的分析都是與時間高度相關的)2023/2/343新的信息如果我們拘捕Per?炸彈攻擊的威脅會降低,但是不會消失–Marcello家族的談判代表還知道其他的炸彈專家,等等…如果我們同時拘捕Per和Bob?推理,假設分析推理,假設分析2023/2/344巴勒莫,4/4/03:“Corradi

拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi

出現”(警方通報)羅馬,5/5/03:“Fabrizzi

將會29號在巴勒莫法庭宣判

DonMarcello"(公共信息)巴勒莫,7/5/03:“這個月巴勒莫會發生一些事情”(警方情報)本月有事情(突發事件)在巴勒莫發生Fabrizzi將在29日宣判DonMarcelloBob出現在Parsi密切注意相關人員的接觸炸彈有可能在制造中(假設事件與Marcello家族有關-警告會在三個月內有效)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論