大數據物流可視化解決方案_第1頁
大數據物流可視化解決方案_第2頁
大數據物流可視化解決方案_第3頁
大數據物流可視化解決方案_第4頁
大數據物流可視化解決方案_第5頁
已閱讀5頁,還剩80頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

物流大數據處理物流大數據處理采集導入/預處理

統計/分析

挖掘

1234567

潘果淘寶數據分析挖掘實踐及變革百度大數據分析系統架構京東大數據實時處理技術物流大數據處理簡介1234目錄【推薦】用大數據能力找到商品之間的關系【推薦】用大數據能力找到商品之間的關系你知曉大數據在哪些方面有應用?3132

架構化1950-1970數字化1970-1990

網絡化1990-2010+

物聯網

大數據Something

Big

is

Happening

NOW移動互聯網

云計算4信息技術革命的小周期

智慧化51:1

MarketingNanotargeting和Retargeting62?IBM

IBM

2013

多渠道

交通控制交易分析智慧的醫療

國土安全

制造

金融

電信欺詐和風險

日志分析

搜索質量

零售:流失、促銷?

Copyright

2011

Corporation大數據在各行各業都可以獲得應用24?

Copyright

2011

Corporation?IBM

IBM

2013獲得突破性回報

了解關于客戶的

一切作快速大量地創新產品和風險利用工具化的資產利用大數據能力可以幫助企業獲得突破性回報利用大數據獨有的

技術能力

可視化和發現Hadoop

執行零延遲的操數據倉庫流計算文本分析整合和治理多媒體內容通過分析仸意

大數據類型

交易

/

應用數

據機器數據社交媒體數據

實時偵測欺詐411快雜大大數據的新新思維13多數據源的的集成浮動車GPS:20M/day手機位置信信息:18M/day居民調查:80000戶視頻/圖像像數據和元數據:100sofTB/dayGIS數據據供水系統智能電網睡眠質量出租車運營營數據:1M/day交通卡:19M/day高速路收費費數據:0.5M/day社交網絡情感分析部分數據來來源:BeijingTOCC12大數據的新新方法學數據極大豐豐富前提下下的新分析析思維和技技術采樣數據全集數據多數據源的的整合基于主觀因因果假設相關關系大數據+小小算法+上下文+知識積累累描述性分析析預測性和處方性分分析實時性>絕對的精確確性數據數據中介服務生態系統數據擁有者者大數據的數據中介數據技術公公司數據產品和服務16大數據系系統的設設計權衡衡大體量基于采樣樣的查詢詢實時性流計算批量計算算精確性惰性數據據的即席席查詢Littledata(個人計計算)19城市計算算增量計算算內存計算算案例一::大數據分分析系統統架構的的搭建百度的數數據規模模?100~1000PB?10~100PB/天?千億~萬億?百億~千億?十億~百億/天?十億~百億/天?100TB~1PB/天數據總量量數據處理理量網頁索引更新量請求日志離線在線離線分析析與在線線實驗相相結合快速迭代代是互聯網網產品的的主要創新新手段算法A算法B算法B通過反饋饋來驗證證算法優優劣搜索引擎擎的迭代代5%5%OnlineLearningA/Btest策略機器學習習平臺FeatureTraining數據網頁網頁庫倒排表DataMining想法原型系統快速開發發測試產品部署運維維開發框架架互聯網產產品的迭迭代A/B測試,持持續優化化數據智能能驗證數據分析析應用引擎擎云測試應用引擎擎數據架構技術互聯網服服務enable數據智能能IT產業業生產力力的變化化‘60‘70‘80‘90‘00‘10硬件Mainframe軟件PCInternetInf+人+數據Cloud迭代的本本質是讓讓人參與與系統進進化,而BigData為迭代代指導方方向,Infrastructure則加加速迭代代。軟件+人互聯網服服務的典典型技術術特點超大規模??焖俚鷶祿悄苣苘浖A礎架構大數據數據中心心、網絡絡、服務務器數據中心心計算云計算技技術體系系DiskFlashPipeK/VFileTable統一存儲儲體系–平衡大容容量、高高并發、、低延遲遲–不同訪問問模式通通過組合合滿足統一訪問問與傳輸輸數據訪問問層P2PCDN分布式存存儲描述能力力數據流優優化控制流管管理資源分配配優先級、、并發控控制隔離、安安全執行層模型層MapReduce表示層SQL-like翻譯JoinSelectTop分布式計計算BCDA實時存儲儲與計算算kNN查詢平臺向量計算算引擎流式數據據處理引引擎PubSub引擎機器學習習算法平臺臺OLAP引擎復雜事件件處理引引擎分布式數數據結構構超大規模模數據倉倉庫圖查詢平臺實時檢索索平臺向量計算算引擎VectorLayoutMap-ShuffleOperators/CheckpointSIMDProgram復雜事件件處理average(price)trigger(?,b,c)filter(b)pattern(a->b->c)condition(func(a,b,c))流式計算算模型windowstepboundtimeM=Stream<window,step,bound>目標?1000PB?10億維維特征訓訓練?100維維條件查查詢?流式?觸發式海量高維、多多維實時更大、更更復雜、、更快!數據智能能分布式存儲與計計算大規模人人工輔劣標注注系統人計算向量引擎擎MachineLearning算法WebContents流式處理理LogsPubSub推薦系統統智能交通通Apps自勱評估估商業智能能決策輔劣劣關于京東東營銷管理供應商管理倉儲管理財務系統客戶數據網站前臺關于京東東京東擁有有覆蓋企企業全部部價值鏈鏈的穩定定系統,,通過持持續優化化打造開開放平臺,全面面提升用用戶體驗驗。配送管理大規模數數據處理理更加容容易ETL/企業數數據倉庫庫(Hive/Pig/MR))數據挖掘掘/建模模(R、Mahout))搜索和推推薦日志存儲儲…?????“NextClick”運營智能能風險控制制互動分析析?一些場景景需要進進一步的的考量MapReduce批量處理理=延遲較長長無法滿足足用戶的的實時需需求調度開銷銷較大批處理與分析近實時分析實時流處理實時性離線準實時/實時實時處理時間分鐘到小時毫秒到秒持續不斷數據量TB-PBGB-TB持續編程模型MapReduceQueriesDAG用戶分析師/開發者分析師/開發者開發者成本中高高應用ETL/數據挖掘/預處理?數據決策分析/??大數據包包括三部部分服務模型性能能大數數據據實實時時處處理理的的思思考考?模型型–海量量數數據據?數據據量量大大?并發發數數高高–多個個數數據據源源整整合合–預定定義義好好的的數數據據模模型型?去規規格格化化–數據據任任務務依依賴賴關關系系簡簡單單–推和和拉拉的的問問題題?拉比比推推好好大數數據據實實時時處處理理的的思思考考?性能能–高并并發發需需求求–大容容量量需需求求?GB––TB級后后臺臺數數據據處處理理吞吞吐吐–高速速度度需需求求?從數數據據產產生生到到處處理理完完成成結結果果延延遲遲要要求求到到秒級級?計算算需需要要在在短短時時間間內內完完成成–批處處理理預預算算–硬件件支支持持?內存存、、CPU、、網網絡絡–容錯錯–水平平擴擴展展大數數據據實實時時處處理理的的思思考考––––關聯聯獲獲取取價價值值,,維維度度按按需需定定制制互動動分分析析、、報報表表等等完完成成價價值值交交付付與其其他他在在線線生生產產系系統統進進行行數數據據對對接接((數數據據反反哺哺))計算算即即服服務務大數數據據實實時時處處理理的的思思考考?服務務生產產數數據據庫庫企業業數數據據倉倉庫庫大數數據據實實時時處處理理架架構構財務務數數據據集集市市采銷銷數數據據集集市市羅盤盤數數據據集集市市分析析挖挖掘掘數據據集集數據據緩沖沖區區企業業消消息息總總線線流式式計計算算集集群群實時時數數據據同步步模型型日志志系統統高速速存存取取集集群群在線線實實時時計計算算集集群群持久久化化PUSHPULL/PUSH訂閱閱ELTELT高速速存存取取集集群群ETL報表表應應用用分析析應應用用推薦薦應應用用...數據推送中心近實實時時分分析析集集群群近實實時時計計算算實時時計計算算在線線服服務務離線線計計算算應用用分布布式式消消息息系系統統緩存存集集群群––––日志志((用用戶戶行行為為、、??))批量量同同步步消息息隊隊列列??開源源技技術術––––FlumeScribeKafka?大數數據據實實時時處處理理技技術術?數據據傳傳輸輸?Apache項項目目:?一個個分分布布式式的的發發布布/訂訂閱閱消消息息系系統統?術語語–Topics?消息息分分組組–Brokers?消息息存存儲儲–Producers?消息息生生產產者者–Consumers?消息息消消費費者者Kafka–––––大數數據據實實時時處處理理技技術術?幾個個點點SinkAgentAgentStorm等Broker(Topic1)Broker(Topic2)HDFSZookeeper解耦耦緩沖沖容錯錯透明明跨數數據據中中心心數數據據分分發發FlumeKafka––––––HadoopHBaseCassandraMongoDBRedis??數據據庫庫Sharding?合適適的的就就是是最最好好的的大數數據據實實時時處處理理技技術術?存儲儲–大容容量量低低速速存存儲儲–高速速存存儲儲–KV存存儲儲?開源源NoSQL數數據據存存儲儲––––可加加計計算算、、不不可可加加計計算算實時時數數據據的的實實時時計計算算實時時數數據據的的計計算算數據據的的實實時時計計算算?開源源計計算算框框架架–Storm–Impala–?大數數據據實實時時處處理理技技術術?計算大數據實實時分析析明細事實實表聚合表1聚合表2聚合表3?基本概念念–Streams(流))?元組序列列–Spouts?流的源頭頭–Bolts?Functions,Filters,Joins,Aggregations–Topologies?優點–可擴展、、容錯、、易用??–在內存中中執行流式計算算Storm?Twitter開源的的分布式式處理框框架SpoutsBoltTopologies?Nimbus–主控節點點,用于于任務分分配,集集群任務務監控等等?Zookeeper–集群中協協調,共共有數據據的存放放(如心心跳信息息)?Supervisor–對應一臺臺物理機機,用于于啟動worker?Worker–工作進程程,負責責啟動task,以及及通過zeromq進進行tuple的分發發,與接收。?Task–工作線程程,任務務的處理理Storm的部署Storm的應用模模式用戶查詢詢大數據存存儲數據視圖圖集(批處理理)數據流HadoopStorm數據視圖圖集(實時處處理)數據流數據視圖圖集(實時處處理)數據視圖圖集(實時處處理)流式計算算流式計算算應用事件收集集器Storm前段展現現?事件驅動動實現?注意–內存泄露露–消息堆積積–算法模塊塊拆分流式計算算––––分析可視視化數據可視視化數據反哺計算即服務務?仔細思考考其價值值–––––實時的統統計:最最流行廣告CTR預測測ETL::格式轉轉換、重重復值過過濾、??運營需求求:資源源調派?大數據實實時處理理技術?服務和應應用?價值展現現?對系統的的壓力–數據量–數據展現現–數據讀寫寫和傳輸輸?解決方法法–前端和后后端解耦耦?緩存的應應用?JS發揮揮前端的的能力–壓縮–排隊?異步、非非阻塞IO模型型?線程池?事件驅動動–后端更強強勁?數據庫集集群:分分庫、分分表、分分區?NoSQL數據據庫:Hbase、MongoDB等數據應用用的問題題淘寶數據據分析挖挖掘實踐踐及變革革淘寶數據據四階段段?被動響應應–2007年前前?主動變革革–2008-2010?優化完善善–2011-2012?引領驅動動–2013-數據系統統變遷2007年前數據庫(集群)腳本簡單調度度數據報表表2008-2010Hadoop集集群調度監控控實時日志志傳輸數據門戶戶多維分析析2011-2012Hadoop集集群DXP公公有云實時Storm調度監控控實時日志志傳輸實時數據據庫同步步數據門戶戶自助查詢詢工具元數據管管理2013-數據驅動動新模式探探索調度監控業務庫((Mysql))LogServer外部數據據數據源數據計算平臺數據門戶戶多維自助助查詢平平臺OpenAPI數據平臺臺架構數據應用數據收集DBSyncTTDataX……HiveHDFSHbase實時計算算Storm…OceanBase分布式集集群量子恒道道在云端接接入數據魔方方DXP數據交換平臺冷數據集群數據應用用格局對外數據據產品?數據魔方方/淘寶寶指數–行業趨趨勢–人群特特征–成交排排行–市場細細分?量子恒道道–銷售分分析–營銷效效果–來源分分析?搜索排行行榜對外數據據產品?淘寶時光光機–回憶的的感動?排行榜對外數據據產品-淘寶指指數對外數據據產品-量子恒恒道數據嵌入入產品中中?搜索匹配配、排序序?廣告匹配配、排序序?推薦?商家后臺臺數據?營銷效果果–直通車車、展示示廣告、、淘寶客客內部數據據服務?淘數據門門戶–用戶分分析–商家云云圖–活動效效果分析析–例行數數據報表表?在云端–低門檻檻接入分分布式集集群–周活躍躍用戶1000+內部數據據服務?多維數據據自助查查詢平臺臺–數據倉倉庫和索索引技術術結合–隨意組組合維度度–秒級返返回?日常數據據需求管管理–數據接接口人數據工具具?天網調度度?元數據管管理?數據地圖圖-定位位、血緣緣分析?DataX異源源數據傳傳輸?TimeTunnel實時日日志傳輸輸?監控報警警?生命周期期管理新的探索索?金融服務務–小微企企業貸款款–個人消消費貸款款?全網精準準營銷–DMP、DSP、ADExchange、RTB?無線與PC數據據打通?數據交換換一些觀點點?數據處理理是手段段,數據據應用是是根本?云系統運運維能力力是核心心競爭力力?整合關聯聯讓數據據價值指指數級增增長?數據可視視化很重重要?想大做小小,迭代代優化?關于隱私私–隱私和和服務的的權衡–控制使使用比控控制收集集更有效效–不針對對具體個個體初識物流流物流信息技術物流信息平臺概念發展歷程物流的概概念(Logistics)來源于二戰軍事(運輸管理、倉儲管理和庫存管理))物流管理理:除運輸外的需求預測測、采購、生產計劃劃、存貨管理理、配送與客客戶服務務等物流信息息技術條碼技術術射頻技術術物流信息息技術EDI技術GPS技術物流信息息技術GIS技術物流大數數據來源源被動主動自動海量并行爆發式增增長物流大數數據處理理過程處理過程程挖掘統計/分析導入/預處理收集識別、定定位和感感知研究點::物流信息息平臺的的壓力測測試物流信息息平臺大大數據在在亞馬遜遜平臺的的性能分分析…………………………整合:用用服務去去換取管管理科學拆分分數據的數數量優于于質量數據相關關性優于于數據邏邏輯性或或因果性性公共平臺臺解決網網絡(資資源)與與流程((服務))電商物流流企業((物流流倉儲平平臺建設設、物物流信息息平臺建建設))啟示發展趨勢勢大數據能能否預言言足球盛盛況?拭目以待待ThankYou!9、靜夜四無鄰鄰,荒居舊業業貧。。12月-2212月-22Friday,December23,202210、雨中黃葉樹樹,燈下白頭頭人。。11:42:1711:42:1711:4212/23/202211:42:17AM11、以以我我獨獨沈沈久久,,愧愧君君相相見見頻頻。。。。12月月-2211:42:1711:42Dec-2223-Dec-2212、故人江海海別,幾度度隔山川。。。11:42:1711:42:1711:42Friday,December23,202213、乍乍見見翻翻疑疑夢夢,,相相悲悲各各問問年年。。。。12月月-2212月月-2211:42:1711:42:17December23,202214、他他鄉鄉生生白白發發,,舊舊國國見見青青山山。。。。23十十二二月月202211:42:17上上午午11:42:1712月月-2215、比不了得就就不比,得不不到的就不要要。。。十二月2211:42上上午12月-2211:42December23,202216、行動出成果果,工作出財財富。。2022/12/2311:42:1711:42:1723December202217、做前,,能夠環環視四周周;做時時,你只只能或者者最好沿沿著以腳腳為起點點的射線線向前。。。11:42:17上上午11:42上上午11:42:1712月-229、沒有失敗,,只有暫時停停止成功!。。12月-2212月-22Friday,December23,202210、很多事情努努力了未必有有結果,但是是不努力卻什什么改變也沒沒有。。11:42:1711:42:1711:4212/23/202211:42:17AM11、成功就是日日復一日那一一點點小小努努力的積累。。。12月-2211:42:1711:42Dec-2223-Dec-2212、世間間成事事,不不求其其絕對對圓滿滿,留留一份份不足足,可可得無無限完完美。。。11:42:1711:42:1711:42Friday,December23,202213、不知香香積寺,,數里入入云峰。。。12月-2212月-2211:42:1711:42:17December23,202214、意意志志堅堅強強的的人人能能把把世世界界放放在在手手中中像像泥泥塊塊一一樣樣任任意意揉揉捏捏。。23十十二二月月202211:42:17上上午午11:42:1712月月-2215、楚塞塞三湘湘接,,荊門門九派派通。。。。。十二月月2211:42上上午12月月-2211:42Decembe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論