企業大數據案例分析_第1頁
企業大數據案例分析_第2頁
企業大數據案例分析_第3頁
企業大數據案例分析_第4頁
企業大數據案例分析_第5頁
已閱讀5頁,還剩24頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、企業大數據案例分析 TOC o 1-5 h z HYPERLINK l bookmark17 o Current Document 中國聯通大數據平臺4項目概述4項目實施情況5項目成果10項目意義11 HYPERLINK l bookmark30 o Current Document 恒豐銀行大數據平臺12項目概述12項目實施情況15項目成果21項目意義21 HYPERLINK l bookmark43 o Current Document 華通CDN運營商海量日志采集分析系統24項目概述24項目實施情況24項目成果28項目意義28 HYPERLINK l bookmark46 o Curre

2、nt Document 案例總結301中國聯通大數據平臺聯通XX公司公司按照工信部的的要求(見工業和信息化部、國務院國有資產監 督管理委員會關于開展基礎電信企業網絡與信息安全責任考核有關工作的指導意見和 工業和信息化部辦公廳關于印發2013年省級基礎電信企業網絡與信息安全工作考 核要點與評分標準的通知),于2013年啟動IDC/ISP日志留存系統的建設,其中XX 公司側的集中留存系統軟件由聯通研究院負責開發。為了滿足海量數據條件下的處理效 率的要求,XX公司側集中留存系統軟件除研究院自主開發外,基于Hadoop的數據存 儲部分計劃進行外包,通過軟件技術服務,來進行系統優化和維護支撐。1.1項目

3、概述目前,聯通XX公司公司全國IDC出口的訪問日志預計兩個月產生的數據量約20 PB至30PB,每秒寫入大概6千萬至7千萬條數據,在如此巨大的數據量下,原有Ter adata和Oracle已經不能滿足快速讀寫的性能要求了。同時為了實現快速檢索以及分 析處理的性能要求,需要引入分布式大數據平臺,利用分布式文件存儲系統,提高數據 的存儲入庫能力,利用Hadoop/HBase架構克服磁盤I/O瓶頸導致的數據讀寫延遲; 基于聯通IDC出口流量詳單數據進行快速存儲和檢索以及分析處理同樣要求數據處理 平臺具備快速讀寫的高性能。中國聯通公司全國IDC日至留存項目對分布式集群的要求非常高:日志數據量非常大,存

4、儲的總日志數據量將達到20PB-30PB。要求集群的數據吞吐量非常高,每秒的日志寫入量將達到6千萬至七千萬條,未來還會增長更多,每秒的數據寫入量為上百GB數據訪問的性能要求非常高,對日志的分析需要分鐘級、甚至秒級返回結果。數據計算量大,日常日志掃描任務就需要掃描上百TB,甚至上PB的數據。集群的擴展性要求非常高,能夠靈活擴展至上千個節點的集群。根據此次中國聯通的需求以及項目的特點和技術要求推薦采用商用的、成熟的、 基于星環Transwarp Data Hub的企業級大數據平臺套件,構建中國聯通IDC日志留 存平臺的基礎大數據平臺,用于滿足海量日志的高速存儲、計算、分析、挖掘的需求。1.2項目實

5、施情況星環科技通過協助聯通XX公司搭建基于星環Transwarp Data Hub的大數據平 臺,成功為聯通XX公司搭建了信息安全管理系統大數據存儲處理子系統項目所采用的 平臺系統。分布式大數據平臺采用Hadoop/HBase架構,能夠支持對聯通IDC出口流 量詳單的存儲和快速檢索和分析處理。系統拓撲:Hinoop圖4-1聯通大數據平臺技術架構整個集群由FTP集群和Hadoop集群組成,其中:FTP集群:由 129 臺服務器組成,hostname 對應為 idcisp-ftp-001 - idci sp-ftp-129功能:主要存放從各大機房傳輸過來的數據,放到對應目錄下由Su perList

6、en進程進行監控,并將數據統一傳輸到Hadoop集群的HDFS上Hadoop 集群:組成:Zookeeper 11 臺,NameNode 2 臺,Resource Manager1 臺,hamster 5 臺,DataNode921 臺功能:安裝了 tdh 相關的組件 Hadoop、Hyperbase、Inceptor,存 儲從ftp服務器傳輸過來的數據,并定時導入到Hyperbase中,供上層應用 或程序的調用快速返回查詢結果,同時也可以通過inceptor進行統計分析, 暫時保存的數據是2+1月每天存儲Hyperbase中的數據大概10T左右,存儲的是2 + 1月,除了存儲在Hy perb

7、ase中的數據,HDFS也會有原始數據的備份,現在空間占用大概在65%左右。耳十-版YcI縹奩的機48 口萬電云操機霍口萬集又蜘HL如n力籬交換虬Transwarp Data Hub平臺部署拓撲圖:滿配1152臺曲務器,J待T2個邊1千兆山換機+1&個48【1刀兆趣機任意兩合1艮務器之間可百2Gbp*W寬圖4-2聯通大數據平臺網絡拓撲4 links24機柜一24Ui網tor交悖*4 links w個核心空也*24機柜-244-1廠中三口 24個F切非口24-f-T0R#8l24?TORKKl.1o ,4個卜.廠71北口W links 我個 千Rzi我口T*安妝機仙口萬關交楨機址門子死整薄yi皿

8、門涯交H6機旭臺衛uje冬as仙門力兆交L切ZU堰券新牡n十盅交換做口萬我交投機16合衛Ulk苦器隊口I丑立挽機姑臺知幽化制技n伐交換,網絡實際部署星環的Hadoop集群,存儲能力達到全國IDC出口訪問日志兩個月的存 儲能力,約為20PB,總帶寬16764G,每G每秒生成話單4000條計算,每秒新寫入 數據為67056000條訪問日志。入庫方式:傳統的API put方式平均每秒每臺機器只能入庫約2萬條數據,900臺機器的極限是1.8千萬條/秒。遠遠低于數據灌入速度。 Bulkload是唯一的選擇定制化的Bulkload入庫效率約為單節點每秒12萬, 900臺機器的入庫能力超過10.8千萬條/秒

9、數據通過通過FTP服務器集群中部署HDFS寫入Agent方式直接由ftp集群 直接上傳到HDFS中。注:之前IP溯源Bulkload對三張表(一張內容表+2張索引表)的入庫效率為4 萬條/秒/節點。此次為了最大限度的利用Bulkload的效率,一方面去除了 2張索引表, 另一方面也優化了已有Bulkload代碼。優化內容:數據入庫時負載均衡,優化rowkey中日期時間,避免數據寫熱點。 8位UUID尾綴避免同一時間點上的數據相互覆蓋。 Rowkey上優化時間排序,加速讀過程,保證數據從最近到最遠排序。保留60天歷史數據,每天各建一張表,提升每張表的可管理性建表時預設15000個Region,提

10、升Bulkload入庫效率。不建索引表,改用定制化的API滿足查詢需求,進一步增大入庫帶寬。根據中國聯通對IDC出口的流量詳單的存儲與快速檢索、分析的處理的要求,星環 科技為聯通XX公司提供了如下技術組件與模塊:表4-1組件列表組件名稱組件功能支持運行的應用Transwarp InceptorTDH平臺組件服務,提供對SQL99, SQL2003的完整支持,同時支持 Oracle PL/SQL,快速開發日志統計與分析TranswarpHyperbaseTDH平臺組件服務,提供對海量日志 數據的快速存儲與高并發訪問,提供高 效的索引功能針對存儲的日志數據 的快速檢索Transwarp Hadoo

11、pTDH平臺組件服務,分布式基礎平臺對高吞吐量的日志數 據進行快速的存儲Transwarp ManagerTDH平臺組件服務,TDH管理工具, 圖形化、自動化安裝、部署、配置、監 控、報警管理功能聯通XX公司搭建的信息安全管理系統大數據存儲處理子系統,所采用的硬件設備如下表所示:表4-2節點配置表節點數量目前已經超過900個節點CPU兩路8核處理器2*E5-2620內存64GB ECC DDR3硬盤10 個 2TB 的 SATA 硬盤,15000RPM,不使用 RAID ;2個300G的SAS硬盤,15000RPM,RAID1,作為系統盤網絡雙電口萬兆(10Gbps)以太網卡星環科技作為大數據

12、平臺技術提供商,XX公司側集中留存系統軟件除研究院自主開發外,基于Hadoop的數據存儲部分計劃進行外包,通過軟件技術服務,來進行系 統優化和維護支撐。表4-3項目概況所屬公司編 號人員項目各個階段實施進度以及人員參與情況架設計集群部署概要設計詳細設計應用開 發系統測試試運 行上線運 行2014.122014.122015.12015.12015.12015.12015.12015.32015.32015.62015.62015.82015.82015.102015.11聯通研究院參與人員1系統設計師寸VVVVV2開發工程師1寸VVVVVV3開發工程師2VVVVVVV4開發工程師3VVVVVV

13、V星環科 技人員1架構師VVVV2實施工程師VVVVVVVV3運維工程師VVVVVVVV服務外包公司人員1項目經理VVVVVV2開發工程師1VVVVVV3開發工程師2VVVVVV4開發工程師3VVVVVV1.3項目成果項目所搭建的星環Transwarp Data Hub平臺,克服在海量數據的條件下,因磁 盤I/O性能帶來的數據處理瓶頸,分布式大數據平臺采用Hadoop/HBase架構,項目 成果如下:搭建了超過900個節點的星環Transwarp Data Hub集群,滿足約20000T( 20 PB)至30000T( 30PB)的數據存儲能力以及每秒寫入大概6千萬至7千萬條數據的 讀寫性能。

14、經測算,數據平臺的性能為:高速數據插入吞吐量遠高于單節點30MB/S ;單節點在索引上檢索性能不低于1W條/秒;提供數據據高并發查詢,單節點SQL并發度不低于3000次/秒;提供SQL對數據的高速統計分析,線性掃描性能單節點不低于80MB/S。通過Hyperbase對外提供的SQL接口上層應用通過SQL進行數據訪問和查詢, 極大的降低了對開發人員專業技能的要求,降低了系統維護成本,同時提高了應用開發 效率。通過Hyperbase集成的Elastic Search功能,應用層可以通過全文索引進行日志 數據的檢索,根據關鍵字的檢索響應時間在20ms以內,整個集群可以承載的基于關鍵 詞的檢索并發度遠

15、高于100萬/秒對海量IDC出口訪問日志的分析性能極為高效,日掃描數據量超過100TB。入庫效率單節點每秒12萬條日志,集群總體入庫能力目前超過10.8千萬條/秒。 每天Hyperbase新增存儲日志量超過50TB。1.4項目意義基于星環Transwarp Data Hub搭建的中國聯通IDC日志留存大數據平臺,目前 已經部署了 900多個x86服務器節點,是目前國內非互聯網公司范圍內規模最大的單 一客戶、單一集群的企業級大數據平臺,從全球的非互聯網行業看,如此大的部署規模 也不常見,是國內XX公司級、總部級客戶中非常成功的落地項目,充分證明星環科技 Transwarp Data Hub大數據

16、平臺可以為企業級客戶提供成熟的、穩定的的大規模部 署方案,中國聯通IDC日志留存大數據平臺為XX公司大數據平臺的建設提供了寶貴的 經驗,可以幫助XX公司搭成功建起高效、穩定的、充分滿足XX公司需求以及符合X X公司特色的大數據平臺。2恒豐銀行大數據平臺恒豐銀行股份有限公司是12家全國性股份制商業銀行之一,其前身為1987年經 國務院同意、中國人民銀行批準成立的煙臺住房儲蓄銀行。2003年經中國人民銀行批 準,正式改制為恒豐銀行股份有限公司,成為全國性股份制商業銀行。目前,恒豐銀行在全國設有14家一級分行,2家總行直管行,共256家分支機構; 另外還發起設立了 5家村鎮銀行。截至2015年末,恒

17、豐銀行資產規模達到1.05萬億元,全年凈利潤同比增長14%, 凈資產收益率ROE超過15%,新增分支機構74家,與上年相比實現翻番,創歷年新 高。在英國銀行家雜志發布的2015年全球銀行1000強排名中,恒豐銀行位 列第170位。恒豐銀行較好的實現了盈利與穩健發展的平衡。盈利能力方面,恒豐銀行在香港中 文大學發布的亞洲銀行競爭力研究報告中位列亞洲銀行業第5位;穩健發展能力方 面,恒豐銀行在中國銀行業協會發布的商業銀行穩健發展能力陀螺(GYROSCOPE ) 評價體系中,在綜合能力排名中位列全國性商業銀行第7位,全國性股份制商業銀 彳亍前三。2.1項目概述隨著利率市場化進程加快、互聯網金融業態的

18、發展,傳統銀行與實體經濟的業務橫 向聯系與深度融合進展迅速,業務數據的內容不斷豐富,建立在數據處理技術之上業務 洞察能力也需要不斷提升。恒豐銀行處于業務發展的新階段,新業務模式的創新離不開數據的支持,也對數據 信息服務的總體能力提出了新的要求。基于大數據平臺技術,整合現有行內數據,接入 行外數據,搭建處理能力更強,更易于擴展,性能更高的統一數據平臺。不僅可以很好 的滿足高計算、高存儲、高負載的要求,更能夠對海量的數據進行數據存儲、清洗、加 工、建模等,把先前無法利用的數據充分利用,提升對數據的認識,抓住機遇為恒豐銀 行數據平臺建設做好最基礎、最扎實的工作。根據恒豐銀行的實際應用需要分別搭建基于

19、大數據平臺的企業數據倉庫和歷史數 據分析探索平臺,滿足海量數據的低成本高效存儲、加工、使用,完成企業數據倉庫應 用的遷移和優化重構,滿足移動互聯渠道場景的高并發低延時數據服務需求,協助業務 數據分析團隊自主的數據探索和業務建模。恒豐銀行傳統數據倉庫是建立在IOE體系之下,支持TB級別數據存儲并提供復雜 數據查詢功能的數據管理體系。傳統數據倉庫建設多年,已接入數據源30多個,配套 監管數據集市、數據分析集市,風險數據集市三個數據集市,負責十幾個管理應用和監 管系統的數據需求,下游建有銀行管理類系統如綜合經營分析系統(管理駕駛艙)、自 定義查詢平臺等,并為各分行提供數據下發服務。隨著恒豐銀行業務發

20、展,與外部機構的跨界合作的展開,歷史數據越來越多,半結 構化數據、非結構數據也越來越多,數據的統一存儲和處理已面臨硬件成本壓力。充分發揮大數據平臺的技術優勢,確保系統平穩安全運行,恒豐銀行基于星環科技 Transwarp Data Hub大數據技術構建全新的IT信息系統架構,為各數據應用系統提 供功能完善、穩定可靠的大數據應用基礎技術平臺,更好的支持各類型海量業務數據的 存儲、加工、使用和數據價值提煉。基于星環科技Transwarp Data Hub平臺,恒豐銀行將原有的基于Oracle的數據倉庫平臺平滑遷移至星環大數據平臺,提升數據倉庫的批處理能力,同時也建設歷史數 據探索的能力,基于大數據

21、架構,完成了符合恒豐銀行現狀的開創型應用,例如:準實 時系統日志分析應用、客戶實時風險監測、基于互聯網點擊流數據的用戶體驗優化與客 戶行為分析、客戶標簽化畫像應用等。源數據層核心系統總賬系統卡系統工具層源數據支付系統/監管集市工具層數據卸載平臺統一調度監控平臺數據標準管理平臺指標管理平臺數據質量管理平臺基于星環的數據倉庫數據集市平臺應用層 業務層文件交換區數據服務接口監管集市數據分析集市監管平臺1104EAST客戶風險反洗錢績效考核風險集市CRM圖4-3恒豐銀行大平臺架構恒豐銀行搭建的基于星環科技Transwarp Data Hub的大數據平臺承載了恒豐銀 行分布在全國的數千萬用戶數據,服務于

22、全國用戶與行內業務人員,數據總存儲量達到 幾十TBO根據恒豐銀行的項目建設的需求,我們推薦恒豐銀行采用基于星環 Transwarp Data Hub大數據平臺來構建新一代數字銀行平臺,滿足恒豐銀行數據倉庫的遷移、數 據集市的搭建,同時協助恒豐銀行構建客戶360度視圖應用,準實時日志和精準營銷 等應用。技術組件和相關方案如下所示:Transwarp Hadoop,完成海量數據的存儲。Transwarp Inceptor完成傳統基于關系型數據庫SQL應用的語義解析和編譯, 使得基于傳統關系型數據庫的應用可以直接遷移至星環大數據平臺,在 Transwarp Data Hub平臺實現企業級數據倉庫的核

23、心組件。Transwarp Hyperbase,完成銀行海量歷史交易明細數據的存儲,支持高并發 的快速查詢。(4) Transwarp Discover,完成客戶畫像,風險預警等分析挖掘任務。Transwarp Stream,完成實時日志的采集與報警。2.2項目實施情況星環科技協助恒豐銀行搭建了行內統一基于Transwarp Data Hub的數據平臺,一 期工作完成將原有Oracle數據倉庫中的全量數據進行遷移,同時在大數據平臺完成了 數據批處理、數據建模、數據集市等工作。數據移植說明:數據倉庫原有數據全部移植到新的大數據平臺之上,并對數據結構進行重構。數據 移植的基本流程如下圖所示:除Sq

24、oop數據抽取階段,剩下的主要的數據處理階段放在大數據平臺上實現,避 免了對原數據倉庫正常運行的影響。數據倉庫日終ETL體系流程說明:(1)每日業務系統日終完成后會生成相關數據文件提供給數據平臺,數據平臺獲 取文件并加載文件數據。(2)對每個業務系統提供的數據文件,數據平臺必須對文件進行合法性校驗。合 法則加載文本,不合法通知業務系統人員對數據文本的導出進行調整。(3)ODM構建文本的映射外表,通過PL/SQL存儲過程將ODM數據備份到 HDM 層。(4)部分原數據倉庫的基礎整合模型保留在FDM層,通過PL/SQL還原原倉庫 數據處理程序,并逐步將FDM層數據轉移到CDM層公共模型中。(5)O

25、DM層數據每日經過清洗、加工、整合后放在CDM層公共數據模型層, 在公共模型層之上構建DSI服務接口,向外部集市或應用提供數據服務。(6)集市回流數據依照ODM-HDM的處理方法進行數據的備份。如圖所示:業務系統日終后生成提 供給數據平臺 的數據文件圖4-5恒豐銀行大數據平臺數據同步流程(1)每日在線數據平臺處理數據經過處理后,經數據復制將數據同步到歷史數據(2)校驗成功后的文本同步到歷史數據平臺進行歸檔。(3)歷史數據平臺的數據與在線數據平臺保持一致,存期延長。(4)歷史數據平臺之上建立歷史數據查詢模型,提供歷史數據查詢服務。圖4-6恒豐銀行大數據平臺數據模型轉換為完整支持恒豐銀行數據倉庫項

26、目的建設,星環科技為恒豐銀行提供了如下技術組件與模塊:表4-4組件列表組件名稱組件功能支持運行的應用Transwarp InceptorTDH平臺組件服務,提供對SQL99 , SQL2003的完整支持,同時支持 Oracle PL/SQL ,為原有應用平滑遷移 提供基礎數據倉庫、數據集市、 批處理、ETLTranswarpHyperbaseTDH平臺組件服務,提供對海量歷史 數據的快速存儲與高并發訪問歷史數據存儲與查 詢、數據集市Transwarp DiscoverTDH平臺組件服務,對海量數據進行 快速的分析和挖掘客戶畫像、風險監測Transwarp StreamTDH平臺組件服務,對實時

27、數據進行 計算實時交易預警、實時 點擊流分析Transwarp HadoopTDH平臺組件服務,分布式基礎平臺影像存儲、日志存儲、 點擊流數據存儲Transwarp ManagerTDH平臺組件服務,TDH管理工具, 圖形化、自動化安裝、部署、配置、監 控、報警管理功能經過恒豐銀行的測試確認,從性能的角度出發,恒豐銀行采用如下硬件設備:表4-5硬件配置列表節點數量一期16個節點,未來規劃150節點CPU兩路8核處理器2*E5-2650 v3內存256GB ECC DDR3硬&10 個 600GB 的 SAS 硬盤,15000RPM,不使用 RAID ;2個300G的SAS硬盤,15000RPM

28、,RAID1,作為系統盤網絡雙電口萬兆(10Gbps)以太網卡固態硬盤800GB星環科技作為大數據平臺技術提供商,在恒豐銀行大數據平臺建設項目中,為客戶 提供了強大平臺技術支持,同時與應用廠商進行緊密的配合,確保了項目一期建設的順 利上線。表4-6項目實施概況編號角色所屬公需求架構概要詳細應用開發系統測試運上線分析設計設計設計/遷移試行運行項目各個階段實施進度以及人員參與情況司2015.72015.72015.72015.2015.72015.82015.72015.82015.82015.102015.102015.112015.112015.12015.12-至 今1架構師:科技VVVV2

29、實施工程師VVVVVV3項目經理應用商VVVVVVVV4實施工程師1VVVVVV5實施工程師2VVVVVV6實施工程師3VVVVVV7實施工程師4VVVVVV物理拓撲圖:大數據平臺(企業級數據倉BS1大數據卜大數據8-一圖4-7恒豐銀行大數據平臺網絡應用服務器3性能指標:日終批處理時間數據平臺每日幾千個數據處理作業,日終時間窗口控制在3個小時到4個小 時之間。日終掃描數據量達10TB,按照業務系統供數最晚時間1:30計算,在凌 晨5點左右全部完成數據處理作業,個別作業錯誤不影響整體進度。最大并發查詢用戶1000個用戶同時使用數據平臺查詢數據,簡單查詢響應時間在100毫秒以內,關聯統計查詢在20

30、0毫米以內,復雜的統計分析應用響應時間在分鐘級。2.3項目成果恒豐銀行所搭建的基于星環科技Transwarp Data Hub的大數據平臺是國內第一 個完全采用Hadoop來搭建金融機構企業級數據倉庫平臺的成功案例。在短短半年的 時間內,就將原有Oracle數據倉庫的復雜數據處理過程,以及金融機構的模型,遷移 至星環Transwarp Data Hub平臺,同時在數據倉庫上面,建設了客戶關系管理集市和 審計集市,同時存儲了恒豐銀行多年來全部數據,接入了 30幾個業務系統,批處理性 能比原有Oracle數據庫平臺提升5倍以上,歷史數據查詢的性能比原來提升幾十倍, 90%的歷史查詢應用都可以在20

31、0毫秒內返回結果,而總體投資僅占原有平臺的1/3。埠臺監管里可 I 數據會析集市 I莒自關聶管理址市審r.反洗族等巨w數據運堆體系統一閶度平臺 . 上數攔管珪平臺歷史敬據報將接口腆服務援口 DS1敬據服務歷史敬據平臺在線數唱平臺非結構數據區罪培構化數據接人源數據基麟,歷史層據指型 HDM.層FDM J非結構化歸輜構化數搪公英數據模型層CDM數據存儲醇數據氐史曇HDM基礎數據模型 層FDM源雌彩口 EOD M始嗨化數據接入.文件交換區F5A竦數據結祠據散握演人源數據基于星環科技TrainEwarp Data Hub的恒豐銀行數據倉庫架構圖4-8恒豐銀行大數據平臺數倉架構本項目充分證明,星環科技T

32、ranswarp Data Hub大數據平臺,能夠全面支撐企業級數據倉庫的搭建。2.4項目意義恒豐銀行大數據平臺的一期建設完成了將傳統基于Oracle的數據倉庫遷移至星環大數據平臺,并在基于星環Transwarp Data Hub大數據平臺的數據倉庫上搭建了基于 三范式模型的數據集市,充分證明了星環Transwarp Data Hub平臺能夠支持企業在大 數據平臺建設數據倉庫、數據集市的應用,同時如果已有數據倉庫平臺,也可以短期內 快速完成數據倉庫的遷移。恒豐銀行基于Transwarp Data Hub大數據平臺的數據倉庫項目,是大數據技術 在行業復雜應用落地項目中的重要里程碑充分證明星環Tr

33、answarp Data Hub平臺能 夠支持企業最重要也最復雜的數據倉庫應用。全球著名大數據調研機構Gartner在近期的大數據市場調研報告中,已經將星環 Transwarp Data Hub平臺列入數據倉庫魔力象限,并在技術成熟度,技術領先度的維 度中,排名全球大數據廠商第一名。AmiriiniWHb ScrnCftHPWlOdrtB .RnWighl.0MarkLogkMapfS TechFvbgiiKOoiidtfaAdsn .HodMwrcdti.McmguDB PffUlBltulnokuEDl Atl一是Kcfnitii.HrUd!. MemCKAs d February 201

34、6CatIPLETENESS DF VISiDN圖4-9 Gartner數據倉庫魔力象限因此,恒豐銀行基于大數據平臺的數據倉庫建設經驗,可以為此次XX公司大數據 平臺建設提供寶貴的經驗。目前從全球大數據廠商來看,除星環科技外,還沒有其他廠 商能夠在金融、銀行這樣的高端行業,擁有完全通過大數據技術實現企業數據倉庫的成 功案例。在恒豐銀行項目中,星環科技已經積累了大量的基于大數據平臺建設傳統數據倉庫 理論基礎和實踐經驗,同時在產品的性能和功能上也充分的得到了驗證,尤其星環 Transwarp Inceptor組件,能夠快速協助XX公司將傳統基于Teradata數據倉庫平臺 的應用快速的遷移至星環大

35、數據平臺,從而極大降低了項目風險。采用星環Transwarp Data Hub平臺構建XX公司大數據平臺,是XX公司的正確 選擇。3華通CDN運營商海日志采集分析系統浙江華通云數據科技有限公司是一家致力于云基礎設施、云網絡(CDN、VPN ) 以及各類云應用建設和服務企業。通過云數據中心、覆蓋全國主要城市的CDN網絡, 為通信運營商、服務提供商、互聯網企業及終端用戶提供云應用和服務。依托豐富的網 絡資源和云資源優勢,打造成為全國性的云應用服務中心。3.1項目概述華通CDN運營商需要構建了全國性的CDN平臺,針對CDN服務過程中產生的 海量日志數據進行流式采集和分析,并將海量日志的處理及分析結果

36、輸出給使用者。華通CDN運營商已經在全國部署了上千臺服務器,日志采集系統需要滿足上數百 個節點、每秒上千萬次的日志數據實時采集能力;日志從采集、分析到提供給第三方的 延時不超過5分鐘;日志存儲集群支持2PB的數據存儲;支持將采集的數據實時匯聚 并寫入日志管理分析平臺進行后續的統計分析;實現針對命中率、時延、可用性、流量 等指標的統計功能。3.2項目實施情況星環科技根據華通CDN日志采集和分析系統的需求,在前端600多個CDN服務 器節點上,部署了 600多個代理服務器,用來實時采集日志數據,搭建了 100個節點 的X86服務器來部署星環Transwarp Data Hub平臺,用Transwa

37、rp Hadoop來采集 日志數據,并通過Transwarp Inceptor進行分析,快速得到分析結果。SQLInceplor ln-nwng圖4-10華通CDN日志采集和分析系統架構數據采集完成緩存服務器日志數據從節點到中心的數據采集匯聚,在每個節點內部署日志采集Agent,通過UDP方式采集服務器syslog日志,節點Agent將采集的數據通過流式傳輸的方式發送至中心匯聚服務器,中心匯聚服務器將匯聚的日志數據寫入數據存儲分析平臺,系統部署600+ Agent,20個匯聚服務器,平臺采用TranswarpData Hub方案構建支持峰值928w/sec的數據寫入和分析;將數據進行清洗整理后

38、,進行實時壓縮處理,輸出至第三方系統。平臺依賴于Transwarp Inceptor對采集的日志流數據進行實時的統計分析,為業務質量監控和后續服務的優化提供數據支撐。圖4-11華通CDN日志采集平臺物理部署單臺日志采集服務器每條處理的日志數為10萬條,按照服務器最多的A類節點其峰值每秒產生4萬條日志計算一個拉遠節點每天所需存儲的日志數為,代理服務器本地配置8T的存儲空間至少可滿足1周的日志存儲。按照流式處理的峰值計算,1秒內完成所有日志的傳輸,單條日志0.2K的情況下 單個拉遠節點日志傳輸對上行帶寬的要求。星環科技為華通CDN海量日志采集與分析系統提供了如下技術組件與模塊:表4-7組件列表組件名稱組件功能支持運行的應用TranswarpInceptorTDH平臺組件服務,用于對海量日志數 據進行實時、高效的分析,并通過標準的 SQL完成各種分析報告日志分析,點擊命中 率報告Transwarp FlumeTDH平臺組件服務,對實時日志數據進 行采集,提供分布式的采集方式實時日志采集Transwarp HadoopTDH平臺組件服務,分布式基礎平臺, 用于存儲海量的日志數據,提供極高的吞 吐量日志存儲TranswarpManagerTDH平臺組件服務,TDH管理工具,圖 形化、自動化安裝、部署、配置、監控、 報警管理功能華通CDN海量日志采集與分析系統,采用如下硬件設備:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論