大數據處理平臺構架設計說明書_第1頁
大數據處理平臺構架設計說明書_第2頁
大數據處理平臺構架設計說明書_第3頁
大數據處理平臺構架設計說明書_第4頁
大數據處理平臺構架設計說明書_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據辦理平臺及可視化架構設計說明書版本:1。0改正記錄序號版本改正說明更正人/日期審批人/日期11.0創辦李萬鴻2015-3—18目錄11.文檔介紹......................................................................................................................................21.1文檔目的......................................................................................................21。2文檔范圍......................................................................................................21.3讀者對象......................................................................................................21。4參照文件......................................................................................................21。5術語與縮寫講解...........................................................................................22系統歸納...........................................................................................................................................33設計拘束...........................................................................................................................................44設計策略...........................................................................................................................................55系統整體結構....................................................................................................................................65。1大數據集成解析平臺系統架構設計..............................................................65.2可視化平臺系統架構設計............................................................................96其余.................................................................................................................................................116。1數據庫設計.................................................................................................116.2系統管理.....................................................................................................116。3日志管理.....................................................................................................111/1111.文檔介紹1.1文檔目的設計大數據集成解析平臺,主要功能是多種數據庫及文件數據;接見;采集;解析,清洗,ETL,同時能夠編寫模型支持后臺統計解析算法。設計數據可視化平臺,應用于大數據的可視化和互動操作.為此,依照“先進合用、牢固可靠"的原則設計本大數據辦理平臺及可視化平臺。1.2文檔范圍大數據的辦理,包括ETL、解析、可視化、使用。1.3讀者對象管理人員、開發人員1.4參照文件1.5術語與縮寫講解縮寫、術語講解BDBigdataSD系統設計,SystemDesign2/11系統歸納大數據集成解析平臺,分為9個層次,主要功能是對多種數據庫及網頁等數據進行訪采集、解析,沖刷,整合、ETL,同時編寫模型支持后臺統計解析算法,供應可信的數據。設計數據可視化平臺,分為3個層次,在大數據集成解析平臺的基礎上實現大實現數據的可視化和互動操作。3/11設計拘束。系統必定依照國家軟件開發的標準。2.系統用java開發,采用開源的中間件。3。系統必定牢固可靠,性能高,滿足每天千萬次的接見。4。保證數據的成功抽取、變換、解析,實現高可信和高可用.4/11設計策略1.系統高可用、高性能、易擴展,安全牢固,合用可靠,滿足用戶的需要.系統能夠進行擴展,增加數據的種類和數量。系統能夠復用其余軟件和算法。5/11系統整體結構5.1大數據集成解析平臺系統架構設計1.邏輯架構架構說明系統分為9個層次:1)數據源:CSMAR數據庫、高頻系列數據庫、量化因子庫房、風險控制模型數據庫、量化輿情數據庫、互聯網的網頁。數據獲取層:接收數據源的數據和抓取網頁,建立知識圖譜將網頁數據結構化,為人工和機器決策供應依照。3)數據導入層:經過sqoop把數據庫的數據導入hbase,用flume、kafka把網頁導入hbase。4)數據加工層:對導入的數據進行沖刷、抽取、整合,并存入數據核心儲藏層。5)數據核心儲藏層:采用hbase、關系數據庫保存加工后的數據。6)數據解析辦理層:經過統計解析、數據挖掘、機器學習、風控模型等對大數據進行解析辦理。7)數據服務儲藏層:儲藏解析結果,包括Elasticsearch分布式找尋,redis分布式緩存。應用層:包括報表引擎、規則引擎、風控找尋引擎、用戶認證系統、統計解析接口等。9)服務層:對內的應用服務和對外的應用服務,為用戶供應系統功能。系統采用一系列先進的開源技術框架,實現大數據的抽取、ETL變換、沖刷、整合、匯總、統計解析,得出可信度高的結果,高速牢固地響應用戶的央求,可對企業的寬系列產品供應高質量的支持。還可建立企業云,把大數據平臺放到云上.系統從CSMAR數據庫、高頻系列數據庫、量化因子庫房、風險控制模型數據庫、量化輿情數據庫抽取數據,還用機器爬蟲從互聯網上抓取與金融相關的網頁,對這些結構化和非結構化的數據進行抽取、沖刷、整合、變換,存入hbase數據庫.6/11統計解析程序采用必然的算法和模型經過spark、hadoop的yarn、hive、pig等讀取辦理數據,結果保存在服務層數據庫,為用戶供應可信的數據,還可經過可視化以各種統計圖展現出來,經過pc、手機能夠看到結果。系統供應可視化的操作界面,用戶可自己定義統計統計和參數,系統計算解析后給出對應的圖表。系統的特點1、高負載和海量數據辦理能力以云儲藏或當地儲藏為基石,以云計算或企業服務器為辦理核心,建立了海量的數據業務支撐的大數據平臺。每天能夠承受千萬級PV的接見壓力,支撐億級用戶及P級各種數據儲藏如金融數據、網頁、日志文件、圖片、文檔、影音等。基于此大數據支撐平臺,不但能夠辦理日以繼夜增加的TB級數據增量,更能滿足各種實時業務需求2、業界當先的實時性在實時辦理領域實現秒級打破,能夠對各項業務數據驚醒實時查察與統計,方便客戶快速做出決講和即時響應,適應此刻快節奏發展趨勢。如傳統監控對年、月、周、日的頻次統計,能夠實現24小時內的實時監控,和管理當前實時變化的統計儀表盤數據,更能實現7*24的用戶實時行為監測及秒級解析。3、全面運營監控指標系統不但擁有常有的接入站點的運營監控流量指標如UV、PV、IP、新舊訪客數,還建立了行為質量指標如用戶的央求,統計解析的正確度,并可在此基礎之上加入客戶行為解析、統計模型調優、算法調優、網站訪客背景解析、鼠標點擊行為等高智能的解析功能,進而為業務發展及運營策略供應了有力的數據支撐。4、對用戶本源和數據的深入挖掘與解析經過該平臺不但能夠看到接入網站用戶的基本信息(跳出率、回訪次數、回訪頻次、國家解析、省份解析、城市解析、網絡地址、閱讀器、移動終端等),還能夠夠認識到客戶本源(如本源頁面、網站、找尋引擎、要點字等)。并且在此基礎上能夠認識到客戶接見路徑,對數據進行多維鉆取,進而對網站客戶數據信息的采集、挖掘更加深入.對大數據進行深入的解析,為提升網站流量、供應科學的介紹依照、實現高質量的客戶差異化服務給出有力的數據支撐。7/115、對用戶行為進行實時追蹤、立體解析及即時溝通和個性介紹服務能夠針對實時在線的個體用戶進行WEBIM即時溝通,供應即時的一對一服務。并能夠結合業務需求,在實現客服人員與用戶一對一的同時,展現該用戶的歷史業務操作行為及個性化信息,如用戶花銷歷史記錄統計、行為習慣及喜好等。6、一致數據接入平臺數據接入層采用sqoop、flume、分布式日志系統,實現推拉模式的各種主流方式,并可按需升級為一致數據接入平臺,不但支持日志及頁面源碼數據,還能夠夠實現各種接口數據的無縫可視化接入,如關系型和非關系型數據、各種主流非結構化數據等。7、立體介紹及算法可代替平臺能夠對數據進行多種解析算法和模型的辦理,采用mahout、mlib的二元分類、線性回歸、聚類、共同過濾、卷積神經網絡(CNN)進行機器學習,采用RF(隨機森林)、SVM(支持向量機)、半督查學習,經過訓練達到權重等參數的最正確化,優化樣本空間,并實現完好自動化調參和學習。還可結合用戶集體特點、個性行為歷史及各種顯式、隱式反響進行人腦解析,實現個體用戶和集體用戶的立體化介紹和全過程的人工干預。以算法平臺為支撐,建立了可視化的算法訓練和介紹結構的過濾植入,以增強客戶個性化服務配置。實現了各種算法的代替、組合和深度學習,如傳統的UCF、ICF及業務創新的二度人脈剪枝算法等,以盡吻合人腦思想習慣。8、多種風格統計解析數據展現方式對數據統計解析實現人性化的各種閱讀器體驗,傳統風格如線性、柱形、餅狀解析圖為企業對不同樣時段網站接見量、網站不同樣模塊的接見量、針對訪客的不同樣分類進行更加直觀的解析。創新風格如熱力求,更形象、視覺化的表現網站頁面不同樣地址客戶點擊密度,實時反響出集體用戶的興趣特點,增強運營.用戶能夠自定義條件,獲取可視化結果.9、主流客戶端的全端統計該方案不但能夠統計WINDOWS/MAC/LINUX各種PC用戶的主流閱讀器客戶端(如IE、360、Chrome、Firefox等)的數據,還能夠針對搬動互聯網用戶統計主流搬動客戶端(如iphone,ipad,Android手機等)的各8/11類數據,并能依照RESTful接口開發各種所需的各端統計,如WAP手機端,嵌入設備端等。10、操作體驗簡潔方便該方案秉承了人性化的設計理念.在保證精準、高效的基礎上簡化了操作過程,數據檢索解析一鍵解決,極大的方便了客戶使用。各種所需統計數據如數家珍,并能針對主要數據如用戶信息、用戶行為等進行一鍵化深度解析或即時服務操作。11、可靠性強以云平臺作為支撐。該平臺有極強的可靠性,能夠保證該軟件更牢固、有效、安全的運行。12、可擴展性強以云平臺作為支撐,能夠實現各種平臺組件按需橫向擴展,如儲藏擴容、計算增強等。13、集成性強豐富的接口擁有極強的集成性。能夠實現與企業內部業務系統的高密度集成,依照不同樣業務部門需求調取數據和數據解析結果.14、可視化強統計解析數據以圖表,熱圖等方式表現,方便客戶比較判斷,在使用時更酣暢、方便,供應客戶體驗度。各種操作過程如算法訓練、人工干預、數據ETL等均實現可視化,根本性解決了手工代碼操作的問題。15、供應定制服務能夠依照客戶的特定需求進行更豐富的功能擴展,量身打造合適的實時運營解析及服務平臺。5.2可視化平臺系統架構設計數據可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論