新媒體云平臺建設-大數據分析中心方案_第1頁
新媒體云平臺建設-大數據分析中心方案_第2頁
新媒體云平臺建設-大數據分析中心方案_第3頁
新媒體云平臺建設-大數據分析中心方案_第4頁
新媒體云平臺建設-大數據分析中心方案_第5頁
已閱讀5頁,還剩327頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

21技術方案建議書 51.1項目背景與需求理解 6 6 6省委省政府的戰略決策 6廣電總局的技術發展方向 6XX客戶對新媒體的發展規劃 7 8戰略目標 8項目目標 9 9承辦單位概況 現狀描述 合理化建議 標準化與模塊化 21 21可靠性與穩定性 21先進性與兼容性 2安全性 221.2平臺設計方案 231.2.1總體技術架構 24建設思路 24總體體系架構 24 25系統技術架構 28系統數據流轉和周邊關系 29 1.2.2大數據分析平臺和用戶數據中心 1.3項目進度計劃 1.3.1團隊組織保障與管理 項目組織概述 200團隊溝通管理 1.3.2質量管控方案 質量控制體系 質量控制計劃 質量控制措施 2121.3.3項目實施計劃 2171.4技術支持和售后服務 2211.4.1技術服務能力及承諾 技術咨詢和運維支持服務 22 系統升級服務 新增功能開發服務 故障救援服務 24 224建立維護檔案服務 0資料定期傳送及專題討論服務 25 售后服務具體措施 應急措施 271技術方案建議書1.1項目背景與需求理解◆資源共享◆全面開放能部門7個,龜山廣播電視發射臺等所屬單位7個。臺(集團)內容部門19個,擁有46家企事業單位(包括35家企業單位,7家轉企改制單位,4家事業單位)整合為16家。員工總數1.2萬人,總資產102.52億元。現狀描述xxx年2月29日,我省委書記李鴻忠主持召開省委常委會會議,傳達學習2月19對外web服務器集群2基礎數2基礎數據存儲域防病毒服務82臺檢家服務82臺發布服務82臺引1草86臺編目工作站12日虛C化引1服務82甘臺目前現場有2個刀箱,每個刀箱內有7個刀片,共14臺刀片服務器。每個刀片內存為128G。若每臺服務器使用8G,每個刀片能虛擬16臺服務器。每個刀箱能虛擬112臺,兩個刀箱總共虛擬出224臺。目存儲總容量為389TB,已使用12TB,計劃擴容的服務器為26臺(包括8片刀服務器)。和實施方案。投標人須在2016年8月31日前,妥善完成原有平臺數據遷移、全部合理化建議互聯網域數據中心數據層數據中心交換層高可用對比表虛擬機在線遷移(無停機)有有有FC-SAN的外部自動負載均衡有有有需要第三方工具宕機后的自動轉移(有短暫停機)有有利用MSCSFC-SAN的外部宕機后的自動轉移(無停機)有有有無停機)有有有無兼容性對比表機支持64位的服務器是是是是支持有虛擬化指令的處理器(Intel-VT,AMD-V)是是是是支持所有Windows是是部分支持。不支持及更早的0S不支持2000/NT及更早的0S是是是支持其他OS,如SCO、是是否否1)在線擴容在集群中的兩臺服務器上部署Namenode實例(一主一備),而集群中的其它機器和NameNode使用相同的配置(可以直接從NameNode復制),修改2)負載均衡3)在線升級>應用系統采用了什么開發模式,C/S還是B/S模式。建設思路構建一個平臺和三級支撐,實現統一部署、統一維護、客戶端長江云政務新媒體融合平臺內容、服務提供方省級提供方縣級提供方省級提供方縣級提供方省級業務運營平臺地市級業務運營平臺縣級業務運營平臺入融合管理平臺微一刪融合管理平臺微一縣級內容、服務融總體體系架構兩微一端兩微一端部期過AP一開發附試平臺丹基礎設施層(IaaS)統一運維監控平臺大數據分析平臺務能內容生大致調分折平臺基礎設施層是支撐整個平臺的硬件設備和網絡平臺,建立統、安全系統、存儲系統和系統基礎軟件等系統,并通過虛擬化等技術手段合理組織、分配和管理基礎資源,為平臺支撐層和應用運營層軟件平臺支撐層(PaaS)園運開發測試平臺來來建納容統一運維監控平臺(安全、監控、維護)互存視生產務2)建設統一的媒體內容發布平臺3)建設統一的政務民生服務接入平臺5)建設統一的運營支撐平臺實現跨終端的用戶個性化內容推薦,提升用7)建設云服務總線接口能力,提供標準接入及管理規范,支撐對內8)建設統一運維監控平臺9)建設移動客戶端匯聚全省兩微一端產品和第三方數據資源,針對地市縣的動客戶端,有效支持個性化需求,并部署開通。APP手機客戶端據運營推廣的要求,完成APP手機客戶端的各項功能的定制開發。未來建設內容(藍色部分)3)建設能力開放API標準,具備對外服務銜接能力;建設統一的開發測試平臺,有效管控內部信息資源的應用開發流程,形成標準化作業和上下線各類應用。系統技術架構C服務籍堤營商、商業服務層應用層流媒體平臺視級值曾須信源圖文橫源資源庫內容生產資源采集層戶能力、數據匯總能力;批處理場景采取Hadoop的Map/R成;流式數據處理采用Sparkstreaming和Sparksql實現,高效查詢服務基于Hbase及redis緩存技術實現。整體架構可分為資源采集層、中央廚房層、應用層、服務層。數據文件等提供高效的數據、文件采集技術。通過Flume計算框架,實現日志文件(如web日志、APP日志等)采集與解析;通過FTP方式實現對數據文件的采集;采用Kafka數據存儲與計算方面,基于分布式文件系統實現海量采用分布式文件系統提供統一的大數據數據存儲,滿足全Yarn提供跨平臺的資源管理,滿足資源的統一調度與管理;采用Hadoop和Spark實現統一認證和監權統一認證和監權新觀體應用應用咳入開發測試、服務管理、安全管理合們開渡生活務架圖文.營視揭件數據處理數演理本臺節直外地方編輯作日單、直增數據資源云服務總線:內部共享開放經視守臺業機構教基中央廚房互聯號數據民生數據歡務數據作開發效務類服務應用國情監則生產>內容生產平臺收錄本臺節目直播信號和地方臺流信號。3)新媒體云平臺內部數據流轉的關系1.2.2大數據分析平臺和用戶數據中心數據加載處理數據處理系統針對新媒體云平臺用戶行為數據采用定時(一小時一次或者2小時一次)采集的方式,首先通過前端采集,采集新媒體云平臺用戶行為數據,采集過來后通過Socket/Ftp把數據傳送給數據處理系統,數據處理系統根據應用要求對數據進行處理(過濾、去重、清洗等)直接傳送給相關應用與數據庫。BDPEBDPE(預處理)采前端采集字段分拆記錄合并更多根據應用要求對數據進行處理(過濾、去重、清洗等)直接傳送給相關應用與數據庫。庫Kfska在進行集群擴展時(如增加節點),不應對現有節點造成影響。數據解密.1.3公司數據抽取與轉換工具產品從技術層面來看系統將遵循S0A架構思想進行構建,按照軟件架構設計分層理服務層作為產品的核心中樞主要承擔ETL作業組織、任務調度、作業狀態跟進、作業監控管理、異常處理與服務質量管理、集群資源管理等核心服執行層作為產品的計算任務承擔點,產品中核心的數據處而應用層則側重于從核心業務訴求基礎之上進行高度總結抽象后形成獨立的應用控件,產品允許用戶可根據自身業務訴求采用參數化配置的方式起來形成一個完整的數據處理流程,在技術層面上主要運用指教慧指教慧任t注表工atbeat展現層服務層應用層等5大功能模塊。公司BDPE軟件還根據業務應用訴求特點將ETL數據處理流程中主要組件在系統中的動態注冊管理,依賴注冊手段實現組件與ETL服務層之間建立起聯動關系。在實際使用過程中允許ETL開發人員運用圖形化的界面配用執行的狀態與數據流轉情況。另外在ETL應用實現過程中還會開放相應API訪問調用支持基于工作日歷的任務調度,如如:定義國慶節假能夠兼容IBMDataStage、Informatica、kettle等第三方工具,可產品采用Master-Slave模式、組件化開發,能很好的實現容量、計算能力及應用環節信息以日志文件的形式記錄相關操作過程,為后續數據稽..1功能說明1.默認情況下提供基礎通用的抽取功能,支持從不同2.選擇抽取方式進行配置,假設為批量抽取則需要指明相應數據抽取數據源描述信息,如果設置為單次抽取則需要提供抽取數據特征前將獲取到相應的配置規則再結合不同數據源特征開啟相應的數據抽取作業。1支持手工和自動兩2與策略定義3支持對數據壓縮包能夠對數據壓縮包文件進行抽取,支持對數據壓縮包的4具備靈活的數據源定義管理能力支持對數據源的統一管理,對可支持的各種不同類型的數據源,允許以統一方式進行配置并獲取訪問5行數據抽取口,現階段主要支持的數據源包括:各種主流的關系型數據庫如Teradata、分布式數據庫、文本文件、任意格式XML文件、HDFS文件、網頁文件等6支持使用包括專用數據庫驅動接口、JDBC、ODBC接口等數據庫連接方式7支持基于日志的增量數據捕獲能力具備對日志進行增量數據捕獲抽取能力,能夠在變化數據捕捉和數據清洗過程進行無縫連接且提供圖形化界面設計和監控變化數據的過程8提供豐富的數據抽取作業執行狀態監控管理能力提供豐富的圖形化界面設計和監控數據抽取過程執行狀態9具備數據抽取容錯處理機制提供對錯誤數據的進行檢測和處理能力,如進行記錄的過濾,能將發生錯誤的數據記錄到響應的錯誤表中。例如對文件的輸入,可以過濾不符合規范的數據并且捕獲這些數據數據抽取過程日志支持在數據抽取過程中對數據記錄條數、開始時間、完成時間,錯誤信息等信息進行記錄保存支持文件批量采集,能夠按照指定周期進行采集,如分鐘、小時、日等實時采集支持實時采集,包括對文件中增量數據抽取、消息數據的實時采集等。壓縮文件不解壓讀取支持對于包括.rar,.zip,.gz等壓縮文件數據的不解壓(五)流式(實時)數據抽取(三)采集控件ETLETL平臺U2.抽取規則設置采集指令采集指令執行結果執行結果2.Agent管理端接收到Sever端采集指令后,會對指令進行分拆并進行相應的資源消耗評估,并將指令轉換為可執行程序命令,并將輸3.執行程序不斷掃描存儲可執行程序命令隊列,并逐一調起相應的數據抽取作業任務進行數據抽取作業,并將抽取到的數據通過管道提交給Agent管理進行匯公司BDPE產品在實現過程中通過批量數據抽取與流式(實時)數據抽取二種模式述文件FS實時據不填件統一作業調度管理中心(自動/手動作業)-采集(“落地”)方式將無法較好地滿足應用訴求,因此建議采用流式(實時)數據抽取來提升采集能力。流式(實時)數據抽取過程的技術實現思路如下圖所示:Franelork(基鏈技米組件,解決,流控,并發,上下文數據處理通神分在流式(實時)數據抽取過程的主要工作步驟如下:完成數據處理等業務問題(分為Reader、Writer、Process三大類插件);(輸出)數據源.夠及時適應接口的變更和異常處理;而數據校驗依附在數據抽取取過程可能產生的異常錯誤信息,總體來看數據校驗是ETL過程保障數據質量的重要手1數據校驗記錄文件獲取與信息解析支持對數據抽取過程中記錄的日志文件進行獲取,并輸入數據;2提供豐富的數據異常值校驗、按照用戶定義的邏輯規則校驗等3提供靈活的數據支持對數據校驗規則進行靈活定義,可以自定義數據校驗規則結構;提供圖形化數據校驗規則設置功能,允許對校驗規則進行維護、優化等處理4依托數據校驗提供全面的數據質能夠根據設置的數據校驗與監控規則或算法,對接口級、字段級執行相應校驗檢查,并依據稽核和檢查過程中發現的數據質量異常情況進行告警過程。記錄級校驗:主要包括提供字段類型、字段長度、數字精度、取值范圍、1數據清洗規則2數據處理過程支持對數據處理過程的日志記錄,記錄的信息主要包括:元數據記錄、轉換后數據記錄、運用的轉換規則、轉換的時間等內3內置豐富的數據處理組件的轉換、字符編碼轉換;支持實時流數據的合并與計算;支持批量小文件合并;支持任意合理的數據類型轉換;支持數據內容轉換,如通過關聯關系,將A數據源中的數據清洗為數據源B中的數據;支持多字段的混合運算,運算規則可靈活配置,包括但不限于:sum、max、min、avg等;支持各種字符操作,包括但不限于:字符替字符連接;支持記錄和字段的抽取,支持對抽取的數據進行聚合。保證轉換后的誤差在規定的范圍內;支持空值處理:捕獲空值,根據規則替換為對應數據;支持數據格式化:統一數據源中同類數據的格式,具體包括時間、數值、字符、計量單位等數據;支持數據替換:根據規則用標準數據替換原來的數據,支持各種碼表映射,例如用標準編碼替換業務系統自定的編支持復雜條件過濾,過濾條件可靈活配置;支持數據去重處理,產品可按照用戶定義的規則自動判斷重復數據,并按照用戶定義的規則處理重復的數據。;支持記錄間合并、支持將一條記錄按照可配置的規則拆分為多條記錄;支持行、列變換;支持Flume等開源技術實現數據清洗;支持一個數據表中多個列的合并;支持數據脫敏,支持定制化的加密算法;支持跨異構數據庫的關聯;支持將多個異構數據表合并為一個表;支持將一個數據表拆分為多個數據表;支持多種規則排序;支持多種統計方式;具備度量衡等常用的轉換函數;在轉換過程中支持數據比較的功能;支持數據清洗及標準化;支持按行、按列的分組聚合;具備良好的參數處理機制等;ETL處理過程支持各種字符集的轉換;支持敏感數據使用定制化加密算法;支持海量數據處理引擎,如Hive、MPP、Spark等4數據清洗異常處理支持定義外部數據記錄的錯誤限制,如超過一定條數記錄就拋出異常,中斷處理流程;支持校驗點,當外部數據記錄特別龐大時,如果因為某種原因發生故障中斷后,可以從最近的校驗點開始恢復處理接口表元數據:《..4打破以往ETL過度依賴庫內計算能力的來實現數據清洗操作的狀況,依托并行計算硬編碼圖1.2-1公司BDPE產品基于硬編碼實現數據清洗實現思路示意圖碼表映射;>統一字符集轉換2.基于庫外計算進行數據清洗圍繞庫外計算+并行處理來實現對大數據量、轉換規模復雜類型轉換處理應用場景字段分拆格式轉換字符轉換實時計算中心(流式計算引擎)接口機復雜類型轉換處理庫外計算+并行處理轉換M/R0新建;遇用命等新建;遇用命等添加自部銷據交支持主流關系型數據庫DB2、Oracle、Teradata等、支持主流的MPP數據庫Greenplum、Aster、Gbase、Vertica等、支持Hadoop生態的HDFS、HBase等2支持數據批量加載支持數據批量進行加載3支持多種加載模式與策略定義具備全量、實時、雙加載;允許靈活定義加載策略;4支持文件落地和不落地兩種存儲落地加載是將數據源保存在ETL物理服務器中,進行中,不在物理機上保存而實現的加載。5支持自動和手工時,應提供操作界面以人工干預的方式來重新啟動數6支持多任務并行具備支持數據的并行加載,即支持多個數據庫連接同一加載任務的并發執行。7支持加載對象的具備加載對象的參數配置功能,將數據加載過程中需要設置的命令、參數、規則進行配置,控件會自動生成相應的可執行代碼,來完成作業。8過濾具備基于數據屬性值的過濾加載。9支持腳本加載事在加載實現過程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳本,數據加載執行組件將根據定義行為腳本類型調起相應的腳本執行來加載到數據。支持數據加載對目標表的操作支持數據加載對目標表的追加、更新、刪除等支持異構目標庫多加載支持數據加載的錯誤限制支持數據加載的錯誤限制,如發現最多1000條錯誤數據記錄時停止加載支持文件推送功能支持文件推送功能,具備將文件通過FTP/SFTP推送到外部系統,例如CRM/BOSS等提供豐富的數據態監控管理能力提供豐富的圖形化界面設計和監控數據加載過程執行狀態數據加載過程日志記錄支持在數據加載過程中對數據記錄條數、開始時間、(二)流式(實時)數據加載PO0.庫內稻核巧和模功能說明1斷點續傳2一致性保證在數據加載過程中支持對信息集成器聯合體服務器,源源OO1)文件到數據庫當當方案時文件程FTP2)文件到HDFS當當新方案方案3)文件到HBase方案二:5)數據庫到數據庫可可案新方案三新方案四當前方案新方案6)數據庫到HDFS當前方案新方案新方案當前方案:通過Sqoop讀取數據寫入HDFS,并做數據清洗,借助DISTCP將HDFS拷貝到目標HDFS。新方案一:通過高性能導出組件并行調用數據庫底層接口抽取數據,借助HDFS高新方案二:通過Sqoop讀取數據寫入HDFS,并借助Spark做數據清洗,再寫入目需要將數據庫中的數據抽取加載到HBase中。當前的云化ETL不支持對流處理平臺的數據加載,需要引入新技術支持此場景。案新方案一通過高性能抽取組件并行調用數據庫底層接口抽取數據,在Spark中做數據清洗,新方案二通過Sqoop讀取數據寫入HDFS,借助HTLOAD做數據清洗并加載到HBase。1)流數據到數據庫流處理新方案新方案新方案一2)流數據寫入流流數據流數據KAFKA流數據3)流數據到HDFS需要引入新技術支持此場景。流處理案新方案新方案一流處理平臺直接將數據寫入HDFS。新方案二流數據處理平臺將數據推送到kafka,借助Flume將Kafka中的消息寫入4)流數據到HBase將流處理平臺的數據加載到HBase。當前的云化ETL不支持對流處理平臺的數據加新方案流處理平臺將數據發送到kafka,用Flume來將Kafka中的數據寫入HDFS,通過5)文件到流流轉,支撐實時應用需求。當前的云化ETL不支持對流處理平臺的數據加載,需要引入新方案:通過Flume實時監控采集文件數據,通過消息中間件Kafka將消息數據推6)流數據到文件統一調度通用調度YARN調度ETL調度1)流程配置基存ct0ctathtalmut/mC//m3m2C1.0Tspitisal//Drdulols-attpi//w..otahatat-tpe'atalstederalet*daralpet'd…suran"noui/Aaeaalato-1catsotdetaultbegroan0是>字典參數:參數來源是字典表中的某個字段值,有sql語句表示,系統可以自己替換,并生成多條命令并列執行。3)策略配置1)調度權限Job權限管理支持將多個相近job流程可以劃分為一Job組333>Jo調度1Jal組333(2)人李超群個Job1權限讀寫人李超人李超讀讀讀會工程組2)調度配置管理3)消息定制時),然后選擇通知方式(郵件或短信);當job流程發生錯誤時,后臺程序會自動的1)調度腳本置中和面孵物目膠新建:通用命令顯1到1共1記錄品顯示前數值參數順序參數類型是否顯示前綴參數格式參數值2)調度存儲過程3)調度外部程序系統公告展示區域JOBID[374]NAMECMD_遠程執行OBID[374]NAMECMD_遠程執行命令功能]02015-05-0510:41:27JOBID[469]NAMEFTP_采集_大批前臺請求停止運行序列號(20150505102810952015-05-0510:29:27JOBID[443]NAMEORACLE_裝載_3JOBID[443]NAMEORACLE_裝載_多JOBID[374]NAMECMD_遠程執行0執行一個程序開發管理平臺開發配置的函數系統封裝好的函數資源情況、心跳反饋資源反饋,心跳反饋到消息總線機制執行一個操作系統的命令清晰轉換的功能文件記錄級清新轉換跨平臺(aster、spark、不同的平臺需要一些個性化的函數任務積壓,異常管理agent宕機,重啟等..10任務狀態更新當agent執行完一個任務會給消息總線發送一個事件或外部系統給消息總線發送后續任務的狀態的更新算法如下:后續任務依賴的前置的任務的狀態全部為完..11任務運行報告00t所有入員日王曉段4個入*城#入,加入入度入入,入率#入率入4x46個,入城#入支持主Server和備用Server通過前臺頁面點擊添加節點,選擇節點類型(備用Server或者Agent),選擇及從Agent。執行命令在執行任務過程中,如果主ServerA異常,當備用ServerB啟動后,Magent根返回B想要知道的任務執行情況,從而B可以接管A的所有工作,從而實現代理的異常..22Agent監聽是指Server定時發送消息給Magent,Agent如果處于正常活動狀態,Magent會立刻返回消息作為應答,告訴Server當前Agent運行正常;如果Agent運行Agent監聽時序圖如下:程運行進度日志是實時的,需要用戶在設定執行命令時,增加日從Agent分為進程執行agent和日志獲取agent;從agent運行時存放在線程池中,線程池最大線程數可以在第一次安裝agent時設定;進程執行=從agent是調用進程執要查詢相應日志時才啟動。線程池中的活躍線程會實時的被magent獲取并返回給開始開始返回日志包裝日志度點和12點執行。1J重4J個4本件8器關田關田jobl生處時間2014年05月23日094923失處時間jpb1與條件觸發關系:2013年01月01日0949.23保關田提供臨時調度方式(用于測試、調優、重新執行),由用戶手工執行。消息服務器<如果用戶選擇了Job流程類定制,還需要選擇定制級別(提示,告警,錯誤,延時),然后選擇通知方式(郵件或短信);當Job流程發生錯誤時,后臺程序會自動的根據用調度API。2.對外接口ETL系統需要對面提供調度和ETL處理過程能力,外部系統可以通過API,表接口等方式和ETL系統完成功能銜接。ETL系統需要通過API接口對外提供調度與ETL處理能力,輸入參數:函數名稱功能說明執行調度執行一個存在的調度新建一個調度2)表配置接口ETL系統可以通過表接口方式對外提供功能調度字段名字段類型Soapurl:http://IP:port/etl/servce調用輸入參數:名稱類型job編碼周期類型開始時間下次開始時間o經分主庫工作C區jobC1jobD1事件前觸發是指某一個任務/作業流程依賴于外部數據插進行觸發。當外部數據插入事件觸發表后,同時系統對任務/作業事件后觸發是指外部系統程序的啟動依賴于任務/作業流完成,當任務/作業流程中該執行任務節點執行完成后,..30條件依賴是指某一個任務/作業流程依賴于一個或幾通過后,依賴的任務/作業流程根據調度系統中的流程id和數據日期立即執行一次調度u度朵件發調務,日可以執行;月依賴日,即日完成每月最后一天的調循環調度指在生效時間內,任務/作業運行完畢后又重新運行,進行循環操作,直生效時間:2014年01月01日00:00:00失效時間:2014年01月01日00:00:002.為了滿足一個任務/作業的執行可以依賴多種組合調度就是將幾種觸發方式按照與或兩種關與表示各個觸發條件都滿足,該任務/作業才能觸發執行,或表示各個觸發條件只需要滿足其中一個,任務/作業就可以觸發執行,同時與和或的關系也可以同時設定,與的關系,同時和事件觸發組成或的關系,事件觸發條件滿足時,該任務/作業流程可jpojpo-Weaanng加條件job-wendang-011J0Bjobwendang20制,如配置了最早運行時間是9:00,最遲運行時間是12:00,則如果當前時間BBPE大數據處理與交換平臺t□dQ921核1s6210os日10os目10os日2015-的n30002015-0-1s11.3002213-.000006213-01.0000098150501.0000062015-52015-0490400002013--2015-5.0410.2013-05-02013-050910442013--0JobJob監控詳細信息停Be節點重2014-08-2615:43:31正在與服務器建立連接2014-08-2615:43:32與服務器連接建立成力,請等待回數據…)xyjob40所在位匱系統公告展示區域時標為已讀標為未讀信息生成時問JOBID[374]NAME[CMD_遠程執JOBID[374]NAME[CMD_遠程執JOBID[469]NAME[FTP_采集_大前臺請求停止運行序列號[2015050510281095JOBID[443]NAME[ORACLE_裝載_JOBID[443]NAME[ORACLE_裝載_JOBID[374]NAME[CMD_遠程執4第1>正在運行:這種狀態是最正常的,表示流程正在調度中。>運行成功:任務正常運行成功。2013年09月25日12.56.09區行狀歷史信息環境/參具件上線上線.產品首頁集中展現了包括作業監控、任務監控、流程監控控、主機運行狀況以及我所關注的JOB在內的信息。用戶可通過首頁快速、直觀獲取相停停2示1邪共seO0開發前臺北京法量系練E機開發專用1)流程設計2)調度配置08m20+選:星否可以開行言可手工+選:星否可以開行言可手工3)流程管理通過流程管理模塊實現對流程的查詢、刪除、加鎖/解鎖操作,并實現對JOB執行*s44)流程監控通過流程監控的可視化界面實現對JOB組及重點現JOB總數、運行數、完成數、掛起數、延時數等信息。通過可查詢JOB作業的狀態、進度、節點總數、成功數等信息。可通過手工田口92控系**5)集群監控數據處理與交換平臺2015年06月9目10-21:6412013年09月25日12.56.09今m件運狀R歷史信息6)系統管理組管理、FTP管理、系統設置、應用管理、JOB流程審批、日志查詢等管理功能。系統0理中率加用用國iT開x號8.nn試用H0具口m理7)模板管理BDPE產品通過構建和利用模版高效建立job流程,提升系統job構建流程。ETL模板是一個特殊的job流程,不可運行。新建模板新建模板×其摩相板其摩相板顯子0致0,#記錄旦旦Q1)事前數據質量監控2)事中任務執行監控尋找出指標處理路徑上的程序、接口節點,在根據每個處理過程節點的質量監控檢測,發現有問題的處理環節,以幫助快速定位,能幫助運維人員快速處理。BDPE產品可以記錄告警信息,告警信息可以在日志文件中被查看到,或通過圖形化界面的方式展示。告警記錄具體信息應包括:告警名稱、類別、嚴重性、告警具體內容等。告警信息可通過短信、郵件等方式及時發送給監控人員。同時,提供對數據處理流程中所有的任務總數、運行數、完成數、掛起數、延時數等信息進行監控分析和對調度中心的集群監控功能實現對Server、Agent服務器的監控,如服務器的內存使用率、I/0吞吐量、CPU使用率、物理機器資源占用等信息進行分析3)事后分析日志監控提供對所有操作的日志記錄及查看功能,如應支持審計日志、錯誤診斷日志、跟蹤日志(會話級)等日志類型,并提供針對整個數據處理過程的基于日志的數據統計與分析。…1一………1111!11…氣a在進行集群擴展時(如增加節點),不應對現有節點造成影響。訪問控制區只可工作區jobB1jobB2jobC2作業調度關系,即可實現多系統、多用戶的協同調度。目前公司BDPE軟件提供時間觸時間觸發R循環觸發插環接作,直至obt到失效時間條件觸發幾個的置的job施程的完周進行校發盈事件觸發外配入性觸發表,后臺根組合觸發提供同時置多個腔發規則,觸發則間提供與成關系..4支持對于包括.rar,.zip,.gz等壓縮文件數據的不解壓讀取,減少壓縮與解壓帶布式處理,首先將依據事先設定的文件拆分策略(策略也可以人工調整),將大數據文件進行拆分,并給各個節點,然后對拆分后的所有小文件同時進行采集、轉換和加載,FTP采集FTP采集哦1.不落地加載PO0.處理深度分析云接口機ETL平臺庫內相核庫內稻核源源訂回aa499t調度調度監控流程組件Hadoop組件計算組件功能組件√支持臟讀;√支持數據去重;√支持記錄拆分;√支持字段拆分;√支持行列變換;√支持多種規則排序;√支持多種統計運算;√支持數據預覽;√支持參數化配置;√支持各種字符集;√執行性能統計;√顯示任務調度狀態;√系統資源使用情況;√錯誤與異常信息;在進行集群擴展時(如增加節點),不會對現有節點造成影響;時間(MTTR)需小于2小時;可為用戶解決把內容推薦給誰的問題,即使是僅基于用戶注冊信息(如:興趣愛好)的1.提升用戶需求的深度洞察能力2.提升視頻、新聞等內容的精準推薦能力3.提升面向客戶的產品精細化運營和服務能力4.提升產品的用戶體驗、用戶粘性、用戶規模用戶面信管理慕統用戶斷查海內容推醇累統應用體系數據處理數據√挖掘信息:身份特征(家庭主婦、外籍人士等);人生階段(大學青年、);從事職業(教育專家、);個人愛好(黨史迷、電影達人等)。社會屬性指用戶近三個月使用公司產品時(例如觀看點播視頻):1)80%(含)以上的視頻均是該視頻上架后的24小時(含)內被該用戶觀看,得滿分10分;2)80%(含)以上的視頻均是該視頻上架后超過96小時(含)被該用戶觀看,得0分;1)直接映射的方式2)規則判斷的方式平臺支持通過界面編輯標簽值提取規則(正則表達式),歷史視頻中只有1次的時間差(視頻上映時間與用戶實際觀看時間)為1周以內(假設一般次數至少要3次以上(具體多少次要根據業務對準確性的要求決定)。2)集中度史視頻中有8次的時間差在1周以內,2次的時間差在1周以上,則可以把該用戶“追體系),但不知道每個標簽的具體統計口徑(規則)的情況。模型挖掘類標簽生成屬于的構建和社會屬性類標簽的構建。仍以“追新型”標簽的生成為例,假設開始并不知1)通過設定正負樣本數據,利用決策樹算法找出正樣本數據的關鍵特征規則。為數據定義為負樣本,然后通過決策樹算法,找出正樣本(“追新型”用戶群)的關鍵特征規則,最后將這些關鍵特征規則自動轉換成“追2)通過關聯分析或協同過濾算法,預測用戶是否為某標簽的潛在用戶。主要用于利用用戶的歷史行為數據內容無法直接用用用戶的歷史行為數據判斷某個用戶是否為“阿里旺旺的潛在用戶”,這時可以采用協有潛在需求為例。先統計購買Iphone6的人群接著又購買了什么(假設大部分人都會購買Iphone6手機殼、手機貼膜),然后建立Iphone6與這些物品(Iphone6手機殼、手機貼膜)之間的關聯度,最后將購買了Iphone6,但沒有購買與Iphone6關聯度高的其“Iphone6手機貼膜潛在用戶”。生成分析圖選一個或析一個或確定分析主屬性編碼屬性名稱屬性描述屬性類型備注唯一標示TOP02綿這道舌動,0元的機¥★近6個月ARIU:234,243,423,42食據過出用戶近6個月幾A平均使用時長(份鐘)12580營興百科15元半年也即將到期用戶頻繁升級投雨用戶好友計規錯在客戶期抉機過的月戶是換三流終端后使用時間在4-6個月★中異動客戶在同時長一午九個月以內tt當前用戶為:VIP用戶標等分營數據層計算晨功能慧客戶分聽所 a健(MoicoDB)用戶的類生成機器學習&法09寫地目分言,員工99+相·/·礎營銷導航標答市營銷導航標答市0產品訂的餐分責凌量訂購加訂購用戶日上月件訂購戶月查詢標簽分類新建標簽分類數據狀態為已生效(無子標簽)可以進行刪除操作。標簽檢索新建標簽標簽編輯①①標簽②部門滕導審批(③信息市核④款據處理⑤t5成標簽刪除新增標簽gg簽8戶經■中思8戶經■中思訴答停用標簽下線標簽修改標簽修改標簽修改標簽刪除標簽搜索O0度創建客戶群早已選4個創建客戶群u畫w-r的用戶群。創建為一個用戶群。可導入清單的附加屬性。靜入的建言廣麗靜入的建言廣麗客戶分向:@相似用戶群ynunL0413_001清章列康的建客戶懈-0413-條伴設置×已選條件[已選青單:101405]喜戶樣男性(翻譯)[已選青單:301405]l已選擇錄件抗州師范學院首樂美×學院物江教學院機州師范字院古湯校區用戶群剔除ynh_0413.000_清單列用戶群:2喀戶群已選青單:20145]且用戶群:富戶群勝()已選清單:211405]且所在學校已選條件:0X支付類型單個存支付類型記選擇條件:1,248,16,3.64,128,256,512]0X2選擇標基2個用戶群抽樣最置現則最置現則廠金能和r日期200年月戶姓明1>用戶群清單霉戶事力級人鍵1-11共輩省中心操作通財付通控卡0件Ct器卡查州二進制8組合保存客戶料力紅人:2015-0417170841管理員11-1組房1非共罩1作·大于小于0001女效u:戶e1分研服分析口w用戶可以將多個自助分析工作表保存為分析報告,分析報告可以被該用戶群套用以生成不同周期清單的分析結果,分析報告也可以被其他規則相似的用戶群套用。..20用戶畫像p數據庫中,Hbase本身能夠提供大數據量結構化和非結構化數據的高速讀寫操作,為高了用戶畫像查詢的速度。在在1億用戶情況下,畫像結果查詢速度不超過2秒。全用戶全用戶通設更多排行榜基強M門標答系統熟門客戶器最新發布標簽最新發布右廣器基強M門標答系統熟門客戶器最新發布標簽最新發布右廣器2結移動我據上F量(月)互研月-份應用訪量(月)基本露的生效口#(月)MA-級內音訪用戶(月)i靜#vLA6J購用戶日)顯示所有當前用戶設置收藏的標簽和用戶群。默認顯示按照收藏時間從近到遠排列。顯示信息和操作功能列表與標簽和用戶群搜索列表相同。并提供取消收藏的功能。6E客戶器收藏操消息管理產品提供系統消息及公告的管理功能。該功能模塊為登錄人提供個人的業務信息查看功能,包含系統公告、個人通知等。用戶登錄系統后可在消息管理頁面查看到所有發送給自己的個人通知和系統公告,系統公告的類型包括:標簽發布、新功能上線、標簽下線。系統還提供個人消息通知設定功能。用戶可自行選擇是否接收某類消息。內西內西個人通知em0mt系統幫助系統各頁面均提供幫助懸浮功能,提供進入“我的收藏”快速鏈接;提供“30s操作”,幫助用戶快速了解如何使用系統;提供“返回頂部”功能。“30s會操作”功能,是采用下一步提示圖片結合備注文字,指導用戶如何使用系統快速創建用戶群,快速幫助用戶了解用戶群生成全流程。驗,外部如電信行業(典型企業如中國移動等運營商);內部如傳媒業(典型企業如各(內容管理系統)剪切(視頻管理)文件屬性:內在屬性b1內在屬性a2關系屬性A2關系屬性文件屬性內在屬性b2相同/相近關內容所屬的又件標識及狀態標識從內容制作、修改,到尼終審核發布的各節點時間內容的制作入、編輯、責任人等相關干系人信息內容出版單位、授權人等相關版權信息內容碼率、播放時長等制作信息從內容原文口提煉出的用于描述內容的相關信息,包活:人物、時間、地點等基于內容描述信息定義的內容題材分類,包括政治、軍事、財經等基于內容描述信息定義的內容情節分類,包括愛情、喜劇等基于內容描述信息定義的內容形態分類,包括新聞、賽事、紀錄片等內容的從屬關系,如:舊屬欄目、歸屬頻道等內容描述信息中存在相同值或相近值的內容基于自定義規則從而存在相關性內容;基于數據挖據發現的相關內容標識信息時間信息干系人信息制作信息資料提供人(來源)簡介副標題短語引語地點人物數字語言政治環保外交教育工業環境農業汽車能源藝術貿易動漫財經親子人事公益讀書文史武保戰爭歷史家庭警匪神話懸疑穿越談話動畫談話動畫電視劇真人秀從屬關系相同/相近關系相關關系歸屬頻道自定義相關規則(如:快樂大本營與何靈)歸屬欄目挖掘相關規則(如:啤酒和尿布)以上僅是從三個層面界定內容標簽庫,部分標簽還可以根據實際情況進行逐級細化至原子化標簽。內容標簽框架文作屬性內在屬性標識信息時間信息于系入信息版權信息內容操述村政內容題材體育甲阿森的科教關系屬性內容情節和同/相透關系相關關系分類標引人名標引地名標引短文本標引引語標引時間標引數字標引機構標引1.單條數據標引新媒體云平臺CMS在發布新內容頁(圖文內容、音頻內容、視頻內容等)時,會2.歷史數據回溯首先,新聞網資源池推送給標引服務的所有內容頁描述數據,構成了新媒體云平利用最新業務規則分析歷史數據庫中的所有數據,所有符合ngsmf0ngsmf0大客戶應用端大數據新聞可視化應用系統大數據新聞可視化應用系統結構化標簽數據存儲數據結構化服務系統知識庫互聯網數據監拉采集外部數據API傳入知識管理特征庫運營系統非結構化數據存儲大數據新聞素材庫標引系統數據傳入庫通用庫.■特征詞姓氏目收錄各類事件標引所需要的關鍵特征詞,先按事件的類型分為:社會事件庫事件庫一水災流量特征詞水_件隨災害水_災后疫情防控水災水災類別自二水災助汛物資作用■本體實例庫金融業目■體實例庫批發和零售業目標引識別引擎API接口上傳下傳3)推薦的用戶:新用戶(區分登錄用戶和未登錄用戶)、老用戶(區分登錄用戶和未登錄用戶);4)推薦的場景:具備登錄后、播放后、加載頁面后(底層頁)等不同場景下的5)推薦計算結果:可視化;7)推薦效果:可評估、可優化;8)推薦計算實時性:熱點/個性化/關聯推薦結果按天.4.3.1(實時更新)推薦列表b濾偏好匹配關聯匹配個按比例權重過按熱度過濾dC/a薦列表;4.將存在關聯關系的內容標簽與用戶偏好進行匹配,生成基于用戶偏好的個性化關聯內容推薦列表。非首次陸/訪問權重內容abCde品內容列表進行組合推薦;組合推薦功能模塊支持對推薦場景的擴展需求,針對不同場景的特點,可在后臺進行組合推薦規則設置,同時可以配置在推薦結果中保存的字段信息(如:內容ID、內容關于推薦結果選取權重動態調整規則——以首次播放推薦的場景為例:說明初始比例設定:關聯內容推薦列表(R)初始比例設定:新上架內容清單(N)第1次推薦個數:關聯內容推薦列表(R)第1次推薦個數:新上架內容清單(N)3推薦N次后的內容轉化率:關聯內容推薦列表(R)分子:R中點擊的內容個數(萬個)分母:R中推薦的內容總數(萬個)推薦N次后的內容轉化率:新上架內容清單(N)分子:N中點擊的內容個數(萬個)分母:N中推薦的內容總數(萬個)計算公式:(Xo+Xn)/(Xo+Xn+Yo+Yn)計算公式:(Yo+Yn)/(Xo+Xn+Yo+Yn)第N+1次推薦個數:關聯內容推薦列表(R)四舍五入第N+1次推薦個數:新上架內容清單(N)5四舍五入(一)登錄推薦用戶無瀏覽記錄:新品推薦結果(不存在冷啟動)+熱門推薦結果(不存在冷啟動);>用戶有瀏覽記錄:新品推薦結果(同上)+熱門推薦結果(同上)+個性化推(二)播放后推薦>用戶無瀏覽記錄:關聯推薦結果(存在冷啟續產生結果);新品推薦結果(不存在冷啟動)+熱門推薦結果(不存在冷啟動),作為補充>用戶有瀏覽記錄:關聯推薦結果(存在冷啟動第一次不產生推薦結果,后續按算法產生結果);新品推薦(同上)+熱門推薦(同上),作為補充。.4.3.6推薦通過設定規則,包括:去重、關鍵詞過濾、敏感詞過濾、用戶瀏覽/播放記錄過濾(按場景)個(按場景)個推薦系統根據配置的過濾規則,對待推薦列表中的內容進行過濾,輸出推薦結果;當生成的最終推薦效果小于一定數量時(如10個),支持重新讀取待推薦列表將.4.3.7推薦結果并發查詢全量推薦結果寫入Hbase活躍用戶推薦結果緩存在Redis中,與Hbase全量數據進行關聯同步。優勢劣勢數據)儲數據)(推薦方案)(熱點數據)復上片20327.8TAB頁顯示詳列明4.系統自身原因(I0、內存溢出等)導致數據處理異常時,進行.4.4.1應用層推薦計算數據源數據指標集通過數據預處理程序輸出的基于政務云用戶內容標簽用戶標簽度建立用戶標簽體系,對用戶進行精準畫像,畫像結果支撐內容推薦計算。個性化推薦基于用戶的內容偏好,使用協同過濾算法生成熱門推薦>推薦結果查詢服務個性化推薦組合推薦景(登錄后、播放后等)生成待推薦列表推薦效果評估推薦結果優化1.3項目進度計劃為有效地進行資源、進度和質量等方面的控制,確顧問共同組成咨詢和實施小組,按照項目管理的原則進行實施,建立一套科學、系統、項目組具體分為項目經理、技術總監、項目管理雙方參與人員項目領導小組XX客戶高層與公司高層管理人員各一名項目開發和實施過程中重大事件的決策。項目管理組公司負責項目的進度跟蹤、質量控制、層領導匯報項目進展。公司項目技術負責人術指導和整體把握。項目執行機構項目經理與公司高級項目經理各一名進行本項目的具體管理和實施工作。雙方參與人員公司全面負責整個項目的質量管理、工等的制定。公司全面負責建立和維護項目配置庫、制、負責變更管理、版本管理和發布管理。需求分析組公司、XX客戶各

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論