格力大數據項目工作說明書_第1頁
格力大數據項目工作說明書_第2頁
格力大數據項目工作說明書_第3頁
格力大數據項目工作說明書_第4頁
格力大數據項目工作說明書_第5頁
已閱讀5頁,還剩9頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 格力大數據項目工作說明書北京西塔網絡科技股份有限公司二零一六年一月第13 頁格力大數據項目工作說明書(SOW)1項目目標32建設及服務內容42.1需求調研及數據標準化42.2大數據基礎平臺搭建42.3數據采集42.4分層存儲設計52.5數據加工處理52.6數據分析挖掘52.7內存數據庫52.8交互式探查分析62.9數據可視化應用62.10語音智能分析62.11文本、視頻、圖片存儲62.12大數據平臺運維監控62.13大數據平臺任務調度72.14ETL過程可視化72.15培訓工作73建設方案84時間進度與里程碑85費用支付96需求變更過程96.1變更依據96.2變更請求處理流程97雙方責任10

2、8項目組織架構129假定條件121 項目目標在珠海格力電器股份有限公司的范圍內,分期實現格力工業大數據平臺項目的數據集成、連接、處理、分析、挖掘等相關功能。本期項目包括設計、搭建大數據平臺,接入商技一部、商技二部、計算機中心的銷售訂單等相關數據,實現設備故障診斷、故障預測、產品統計、實時查詢、營銷支持、智能搜索等功能。故障診斷的業務目標:大數據平臺處理、分析商用空調運行時采集回傳的工況數據,及時、準確定位運行故障并給出大致原因,為維護部門維修空調設備和系統提供信息支撐,降低故障定位的時間、范圍和工作量,縮短停機時長并提高客戶滿意度、忠誠度。故障預測的業務目標:大數據平臺利用數據挖掘、機器學習技

3、術,通過學習業已存在的設備故障數據、信息,尤其是發生故障的前兆數據,歸納故障發生的特點、規律知識,并利用流計算相關技術及時發現潛在的故障及風險,及時預警,減少停機的次數及停機時長。另外發現停機模式、規律可以進一步應用到產品設計、改進過程中。產品統計的業務目標:大數據平臺利用集成的產品及銷售數據進行統計分析,用于分析產品的銷售情況,客戶情況,銷售規律、特點及變化趨勢,用于指導產品的個性化設計及產品的推廣銷售。實時查詢的業務目標:大數據平臺利用New SQL存儲技術存放設備數據,提供特定編號設備、一段時間內工況信息的實時查詢功能,用于業務人員分析、判斷特定設備在查詢時間范圍內的工作狀態,總結、發現

4、業務規律。營銷支持的業務目標:大數據平臺利用集成的產品及銷售數據進行分析,發現其中先后、重復購買及交叉購買情況和規律,提醒、推薦客戶購買特定的產品和服務,提高產品和服務的銷量。智能搜索的業務目標:大數據平臺提供通過語音輸入完成產品及銷售數據的查詢、統計及分析的功能。2 建設及服務內容以下所有內容基于1月19日版本的需求文檔。詳見格力大數據需求說明1.0文檔,建設內容為基于Hadoop生態系統構建大數據平臺,內容包括商用空調、家用空調、銷售等歷史數據的入庫,ETL處理,數據倉庫、離線計算、內存計算、實時計算、即席查詢、可視化展示等內容。具體內容如下:2.1 需求調研及數據標準化包括功能商技一部、

5、商技二部、銷售、審計部門的需求調研、數據調研以及數據標準化。2.2 大數據基礎平臺搭建基于Hadoop搭建大數據平臺,包括HDFS、MapReduce、HBase、Hive、Spark,MySql集群。使用HDFS存儲原始數據,供離線分析挖掘;使用Spark/MapReduce 執行離線任務;使用HBase做實時查詢;使用Hive/Spark SQL 做數據倉庫;使用MySql集群存儲分析結果書,供上層應用查詢。2.3 數據采集大數據采集包括非結構化數據、結構化數據的采集,非結構化數據采用FlumeNG 采集,Oracle/SQLServer/MySQL關系數據庫中的結構化數據采用Sqoop收

6、集。此外還有實時流數據采用分布式消息隊列采集。Flume收集非結構化數據,Flume是一個高可用的,高可靠的,分布式的海量數據采集、聚合和傳輸的系統,Flume支持定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫入到HDFS中。Sqoop收集結構化數據,Sqoop(發音:skup),主要用于在Hadoop(Hive)與傳統的數據庫(mysql、postgresql.)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。Sqoop,類

7、似于其他ETL工具,使用元數據模型來判斷數據類型并在數據從數據源轉移到Hadoop時確保類型安全的數據處理。Sqoop專為大數據批量傳輸設計,能夠分割數據集并創建Hadoop任務來處理每個區塊。實時數據處理,通過采集層數據通過消息隊列組件Kafka接入到 Spark Streaming 里,Spark Streaming 實時處理后把結果存到Hbase或Mysql等關系數據庫中供用戶查詢。2.4 分層存儲設計通過將給定文件、數據集或應用程序的必需數據特征對數據進行分層存儲設計,滿足不同的應用場景。提供數據利用率與使用效率。將常用數據存儲在高速設備上,而不太常用的數據存儲在低速設備上。在宏觀上,

8、數據可以在不同的設備之間進行數據復制遷移,分層保存。2.5 數據加工處理對數據進行分析和加工。包括對各種原始數據的分析、整理、計算、編輯等的加工和處理。經過加工清洗后的數據根據不同的數據類型,選擇不同數據存儲方式,可以存入HDFS供離線挖掘,或者存儲到實時性高的MPP數據庫進行統計分析。2.6 數據分析挖掘大數據分析系統以機器學習、數據挖掘等作為核心技術,構建于大數據管理系統和云計算平臺之上。其中,大數據管理系統提供數據的存儲與查詢功能,云計算平臺提供分布式并行計算服務。通過分布式計算與統計分析服務器訪問大數據系統,實現KPI與報表統計分析服務。采用Spark MLlib做為數據挖掘和機器學習

9、框架, MLlib是Spark的標準機器學習框架 ,MLlib相對于其他機器學習庫包具有更加優異的性能或者更容易入門。 MLlib機器學習庫具有完整的機器學習框架和各類別機器學習算法,滿足各種場合的需求。Mllib隨著Spark版本一起發布和應用。本系統采用MLlib構建在Hadoop之上對大數據進行挖掘處理,實現故障診斷、故障預測、配件庫存優化等深度挖掘。 2.7 內存數據庫內存數據庫是將全部數據駐留內存的分析型數據庫系統,采用內存計算技術,從根本上解決了數據倉庫由于磁盤I/O導致的性能瓶頸問題,具有性能高、成本低、靈活、可擴展等眾多優良特性,尤其適合做為大數據的計算引擎、分析引擎使用。 把

10、熱點數據加載到內存數據庫中,提供交互式探查分析、智能查詢分析等功能。2.8 交互式探查分析基于內存數據庫快速查詢,使用明細數據,免去清洗、聚合過程,更快速地分析和揭露數據中蘊含的問題,直接由業務人員使用,免去提需求、澄清、確認溝通環節,快速實現分析意圖,提高了發現和解決問題的效率使用時可由全部數據快速過濾出關注的部分數據進行分析;關注數據的特征可進一步由明細數據刻畫、佐證;可按需保存分析場景、導出明細數據付諸解決。優異的用戶體驗,以客戶體驗為中心設計,側重易理解(業務視角,選擇、過濾、分析)、易用(平鋪、圖形操作)、去除干擾(功能隱藏)、快速響應(內存計算)、增加趣味性(改分檔數)。2.9 數

11、據可視化應用提供通過實時查詢、產品統計功能,不做個性化推送。2.10 語音智能分析大數據平臺提供語言智能分析,通過錄入語言,將語言轉換為文本,并對文本進行分詞和語義分析,提交到大數據平臺完成產品產品及銷售數據的查詢、統計及分析的功能。2.11 文本、視頻、圖片存儲大數據平臺增加文本、音視頻、圖片等非結構化數據的存儲。2.12 大數據平臺運維監控提供格力大數據平臺管理、運維工具及說明,包括服務器和運維系統都正常運行,運維系統可以對集群所有物理機進行性能監控,包括但不限于以下指標:CPU使用率、內存使用率、硬盤利用率、網絡流量、IO負載、系統負載均值、ETL監控、數據質量監控、等服務器性能指標進行

12、監控。運維要考慮大數據平臺的可擴展性,支持:1、 在線添加節點2、 服務擴展3、 組件的升級 4、 異常處理: 掛了的節點如何恢復,記錄日志方便追蹤2.13 大數據平臺任務調度任務調度系統能夠對各類任務進行配置、啟動、跟蹤。同時,應并具備任務聯動能力,即可以將多個任務通過流程組裝成一個聯合任務,各任務之間存在相互制約關系,任務調度管理能夠根據各任務的執行狀態、結果來自動的啟動后續任務,任務間允許并發及串行兩種模式。要求各任務的配置應當為可視化的配置。對于任務啟動至少包括定時啟動和條件啟動兩種模式。同時允許管理員進行任務的手動執行。任務執行可設定優先級,比如按銷售 > 技術 &g

13、t; 質量 > 售后(銷售量大的 > 銷售量小的> 生產 >檢驗來設定。2.14 ETL過程可視化 ETL盡量滿足可配置性及可視化操作,如果甲方購買了第三方ETL可視化工具如kettle、Dataflow、Syncsoft等工具,乙方應支持甲方做集成工作。2.15 培訓工作從格力大數據平臺未來的使用及運行來看,北京西塔提供的培訓將達到如下的目標:Ø 完成知識的轉移承建單位開發完成一個軟件系統后,將通過培訓工作實現知識的轉移,不僅包括軟件系統的使用方法,同樣還包括業務理念、系統運行維護方法、技術開發方法等滿足系統未來業務拓

14、展需要的各項技能與方法。Ø 實現全員的應用應用系統的建設目標即要建設一個全員參與使用的系統,因此培訓的目標之一,也是要使業務人員均可以熟練使用該系統,增強業務人員的知識儲備,提高整個使用應用系統的業務人員素質。Ø 保障系統的安全運行對格力大數據平臺的技術管理人員進行技術培訓,使其能掌握有關軟件產品及系統的使用、維護、管理,達到能獨立進行管理、故障處理、日常測試維護、個性化應用開發等工作目的,以保障北京西塔所提供的應用系統能夠正常、安全地運行。通過以上培訓使用戶系統管理員能夠獨立完成平臺的設置、管理、故障恢復、應急處理等,能夠進行日常的數據庫備份及恢復操作、能夠獨立處理常見突

15、發事件及操作員提出的常見操作問題。3 建設方案詳見格力大數據項目技術方案.docx。4 時間進度與里程碑格力工業大數據平臺建設。項目工期要求:總工期10個月分3個階段:里程碑階段性成果與提交物時間(月)付款1.項目簽約人員進場30%2.、基礎平臺搭建&業務模型設計數據調研報告、數據標準化文檔需求規格說明書功能設計說明書220%3.業務需求開發 ETL、業務模型開發、大數據服務接口開發、大數據標準可視化系統開發、MPP內存數據庫、交互式探查分析、智能語音搜索330%4. 大數據管理系統大數據運維監控系統大數據任務管理系統大數據安全管理系統210%5.項目終驗產品配置說明應用系統部署架構說

16、明平臺監控、維護說明310%5 費用支付以合同為準。6 需求變更過程6.1 變更依據 1. 變更請求ü 除特殊緊急情況,只處理書面變更請求。 2. 變更標準ü 當工作說明書中建設內容所說明的工作項因某種原因(如實際業務變更、可實現性變更等)發生增加、減少或變更時,認為變更發生。 3. 變更申請樣式詳見需求變更申請表.docx。6.2 變更請求處理流程ü 客戶項目經理將書面變更請求提交項目經理ü 項目經理與技術經理或軟件架構師研究可行性ü 項目經理將研究結果與變更請求一同提交項目控制委員會審批ü 控制委員會將審批結果提交所有相關人

17、52; 若審批通過,項目經理n 將變更請求提交項目團隊執行n 相應修改項目管理計劃以便后續跟蹤7 雙方責任甲方:珠海格力電器股份有限公司乙方:北京西塔網絡科技股份有限公司甲方責任l 自合同簽定后,成立項目領導協調小組并委派高層經理參與項目委員會,協調解決實施過程中的各種問題;n 共同審核批準項目實施計劃;n 共同進行項目實施過程中的重大事件的決策;n 共同根據項目過程中的進度、質量、技術、資源、風險等實行宏觀監控;n 幫助協調項目組織中甲方相關方的工作關系l 自合同簽訂后,委派項目經理或協調人n 在項目的各個階段,包括需求調研、系統開發、系統實施、驗收測試用例制定、驗收測試、合同收尾與上線后支

18、持等,協調項目組織中甲方或其它相關方的工作關系,包括相關的業務人員、技術人員等n 有責任根據雙方確認的實施進度提供必要的工作環境和工作支持,及時應乙方的要求向乙方提供實施過程中所需的各種資料和數據、配合乙方人員的工作l 在項目的各個階段乙方提交評審請求后,包括需求、設計、驗收測試用例與驗收報告,甲方有責任在2個工作日內提供反饋確認l 在項目實施過程中,能及時應乙方的通知組織有關人員參與測試與培訓工作。l 甲方需提供給乙方一個20人的辦公場所,以及宿舍、出入證。l 甲方需要參與項目開發維護人員需要具備以下條件:開發人員:熟悉java或scala語言,具有一定的軟件開發、設計經驗。運維人員:深入理

19、解linux系統,運維體系結構,精于容量規劃、架構設計、 性能優化;精通一門以上腳本語言(shellperlpython等);熟悉Hadoop大數據生態圈,包括HDFS、YARN、Hive、HBase、Spark等使用人員:有一定的計算機知識,能熟練使用SQL語言以及瀏覽器。乙方責任l 乙方承諾所提供的大數據相關軟件具有自主知識產權,不侵犯任何第三者的合法權益。l 負責甲方項目實施范圍內的開發與實施工作n 委派項目經理u 根據項目進展及工作范圍要求整合工作計劃,并監督實施,控制進度;u 協調項目組內人員的分工合作,資源分配;u 向雙方匯報項目狀況,提出建議及改進措施;u 負責用戶需求匯總和分析;u 與用戶進行有效的溝通協調u 負責需求管理、需求變更管理、質量管理、進度管理、成本管理和風險管理n 委派技術經理u 參與系統總體設計;u 指導并參與開發團隊工作任務,包括開發、實施與上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論