Hadoop大數(shù)據(jù)平臺-集成實施方案_第1頁
Hadoop大數(shù)據(jù)平臺-集成實施方案_第2頁
Hadoop大數(shù)據(jù)平臺-集成實施方案_第3頁
Hadoop大數(shù)據(jù)平臺-集成實施方案_第4頁
Hadoop大數(shù)據(jù)平臺-集成實施方案_第5頁
已閱讀5頁,還剩232頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、PAGE 8Hadoop大數(shù)據(jù)平臺集成實施方案 PAGE 236目 錄 TOC o 1-1 h z HYPERLINK l _Toc494480916 1技術規(guī)范書應答書 PAGEREF _Toc494480916 h 2 HYPERLINK l _Toc494480917 2技術方案建議 PAGEREF _Toc494480917 h 77 HYPERLINK l _Toc494480918 3測試及驗收 PAGEREF _Toc494480918 h 126 HYPERLINK l _Toc494480919 4項目實施與管理 PAGEREF _Toc494480919 h 153 HYP

2、ERLINK l _Toc494480920 5人員資質與管理 PAGEREF _Toc494480920 h 175 HYPERLINK l _Toc494480921 6技術支持及保修 PAGEREF _Toc494480921 h 181 HYPERLINK l _Toc494480922 7附錄 PAGEREF _Toc494480922 h 213技術規(guī)范書應答書總體解決方案建議書要求乙方所提供的總體解決方案建議書至少包含技術方案、集成實施方案、建議的Hadoop系統(tǒng)軟件產品等內容。答:相#乙方在解決方案建議書中,需要就需求分析、系統(tǒng)設計、系統(tǒng)開發(fā)、系統(tǒng)集成、項目試點以及推廣等各階段

3、所能提供的服務以及各階段產出物作具體描述。乙方在解決方案建議書中應說明給甲方提供的技術文檔、技術支持、技術服務、人員培訓等的范圍和程度。答:#技術方案至少應包括以下內容:應按照甲方建設的總體要求,結合行業(yè)先進經驗,提出大數(shù)據(jù)平臺技術建議方案;對整個平臺提出安全技術方案;對上述內容相應的業(yè)務需求分析、建設模式、組網方案、軟硬件配置、安全策略等提出建議方案。答:#集成實施方案至少包括實施方法、實施步驟、實施進度安排、相關配套系統(tǒng)的改造方案建議、項目實施控制和項目管理、人員組織、培訓計劃等。答:#對量收系統(tǒng)的功能及數(shù)據(jù)遷移提出建議方案,包括相應的業(yè)務需求分析、建設模式、組網方案、軟硬件配置、安全策略

4、等;提出相應的系統(tǒng)遷移實施方案,包括實施方法、實施步驟、實施進度安排、項目實施控制和項目管理、人員組織、培訓計劃等,其中:實施進度應滿足2016年實現(xiàn)主要八大量收功能的時間要求。答:#乙方二次開發(fā)的應用軟件應采用SOA架構設計,在技術方案里詳細描述,并提供可服務化封裝的功能列表。答:#乙方或所投標軟件產品的供應商需提供其大數(shù)據(jù)平臺設計、Hadoop系統(tǒng)軟件產品及其集成實施項目在國內外大型企業(yè)的成功案例,結合本次甲方的需求,提出案例分析和建議。案例數(shù)量不少于3個,需涉及世界500強企業(yè)、國內知名企業(yè),以及郵政行業(yè)、金融保險行業(yè)或速遞物流行業(yè)等,以國內案例為主。案例內容包括:項目概況和規(guī)模、用戶范

5、圍和數(shù)量、在項目中的角色、各階段承擔的任務、工作內容、所采用的軟件及模塊、設備配置、人員投入、時間進度、實施步驟、實施效果等內容,提供用戶使用報告書、或該項目的中標通知書、驗收報告、或使用意見書等相關證明材料復印件,并加蓋乙方公章。答:#乙方提供的Hadoop系統(tǒng)軟件產品應是具有自主知識產權的產品,并獨立于硬件平臺,能夠在不同的主流x86服務器、紅旗Linux服務器版操作系統(tǒng)(Red Flag Asianux Server)上安裝運行。答:滿足。目前CDH能運行在各種不同的x86服務器集群上,支持的操作系統(tǒng)包括:redhat,centos,debian,sles,ubuntu等一系列常見操作系

6、統(tǒng),紅旗Linux的內核是基于redhat實現(xiàn)的,所以CDH可以運行在其上。#乙方應提供建議的大數(shù)據(jù)軟件產品、技術服務列表以及相應的測試報告。如需采用第三方產品、開源軟件、自主版權軟件,包括免費軟件,均需明確標注。對于需要通過二次開發(fā)手段實現(xiàn)的內容,應明確標注并說明二次開發(fā)工作量。測試報告內容要求見7.1.3節(jié)。答:建議的大數(shù)據(jù)軟件產品功能如下:高度集成的Hadoop平臺:一個整體的數(shù)據(jù)存儲和計算平臺,無縫集成了基于Hadoop的大量生態(tài)工具,不同業(yè)務可以集中在一個平臺內完成,而不需要在處理系統(tǒng)間移動數(shù)據(jù);用廉價的PC服務器架構統(tǒng)一的存儲平臺,能存儲PB級海量數(shù)據(jù)。并且數(shù)據(jù)種類可以是結構化,半

7、結構化及非結構化數(shù)據(jù)。存儲的技術有SQL及NoSQL,并且NoSQL能提供企業(yè)級的安全方案。CDH提供統(tǒng)一的資源調度平臺,能夠利用最新的資源調度平臺YARN分配集群中CPU,內存等資源的調度,充分利用集群資源;多樣的數(shù)據(jù)分析平臺 能夠針對不用的業(yè)務類型提供不同的計算框架,比如針對批處理的MapReduce計算框架;針對交互式查詢的Impala MPP查詢引擎;針對內存及流計算的Spark框架;針對機器學習,數(shù)據(jù)挖掘等業(yè)務的訓練測試模型;針對全文檢索的Solr搜索引擎我公司針對中國郵政大數(shù)據(jù)平臺項目專門成了了技術服務團隊,并根據(jù)項目的需求、進展階段量身打造了具體的服務內容,詳情請參考 HYPER

8、LINK l _技術支持 技術支持部分。項目中所涉及的軟件包括:Hadoop軟件(包括而不限于Hadoop核心)數(shù)據(jù)采集層:Apache Flume, Apache Sqoop平臺管理:Zookeeper, YARN安全管理:Apache Sentry數(shù)據(jù)存儲:HDFS, HBase, Parquet 數(shù)據(jù)處理:MapReduce, Impala, Spark開發(fā)套件:Apache Hue, Kite SDK關系型數(shù)據(jù)庫系統(tǒng):SAP HANA企業(yè)版ETL工具:SAP Data Services推薦方案中的核心技術產品Cloudera CDH與SAP HANA的測試報告請參考附錄部分的 HYPE

9、RLINK l _國內某商業(yè)銀行Cloudera_CDH_性能測試測試 國內某商業(yè)銀行Cloudera CDH 性能測試測試以及 HYPERLINK l _SAP_HANA檢測報告 SAP HANA檢測報告部分。數(shù)據(jù)管控系統(tǒng)的二次開發(fā)量如下:主數(shù)據(jù)管理功能通過二次開發(fā)的方式實現(xiàn)主數(shù)據(jù)管理功能,并集成甲方已有的主數(shù)據(jù)管理系統(tǒng)。工作量預估為20人天應實現(xiàn)元數(shù)據(jù)管理功能, 通過Navigator來實現(xiàn)元數(shù)據(jù)管理的功能,并可以通過二次開發(fā)的方式集成已有的元數(shù)據(jù)管理系統(tǒng)。工作量預估為5人天#乙方應明確提出所能提供的項目團隊在集成實施各階段的人員參與數(shù)量和分工組成。提供人員的資質、級別以及在項目中的工作時

10、間、工作內容。答:若乙方的方案建議及有關配置符合相關國際或行業(yè)標準,則應在應答書中具體說明,并附上相應的詳細技術資料。若乙方的軟件產品包含自己專用標準,也應在應答書中具體說明,并附上相應的詳細技術資料。答:CDH基于開源社區(qū)的組件構建,完全兼容開源社區(qū)的最新產品和特性。包括的組件如下:HDFS( Hadoop Distributed File System),是一個 HYPERLINK /view/771589.htm 分布式文件系統(tǒng)。它具有高容錯性的特點,可以被廣泛的部署于廉價的PC之上。它以流式訪問模式訪問應用程序的數(shù)據(jù),這大大提高了整個系統(tǒng)的數(shù)據(jù)吞吐量,能夠滿足多來源、多類型、海量的數(shù)據(jù)

11、存儲要求,因而非常適用于日志詳單類非結構化數(shù)據(jù)的存儲。HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),它利用Hadoop HDFS作為其文件存儲系統(tǒng),利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務。HBase 不是一個關系型數(shù)據(jù)庫,其設計目標是用來解決關系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時的理論和實現(xiàn)上的局限性。HBase 從一開始就是為 Terabyte 到 Petabyte 級別的海量數(shù)據(jù)存儲和高速讀寫而設計,這些數(shù)據(jù)要求能夠被分布在數(shù)千臺普通服務器上,并且能夠被大量并發(fā)用戶高速訪問。MapReduce 是用于并行處理大數(shù)據(jù)集的

12、軟件框架。 MapReduce 的根源是函數(shù)性編程中的 map 和 reduce 函數(shù)。Map 函數(shù)接受一組數(shù)據(jù)并將其轉換為一個鍵/值對列表,輸入域中的每個元素對應一個鍵/值對。Reduce 函數(shù)接受 Map 函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對列表。MapReduce起到了將大事務分散到不同設備處理的能力,這樣原本必須用單臺較強服務器才能運行的任務,在分布式環(huán)境下也能完成了。Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎構架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規(guī)模數(shù)據(jù)的機制。Hive 定義了簡單的類

13、 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的復雜的分析工作。Impala是運行于Apache Hadoop之上業(yè)界領先的大規(guī)模并行處理(MPP)SQL查詢引擎,它將時下流行的分布式并行數(shù)據(jù)庫技術和Hadoop進行結合,幫助用戶能夠直接查詢存儲于Hdfs和Hbase的數(shù)據(jù)而不用進行數(shù)據(jù)遷移或者轉變。 Impala設計之初就定位為Hadoop生態(tài)系統(tǒng)的一部分,因此,Impala和MapReduce,Hive,Pig

14、以及Hadoop的其他組件,都享有共同的靈活的文件和數(shù)據(jù)格式。Spark提供了一個快速的計算,寫入,以及交互式查詢的框架。相比于Hadoop,Spark擁有明顯的性能優(yōu)勢。Spark使用in-memory的計算方式,通過這種方式來避免一個Mapreduce工作流中的多個任務對同一個數(shù)據(jù)集進行計算時的IO瓶頸。Spark利用Scala語言實現(xiàn),Scala能夠使得處理分布式數(shù)據(jù)集時,能夠像處理本地化數(shù)據(jù)一樣Sqoop是一個用來將Hadoop和關系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉移的工具,可以將一個關系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導進到Hadoop的HDFS中

15、,也可以將HDFS的數(shù)據(jù)導進到關系型數(shù)據(jù)庫中。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。 Flume是一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。業(yè)務功能需求系統(tǒng)管理架構#整體架構方面大數(shù)據(jù)平臺支持集團總部、省和地市三級使用方式。使用單位還包括下屬單位和控股公司等。設計大數(shù)據(jù)平臺整體框架,提出的建設方案應描述大數(shù)據(jù)平臺對外提供的應用服務,平臺內部服務組件,各服務組件之間的關系,大數(shù)據(jù)平臺數(shù)據(jù)流量流向等。實現(xiàn)Hadoop系統(tǒng)與甲方現(xiàn)有Oracle數(shù)據(jù)庫及TeraData數(shù)據(jù)倉庫的無縫連

16、接。Hadoop系統(tǒng)應實現(xiàn)主流數(shù)據(jù)倉庫的功能。答:滿足。大數(shù)據(jù)平臺建立后,會包含集團內部全量分析數(shù)據(jù),并且支持大量并發(fā)分析操作,因此能夠大數(shù)據(jù)平臺支持集團總部、省和地市三級使用方式。使用單位還包括下屬單位和控股公司等。通過Data Services ETL工具,可以與現(xiàn)有的oracle以及teradata數(shù)據(jù)倉庫進行無縫連接。并且Hive組件可以提供主流數(shù)據(jù)倉庫的功能。Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎構架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規(guī)模數(shù)據(jù)的機制。Hive 定義了簡單的類 SQL 查詢語

17、言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的復雜的分析工作。多應用方面實現(xiàn)大數(shù)據(jù)平臺多應用管理。支持對應用的服務級別管理(SLA)。實現(xiàn)應用的訪問資源控制,支持資源隔離。答:滿足。為了實現(xiàn)一個 Hadoop 集群的集群共享、可伸縮性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶頸,開源社區(qū)引入了統(tǒng)一的資源管理框架YARN。YARN 分層結構的本質是 ResourceManager。這個實體控制整個集群

18、并管理應用程序向基礎計算資源的分配。ResourceManager 將各個資源部分(計算、內存、帶寬等)精心安排給基礎 NodeManager(YARN 的每節(jié)點代理)。ResourceManager 還與 ApplicationMaster 一起分配資源,與 NodeManager 一起啟動和監(jiān)視它們的基礎應用程序。在此上下文中,ApplicationMaster 承擔了以前的 TaskTracker 的一些角色,ResourceManager 承擔了 JobTracker 的角色。ApplicationMaster 管理一個在 YARN 內運行的應用程序的每個實例。ApplicationM

19、aster 負責協(xié)調來自 ResourceManager 的資源,并通過 NodeManager 監(jiān)視容器的執(zhí)行和資源使用(CPU、內存等的資源分配)。請注意,盡管目前的資源更加傳統(tǒng)(CPU 核心、內存),但未來會帶來基于手頭任務的新資源類型(比如圖形處理單元或專用處理設備)。從 YARN 角度講,ApplicationMaster 是用戶代碼,因此存在潛在的安全問題。YARN 假設 ApplicationMaster 存在錯誤或者甚至是惡意的,因此將它們當作無特權的代碼對待。NodeManager 管理一個 YARN 集群中的每個節(jié)點。NodeManager 提供針對集群中每個節(jié)點的服務,從

20、監(jiān)督對一個容器的終生管理到監(jiān)視資源和跟蹤節(jié)點健康。MRv1 通過插槽管理 Map 和 Reduce 任務的執(zhí)行,而 NodeManager 管理抽象容器,這些容器代表著可供一個特定應用程序使用的針對每個節(jié)點的資源。多租戶方面實現(xiàn)大數(shù)據(jù)平臺的多租戶功能,包括但不限于多租戶管理、租戶的操作員管理、租戶的分等分級分組管理、租戶的度量管理、租戶的角色管理、租戶應用授權、租戶數(shù)據(jù)隔離、租戶的資源隔離等功能。答:滿足;可以基于yarn進行二次開發(fā),以滿足上述的各種租戶管理需求。工作量預估為20人天。*統(tǒng)一運維監(jiān)控方面統(tǒng)一運維監(jiān)控功能包括但不限于:安全管理、用戶管理、監(jiān)控運維、服務調度、應用部署、資源管理、

21、作業(yè)編排、服務接口等。實現(xiàn)圖形化監(jiān)控管理。監(jiān)控內容包括但不限于:集群節(jié)點的運行狀態(tài)、資源利用情況、網絡通訊情況、圖形化的啟動、停止、刪除節(jié)點、新增節(jié)點、遷移任務、遷移數(shù)據(jù)等操作。可視化監(jiān)控管理集群節(jié)點。可視化監(jiān)控管理數(shù)據(jù)對象。可視化的租戶管理。實現(xiàn)平臺日志管理。實現(xiàn)平臺審計管理。實現(xiàn)告警管理。對問題源及時報警,并提供主動診斷功能。對數(shù)據(jù)的備份與恢復管理。實現(xiàn)數(shù)據(jù)處理過程追溯。答:滿足;Cloudera提供了Web界面操作接口HUE,上層用戶可以只用可視化的方式訪問數(shù)據(jù)、提交任務等。HUE集成了用戶訪問控制,支持多租戶隔離。Cloudera Manager提供了許多監(jiān)控功能,用于監(jiān)測群集(主機,

22、服務守護進程)健康、組件性能以及集群中運行的作業(yè)的性能和資源需求。具體包括以下監(jiān)控功能:服務監(jiān)控查看服務和角色實例級別健康檢查的結果,并通過圖表顯示,有助于診斷問題。如果健康檢查發(fā)現(xiàn)某個組件的狀態(tài)需要特別關注甚至已經出現(xiàn)問題,系統(tǒng)會對管理員應該采取的行動提出建議。同時,系統(tǒng)管理員還可以查看上的服務或角色上操作的執(zhí)行歷史,也可以查看配置更改的審計日志。主機監(jiān)控監(jiān)控群集內所有主機的有關信息,包括:哪些主機上線或下線,主機上目前消耗的內存,主機上運行的角色實例分配,不同的機架上的主機分配等等。匯總視圖中顯示了所有主機群集,并且可以進一步查看單個主機豐富的細節(jié),包括顯示主機關鍵指標的直觀圖表。行為監(jiān)控

23、Cloudera Manager提供了列表以及圖表的方式來查看集群上進行的活動,不僅顯示當前正在執(zhí)行的任務行為,還可以通過儀表盤查看歷史活動。同時提供了各個作業(yè)所使用資源的許多統(tǒng)計,系統(tǒng)管理員可以通過比較相似任務的不同性能數(shù)據(jù)以及比較查看同一任務中不同執(zhí)行的性能數(shù)據(jù)來診斷性能問題或行為問題。事件活動監(jiān)控界面可以查看事件,并使它們用于報警和搜索,使得系統(tǒng)管理員可以深入了解發(fā)生集群范圍內所有相關事件的歷史記錄。系統(tǒng)管理員可以通過時間范圍、服務、主機、關鍵字等字段信息過濾事件。報警通過配置Cloudera Manager可以對指定的事件產生警報。系通過管理員可以針對關鍵事件配置其報警閾值、啟用或禁用

24、報警等,并通過電子郵件或者通過SNMP的事件得到制定的警報通知。系統(tǒng)也可以暫時抑制報警事件,此限制可以基于個人角色、服務、主機、甚至整個集群配置,使得進行系統(tǒng)維護/故障排除時不會產生過多的警報流量。審計事件Cloudera Manager記錄了有關服務、角色和主機的生命周期的事件,如創(chuàng)建角色或服務、修改角色或服務配置、退役主機和運行Cloudera Manager管理服務命令等等。系統(tǒng)管理員可以通過管理員終端查看,界面提供了按時間范圍、服務、主機、關鍵字等字段信息來過濾審計事件條目。可視化的時間序列數(shù)據(jù)圖表系統(tǒng)管理員可以通過搜索度量數(shù)據(jù),系統(tǒng)將根據(jù)指定規(guī)則創(chuàng)建數(shù)據(jù),組(方面)數(shù)據(jù)的圖表,并把這

25、些圖表保存到用戶自定義的儀表板。日志介紹如何訪問日志中的各種考慮到你正在查看當前上下文的方式。例如,監(jiān)控服務時,你可以輕松地點擊一個鏈接,查看相關的特定服務的日志條目,通過相同的用戶界面。當查看關于用戶的活動信息,您可以方便地查看了作業(yè)運行時所用的作業(yè)的主機上發(fā)生的相關日志條目。報告Cloudera Manager可以將收集到的歷史監(jiān)控數(shù)據(jù)統(tǒng)計生成報表,比如按目錄查看集群作業(yè)活動的用戶、按組或作業(yè)ID查看有關用戶的磁盤利用率,用戶組的歷史信息等。這些報告可以根據(jù)選定的時間段(每小時,每天,每周,等等)匯總數(shù)據(jù),并可以導出為XLS或CSV文件。同時系統(tǒng)管理員還可以管理包括搜索和配額等HDFS目錄

26、設置。Cloudera Navigator的審計功能支持對于數(shù)據(jù)的審計和訪問,其架構如下:一旦配置了Cloudera Navigator審計功能,收集和過濾審核事件的插件將會被打開并插入到HDFS,HBase和Hive(也就是HiveServer2和Beeswax服務器)服務。該插件負責將審計事件寫入到本地文件系統(tǒng)的審計日志中。而Cloudera Impala和Sentry則自己收集和過濾審核事件,并直接將其寫入審計日志文件。支持的審計事件比如集群資源管理操作節(jié)點操作、用戶操作、資源服務的啟動和停止、應用程序操作等。運行在每臺服務器上的CM代理(Cloudera Manager Agent)會

27、監(jiān)視審計日志文件,并將這些事件發(fā)送到Navigator審計服務器(Navigator Audit Server)。如果任何消息在發(fā)送時失敗,CM代理將會自動重試。由于沒有使用臨時內存緩沖區(qū),一旦審計事件被寫入審計日志文件,就可以保證被交付(只要文件系統(tǒng)可用)。 CM代理記錄并跟蹤審計日志中當前成功發(fā)送的的審計事件,因此及時出現(xiàn)任何崩潰或重新啟動,只需找到上次成功發(fā)送審計事件的位置,然后就可以重新開始發(fā)送。審核日志一旦被成功發(fā)送到Navigator審計服務器,CM代理會負責清除。如果一個插件無法將審計事件寫入審計日志文件,它可以丟棄事件或停止正在運行的進程(取決于配置的策略)。Navigator

28、審計服務器執(zhí)行以下功能:跟蹤和合并事件存儲事件給審計數(shù)據(jù)庫數(shù)據(jù)處理過程追溯數(shù)據(jù)的備份與恢復是企業(yè)級系統(tǒng)非常關鍵的功能,能夠保障異常故障情況下,數(shù)據(jù)的完整性。Hadoop能夠實現(xiàn)集群間的數(shù)據(jù)備份與災難恢復工作,但是本身的配置以及實現(xiàn)非常的復雜與繁瑣,不易于使用。CM提供了界面化的數(shù)據(jù)備份與災難恢復。用戶只需要在界面上進行簡單的配置,就能夠達到預期的效果。并且可以設置,數(shù)據(jù)備份的周期,帶寬等參數(shù),以保證在不影響業(yè)務的情況下,周期性的進行自動備份。周期性的服務診斷CM會對集群中運行的服務進行周期性的運行狀況測試。以檢測這些服務的狀態(tài)是否正常。如果有異常情況會進行告警,有利于更早的讓客戶感知集群服務存

29、在的問題作業(yè)調度管理方面實現(xiàn)統(tǒng)一的作業(yè)調度與編排管理功能。使用工作流的可視化的方式對工作任務進行統(tǒng)一編排和調度。實現(xiàn)作業(yè)的資源管理、流程管理、任務管理、數(shù)據(jù)管理、應用管理、租戶管理、多ETL調度任務的部署和并行處理等功能。答:滿足;需基于CDH進行二次開發(fā)實現(xiàn)。工作量預估為10人天數(shù)據(jù)管理*結構化數(shù)據(jù)管理功能,包括但不限于對結構化數(shù)據(jù)的采集管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲管理、對外接口、實時監(jiān)控、安全管理、數(shù)據(jù)重構等功能。答:滿足;通過基于sqoop進行二次開發(fā)來實現(xiàn)對結構化數(shù)據(jù)的采集管理,工作量預估為2人天、通過hive、impala或者spark、Hbase等組件來實現(xiàn)數(shù)據(jù)加工和存儲管理的要求

30、數(shù)據(jù)平臺的應用接口是多樣的:HDFS:支持NFS,HTTP(Rest),Java API,F(xiàn)TP HBase:Java API,Rest,Thrift,SQL(Apache Phoenix)Hive:Shell,JDBC,ODBCImpala:Shell,JDBC,ODBC,PythonSpark:Java/Scala API,SQL(Spark SQL),Python,R通過Cloudera Manager 來實現(xiàn)實時監(jiān)控通過提供Kerberos認證和基于角色授權來滿足安全管理的要求*半/非結構化數(shù)據(jù)管理功能。包括但不限于半/非結構化數(shù)據(jù)的采集管理、數(shù)據(jù)內容搜索、數(shù)據(jù)生命周期管理、數(shù)據(jù)加工管

31、理、數(shù)據(jù)存儲管理、對外接口、混合查詢、實時監(jiān)控、自然語言查詢、智能化知識檢索功能答:滿足;可以通過基于flume進行二次開發(fā)來滿足半/非結構化數(shù)據(jù)的采集管理。工作量預估為2人天通過Navigator完成數(shù)據(jù)生命周期管理。Cloudera Search為CDH企業(yè)版提供了一站式全文檢索功能,Cloudera Search是一個綜合,靈活和強大的搜索解決方案,Cloudera Search是一個完全開源的搜索解決方案,內置功能豐富的和可擴展的Apache Solr的項目。Apache Solr包括開源項目如Apache Lucene和Apache Tika。用戶通過Cloudera Search可

32、以不寫任何程序代碼,簡單進行配置即可實現(xiàn)數(shù)據(jù)源ETL,創(chuàng)建并更新索引,數(shù)據(jù)入庫定制查詢界面等完整的數(shù)據(jù)全文檢索工作流程,高度自動化的流水線提高了部署效率。通過該解決方案可以實現(xiàn)數(shù)據(jù)內容搜索,自然語言查詢,智能化知識檢索等功能。組件貢獻HDFS源文檔一般被存放在HDFS中。這些文檔被建立索引并被變成可被搜索的。這些文件,如Lucene索引文件,被存放在HDFS中的直寫日志,支持Search。使用HDFS提供了更簡單,基數(shù)更大,冗余和容錯的供應。由于使用HDFS的結果,Search 服務器本質上是無狀態(tài)的, 這意味著有在節(jié)點故障時產生最小的后果。 HDFS中還提供了額外的好處,如快照,跨群集復制,

33、和災難恢復。MapReduceSearch包括提前建立的基于MapReduce Job。Job可以被按需用來或者被安排來為存儲在HDFS中任何支持的數(shù)據(jù)集合來建立索引。Job為可擴展的批量索引優(yōu)化了集群資源。FlumeSearch 包括Flume Sink來把事件直接寫入到部署在集群中的到索引器中,使其可以在攝入過程中建立數(shù)據(jù)索引。ZooKeeper協(xié)同分布式數(shù)據(jù)和元數(shù)據(jù),也被Search的分片所用。ZooKeeper提供自動的故障切換,增加了服務的彈性。HBase支持存儲后數(shù)據(jù)的索引,提取列,列族和鍵信息作為字段。因為HBase沒有使用二級索引,Search可以完成HBase里面行和表內容的

34、全文索引Cloudera Manager部署,配置,管理和監(jiān)控搜索過程和在集群服務中的資源優(yōu)化,搜索不要求一定有Cloudera Manager,但是Cloudera Manager幫助簡化了搜索管理。Impala進一步的分析搜索結果,實現(xiàn)混合查詢Sqoop批量攝入數(shù)據(jù),并讓批量建立索引過程中數(shù)據(jù)可用數(shù)據(jù)平臺的應用接口是多樣的:HDFS:支持NFS,HTTP(Rest),Java API,F(xiàn)TP HBase:Java API,Rest,Thrift,SQL(Apache Phoenix)通過Cloudera Manager 來實現(xiàn)實時監(jiān)控*數(shù)據(jù)交換功能實現(xiàn)數(shù)據(jù)源管理功能。數(shù)據(jù)源包括但不限于:各

35、業(yè)務系統(tǒng)數(shù)據(jù)接入、互聯(lián)網數(shù)據(jù)采集、合作伙伴系統(tǒng)數(shù)據(jù)接入、外部臨時數(shù)據(jù)導入支持等。實現(xiàn)大數(shù)據(jù)平臺內各存儲區(qū)之間的數(shù)據(jù)交換功能。大數(shù)據(jù)平臺要提供可自定義的對外數(shù)據(jù)服務接口能力。數(shù)據(jù)交換功能要支持數(shù)據(jù)接口熱擴展能力。答:滿足;可以通過CDH提供的數(shù)據(jù)采集組件來實現(xiàn)各種數(shù)據(jù)的接入。通過各組件自身提供的能力可以完成各存儲區(qū)之間的數(shù)據(jù)交換。大數(shù)據(jù)平臺支持自定義對外服務的接口并可以支持數(shù)據(jù)接口熱擴展能力。*數(shù)據(jù)采集方面支持多種數(shù)據(jù)采集方式。采集方式包括但不限于:網上數(shù)據(jù)填報、流方式、批量導入方式、實時數(shù)據(jù)采集、外部數(shù)據(jù)文件導入、異構數(shù)據(jù)庫導入、主動數(shù)據(jù)抽取、增量追加方式、網上爬蟲方式等。支持不同頻度、不同形

36、態(tài)的企業(yè)內外部數(shù)據(jù)采集。答:滿足;KafkaKafka是一個分布式的消息處理引擎,具有極高性能,同時支持對消息的訂閱和發(fā)布機制,基于Kafka可以非常方便的創(chuàng)造出復雜的消息處理工作流SqoopSqoop是一個用來將Hadoop和關系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉移的工具,可以將一個關系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導進到關系型數(shù)據(jù)庫中。FlumeFlume是日志收集系統(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的

37、能力。 Flume是一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。CDH創(chuàng)新性的將Flume和Kafka整合在一起,形成基于消息總線的分布式數(shù)據(jù)聚合系統(tǒng),特別適合作為企業(yè)級數(shù)據(jù)總線基礎架構和ETL框架基礎架構。#數(shù)據(jù)存儲方面數(shù)據(jù)存儲管理功能。內容包括但不限于:數(shù)據(jù)分區(qū)劃分方式、適用場景、對應計算處理框架、硬件配置推薦等。支持多存儲層級,實現(xiàn)數(shù)據(jù)的多溫度管理,能夠將數(shù)據(jù)存儲在不同IO讀寫速度的不同介質上。數(shù)據(jù)生命周期管理功能。多種索引模式。具有索引分析與選擇功能和工具。多數(shù)據(jù)副本管理功能。數(shù)據(jù)平衡、索引平衡的檢測管理功能。實現(xiàn)自動平衡功能和數(shù)據(jù)自動重分布功能,提供數(shù)據(jù)平衡和索引平衡

38、的工具。在線變動節(jié)點管理功能。支持在線增加、刪除節(jié)點時,數(shù)據(jù)和索引的傾斜探測和自動平衡功能,保證平滑擴展和性能的線性增長。多種數(shù)據(jù)分區(qū)管理功能。多數(shù)據(jù)類型管理功能。多文件格式管理功能。數(shù)據(jù)自定義標簽管理功能。數(shù)據(jù)塊讀寫鎖處理功能。數(shù)據(jù)文件元數(shù)據(jù)備份和恢復功能。數(shù)據(jù)壓縮、表壓縮功能,節(jié)省數(shù)據(jù)空間。答:HDFS( Hadoop Distributed File System),是一個 HYPERLINK /view/771589.htm 分布式文件系統(tǒng)。它具有高容錯性的特點,可以被廣泛的部署于廉價的PC之上。它以流式訪問模式訪問應用程序的數(shù)據(jù),這大大提高了整個系統(tǒng)的數(shù)據(jù)吞吐量,能夠滿足多來源、多類

39、型,多文件格式、海量的數(shù)據(jù)存儲要求,因而非常適用于日志詳單類非結構化數(shù)據(jù)的存儲。HDFS架構采用主從架構(master/slave)。一個典型的HDFS集群包含一個NameNode節(jié)點和多個DataNode節(jié)點。NameNode節(jié)點負責整個HDFS文件系統(tǒng)中的文件的元數(shù)據(jù)保管和管理,集群中通常只有一臺機器上運行NameNode實例,DataNode節(jié)點保存文件中的數(shù)據(jù),集群中的機器分別運行一個DataNode實例。在HDFS中,NameNode節(jié)點被稱為名字節(jié)點,DataNode節(jié)點被稱為數(shù)據(jù)節(jié)點,DataNode節(jié)點通過心跳機制與NameNode節(jié)點進行定時的通信。HDFS可以實現(xiàn)大規(guī)模數(shù)據(jù)

40、可靠的分布式讀寫。HDFS針對的使用場景是數(shù)據(jù)讀寫具有“一次寫,多次讀”的特征,而數(shù)據(jù)“寫”操作是順序寫,也就是在文件創(chuàng)建時的寫入或者在現(xiàn)有文件之后的添加操作。HDFS保證一個文件在一個時刻只被一個調用者執(zhí)行寫操作,而可以被多個調用者執(zhí)行讀操作。其主要特性如下:靈活:統(tǒng)一的存儲可以存放結構化,半結構化及非結構化數(shù)據(jù)可擴展:根據(jù)業(yè)務需要增加或者刪除節(jié)點,并提供自動平衡的能力,保證平滑擴展和性能的線性增長容錯:數(shù)據(jù)有多個副本以保障數(shù)據(jù)的可靠性開放:基于開源的存儲格式,避免廠商鎖定平衡:默認有自動平衡和重分布的功能,同時提供了提供數(shù)據(jù)平衡和索引平衡的工具。高級特性:CDH整合最新版本的HDFS,實現(xiàn)

41、了對內存,SSD,磁盤相結合的異構式統(tǒng)一存儲體系,將數(shù)據(jù)按照冷熱程度不同自動存儲在不同存儲介質中,既可以利用內存,SSD的高性能加速實時數(shù)據(jù)分析過程,也能利用磁盤的低成本大容量存儲較冷的數(shù)據(jù)。Navigator模塊,是唯一原生在Hadoop生態(tài)系統(tǒng)上的并提供全面數(shù)據(jù)管理服務的一套解決方案。該產品通過統(tǒng)一的用戶接口可以有效協(xié)助系統(tǒng)管理員、數(shù)據(jù)經理以及分析師對平臺中各式各樣的數(shù)據(jù)進行管治、分類與探索,提供的功能有:數(shù)據(jù)發(fā)現(xiàn)與探索:提供了一套標注工具幫助用戶定制化數(shù)據(jù)標簽與自動化識別數(shù)據(jù)標簽。該功能可以有效加速用戶發(fā)現(xiàn)有用數(shù)據(jù)、分析數(shù)據(jù)結構,進而提高數(shù)據(jù)復用率與數(shù)據(jù)商業(yè)價值;元數(shù)據(jù)查詢快速檢索相關數(shù)

42、據(jù),加速數(shù)據(jù)發(fā)現(xiàn)流程元數(shù)據(jù)標注自動發(fā)現(xiàn)元數(shù)據(jù)并允許用戶自定義可定制化標簽與注釋,便于數(shù)據(jù)追蹤與歸類元數(shù)據(jù)識別從外部系統(tǒng)中識別出Hadoop的元數(shù)據(jù),以整合公司范圍內的不同系統(tǒng)與處理流程提供追蹤數(shù)據(jù)在系統(tǒng)中演變過程的功能,允許用戶回朔數(shù)據(jù)源頭,驗證數(shù)據(jù)有效性,進而提供完善的數(shù)據(jù)生命周期管理(lifecycle management)。原生的HDFS并不支持索引,HBase也只是支持主索引。在Cloudera的數(shù)據(jù)平臺中通過Cloudera Search組件來支持HDFS或者HBase的索引功能,既可以支持批量的索引,也可以支持實時的索引。HDFS上的批量索引HDFS實時索引HBase上的實時批量

43、索引Cloudera平臺中的有全方位的數(shù)據(jù)備份策略,保障數(shù)據(jù)的高可靠性,有三個維度來保障數(shù)據(jù)問題導致的數(shù)據(jù)的不可用:HDFS固有的分片冗余技術Hadoop在設計是就已經考慮集群的容錯,包含磁盤、節(jié)點、網絡和機柜錯誤,任何單一設備的故障不會導致數(shù)據(jù)的不可用,而且HDFS會觸發(fā)自動的數(shù)據(jù)分片恢復過程。另外在數(shù)據(jù)應用的設計中,也應該設計一定的數(shù)據(jù)存儲策略,如下圖:在整個數(shù)據(jù)流圖中,包含原始數(shù)據(jù)、數(shù)據(jù)落地區(qū)、數(shù)據(jù)使用區(qū)和歸檔區(qū),每個區(qū)域都有特定的存儲周期。HDFS的快照、權限控制以及回收站功能快照是指保存特定時間點的系統(tǒng)狀況,之后如果發(fā)生用戶或者應用的誤操作,可以通過之前保存的快照數(shù)據(jù)恢復。在Clou

44、dera管理平臺中可以非常簡單地進行快照創(chuàng)建、恢復以及刪除快照,也可以配置快照任務。數(shù)據(jù)中心間的遠程災備功能Cloudera提供了BDR管理界面方便用戶進行HDFS,Hive,Impala的數(shù)據(jù)備份功能。BDR提供了全量數(shù)據(jù)備份和增量備份的功能。和普通的文件系統(tǒng)一樣,HDFS也支持多種不同的壓縮算法,如GZip,LZO,Bzip2,Snappy等數(shù)據(jù)加工方面實現(xiàn)數(shù)據(jù)加工功能,提供數(shù)據(jù)加工規(guī)則管理,支持不同形態(tài)數(shù)據(jù)加工管理。答:滿足;需基于hadoop平臺組件進行二次開發(fā)。工作量預估為5人天數(shù)據(jù)清洗方面實現(xiàn)數(shù)據(jù)清洗功能。包括但不限于數(shù)據(jù)清洗環(huán)節(jié)管理、數(shù)據(jù)清洗規(guī)則管理、數(shù)據(jù)清洗監(jiān)控、數(shù)據(jù)清洗預覽、

45、應用主數(shù)據(jù)進行清洗管理等功能。答:滿足;基于商業(yè)化的ETL工具SAP Data Services產品進行實施,該產品本身提供上述功能。數(shù)據(jù)計算方面#實現(xiàn)對多計算框架管理的支持功能。計算框架包括但不限于:批處理計算框架、內存計算框架、流計算框架等。#提供并行計算及并發(fā)處理功能,支持多服務器、多CPU、多進程并行及并發(fā)處理數(shù)據(jù)的機制。說明計算集群集成方案與配置。說明如何實現(xiàn)并行處理能力,及在并行處理方面的主要瓶頸和限制因素,在負載均衡、計算能力、通信能力、IO吞吐能力、存儲能力、擴容能力等方面的性能上限。#支持PL/SQL存儲過程、分布式事務及ACID屬性及自定義函數(shù)功能。答:滿足;支持列出來的幾

46、種計算框架,hadoop本身的工作原理就是并行計算和并行處理。分布式批處理引擎 MapReduceMapReduce是Hadoop的核心,是Google提出的一個軟件架構,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念“Map(映射)”和“Reduce(化簡)”,及他們的主要思想,都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的特性。當前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(化簡)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。MapReduce 是用于并行處理大數(shù)據(jù)集的軟件框架。 MapReduce 的根源是函數(shù)性編

47、程中的 map 和 reduce 函數(shù)。Map 函數(shù)接受一組數(shù)據(jù)并將其轉換為一個鍵/值對列表,輸入域中的每個元素對應一個鍵/值對。Reduce 函數(shù)接受 Map 函數(shù)生成的列表,然后根據(jù)它們的鍵縮小鍵/值對列表。MapReduce起到了將大事務分散到不同設備處理的能力,這樣原本必須用單臺較強服務器才能運行的任務,在分布式環(huán)境下也能完成了。該框架可以自動實現(xiàn)負載均衡并且隨著節(jié)點的增加,計算能力、通信能力、IO吞吐能力、存儲能力、擴容能力會隨之增加。同時,可以通過二次開發(fā)的方式來支持PL/SQL存儲過程、分布式事務及ACID屬性及自定義函數(shù)功能。數(shù)據(jù)查詢方面#實現(xiàn)OLAP查詢功能。內置OLAP函數(shù)

48、,給出OLAP函數(shù)列表和簡要描述;支持超大數(shù)據(jù)立方,支持雪花、星型等復雜分析模型。#支持CUBE,結合分布式內存計算以及分布式內存存儲,提供海量數(shù)據(jù)交互式分析能力。#SQL查詢功能,詳細說明對國際SQL92、SQL2003標準支持情況。同時詳細說明對SQL語言的擴展情況。#實現(xiàn)數(shù)據(jù)字典、動態(tài)SQL執(zhí)行、視圖、子查詢、JOIN 查詢功能。#支持全文檢索。支持中文字符集,實現(xiàn)中文分詞功能。#結構化數(shù)據(jù)和半/非結構化數(shù)據(jù)聯(lián)合查詢功能。#預定義維度數(shù)據(jù)查詢功能,支持簡單查詢、組合查詢、模糊查詢等。#支持存儲過程、自定義函數(shù)功能。答:滿足方案中使用兩套技術構架實現(xiàn)上述查詢方面的需求:一個是采用關系型數(shù)據(jù)

49、庫SAP HANA,另外的可以用Hadoop上的功能組件,如Impala來實現(xiàn)。前一種方式是本方案的核心。首先,HANA作為關系型數(shù)據(jù)庫,支持數(shù)據(jù)立方體以及OLAP查詢。在HANA中存在視圖的概念,即封裝的運算邏輯。超大規(guī)模數(shù)據(jù)立方體、星型模型、雪花模型等,都可以用視圖來表達。HANA與數(shù)據(jù)庫的國際標準完全兼容,支持ANSI SQL92/99/2003等標準。在HANA中同時支持數(shù)據(jù)字典、動態(tài)SQL執(zhí)行、視圖、子查詢、JOIN 查詢功能。同時HANA集成了大量的非結構化處理功能:可以在結構化/非結構化數(shù)據(jù)上建立全文索引,借助此索引能夠實現(xiàn)快速的全文檢索。HANA目前支持包括中文在內的33種語言

50、的處理。也支持結構化/非結構化數(shù)據(jù)間的聯(lián)合查詢。HANA中的存儲過程(Stored Procedure)是一組為了完成特定功能的SQL 語句集,經編譯后存儲在數(shù)據(jù)庫中,用戶通過指定存儲過程的名字并給出參數(shù)(如果該存儲過程帶有參數(shù))來執(zhí)行它。HANA中的存儲過程是可以重用的處理模塊,在HANA中有兩種創(chuàng)建PROCEDURE的方式,一種是用SQL editor進行創(chuàng)建,一種是用package中的創(chuàng)建向導進行創(chuàng)建。數(shù)據(jù)管控應實現(xiàn)主數(shù)據(jù)管理功能,并集成甲方已有的主數(shù)據(jù)管理系統(tǒng)。答:滿足;通過二次開發(fā)的方式實現(xiàn)主數(shù)據(jù)管理功能。工作量預估為20人天應實現(xiàn)元數(shù)據(jù)管理功能,并集成甲方已有的元數(shù)據(jù)管理系統(tǒng)。答:

51、通過SAP Data Services可以實現(xiàn)對元數(shù)據(jù)管理的具體功能,如下圖所示另外,CDH中的Navigator來實現(xiàn)元數(shù)據(jù)管理的功能,并可以通過二次開發(fā)的方式集成已有的元數(shù)據(jù)管理系統(tǒng)。工作量預估為5人天元數(shù)據(jù)查詢快速檢索相關數(shù)據(jù),加速數(shù)據(jù)發(fā)現(xiàn)流程元數(shù)據(jù)標注自動發(fā)現(xiàn)元數(shù)據(jù)并允許用戶自定義可定制化標簽與注釋,便于數(shù)據(jù)追蹤與歸類元數(shù)據(jù)識別從外部系統(tǒng)中識別出Hadoop的元數(shù)據(jù),以整合公司范圍內的不同系統(tǒng)與處理流程實現(xiàn)數(shù)據(jù)質量評估功能。答:通過Data Services來實現(xiàn)數(shù)據(jù)質量評估功能。DS能夠分析數(shù)據(jù)背后的質量問題,可鉆取至某些特定的記錄。對比數(shù)據(jù)集之間的數(shù)據(jù),了解其匹配程度數(shù)據(jù)分析與挖掘

52、乙方應說明大數(shù)據(jù)平臺可以無縫銜接的分析挖掘軟件產品,并說明軟件產品的適用平臺、功能、操作方式、性能、特點、適用場景和優(yōu)勢等。答:Cloudera整合各種開源組件,包括Spark MLLib,Mahout,Oryx等形成完整的機器學習算法庫,適用于不同場合的機器學習建模等需要;與SAS,R等傳統(tǒng)第三方機器學習軟件擁有互相認證的官方兼容性,用戶可以使用熟悉的SAS,R程序在CDH平臺上處理海量數(shù)據(jù)。同時CDH提供廣泛的數(shù)據(jù)分析和可視化工具兼容性,用戶可以使用Tableau, Pentaho等可視化工具連接到CDH進行分析。SAP HANA中集成了預測算法庫PAL,能夠通過調用這些算法實現(xiàn)在庫內的分

53、析預測,另外也可以與開源的R語言進行集成。對不同級別和權限的用戶使用數(shù)據(jù)、存儲資源、運算資源等提供控制功能,可以實現(xiàn)數(shù)據(jù)訪問的權限控制,存儲和運算資源的彈性擴展。答:滿足;通過yarn與操作系統(tǒng)共同配合,完成對用戶的存儲資源、運算資源的控制功能,并實現(xiàn)數(shù)據(jù)訪問的權限控制、存儲和運算資源的彈性擴展。#對R語言提供支持。包括但不限于對R的改造、解決開源R性能、分布式并行運行、版本變更、新增算法支持等問題,提供支持分布式并行R算法的詳細列表。答:滿足;與R擁有互相認證的官方兼容性,用戶可以使用熟悉的R程序在CDH或者HANA平臺上處理海量數(shù)據(jù),支持開源R算法能支持的所有算法。應能支持ANSI SQL

54、、Python、R、Java、C/C+等語言的使用。答:滿足;平臺能支持多種語言的使用。采用B/S,C/S或混合架構架構類型,并詳細描述對終端設備、操作系統(tǒng)、瀏覽器的要求,應提供圖形化界面操作支持,操作界面要求簡體中文。答:滿足;采用B/S架構,提供中文圖形化界面操作支持,支持當前主流瀏覽器。對終端和操作系統(tǒng)無特定要求。#實現(xiàn)對TB以上級別的數(shù)據(jù)進行分析挖掘的功能,應對分析挖掘中的中間數(shù)據(jù)和結果數(shù)據(jù)的靈活存儲提供支持,應對多數(shù)據(jù)來源輸入輸出提供支持。答:提供了Spark MLLib,Mahout,Oryx等完整的機器學習算法庫,可對分析挖掘中的中間數(shù)據(jù)和結果數(shù)據(jù)的靈活存儲提供支持,對多數(shù)據(jù)來源

55、輸入輸出提供支持。具有處理過程的數(shù)據(jù)預覽功能。答:滿足;需要通過二次開發(fā)來實現(xiàn)。工作量預估為2人天對數(shù)據(jù)分析挖掘算法管理提供支持,每個算法能夠靈活選擇數(shù)據(jù)源。答:滿足;需要通過二次開發(fā)來實現(xiàn)。工作量預估為2人天對分析挖掘的腳本和模型共享功能提供支持,可以實現(xiàn)用戶分析挖掘腳本和模型的發(fā)布與管理。答:滿足;需要通過二次開發(fā)來實現(xiàn)。工作量預估為2人天對數(shù)據(jù)的探索和發(fā)現(xiàn)提供支持,可以通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)結構和規(guī)律的功能。答:滿足;需要通過二次開發(fā)來實現(xiàn)。工作量預估為20人天對圖形化分析提供支持,并進行互動操作。答:滿足;需要通過二次開發(fā)來實現(xiàn)。工作量預估為10人天對統(tǒng)計分

56、析方法提供支持。實現(xiàn)統(tǒng)計分析方法的分布式并行計算。答:滿足;支持統(tǒng)計分析方法。對數(shù)據(jù)挖掘功能提供支持。實現(xiàn)數(shù)據(jù)挖掘功能的分布式并行計算。答:滿足;通過數(shù)據(jù)挖掘算法與hadoop或者spark集成來實現(xiàn)分布式并行計算。對模型預測功能提供支持。實現(xiàn)模型預測功能的分布式并行計算。答:滿足;通過hadoop或者spark來實現(xiàn)分布式并行計算對常用場景實現(xiàn)提供支持。場景包括但不限于:客戶畫像、產品推薦、自然語言處理、語義分析、輿情分析、文本挖掘、客戶行為預測等。答:滿足;通過在Hadoop平臺上進行二次開發(fā)實現(xiàn)。工作量預估為30人天對分析挖掘的腳本和模型的快速應用、服務提供支持,可以快速生成分析報告和圖

57、表;可以發(fā)布實時/非實時的分析應用;可以使用Web方式訪問分析應用成果。答:滿足;通過在Hadoop平臺上進行二次開發(fā)實現(xiàn)。工作量預估為10人天實現(xiàn)對分析指標管理,要從已固化分析結果中,抽取出指標的內容。并提供這些指標的增刪改查等功能,以對該指標庫進行維護。答:滿足;通過在Hadoop平臺上進行二次開發(fā)實現(xiàn),工作量預估為20人天實現(xiàn)對分析過程的管理。答:滿足;通過在Hadoop平臺上進行二次開發(fā)實現(xiàn),工作量預估為10人天實現(xiàn)對分析挖掘模型固化的支持,能夠根據(jù)實時/非實時數(shù)據(jù)集進行自動分析,支持通過配置方式實現(xiàn)工作流管理,將更多的分析工作成果自動化、長期化,反饋到相關人員或系統(tǒng)。答:滿足;通過在

58、Hadoop平臺上進行二次開發(fā)實現(xiàn),工作量預估為20人天技術要求總體要求乙方應采用先進、成熟、適用,并符合國際發(fā)展趨勢的技術、軟件產品和設備,要嚴格遵守有關的國際標準、國家標準、行業(yè)標準和郵政標準規(guī)范,遵循并實現(xiàn)本技術規(guī)范書中招標范圍章節(jié)提出的相關要求,并借鑒國內外目前先進、成熟的大數(shù)據(jù)平臺技術,提出合理的建議方案,保證大數(shù)據(jù)平臺的先進性、前瞻性、穩(wěn)定性、擴展性、安全性、開放性、靈活性、便捷性等方面性能。答:提供的各種技術設計文檔的內容應滿足GB8567-1988計算機軟件產品開發(fā)文件編制指南和GB/T11457-89軟件工程術語,文檔錯誤的總字數(shù)不能超過文檔總字數(shù)的1,文檔中不能出現(xiàn)與實際情

59、況不一致的描述錯誤,乙方提供的文檔和資料均應以光盤和紙張為載體(各10套),文件為Word文檔、PDF文檔或其他常用可視化文件格式。答:#測試報告應基于單臺服務器配置不高于2C8核CPU,256G內存,300G*2、2T*14硬盤和600G*2 PCIE SSD,2個雙口萬兆網卡(光口)的x86服務器集群出具,至少包含測試目標、測試內容、測試環(huán)境、測試過程、測試結果(應包括但不限于并發(fā)數(shù)量、響應時間、數(shù)據(jù)采集、加載、導出、檢索速度等性能指標)等方面內容。答:總體架構#根據(jù)以下內容提出大數(shù)據(jù)平臺技術解決方案。詳細說明邏輯架構、網絡架構和物理架構等設計。乙方應根據(jù)自己的經驗,并結合甲方現(xiàn)狀,提供軟

60、硬件部署建議,提出詳細服務器要求、存儲容量、網絡配置、網絡帶寬建議(主機CPU利用率不高于75%,I/O平均利用率不高于50%),說明計算方法。提供相關測試報告,詳細描述集中式部署條件下大規(guī)模并發(fā)處理機制和關鍵技術。系統(tǒng)應能滿足:5萬注冊用戶,同時在線5000用戶。處理能力應滿足未來35年的業(yè)務需求。存儲數(shù)據(jù)不少于3PB,常用數(shù)據(jù)不少于600TB。在服務器配置為2C8核CPU,256G內存,硬盤為300G*2、2*14硬盤和600G*2 PCIE SSD,2個雙口萬兆網卡(光口)的條件下,數(shù)據(jù)檢索響應時限要求如下:在單個服務器并發(fā)1000情況下,按關鍵字檢索單表記錄響應時限=20ms,并提供測

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論