




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據分析一體機目錄1大數據概述2一體機概述23研發思路4應用分析大數據的的4V特征“4V”是“大數據據”的顯顯著特征征,或者者說,只只有具備備這些特特點的數數據,才才是大數數據。大數據將將有新型型的展現現方式::大型控控制中心心和移動動終端,,實現數數據的實實時處理理和快速速決策。。體量Volume多樣性Variety價值密度度Value速度Velocity非結構化化數據的超大規規模和增增長總數據量量的80~90%比結構化化數據增增長快10倍到50倍是傳統數數據倉庫庫的10倍到50倍大數據的的異構和和多樣性性很多不同同形式((文本、、圖像、、視頻、、機器數數據)無模式或或者模式式不明顯顯不連貫的的語法或或句義大量的不不相關信信息對未來趨趨勢與模模式的可可預測分分析深度復雜雜分析((機器學學習、人人工智能能Vs傳統商務務智能(咨詢、報報告等))實時分析析而非批量量式分析析數據輸入入、處理理與丟棄棄立竿見影影而非事事后見效效大數據的的特征大數據技技術將被被設計用用于在成成本可承承受(economically)的條件件下,通通過非常常快速((velocity)的采集集、發現現和分析析,從大大量化((volumes)、多類類別(variety)的數據據中提取取價值((value),屬于IT領域新一一代的技技術與架架構
用以分析的數據越全面,分析的結果就越接近于真實。大數據分析意味著企業能夠從這些新的數據中獲取新的洞察力,并將其與已知業務的各個細節相融合數據分析析的價值值分析技術術:數據處理理:自然然語言處處理技術術統計和分分析:A/Btest;topN排行榜;;地域占占比;文文本情感感分析數據挖掘掘:關聯聯規則分分析;分分類;聚聚類模型預測測:預測測模型;;機器學學習;建建模仿真真大數據技技術:數據采集集:ETL工具數據存取取:關系系數據庫庫;NoSQL;SQL等基礎架構構支持::云存儲儲;分布布式文件件系統等等計算結果果展現::云計算算;標簽簽云;關關系圖等等存儲結構化數數據:海量數據據的查詢詢、統計計、更新新等操作作效率低低非結構化化數據圖片、視視頻、word、pdf、ppt等文件存存儲不利于檢檢索、查查詢和存存儲半結構化化數據轉換為結結構化存存儲按照非結結構化存存儲解決方案案:Hadoop(MapReduce技術)流計算((twitter的storm和yahoo的S4)數據采集數據儲存數據管理數據分析與挖掘一些相關關技術1、對現有有數據庫庫管理技技術的挑挑戰傳統的數數據庫部部署不能能處理數數TB級別的數數據,也也不能很很好的支支持高級級別的數數據分析析。急速速膨脹的的數據體體量即將將超越傳傳統數據據庫的管管理能力力。2、經典數數據庫技技術并沒沒有考慮慮數據的的多類別別(variety)SQL(結構化化數據查查詢語言言),在在設計的的一開始始是沒有有考慮非非結構化化數據的的。3、實時性性的技術術挑戰::一般而言言,像數數據倉庫庫系統、、BI應用,對對處理時時間的要要求并不不高。因因此這類類應用往往往運行行1、2天獲得結結果依然然可行的的。但實實時處理理的要求求,是區區別大數數據應用用和傳統統數據倉倉庫技術術、BI技術的關關鍵差別別之一。。網絡架構構、數據據中心、、運維的的挑戰::技術架構構的挑戰戰:人們每天天創建的的數據量量正呈爆爆炸式增增長,但但就數據據保存來來說,目前的的技術改進進不大,,而數據據丟失的的可能性性卻不斷斷增加。。如此龐大大的數據據量首先先在存儲儲上就會會是一個個非常嚴嚴重的問問題,硬硬件的更更新速度度將是大大數據發發展的基基石。領域共性性問題大數據處處理技術手段段StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase//DataWarehouse較常見的的解決方案案大數據儲存存大數據處處理數據分享享數據檢索索數據分析數據展現分布式軟軟件架構構并行計算算框架分布式存存儲橫向擴容容(Scale--out)架構存儲與運算合合一BigData運算與存儲,單一架架構解決決9傳統并行行計算架架構并行計算算+分布式存存儲運算存儲傳統存儲架構計算與存存儲一體體,計算算向數據據靠攏,,高效專專用存儲儲模式為程序員員屏蔽通通性、并并發、同同步與一一致性等等問題任務之間間無依賴賴(share--nothing),具有高高系統延延展性(scale--out)利用Hadoop的特性目錄1大數據概述2一體機概述103研發思路4應用分析一體機概概念和分分類一體機是是軟件與硬硬件相結合的集成系系統產品品,其一般集數據處理理、數據據傳輸、、數據存存儲三方面于于一體。一體機機通過預先集成成、測試試、優化,能能夠實現快速速部署、、簡化IT基礎架構構,節省省資源,提升系系統高可可用性和和可擴展展性。11類型產品數據倉庫一體機OracleExadata、Teradata、IBMPureDataSystem(fornzsql)、EMCGreenplum數據庫一體機OracleExadata、IBMPureDataSystem(forDB2)、華為FusionCube(forOracle)中間件一體機OracleExalogic、IBMPureApplicationSystem內存數據庫一體機SAPHANA、OracleExalytics其他IBMPureFlexSystem、HP
VirtualSystem、思科FlexPod等服務器軟件存儲網絡管理從IT基礎設施施發展角度度看,復復雜的系系統集成成模式已已經成為為業務創創新的““絆腳石石”簡化(預預集成))、優化化的基礎礎設施才才能為業務應用用“云化化”提供供更好的的保障大型機一體化、、預集成成系統集成成一體化預預集成專有技術術標準運行專有有軟件運維成本本極高分層(服服務器、、網絡、、存儲))現場集成成通用平臺臺,缺乏乏對平臺臺軟件優優化開放的技技術標準準集成及運運維成本本高簡化,將將平臺軟軟件需要要的基礎礎設施預預集成優化,針針對平臺臺軟件非非功能需需求進行行優化沿用開放放的技術術標準運維成本本低平臺即服服務軟件即服服務數據即服服務…云GartnerDataCenterConferencepresentationGartner數據中心心大會專專題講座座WillFabricComputingChangetheConceptoftheTraditionalServer??”,December2011光纖運算算是否會會顛覆傳傳統服務務器的概概念2011年12月“By2015,35%oftotalservershippedvaluewillbeasintegratedsystems.””“到2015年,35%的服務器器都將以以集成系系統方式式交付”UnifiedComputingSystem(UCS)2012.42012.9FusionCubeExadata數據庫一一體機Exalogic中間件一一體機Exalytics內存分析析機BigData大數據機機從2008年開始,,基于開開放的技技術標準準,國內內外廠商商紛紛開開始研制制一體機機。Oracle率先推出出數據庫庫、中間間件、數數據分析析以及大大數據等等多款一一體機產產品一體機架架構15負載均衡中間件數據庫服務器存儲單機,集群單實例,多實例橫向、縱向擴展能力CPU/內存比高I/O配置單機HA,群集高隨機,高順序讀寫性能存儲單機,多機串行,并行交易應用數據應用管理應用其他系統高端中端PC服務器刀片存儲傳統架構構一體機架架構一體機通通過把傳傳統架構中的主機機、存儲儲、網絡絡、管理理軟件、、數據倉倉庫或數數據庫或或中間件件或虛擬擬化軟件件進行集成打包包,形成一一體化解解決方案,降低總擁擁有成本本(TCO),提升升整體性性能。一體機不不是簡單單的將軟軟硬件進進行堆砌砌,而是是在軟硬硬件架構構上對硬件性性能、軟件性能進進行平衡衡優化,以克服服傳統解解決方案案在數據據管理、I/O讀寫等方方面的瓶瓶頸,針針對性的的增強系系統整體體處理能能力。一體機發發展背景景(一))--海量數據據分析驅驅動16隨著信息息技術在在人類各各項生產產生活中中的應用用不斷拓拓展,可分析的數據據呈現出出爆炸式式增長。高效、迅速地從海量量數據中中挖掘出出潛在價價值并轉轉化為決決策依據據已經成成為各行行業信息息化面臨臨的重大大挑戰。海量數據分析面臨挑戰海量數據難以管理系統性能難以保障復雜分析難以支持解決思路硬件加速、擴充數據緩存高速內聯網絡、增強線性擴展能力分級存儲、壓縮存儲、列存儲技術優化數據查詢規則動態負載監控與管理集群能力提升、異地容災17一體機發發展背景景(二))--大并發承承載能力力驅動隨著信息息系統的的深入應應用以及及企業對對信息系系統的依依賴程度度增加,,對軟硬硬件平臺臺的并發處理理能力、海量數據據處理能能力、系統響應應速度、軟硬件平平臺穩定定性、軟硬件平平臺可擴擴展性等方面的的能力有有了更高高的要求求,且呈呈上升趨趨勢。并發處理理能力海量數據據處理能能力系統響應應速度軟硬件平平臺穩定定性軟硬件平平臺可擴擴展性一體機發發展背景景(三))--簡化IT需求驅動動18由于前期期IT技術與理理念的局局限性,,信息化化發展過過程中形形成了許多復雜的“豎井井式”應用,對對信息化化管理帶帶來極大大挑戰。通過簡化IT基礎架構構,提高硬件件資源利利用率,減少投投資采購購成本、、降低設設備能耗耗和運維成本等措措施提升升信息化化水平已已成為共共識。設備品牌型號繁繁雜集成復雜雜度高資源利用用率低運維管理難度大大面臨挑戰設備型號號標準化化工業化預預集成負載動態態均衡統一管理理平臺解決思路機房空間不不足電力能耗耗大運維成本高高面臨挑戰簡化IT架構提升軟硬件件集成度度減少設備備數量選用綠色色節能設設備解決思路軟硬件資源池19應對簡化化IT架構需求求,目前前業界有有軟硬件資資源池與專業化一一體機兩種主流流技術路線可可供選擇擇,相比比較一體體機產品品適用于于單一化化(數據據庫、中中間件、、虛擬化化之一))的場景景,軟硬硬件資源源池適用用于多用用途的通通用場景景。海量數據分分析簡化IT適用于專專業性要要求低的的通用場場景開放性強耦合度低低可采購軟軟硬件自自行集成成搭建適用于專專業性強強的場景景開放性弱弱耦合度高高由專業廠廠商預集集成封裝裝專業化一體機一體機發發展背景景(四))--技術路線線目錄1大數據概述2一體機概述203研發思路4應用分析存儲管理分析可視化軟硬件一一體的創創新數據據處理平平臺針對不同同應用的的系列化化產品業務支持持團隊提供全國國產的自自主可控控方案數據獲取取重新設計計軟件體系結構構研發思路路:基于開源源軟件和和國產硬硬件構建建應用級級一體機機采用浪潮潮的設備備做一體體機的硬硬件支撐撐適用于大大數據處處理的計計算單元元有針對性性設計和和開發的的適用于于大數據據處理的的通用計計算單元元、輕量量計算單單元和重重載計算算單元。。計算隨數數據分布布彈性可擴擴展業務連續續性保證證在Hadoop上有一定定拓展JobTrackerDataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNodeNameNode主備備主備備主備備主備備數據本地化(計算隨隨數據分分布)是指并行行計算框框架智能能地將計計算任務務指派到到存儲著著該任務務所需數數據的節節點,從從而避免免傳統分分布式計計算中嚴嚴重的數數據傳輸輸瓶頸。。JobMapCPU計算和存存儲合一一DataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNode主備備主備備主備備主備備CPU業務連續續性保證證是傳統分分布式計計算中最最為復雜雜的開發發目標。。通常當當系統規規模擴展展至百節節點以上上時,就就必須應應對計算算單元失失效,顯顯式地保保存和恢恢復失敗敗任務。。浪潮大大數據一一體機能能夠智能能識別失失敗任務務,自動動將其轉轉移到備備份數據據節點。。使用浪潮潮的底層層保障優化系統統任務調調度策略略,對任務務實現實實時監控控,并動動態調整整任務執執行資源源,減少少慢任務數量,提提高整體體性能專注性能能提升和和優化目標:數數據分析析一體機機(業務務級)全環節覆覆蓋存儲、管管理、展展現、分分析處理密集集型的重重載應用用可重構加加速器件件或眾核核處理器器,硬件件加速P-1數據處理理應用計算能力力、I/O能力、存存儲能力力均衡P-2視頻處理理等行業關鍵數據據處理系系統………28研發工作作組織實實施(建建議)1.測試環境搭建2.技術驗證3.產品規劃4.一體機原型樣機詳細設計5.
一體機試生產6.一體機規模生產7.完成目標設備到位基礎環境搭建
概念規劃2013.11.1-12.31一體機規劃研究思路確定一體機0.1版2014.3.1-5.31一體機產品工藝完善10.1-12.312015.1一體機批量生產6.1-9.30軟件平臺測試、提升一體機整體設計概念驗證2013.12-2014.2熟悉、掌握一體機研研發組織織實施包包含測試試環境搭搭建、技技術驗證證、產品品規劃、、一體機機原型詳詳細設計計、一體體機試生生產、一一體機規規模生產產等六個個階段。。目前以人人數上以以學生主主體,如如果有應應急需要要,則以以社會招招聘為主主體。目錄1大數據概述2一體機概述293研發思路4應用分析應用分析析-案例Exadata具有業內普遍認同的最強OLTP處理能力、產品成熟度較高、采用shared-nothing+shared-disk的混合架構,IO吞吐能力強、存儲智能化掃描、存儲索引;
適用于OLTP與OLAP兩種系統、與公司信息系統數據對接程度高;性能擴展方面介于線性擴展與非線性擴展之間,最多可擴展至8個滿配機柜(64臺計算服務器);OLTP場景測試表現良好,高傳輸性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年金融AI倫理監管趨勢分析與合規策略研究報告
- 2025年跨境電商保稅倉倉儲物流優化方案評估報告
- 2025年中國粉塵采樣儀行業市場調查研究及投資潛力預測報告
- 2025年長石石英行業深度研究分析報告
- 中國黃金現狀分析及前景規劃建議報告2025年
- 2025年中國攝影系統行業市場前景預測及投資價值評估分析報告
- 建筑材料采購的協議
- 建筑工程設備基礎施工合同
- 互聯網金融風險監控與報告編制協議
- 智能制造行業股權轉讓預定協議書范本
- 嬰幼兒常見疾病與意外傷害的預防及護理-嬰幼兒常見傳染病
- 食用油中酸價、過氧化值的測定課件
- 2023年四川省綿陽市三臺縣數學四下期末學業水平測試試題含解析
- 山西省靈丘縣恒鑫源礦業有限公司東岐鐵礦資源開發利用和礦山環境保護與土地 復墾方案
- 有機化學(中國農業大學)知到章節答案智慧樹2023年
- 預焊接工藝規程pWPS新編
- 武漢市初中語文教師中高級職稱考試試卷
- 等效跌落高度
- 赤峰旅游景點介紹
- 一年級新生報名登記表
- 質量管理體系獲證組織現場監督檢查指南(1405稿)
評論
0/150
提交評論