華為-邁向智能世界白皮書2023-數據存儲 -數據新范式釋放AI新動能_第1頁
華為-邁向智能世界白皮書2023-數據存儲 -數據新范式釋放AI新動能_第2頁
華為-邁向智能世界白皮書2023-數據存儲 -數據新范式釋放AI新動能_第3頁
華為-邁向智能世界白皮書2023-數據存儲 -數據新范式釋放AI新動能_第4頁
華為-邁向智能世界白皮書2023-數據存儲 -數據新范式釋放AI新動能_第5頁
已閱讀5頁,還剩120頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

HUAWEI邁向智能世界白皮書2023構建萬物互聯的智能世界1今天AI大模型是一個非常熱的話題,如果說我們把機器智力的發展跟人類過去文明和智力的發展進行類比,有很多相似之處。人類出現在地球上,有幾十萬年的歷史,但是真正人類文明的高速發展也就幾千年。這里邊最關鍵的是文字的出現,我們可以記錄我們的經驗和知識,而且記錄下來之后可以群體性地進行學習、復制、演進、發展,這就導致了我們人類社會么樣。我們可以看到,今天機器已經有了很好的算法,這個算法可以使得機器能夠學習,但是更重要的是學習的素材在哪里。所以有一句話叫做缺數據、無AI,我覺得這句話是非常重要的,它跟人類的歷史也恰恰是一樣如果說我們僅僅只有一個方法論,但是缺乏知識庫,缺乏語料庫,那么所有的AI大模型本質上是沒有意義的。我們必須喂給它知識庫、語料庫,它才能夠針對我們的場景形成咨詢師,形成編程機器人,形成客服機器人,更好,這一點也需要引起足夠的重2所以我們認為,企業在未來AI時代要持續領先,一個很重要的基礎就是必須具備先進的以數據存儲為核心的數華為公司在數據存儲產業上的大規模投入超過十年,產品已進入全球超過150個國家和地區,廣泛服務于運營商、金融、政府、能源、醫療、制造、交通等多個行業超過25000家客戶。通過與業界專家、客戶和伙伴深入交流,我們編寫了這份《邁向智能世界-數據存儲》白皮書報告,結合近期火熱的AI大模型話題,從新應用、新數據、新安全、新技術、綠色節能五個方面,展望數據存儲的發展趨勢與行動建議。我相信這是一次有意義的探索,將凝聚更多的產業力量共同推進數據存儲產業的發展。過去三十年,數據存儲一直是高價值數據的最佳底座,新技術、新應用產生的數據源源不斷地匯入數據海洋,華為數據存儲愿與產業各方更加緊密攜手努力,匯聚產業力量,共創數據3展望一展望一AI大模型展望二大數據展望三分布式數據庫展望四云原生展望五非結構化數據新應用新應用新應用新應用新數據4新技術綠色節能展望九AI賦能存儲展望十存儲綠色節能新技術綠色節能展望九AI賦能存儲展望十存儲綠色節能展望六展望六存儲內生安全展望七全場景閃存普惠展望八以數據為中心的架構新安全新技術新技術5執行摘要AI大模型已超出人類想象的速度,將我們帶入智能世界。算力、算法、數據構成了AI的三要素。算力、算法是AI大模型時代的工具,數據的規模和質量才真正決定了AI智能的高度。數據存儲將信息變為語料庫、知識庫,正在和計算一起成為最重要的AI大模型基礎設施。以AI大模型為代表的企業智能化應用,正在和經典數據庫應用形成并駕齊驅乃至超越之勢。每一次應用的變革,都伴隨著數據基礎設施架構的演進。高可靠、高性能、共享的數據存儲,成為以Oracle為代表的數據庫的最佳數據基礎設施。新的企業智能化應用從量變進入1AI大模型將AI帶入新的發展階段。AI大模型需要更高效的海量原始數據收集和預處理,更高性能的訓練數據加載和模型數據保存,以及更加及時和精準的行業推理知識庫。以近存計算、向量存儲為代表的AI數據新范式正2大數據應用經歷了歷史信息統計、未來趨勢預測階段,正在進入輔助實時精準決策、智能決策階段。以近存計算為代表的數據新范式,將大幅提升3以開源為基礎的分布式數據庫,正在承擔越來越關鍵的企業應用,新的分4多云成為企業數據中心新常態,企業自建數據中心和公有云形成有效互補。云計算的建設模式從封閉全棧走向開放解耦,從而實現應用多云部署、數據/資源集中共享。以容器為基礎的云原生應用,從無狀態應用走向有狀態應用,數據存儲一方面要提升資源發放效率,更重要的要承載全新的云原生應用。存儲即服務的商業模式,正在從公有云走向企業數據中6據進入生產決策系統,全閃分布式存儲成為海量非結構數據最佳數據基礎6AI大模型應用聚集海量企業私域數據,數據安全風險劇增。構建包括存儲7全閃存存儲以高性能、高可靠、更優的TCO,不僅實現對高性能機械硬盤8AI大模型推動數據中心的計算、存儲架構從以CPU為中心走向以數據為中9AI技術正在越來越多地融入在數據存儲產品及其管理,從而大幅改善數據10綠色節能從產業牽引進入實施執行階段,占數據中心能耗30%的數據存面向以AI大模型為代表的企業智能化新應用,新的數據基礎設施架構也正在逐1企業數字化從以應用創新為主,轉向應用和數據基礎設施的協同創新,充2針對AI、大數據、分布式數據庫、云原生應用,建設新應用和數據存儲的3堅定不移地推進新應用的存算分離架構,充分發揮應用、存儲的專業能74探索以數據為中心的新存儲系統架構;構建新的數據范式,推動數據存儲支持近存計算、新的數據格式、新的數據訪問協議、高性能應用數據緩存。新架構和新范式的組合優化,將大幅提升數字化新應用的效率,讓新5企業核心的競爭力應用部署在企業自建數據中心,不確定性創新業務根據共享的分層解耦模式演進。面向容器為基礎的云原生應用,聯合應用開發團隊和數據存儲團隊,構建云原生應用最佳實踐。依據企業的戰略、經營情況、未來預測,不盲從,綜合對比、選擇合適的商業模式,并選擇合適6加速全閃存存儲的應用,采用以數據為中心的新架構存儲、高密硬件、數據縮減、系統融合、海量非結構化數據治理等技術,降低海量數據的7將數據存儲團隊加入數據安全聯合團隊,制定數據存儲內生安全標準,構8積極嘗試AI使能的數據存儲產品及其管理,提升團隊人員AI技能,從而大89缺數據,無AI臨。其在對話、知識反饋等方面已遠超過普通人類水平,更將顛覆互聯網、制業IT建設的決策者,需要正視并主動擁抱變化,探索企業如何利用好大模型賦2022年末,當OpenAI發布ChatGPT將為人類社會帶來歷史性變革。其拐個面向專用領域以“感知世界、理解世界”的小眾工具,例如計算機視覺、互聯網推薦。當前,它已經成長為面向通用領域以“生成創造世界”的全能發明家,懂學習知識、會理解思考,在社交、辦公、編程、決策、舉例來說,同年發布的的生成式繪圖據描述創造出不遜于人類頂尖設計師的作品。Midjourney基于GPT大模型,實現了在33個設計領域均實現應用落地,例如,在文創設計領域的毛線編織、手機殼、盲盒公仔、冰箱貼、賀卡、玩具,在視覺設計領域的報,甚至在家裝設計領域的地毯紋大模型正在從基礎大模型走向企業AI基礎大模型已逐漸普及,正在加速僅投入大、效率低,而且是從最基礎的模型開始開發,技術門檻極高。而如今,大模型很大程度上打破了AI通用化、行業化的瓶頸,為上層應用提供更多通用性的基礎能力,企業不再需要按場景從零開始開發和訓練獨立的基礎模型,僅需在較成熟的基礎大模型上融入企業生產業務沉淀而來的私域數據,即可進一步實現大模型的專業訓練,滿足特定領域對準確度、安全性等方面的訴求。根據華為分析,預計95%的中大型企業未來將基于專屬數據自建行業大模型,依賴如銀行的企業賬戶與個人財務信息、車企的自動駕駛影像記錄、醫療集團的其次,我們也發現,企業對于使用公開的大模型,是非常謹慎的。數據是企業的核心資產,企業無法接受在大模型使用中導致企業核心機密泄露。司數據復制到ChatGPT,且其中機密數據占11%。而根據Gartner報告顯示,沃爾瑪、亞馬遜和微軟等公司已經通知員工不要在ChatGPT或類似生成式應用中輸入任何機密信息,而摩根大通、花旗集團、德意志銀行和美國銀行直接禁止員工使用ChatGPT。Verizon也禁止員工從公司系統訪問客戶信息、源代碼或知識產權等內容放置在AI平臺上,這些信息最終將轉化為這些平臺的資產,從而失去對數AI大模型三要素是數據、算力、算法。隨著AI技術快速成熟,各企業所能夠使用的算力已逐漸趨同,均是以英偉達、昇騰為代表的GPU硬件;而各企業采用的算法也同樣逐漸收斂簡開發框架。因此,真正決定AI智能高度的是數據,企業需要思考怎樣才能首先,訓練數據的規模至關重要。我練數據,而OpenAI的GPT-3.5擁有LLaMA在參數規模上僅不到GPT-3.5的一半,但其表現能力在大部分基準Chinchilla、來自谷歌的5400億參數模型PaLM在表現上旗鼓相當。由此據的體量對提升AI精度的效果更能起型生成不正確、有歧義、無意義或不真實的結果,根本原因就是缺乏具備規范性、完整性、時效性的高質量數于廠商從公開渠道所獲取數據的質量。而對于行業大模型的訓練及細分場景推理應用,模型效果取決于行業專屬的私域數據的質量,這包含了企業原有數據,與實時更新的增量數作為數據載體,數據存儲成為AI大作為數據載體,數據存儲成為AI大模型的關鍵基礎設施。數據存儲是AI大模型數據收集、預處理、訓練、推理的關鍵一環,決定了能保存的數據容量、訓練及推理的數據讀取效率、數首先,海量原始數據的歸集效率。這個階段需要通過跨地域、跨線上線下的方式對數據進行歸集匯總,進行如數據中心、邊緣、云間不同協議格式集通常花費3~5周,耗時占據整個AI大模型全流程時長的30%。為了加速數據歸集、減少后續分析的等待時間,需要存儲具備高效匯聚、協議互其次,數據的預處理效率。通過收集、爬取的原始數據是無法直接用于階段被CPU與GPU再次讀取,進行解析、清洗、去重等工作,包含至少3次全量數據讀取與搬遷,所消耗的CPU、GPU、網絡、內存資源占據30%以上,然后最終生成訓練樣本用于后續訓練。我們分析,企業在這個階段耗時超過50天,占據AI大模型全流程時長的40%以上。為了保證數據處理的效率、減少資源的浪費,需要第三,模型訓練階段的數據訪問效器會隨機讀取數萬個小文件,讀取完畢后才能啟動訓練。為了避免GPU等待訓練數據的加載時間過長,需要數件的故障率較高,譬如業界模型訓練頭重新訓練,將永遠無法完成訓練任務。因此,在過程中一般會設定數十次、甚至上百次的周期性checkpoint操作,保存中間過程數據,讓發生故障后可以斷點續訓。在這個期間,GPU將會暫停,等待數據完整保存后才可繼續運轉。為了減少GPU的空置此外,應用推理階段的實時性和精準性。當大模型用于推理時,為避免大模型出現答非所問、內容杜撰等問題,需要將企業不斷產生的私有數據聯接到大模型。如果將這些全新的數據再次進行訓練或微調,會耗費很長時間,且成本高昂。業界正在研究大模型旁外掛一個可容納增量數據、并且實時動態更新的行業知識庫,這其實就需要一個能夠快速檢索關鍵信息最后,在AI大模型全周期漫長的數據鏈條中,通常攻擊的手段歸結為兩秒就發生一次數據勒索事件,企業不僅面臨贖金損失,還會面臨商譽、商業機會、法律訴訟、人力和時間成本等損失,這些連帶損失甚至是贖金損失的23倍以上。而另一類是新型的數據攻擊,主要是通過加入噪音數據,如在訓練數據中加入暴力、意識形態歪曲的內容,導致模型質量下降、推理精確度失準、出現模型幻覺,最終干擾企業決策。這需要存儲能夠保障儲作為數據的關鍵載體,需要在三個方面演進,即海量非結構化數據的治理、10倍的性能提升、存儲內生安全。在滿足EB級海量擴展性的基礎之模型加載向量讀取流程階段計算處理流程數據處理流程安全風險基礎大模型訓練數據并行行業模型訓推一體化脫敏、合規、審批、匯聚邊緣存儲邊緣存儲動態混合向量存儲負載加速向量快速檢索業務數據模型加載向量讀取流程階段計算處理流程數據處理流程安全風險基礎大模型訓練數據并行行業模型訓推一體化脫敏、合規、審批、匯聚邊緣存儲邊緣存儲動態混合向量存儲負載加速向量快速檢索業務數據向量庫全域數據管理原始數據向量庫三方收集、網絡爬取邊緣匯聚數據預處理原始數據->訓練數據問題輸入->向量推理模型訓練模型訓練+調優評估預處理服務器格式標準化錯誤糾正異常數據清理重復數據清除拷貝拷貝拷貝拷貝拷貝算力卸載算力卸載存內計算訓練集數據索引數據藥餌攻擊/漏洞攻擊藥餌攻擊/漏洞攻擊(訓練失準)勒索攻擊(數據不可讀)勒索攻擊(數據不可讀)數據竊取攻擊數據編織能力實現跨地域的海量數數據編織是通過全局數據視圖技術,實現全局數據可視可管、跨域跨系統的數據按需調度,實現業務無感、業務性能無損的數據最優排布,滿足來自多個源頭的價值數據快速歸集和流動,以提升海量復雜數據的管理效除此之外,數據編織也能實現AI訓練數據集的按需篩選。通過數據畫像,憑借數據的時空信息、數據的標簽,以簡化數據的分級分類管理,做到按場景化的數據治理,滿足AI大模型的場景化要求。通過識別數據的訪問日期、格式類型和訪問頻次,來滿足熱、溫、冷數據的智能分級,最大化數據中心1數據中心2數據編織最優數據布局全局文件系統跨域數據協同緩存緩存緩存緩存緩存緩存公有云邊緣AI大模型數據的高性能存取需要數高性能的數據讀寫是提升GPU利用傳統的機械硬盤存儲已經無法滿足快閃存技術具備高速讀寫能力和低延遲特性,并伴隨著其堆疊層數與顆粒類型方面突破,帶來成本的持續走低,使其成為處理AI大模型的理想選擇。在讀寫比6:4時,機械盤存儲僅有10倍以上,大幅突破100萬以上IOPS。數據讀寫性能的大幅提升,將減少計算、網絡等資源等待,加速大的讀寫性能提升30%,將優化計算側30%的利用率,訓練周期將從48天降高性能的計算與存儲架構從以CPUAI大模型的出現,讓算力以CPU為主轉向了CPU、GPU、NPU等異構融合。目前,模型訓練仍然需要通過CPU去訪問內存,但由于CPU的發展逐步放緩,導致內存的帶寬和容量成業界的解決辦法是正在采用以CXL高速互聯總線,將系統中的計算、存儲、內存等資源徹底解構,各自形成統一的共享資源池,讓GPU可以直接通過CXL總線以更快的速度訪問內存與存儲,從而極大提升AI大模型的數據加載及流轉效率,實現以CPU為中目前,存儲系統也還是以CPU為中心的架構,為了提供更快速的數據服務,以支撐AI大模型的高效訓練與推的數據交互方式,朝著以數據為中心新的數據范式將以新的數據架構加AI大模型的興起,促進了大算力+大數據+大模型的化學反應,推動了向量存儲、近存計算等存儲新范式的創【向量存儲】外掛知識庫正在成為大模型應用的必備組件。知識庫就是一個新型的外置存儲,為我們帶來了全向量存儲秉承“萬物皆可向量”的理念,將所有知識內容、所有提問輸入轉化成向量表示,把多模態、高維度的非結構化數據的特征提取出來,并在推理應用時進行快速的查詢檢索,找到與問題最接近的知識內容(即在輸入給大模型,形成更加精準的回答。于此往復,向量存儲就成為一塊AI大模型的外置記憶塊,用于長期存預計2025年向量知識庫會占非結構化數據處理總需求約三成,向量存儲將成為一切大模型數據的基礎。一方別的向量檢索能力,以快速在數十億甚至上百億條向量里進行模糊查找或域、跨模態數據的索引查找,比如來自多地多源頭同一事物的圖片、語音、文字等多模態形式,實現信息快【近存計算】大模型的數據預處理涉移動,消耗30%的計算與網絡資源。為了減少或避免數據搬移帶來的系統開銷,需要通過近存計算、以存強算的能力,將算力卸載下沉進存儲實現隨路計算,讓數據在存儲側便完成一部分過濾、聚合、轉碼任務,釋放20%的CPU、GPU、網絡、內存資源,一定程度上減少了對GPU的依存儲內生安全將成為數據安全的最大模型誕生于海量數據知識,這些數據囊括用戶的私人信息、企業的核心商業秘密等敏感信息。作為數據的最終載體,存儲絕不能被攻破,安全應模型系統的數據防護能力,以構建數據安全的最后一道防線。存儲內生安全包括存儲軟硬件系統安全、存儲數AI大模型的建設模式將采用和HPC、大數據同源的數據湖建設模式時均需要豐富的原始數據,它們的來交易數據、科研實驗數據和用戶行為數據。因此,大模型采用和HPC、大數據同源的建設模式是最經濟高效消耗大量存儲設備和機房空間,產生更嚴重的數據孤島,影響建設運維成本與數據流轉效率。如今,例如鵬城云腦、武漢智算中心、中國移動、中國電信等客戶已經開始基于此模式啟走向數據湖的建設模式,但由于AI大模型的數據規模與工作負載對存儲性能和容量訴求提升至少10倍,因此,企業有必要針對現有的數據湖存儲進行性能升級和不斷擴容,并滿足數據站式的訓/推超融合一體機成為主企業受限于技術、人才和資金的短缺,帶來了設備集成復雜、模型部署繁瑣、資源使用效率低、運維管理困一體機,憑借開箱即用、存算靈活拓展、模型一鍵部署等特點成為企業擁抱行業大模型的最優解。這種集成存儲、網絡、多樣性計算的一體化交付模式,在2小時內完成部署,免去企業適配調優、系統從頭搭建的困擾;并可以靈活擴展計算、存儲節點,并利用高效的資源調度和虛擬化技術,讓一切資源能夠物盡其用;此外,通過預置集成各種大模型,基于企業私有知識庫進行微調與推理,構建更偏向端側細分應用的環境,如客服專家機器人、辦公室助理機器人、程序員機器人,降低企業部署AI大模型的門虛擬化軟件資源管理軟件HCI超融合架構虛擬化軟件資源管理軟件HCI超融合架構AIAI組件存儲節點建議1:數據決定AI智能的高度,企業應該建立計算與存儲并重的AI大模AI大模型走向各行各業后,數據的規模與質量是AI智能的決定性因素,企業不應僅關注堆疊算力,更應關注以存儲為核心的數據基礎設施,其中包括海量非結構化數據的治理、更優的吞吐性能、建議2:AI大模型采用和HPC、大數據同源的數據湖建設模式,并對當前的數據湖存儲進行性能升級數據湖的建設模式將消除數據孤島,滿足海量數據訴求下的彈性擴容,降低TCO。此外,應該按需對現有數據湖存儲進行性能升級,以滿足AI大模型實時性下不斷攀升的性能訴求。建議3:企業應該構建具備前瞻性的數據基礎設施架構,包括全面閃存化、以數據為中心的架構、數據編織、新數據范式(向量存儲、近存計算)以及存儲內生安全全閃存存儲將帶來性能大幅提升,加快AI大模型開發落地的速度;以數據為中心的架構可以帶來硬件資源的解耦與互聯,加速數據的按需流動;數據編織、向量存儲與近存計算等新興數據處理技術,將最大程度降低企業整合數據、使用數據的門檻,滿足資源的高效利用,降低行業接入AI大模型的難度;存儲內生安全體系將保護企業核心私密數據資產,讓企業更加放心地使用AI大模型。數據攫取數據預處理AI計算資源/任務調度數據攫取數據預處理AI計算資源/任務調度新數據范式跨地域海非結構化數據編織全局數據視圖|多數據源/系統接入數據湖存儲以數據為中心的高性能存儲架構高速互聯總線以閃存為中心的硬件基礎設施存儲內生安全系統系統安全數據安全安全管理建議4:對于企業的細分行業場景應用,采用一站式的訓/推超融合考慮到細分行業應用的便捷性,企業應考慮采用超融合架構,將數據存儲節點、計算(訓/推)節點、交換設備、AI平臺軟件,以及管理運維軟件高度集成并一站式交付,免去大量適建議5:打造具備AI大模型、尤其企業應該培養更多具備對AI大模型、尤其是AI大模型存儲方面擁有深入理解、實戰經驗的專業人員,構建AI大大數據大數據應用從描述過去走向決策未來,新數據大數據應用從描述過去走向決策未來,新數據范式驅動數據應用效率提升 大數據應用經過十來年的發展,已經從對歷史數據進行統計描述走向主動決策、智能決策。企業通過優化大數據平臺與基礎設施,構建領先的數據價值挖大數據應用邁向輔助實時精準決策、智能決策,大數據平臺正在走向湖倉一體,關鍵要建設面向大數大數據應用的發展可以描述為傳統數據應用、預測分析和主動決策三個階第一階段,2000年~2012年的傳統現象進行更準確描述。例如銀行歷史明細查詢、運營商話單查詢和客戶流失率統計、城市供電燃氣和水務使用第二階段,2012年~2022年的預測能發生什么,以輔助管理者判斷和決策。例如信用卡目標客戶畫像與推薦、話費流量包推薦、輿情檢測和災面向未來,大數據進入主動決策時代:通過歷史發生過什么及正在發生什么的即時分析判斷,進行實時精準決策。例如,在城市交通管理中,通過大數據技術采集和分析車輛位置數挖掘建模數據探索BI/報表挖掘建模數據探索BI/報表ETL報表數據集市挖掘建模挖掘建模數據探索半結構化、非結構化開放數據格式結構化數據數據倉庫湖倉一體傳統數據湖、數據倉庫數據倉庫湖倉一體據、交通流量數據等實時分析和處理,從而實現交通路線的自動優化、在此過程中,大數據分析平臺的演進庫構建面向主題的、可隨時間變化的數據集合,從而實現對歷史數據進行準確的描述和統計,為分析決策服技術構建數據湖,處理結構化、半結構化數據,實現基于歷史數據預測未來的發展趨勢。這個階段形成了數據湖和數據倉庫并存的“煙倉庫之間流轉,因而無法實現實時決棧優化上尋找實時決策、主動決策解決方案,將大數據平臺快速推向湖倉一體的新架構。其核心舉措是與存儲廠商聯合創新,將大數據IT堆棧存算解耦,以數據湖存儲實現數據湖和數據倉庫共享同一份數據,無需在數據湖和數據倉庫間進行數據流轉,從而中國移動聯合華為數據存儲開展大數據存算分離研究,重點推進湖倉一體架構的應用,以提升大數據服務便捷性。在其九大區域業務數據中心節點建設超過180PB容量的數據湖存儲進行規模試點,形成每日超過20萬個作業、每秒超過2億條數據的分析處理多樣負載接入是新型數據湖存儲應用、知識挖掘等不同應用的數據源接入集成到統一存儲池中,因此它應能支持不同應用工具集帶來的多樣化數據訪問,包括多樣化數據訪問協議數據湖存儲支持近數據計算,新數據范式提升大數據對應用的支當計算客戶端的規模達到萬級甚至是為了快速進行數據查找分析,關鍵是要優化元數據查詢操作性能。在大數據平臺與數據持久存儲之間新增一個高速緩存層作為海量數據加速引擎,近數據計算實現百PB數據查詢效率從10分鐘級縮短至10秒,支撐T+0實時HiveSpark…MLHiveSpark…MLHBaseClientplug-in數據共享算法卸載數據共享緩存共享數據加速引擎緩存共享統一數據格式表語義加速負載感知的ACIDACID分區管理語義緩存語義緩存熱數據預取熱數據預取緩存服務格式融合數據縮減KVKVStoreParquet?leORC?leIcebergParquet?leORC?leIceberg?le…持久化存儲池Hudi?le新型數據湖存儲建議1:企業關注大數據平臺與存儲的協同創新,推進數據分析走向企業應從傳統以關心大數據平臺建設為主,演變為通過落地大數據平臺與存儲的協同創新,有效解決現有大數據平臺實時數據與離線數據無法共享和融合分析的問題,實現對不同類型、不同來源、不同格式的數據進行統一管理和處理,從而實現數據實時建議2:成立大數據平臺與存儲聯合設計團隊,形成協同工作常態機制當前企業大數據平臺團隊的職責主要是搭建穩定、可靠的大數據計算平臺,通過海量數據的計算建模、分析和挖掘,探索數據應用場景。成立大數據平臺與存儲聯合方案設計團隊,并形成協同工作機制,有助于將大數據分析工作流的探索優化范圍從以數據計算為主擴展到數據產生、數據計算、數據存儲、數據應用的端到端全流程,形成探索數據應用的更強大創建議3:大數據平臺基于存算分離架構向湖倉一體演進,探索新數據通過建設新型數據湖存儲、探索以近存計算為代表的新數據范式,幫助企分布式數據庫互聯網浪潮和成本壓力促使核心系統逐步采用互聯網浪潮和成本壓力促使核心系統逐步采用分布式數據庫,同時分布式數據庫正在從存算一體走向存算分離架構 開源數據庫MySQL和PostgreSQL占據全球數據庫市場格局TOP2。開源數據庫正在重構企業核心系統。同時為確保業務平穩運行,分布式數據庫存算分離數字化、移動化技術發展使企業與客戶交互渠道發生巨大變化,手機APP類互聯網應用成為觸發客戶購買行為的最佳媒介。這固然引領了業務快速增長,但也給核心系統帶來難以預料且波動巨大的業務浪涌。核心系統必須具備極強的資源彈性,以確保高峰期能夠快速擴展以保障業務正常運行,而平時能夠釋放閑置資源避免浪高昂的運維成本也是企業選擇傳統核心改造的原因之一。甲骨文第三方支的用戶認為成本是使用Oracle數據庫分析網站6Sence顯示,MySQL以42.95%的市場占用率穩居數據庫榜首,排名第二的是另一個開源數據庫為確保業務平穩運行,分布式數據穩定性是核心數據庫的第一關注點,此外性能、功能和能效也是重要的考在分布式數據庫使用初期,由于試點的業務規模小、數據量小,為了最小化初始成本,許多企業直接把數據庫應用和數據部署在同一臺服務器上,這種架構又稱為存算一體架構。顯然,這種“將雞蛋放在一個籃子里”的做法難以抵抗風險,因此企業通過多套服務器+多份數據冗余的方式來暫時性解決業務穩定性問題。隨著分布式數據庫規模擴大,數據量成倍增長,冗余導致的投資浪費越來越多,服務器數量也越來越龐大。數據規模的擴大也使得冗余數據同步對網絡帶寬消耗越來越大,尤其是在多地容災架構下,網絡瓶頸將導致災害發生時隨著矛盾日益突出,分布式數據庫建設逐步從存算一體架構走向存算分離架構。在存算分離架構下,企業通過高性能、高穩定性、可共享的企業級全閃存存儲池確保數據高可用性。存算分離架構將應用和數據隔離開來,不再需要多份冗余數據副本來提升高可用,并利用存儲強大而成熟的容災能力彌補開源數據庫容災能力不足。最重要的是,存算分離架構經過傳統核心業務長期檢驗,有非常成熟的產品體系與運維經驗,企業可以更多關注分布式數據庫如何幫助其業務增目前,全球主要銀行均已通過存算分離架構分布式數據庫建設新核心系統,亞馬遜Aurora、阿里PolarDB、型數據庫廠商均已將其架構轉向存算分離,存算分離架構已經成為分布式分布式數據庫促使新的數據范式正是部署在單機上的數據庫,并不能像同時讀寫同一個數據庫,這使得分布式數據庫性能擴展上有明顯瓶頸。通過專業存儲設備提供數據的跨節點共享訪問,并實現數據庫節點間的一致性緩存層,分布式數據庫也能實現與過與華為存儲協同,通過華為“參天”數據庫存儲引擎實現了多讀多寫能力,其數據庫性能最大可提升10節點1節點2節點3數據庫實例1數據庫實例2數據庫實例3本地盤本地盤本地盤節點2節點1節點1節點2節點3數據庫實例1數據庫實例2數據庫實例3本地盤本地盤本地盤節點2節點1數據庫實例1數據庫實例2存算一體數據庫同步存算分離數據庫共享存儲共享存儲建議1:堅定不移的推動分布式數盡管業界有許多基于存算一體架構建設分布式數據庫的實踐,但不論從技術角度、運維角度和后續演進角度,存算分離架構都已成為必然選擇。從長遠處考量,新建分布式數據庫的企業建議直接基于存算分離架構建設,避免重復建設導致的資源浪費;采用存算一體架構的企業也可逐步遷移到建議2:聯合數據庫團隊和存儲團分布式數據庫構筑的新數據范式,其核心在于數據庫軟件不再是萬能鑰匙,滿足企業訴求的方案需要數據庫與硬件基礎設施配合實現。因此,數據庫團隊也不應再孤立的建設企業核心系統。建議企業聯合數據庫團隊和存儲團隊,結合軟硬件優勢技術共同建設數據庫及核心系統,孵化新的數創新與成本驅動云原生轉型加速,云原生基礎創新與成本驅動云原生轉型加速,云原生基礎設施走向開放解耦的多云架構 89%的企業正在建設多云IT架構。容器云原生技術成為多云最佳技術底座,在企業廣泛建設,并驅動存儲等基礎設施對其提供支持。云原生基礎設施走向開在應用加速創新和降本增效需求推企業云計算基礎設施已經從單云走向多云。不論哪一朵云都無法同時滿足企業所有對應用與成本的訴求。因企業逐步建立多云IT架構,將其確定性、關鍵的業務留在本地,將處于起步階段或流量不確定的業務建設在云目前基礎設施面向多云打造的關鍵能力大致可分為兩類。第一類是使能數持數據跨云分級、跨云備份能力,使數據始終使用性價比最高的存儲服務;另一類是數據跨云管理,讓用戶通過全局數據視圖把握數據總體情況,并將數據調度到產生價值最大的以容器為基礎的云原生應用走向關鍵業務,存儲對容器的支持能力將據權威機構調研,當前96%的客戶正OLAPOLAPOLAPOLAP 圖8:虛擬機時代與云原生時代對比越來越多的企業關鍵應用被搬遷到容器上,當前61%的容器應用都是需要此需要高可靠的企業級存儲提供支持。一方面存儲需要支持和擴展容器存儲接口,以實現存儲資源的快速發放和容器應用的容災;另外一方面,存儲需要和容器上運行的新型云原生 虛擬機時代云原生時代從全球范圍看,當前云基礎設施有兩種是開放解耦的。隨著企業多云建設的不斷深入,及對最優服務和降本增效訴求的提升,開放解耦的方式正在企業采用開放解耦架構建設,讓硬件資源可被多個云共享,數據可在多個云間按需流動,方可真正發揮多云架從硬件、平臺到應用,最優的服務往往來自不同供應商,因此通過開放解耦的建設方式企業能搭建最優的IT堆棧。以AI為例。當前市面上最為火熱等,其硬件基礎設施能力遠不如任何一個廠商能夠提供端到端的最優AI訓練/推理方案,因此企業在搭建自己的AI訓練/推理集群時,會選擇開放解耦的架構,選擇最優的硬件和訓練/多云管理平臺多私有云多公有云OpenStackOpenStack應用1…應用n應用1…應用nVMwareVMware應用1…應用nAWSAWS應用1…應用n華為云華為云應用1…應用n統一運維視圖丨統一數據視圖統一運維視圖丨統一數據視圖公有云結構化存儲公有云非結構化存儲公有云結構化存儲全閃存存儲分布式存儲企業數據中心全閃存存儲分布式存儲企業數據中心公有云數據中心圖9:企業多云IT構架數據存儲的CAPEX和OPEX商業模云的商業模式正在從CAPEX走向儲的商業模式。企業逐步減少對資注采購服務所帶來的商業結果,這使得以服務SLA和結果為銷售量綱的試錯成本愈加敏感,高彈性、低初始然而,隨著數據存儲規模擴大和合同時限增長,訂閱式服務并不總能提供最優建設成本。從業界實踐來看,OPEX和CAPEX商業模式多元并存的方式可能是最優解。規模較大且業務建議1:企業不確定性的創新業務、OA辦公為代表的外圍業務切入公有云,核心競爭力業務保留在表的外圍業務對于企業IT的訴求是彈性收縮、按需申請和釋放資源,公有云在具有良好的彈性的同時,能為企業帶來低成本低風險的獲益。企業的核心競爭力業務要求企業有強大的自研平臺運維能力,同時需要關注業務的私密性。將這類業務保留在企業自有數據中心(即私有云),能進一步激發IT研發創新能力,可實現對數據的管控及獨立控制運營,具備企業核心競爭力的業務可有效避免被廠商鎖建議2:容器平臺團隊與存儲團隊協同構建敏捷、高可靠的容器平容器團隊應該與存儲團隊協同配合,共同構建高可靠的容器平臺,并制定容器與存儲間的接口標準以使得存儲資源能和容器同步敏捷發放。此外,企業可在云原生轉型過程中逐步孵化容器應用最佳建設實踐,并隨著使用的深入不斷優化,這將為多云時代積建議3:采用開放解耦的云建設模式基于開放解耦架構建設云IT可為企業帶來服務、成本和靈活性優化,正在成為企業的主流選擇。一方面需要企業開放采購模式以選擇最優的組件廠商;另外一方面,也需要促進云平臺廠商開放接口,并牽頭與基礎設施提建議4:根據企業和業務需求選擇在商業模式的選擇上,企業應該充分考慮其業務發展階段,綜合考慮收益企業新增數據80%以上是非結構化數據,非結構化數據正在成為生產決策數據 構化數據。預計2025年25%的非結構化數據將成為生產決策數據,2030年80%的非結構數據將成為生產決策數據。新應用催生了海量的非結構化數應用的蓬勃發展,企業非結構化數據快速增長,如視頻,語音,圖片,文到8.5PB,某運營商集團每天平均處動駕駛訓練車每年產生訓練數據達到非結構化數據已經進入企業的生產決策系統,AI大模型在各行各業的應用將加快這一進程。在金融行業,某銀行為了實現在線實時授信,利用金融大數據平臺及AI分析平臺,貸款時間從15分鐘縮短到1分鐘,同時提升借款人風險識別準確率80%。在醫療行業,盤古藥物分子大模型對17億個類藥分子的化學進行預訓練,打破雙十定律(即需本,才有可能成功研發出一款新藥),加速新藥問世,研發周期從十年縮短至1個月,研發成本降低為了高效、安全存儲企業數據中心的非結構化數據,越來越多的行業期望使用專業的分布式存儲解決方案的成本、最小的機房空間、最低的功?企業需要使用海量的的非結構化數據,存儲的規模和擴展性是最先考慮的因素。單一集群需要支持幾千個節點來簡化存儲資源分配與管理,同時要求隨著節點數的增多,容量和性能需要線性增?傳統的數據多副本技術已經滿足不了非結構化數據的存儲需求,需要通過專業分布式存儲的數據縮減技術,優化存儲利用率。比如高空間利用率的糾刪碼(Era-法,并且使用高密存儲硬件替換通用服務器,節省機房空間,并降低能耗和運維復雜度,達到?業界通過軟件和硬件一體的專業分布式存儲,為企業客戶提供端到端的高可靠、高性能、高擴展解決方案,降低了企業在部署、據中心間和數據中心內的數據需要根?多地和多形態部署的數據中心需要數據編織功能,把跨地域、跨集群、跨廠商、跨形態的數據資源共享,通過一張圖進行數據的?數據中心內通過專業分布式存儲的熱、溫、冷數據分級技術,并自動按需在不同介質遷移,從而最后還需要讓數據“用得好”:企業的視頻、音頻、圖片、文本等多種混?海量非結構化數據承載的應用多種多樣,面向混合負載的全閃存分布式存儲是最佳選擇,在避免數據孤島的同時,既能滿足視頻、音頻、文件等大帶寬的要求,也能滿足圖片、檢索、查詢HDD,分布式存儲全閃化SSD能顯著加速讀寫速度和降低讀寫時?在海量數據使用場景下,由于各種非結構化數據利用技術的進據處理大概率會涉及到文件、對象、大數據等多種訪問協議的數據,希望專業分布式存儲實現協議互通和免拷貝,減少數據冗?海量的非結構化數據不僅僅要求實現數據保存,還需要幫助企業實現海量數據的管理,比如基于元數據的查詢和檢索加速,以及基于數據冷熱識別的數據全生命?存儲作為最后一道防線,需要具備數據存儲內生高安全、高可靠的能力,例如防勒索、容災和備建議2:選擇專業的分布式存儲來為了提升海量非結構化數據作為生產數據的效率,應以非結構化數據為中全局統一數據存儲底座,優先部署支持文件/對象/大數據多協議互通,業務混合負載、數據縮減技術、高密硬件、全閃存等能力的分布式存儲系廠建議建議1:數據存儲建議企業IT團隊加強海量非結構化數據處理能力建設隨著非結構化數據在企業應用越來越廣泛,尤其是開始進入企業生產決策系統,如何高效地存儲海量非結構化數據、挖掘非結構化數據蘊含的巨大價值,從而指導企業進行科學決策,成為企業關鍵競爭力。因此,企業IT人員和組織有必要加強海量非結構化數據處理能力建設,從以結構化數據為中心的團隊向能夠設計、規劃、管AI時代數據海量匯聚,安全風險持續提升,安全防護體系從網絡安全的AI大模型掀起新一輪全球人工智能技術發展浪潮,海量數據因AI匯聚,經過大模型的訓練,推理出更具價值的信息。數據作為AI的根基,其重要性進一步凸顯,數據的安全就是企業核心資產的安全。據splunk公司發布的《2023年安全現狀報告》顯示,超過52%的組織遭受了惡意攻擊導致數擊,數據安全的重要性正在不斷上規政策。2021年,新加坡更新發布數據在產生、采集、傳輸、使用、銷毀的全生命周期處理過程中始終離不開存儲設備。存儲作為數據的最終載體,數據的“保險箱”,擁有近數據的保護能力,近介質的控制能力,在數據安全防護、數據備份與恢復、數據安全銷毀等領域有不可替代的作以往談到數據安全時,人們往往看到的是安全網關,以及在應用層的安全軟件,經常忽視數據存儲,這個存數據本身的保險箱的作用。就像為了保證金銀財寶的安全,請了很好的保安,安裝了結實的防盜門、防盜窗,但是一進房間,所有金銀財寶都放在桌子上隨便拿,這何其奇怪。所以為保護數據的安全,首先要把存數據的安安用應護防全安儲存護防全安安用應護防全安儲存護防全防火墻、沙箱、安全網關等網絡安全防護防火墻、沙箱、安全網關等隱私計算、認證/訪問控制等主機全防護隱私計算、認證/訪問控制等數據脫敏、敏感信息屏蔽等數據備份、存儲防勒索、存儲加密等 數據檢測+響應防御檢測+響應圖10:數據安全深度防御模型存儲內生安全構筑數據安全的最后通過在硬件芯片上植入類似身份證功存儲內生安全體系通過先天的架構通過在硬件芯片上植入類似身份證功與設計,不斷增強存儲的安全能力,能的根密鑰,使得系統上的每個程序運行之前都有相應的身份認證,從而存儲內生安全AI收集AI訓練AI推理數據防勒索數據加密數據安全銷毀數據備份AI收集AI訓練AI推理數據防勒索數據加密數據安全銷毀數據備份存儲硬件安全存儲軟件安全AI預處理用戶鑒權證書管理用戶鑒權證書管理流轉策略管理安全態勢感知合規審計遵從相關法規條例要求,構建安全研發能力。通過高價值的開源軟件選型,規范的開源軟件使用。對全量軟件進行可信的生命周期維護,通過積極的社區回饋和協同維護確保軟件合對數據的加密,可以在應用層軟件、數據庫或存儲系統等不同層級實施,應用層加密需要大量的業務改造,數據庫加密對性能損耗較高。存儲設備可通過加密盤的方式對數據實現加密,對生產業務透明,是性能、首先生產存儲通過異常讀寫行為識別、信息熵計算等方式檢測并且攔截勒索病毒,讓病毒進不來。其次,生數據不被非法篡改或刪除。第三層,數據備份:通過定期將重要數據復制到其它存儲位置備份系統中,使數據能夠并可以恢復到過去的某個特定的時間點。根據業務需要提升備份能力,使備份系統能夠兼容大數據、數據倉庫等新核心生態。以保障重要數據的全量備份,抵御誤操作、硬件故數據容災:針對無容災的場景,通過自建數據中心方式實現數據與業務雙容災,使生產數據與業務隨時有容災系統進行接管。對已建容災系統,根據業務連續性需求增強,將主備容災模式提升為雙活模式。以此來保障重要數據0丟失,抵御自然災害、掉存儲設備數據永久清除、不可恢復,以避免存儲設備轉售、廢棄后重要的建議1:企業在關注網絡安全防護的同時,應考慮將存儲的安全能力在網絡攔截之后,進一步提供隔離、恢復等獨特的數據安全能力。當前企業的安全團隊主要由網絡團隊構成,其職責是通過防火墻等網絡安全設存儲團隊更多關注的是存儲的安全服全服務技術的規劃與研制。建議企業把存儲的安全能力加入到安全體系建建議2:存儲設備應具備底層的抗攻擊能力,存儲應加強自身的軟件存儲設備需要具備底層的抗攻擊能力。通過存儲系統的架構和設計出安全能力,從而讓企業能夠通過存儲的保護與恢復能力給數據和資產增加建議3:關注存儲設備的加密、防關的內生安全特性部署具有可靠性、性能、成本綜合最優的特點。通過存儲的加密盤進行數據加密,以滿足行務改造的成本。為了應對勒索攻擊,應該建立端到端的防勒索體系,保證數據遭遇勒索攻擊能夠進行精準檢測和快速響應,遭遇勒索后及時恢復。同時要增強災備安全,在全面構建企業關鍵業務全容災、數據全量備份的基本格局上,提升災備兼容新核心生新技術展望七全場景閃存普惠介質全面閃存化時代已到來介質全面閃存化時代已到來 機械硬盤的全面超越。隨著海量非結構化數據進入生產決策系統,我們正在迎33%33%2倍67% 2倍2022年市場份額占比份額和出貨數量已經是機械盤的2倍相信企業正在迎來全面閃存化的時28%28%72% 2.6倍2022年發貨占比HDDSSD全閃存存儲明顯的高性能優勢,大SSD還具有低延遲(常以毫秒或微秒為度量單位)和大吞吐量優勢,能更好地適應多類新興業務的高吞吐、低即使在企業認為性能要求最普通的備份場景中,隨著數據量的暴增,企業已難以在晚上規定的備份時間窗內完成備份。基于全SSD的備份存儲系統相比HDD備份性能可提升至3倍,恢復性能可提升至5倍,使得以往以HDD為主,存放冷數據的備份系統也逐漸采用全閃存備份存儲,以滿足企相對于機械盤存儲,全閃存存儲總將顯著降低SSD單盤價格,物理容企業級SSD的核心組成部分——的應用,推動全閃存物料成本不斷降低。目前,主流顆粒廠商量產的3DNAND顆粒堆疊層數已經達到176L,并紛紛給出200層以上設計路標,比2018年提升接近2倍。除了堆疊層150038.44975364218202426圍繞SSD的數據縮減技術快速發針對典型的非結構化數據場景,衛星SSD的備份存儲通過全局重刪服務,在線相似重刪,以及語義級重刪等技術可實現數據縮減率領先HDD備份存大容量SSD和數據縮減技術的發展帶來數據中心能耗和機房占用空間在HDD的1.5倍到2倍甚至更高,而SSD和HDD單盤功耗接近。因此大容量SSD對于企業數據中心能耗降低和空間節省有巨大推動作用。同時數據縮減技術也將大大減少數據存儲的總體物理空間和能耗。此外SSD比HDD空間、能耗等端到端的節省。綜合下構化數據的分布式存儲以5年TCO計算,可做到1:1可得容量SSD替換性能的生產交易系統已經實現對機械硬盤的替代,同時也正在替代以備份數據、海量非結構化數據為代表的溫建議1:企業應組織技術團隊,對當下與未來IT系統數據量與業務訴求進行研討,并制定全閃存存儲企業應組織技術團隊,與存儲提供商進行研討,評估數據量與業務壓力走勢,制定全閃存存儲建設策略,并分析策略執行下企業收益與建設、運維建議2:抓住存儲生命周期更迭以許多企業在過去購買了大量HDD存儲,如今已面臨維保過期;而正在數字化轉型的企業,需要購置新的存儲設備。這是企業加速全閃存存儲布局的絕佳機會,應該抓住機遇,推進全新技術以數據為中心的架構從以CPU為中心走向以數據為中心 近年來,AI和實時大數據分析應用蓬勃發展,以CPU為主的算力向CPU+G-PU+NPU+DPU的多樣化算力發展。同時,應用對內存的容量及帶寬提出更高廠趨勢以CPU為中心的服務器架構正在向以數據為中心的Composable架構面對多樣性的應用和實時的數據處理新型計算硬件提升IO密集型應用處理熱數據效率的同時,對內存數據的訪問壓力增大,本地內存容量、帶寬難),CXL協議構建的新型內存語義總線可以支持外置內存的快速訪問,打破CPU對內存限制,支持內存容量擴展讓外置高速存儲設備和異構算力間的這類新型內存語義總線使內存從服務器解耦成為可能,以CPU為中心的服務器架構將進一步解耦,演進成以數算單元的計算、內存、存儲資源可以任意組合,并且多樣化算力可以通過高速總線直接訪問內存、存儲等數據新型的服務器架構促使數據存儲的職責定位向前演進,數據存儲將不僅僅管理硬盤,未來將出現內存型存儲的內存本地性能盤內存內存本地性能盤盤盤內存GPUCPU內存本地性能盤內存內存本地性能盤盤盤內存GPUCPU智能控制內存池閃存池容量盤池數據面管理面高通量數據總線(高通量數據總線(CXL/UB/RDMA)發布適用于AI的2TB池化CXL內存系統,韓國科技公司Panmnesia也展示以CPU為中心的存儲架構會向以數未來,隨著AI、大數據等應用更高的在服務器架構演進為Composable架構的同時,存儲架構也將演進為以數據為中心的Composable架構,從而大幅提升存儲系統的性能。存儲系統池、閃存池、容量盤池,將通過新型數據總線互聯,從而實現數據進入存儲系統之后可以直接存放至內存或閃企業積極關注服務器和存儲架構演在數據處理需求激增的今天,數據中心架構會從以CPU算力為核心演進為以數據為中心。建議企業積極關注數據中心硬件的演進趨勢和進展,適時做出變化,構建不斷變化演進的服務器及存儲架構,為業務發展打好數據新技術AI賦能存儲管理智能到產品智能,AI驅動數據全生命周期 越來越多的企業開始引入AIOps來提升存儲的運維自動化能力,并且隨著AI技廠趨勢存儲廠商紛紛擁抱AI變革,將更多顛覆性創新應用于存儲管理SLA優化AI大模型與傳統AI組合,將從多維度業務上線周期優化:存儲資源發放與變更效率天級→分鐘級。傳統業務變更需要人工規劃方案、開發變更腳本并執行;基于傳統AI技術可實現自動業務仿真以制定最佳變更方案,基于AIGC技術則可實現自動生成變更基礎設施可用性優化:數據中心年平均故障周期小時級→分鐘級。基于傳統AI實現性能、容量、備件故障等趨勢提前預測,降低異常發生概率;在復雜的異常處理場景,存儲管理系統可基于AI大模型快速強化交互邏輯,輔助人工快速定位問題,從而成本管理優化,存儲資源利用率從50%→60%。資源不合理分配一直是造成數據中心資源利用率低的主要原因,基于AI智能識別并釋放閑置資源,保護存儲投資;同時,通過對全局數據的熱力分析,優化數據中心內的數據在不同介質的分布,及時搬移冷數據,從而改善存儲成本。亞太某大型運營商,通過引入華為存儲集中管理軟件,將存儲資源利用率從30%加速AI能力孵化,打造云-管-端協大數據、容器、多云等新應用不斷涌現,企業IT技術棧復雜度不斷增長,作為IT基礎設施底座,存儲使用、管理對企業IT團隊要求越來越高。越來越多的企業使用存儲廠商提供的AI管理工具,構建“設備管理智能-數據中心智能-云端智能”的三層管理架構,在簡化基礎設施管理復雜度,優化管理效率的同時,構筑AI新能力“孵化-發布-優化”全流程,以更好云端AI遠程運維AI訓練平臺遠程運維業務安置業務安置合規分析趨勢預測數據中心AI應用策略模型數據容災備份數據中心全棧故障診斷數據分級慢盤檢測慢盤檢測存儲設備AI智能推薦部件故障檢測硬盤壽命評估云端智能遠程運維AI集中訓練數據中心智能數據中心存儲故障智能診斷業務最佳安置數據冷熱分析與分級流動設備管理智能部件故障預測配置智能推薦圖15云-管-端三層AI管理架構為云端AI模型的孵化提供基礎信息采集,并通過在線更新或離線導入的形式獲取云端的AI模型更新,同時,軟件負責基于單個存儲設備的使用和管理,包括最佳配置推薦,光模塊、盤、控制器等部件級別的故障檢測,數據中心智能:相對于存儲設備自身管理軟件,數據中心管理軟件覆蓋范圍更廣,首先,通過多廠商存儲設備統一管理,簡化運維流程,并通過跨設備的數據智能調度和分級優化存儲成本;其次,通過對數據中心全棧設備的管理,針對復雜的性能問題,管理軟件可智能分析應用、虛擬化、網絡、存儲資源,實現分鐘級的問題診斷。相對于云端智能,數據中心管理軟件部署在數據中心內,可以實現公網隔離,適用于數據安全管控嚴格儲資源,可持續對大量設備上傳的運行數據做AI模型推理和訓練,并按需將優化后的AI模型分發給數據中心管理軟件和設備。云端管理軟件也可提供諸如手機應用的多樣化運維方式。相對數據中心管理軟件,云端管理對數據中心基礎設施全棧分析能力較隨著不同應用對存儲的訴求多樣化,各大存儲廠商紛紛布局存儲產品智能,以實現在設備性能和可靠性上的能調節算法以及智能數據縮減算法,以實現實現存儲配置自優化和最佳數存儲硬件資源調度,為數據存取提速。華為存儲實現硬件資源智能調配,加速數據讀寫效率,同時根據數據類型智能調整數據縮減算法,提升數據壓縮率,降低單位數據的平均存為了實現存儲產品智能,存儲廠商在產品架構上進行了創新。傳統存儲中算法和數據耦合,多種固定算法分散在存儲設備緩存層、調度層和存儲池中,需要手工調整算法參數來保障不同類型數據的存取效率,靈活性較差;智能存儲在架構上將算法和數據解耦,通過構建自學習、自適應的算法庫,實現不同類型數據在存儲設備中的布局、調度、縮減等場景自主決數據流 數據流 固定算法 固定算法存儲池 固定算法傳輸存儲算法和數據耦合流動算法庫流動算法庫調度算法庫索引算法庫縮減算法庫布局算法庫智能存儲算法和數據解耦數據流控制流調度智能算法庫建議1:清晰地定義業務模型指標與SLA要求,做好新平臺和新技術在企業計劃引入AI相關產品前,應優先評估企業當前和未來的業務需求,建立涵蓋存儲容量、性能要求、可靠性、能效要求、安全性要求、生態健壯性等多維度可量化的評價體系;針對企業采購名錄中的多個存儲供應商,應建立供應商的能力基線,并在供應商的產品能力進/退化時及時更新,以保障企業引入與業務需求最匹建議2:積極采用存儲廠商提供的AI能力,并且與存儲廠商聯合,持續改進AI在存儲系統的應用極大地提升了存儲SLA,建議企業加強與存儲廠商開展AI能力聯合創新,從而孵化更貼近建議3:更新企業IT團隊能力模隨著智能存儲設備的引入,員工需要學習和適應新的技術。企業需要建立培訓計劃和技術支持機制,確保員工能夠充分理解和利用智能存儲設備及其管理工具的功能,以確保智能存儲設備能夠有效地發揮其功效,實現更好的人機協同,為企業帶來更高的價綠色節能存儲綠色節能邁向碳中和,數據存儲綠色節能促進數據中心零碳排 在“碳達峰、碳中和”大背景下,綠色低碳成為數據中心的重要發展方向。存儲能耗在數據中心占比超過30%。因此,除了降低PUE之外,降低以存儲為代建設綠色數據中心,不僅需要降低PUE,同時應該關注數據存儲綠色節能數據中心的綠色節能一方面來自于數據中心PUE的降低,另外一方面來自于IT設備的能耗降低。存儲正在成為IT設備中能耗增長最快的設施。存儲1PB數據的數據中心年耗電量可達到30萬千瓦時,折合為碳排放為235.5噸。按照這一能耗水平,到2030年,全球數據中心存儲碳排放量將輕松超過2019年全球碳排放存儲廠商在綠色節能上積極進行技術創新,助力數據中心綠色低碳發展隨著存儲能耗壓力越來越大,存儲廠商也在積極通過技術創新,持續助力數據中心綠色低碳,為可持續發展貢綠色存儲綠色存儲存儲廠商在綠色節能上積極進行技術創新,助力數據中心綠智能管理智能管理智能調頻.智能調核近存計算算力下移.數據預處理專用處理器協議卸載.算法卸載系統融合協議融合孤島融合數據縮減彈性EC全局縮減高密設計大容量SSD整機高密 材料選取/生產運輸通過多協議融合和孤島融合,實現多合一,提升資源利用率。一套存儲可支持文件、對象、HDFS等多種協議,滿足多樣化需求,整合多種類型存儲;同時通過融合資源池,實現資存放更多的數據,降低企業的運營成度存儲有83%的能耗來自于存儲介質,能耗降低70%,空間占用節省50%。通過大容量SSD和高密硬盤框,提升存儲容量功耗占比,減少相同數據量附帶產生的數據處理和存儲能耗,進而推動存儲單位容量能耗降低,用更數據移動將會導致更高的能量消耗,據研究結果顯示,大規模AI計算集群中,數據移動產生的能耗幾乎是計算能耗的兩倍以上。數據處理靠近數據完成,減少數據移動,例如將向量檢索等處理在存儲上完成,可以減少存算間50%協議開銷和數據轉換開銷,相比存儲設備采用單一CPU計算架構,采用專用處理器可以提高存儲性能,降低功耗。專用處理器將數據縮減、協議處理等能力從通用CPU卸載,提高數據處理效率,減少數據處理延遲,擺脫對CPU算力依賴,能提通過AI模型和軟件方案進行預測和干預,提高數據中心的存儲運行能效。基于業務IO模型的大數據的統計分析,采用智能負載預測,動態資源調度管理,及時關停、調整資源使用頻率,實現運行時工作能耗最低,能夠有效滿足業務工作負載的SLA要求,綠色節能需要貫徹存儲產品從原材料選取、制造、運輸、使用到最終廢棄全生命周期。在存儲生產制造環節,制造工廠大規模使用光伏發電,產品大量使用鋁、錫等可再生材料,同時在制造過程中使用“零波峰焊接”技術以及標簽無紙化,包裝采用FSC認證的紙張結合大豆油墨印刷減少重量及運輸負擔;在存儲產品使用過程中,通過AIOps智能運維,實現存儲資源按需使用。在存儲產品生命周期大化的循環再利用,減少對環境的影碳足跡通過統計產品全生命周期中溫儲產品設計優化,推進節能技術發展。例如華為OceanStor全閃存存儲憑借業界領先的綠色創新方案,獲得建議1:從關注單設備功耗走向關全球越來越多的企業客戶要求設備供應商必須提供產品的碳足跡報告或全生命周期碳排放值,碳排放披露正在加速落地,在國際貿易上,碳足跡正在成為綠色通行證。當前業界碳足跡評價標準和碳足跡計算方法多樣,建議企業采

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論