the data warehouse in age of digital transformation數字化轉型時代的數據倉庫_第1頁
the data warehouse in age of digital transformation數字化轉型時代的數據倉庫_第2頁
the data warehouse in age of digital transformation數字化轉型時代的數據倉庫_第3頁
the data warehouse in age of digital transformation數字化轉型時代的數據倉庫_第4頁
the data warehouse in age of digital transformation數字化轉型時代的數據倉庫_第5頁
已閱讀5頁,還剩5頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

觀點:過去幾大數據,Hadoop和Spark,作為大規模數據管理和分析平臺,獲得了最多關注。而基于關系型數據庫技術的數據倉庫,則由于,經受審視,如同或將不再需要。但最近用戶開始,數據倉庫使命的重要性,一如既往。過往推定的數據倉庫在成本和運維方面的實時(技術角度而言,“近實時”)收集數據并作出響應,顯然在取代過往的分析節奏,這是一種更具互動性、臨時性、甚至思考性(“我看到的這些分析的背后,發生了什么?”)分析。這種對非常式處理模型(如Hadoop和Spark)的發展。數字化,將分析融入運營,嚴重依賴即刻法。在Hadoop之前,數據倉庫是唯一用于分析的數據匯集點,集成和治理了多數內部數據源。一些數據倉庫的部署中,也集成了第數據,特別是金融服務數據、制藥數據、零售數據,甚至有關經濟和人口普查信息的數據。但數據倉庫主要用于企業領域建模,并從“后”各個系統(如和ERP系統)中獲取數據。其他科技都不具備如此有效的集成技術。數據倉庫不僅只數據,還被用于支撐非常多種應用,包括將數據分發至其他系統,其中主要是分析和BI工具。與關系型數據庫過去所做的一樣,Hadoop和Spark(嚴格來說不是Hadoop,而是一個獨立的Apache字化的獨特業務價值。即刻法(Instantology)是我們發明的詞匯,在此用于描述當前對實時流式數據和實時的關注例子,通用汽車公司在墨西哥銷售雪佛蘭(Nova)時察覺,西班牙語中“(Nova)”的意思是與,新臺起是Hp和k,些疑之來數PBcan)seane這些直存在爭議的問題。在本白皮書曾經,擁有一個由文員輸入新信息或修改信息的工資系統,并無不妥?;蛟S工資報告可以每月提供一 數字化不是一個新詞。上世紀90年代,它被用于描述ERP和系統熱潮。今天,它的含義未變,只是技術已變。數字化,是一個隨應用不同而變化的含義廣范的詞匯。但整體而言,它意味或Excel,可將數據從數據倉庫提取出來。但現在事態已變:“即刻法”已興起。分析解決方案,主要是ETL、數據倉庫和BI工具,無法應對數字化伴生的數據流轉速度和容量要求。內部運營系統數據的,整潔、治理良好的數據庫。這樣做的主要動機,是讓(IT部門內部)開發人員更輕松地獲取報告數據,進而減IT部門的報告請求積壓。這些早期嘗試,發生在八十年代末至九十可的,這造成了很。但不久之后,許多組織,數據倉庫應是按業務領域精心設計的企業數據倉庫主要參考架構之一,是企業信息工廠(CorporateInformationFactory)。如您所見,它包含顯然,數據庫技術需得到增強,才可應對數據倉庫工作負載,其使用特征與OLTP系統完全不同。現考量必須放在首位。如今,200節點和2000多構成的群集很常見。這意味著,必須具備無縫集成Hadoop、云數據庫和其他新興數據平臺的能力。這些數據源以滿足查詢的能力,現在是一項人類未能改變任何物理定律以容納大數據。一個數據倉庫應無縫連接許多數據源(例如Hadoop和云數據庫)以數據,來處理針對過整理和治理的非結構化數據的查詢。例如,一個數據倉庫的模式(schema),可包含實際存于數據庫內的數據,但當中間件連接外部數據源時,一個針對此模式(schema)的查詢仍可被執行。該數據倉庫可提供全部所需服務,例如:/基于模型而不僅是sharding的大規模并行處理ANSISQL虛擬數據倉庫方案的一大優勢,在于查詢對下游進程(如BI應用)是透明的。它為數據定位提供了靈據來BitYotaPoulomiDamany2,新數據倉庫必須支持異構數據發現以供分析,而無需先對數據進行標準化、和建模。分析人員可以提出智能問題——使用多值、多條件和多范圍——對所有這些非標準化、未定義的數據,以理解這些數據的真實性質和價值。,才能設計模型/模式以生成KPI和相關報告。/business-inligence/5-ways-data-warehousing-is-行時。(若解決方案能應對受限的I/O和片狀網絡,會額外加分。)換言之,數據倉庫既需修正其原始概念,也需攝取乍看之下似乎屬Hadoop/Spark世界的數據。數據似乎本應屬Hadoop的數據,是一個不錯的設計方案。如果文件中數據是“熱的”,意味著必須及時滿足頻繁所需數據,這種方案可能合適。其他數據倉庫部署雜糅了從未使用的數據,則可將其移到Hadoop或云庫中的“冷”中。所有這些最佳實踐才剛剛出現。 數據庫內分析和數據科學庫。替代方案是Hadoop或云庫上運行機器學習算法,但需將數字化并非僅僅事關“利用科技”的又一詞匯。是“”。數字科技如何改變了我們的生活方式,組織運作的方式,甚至如何讓教育機構重塑自我?請容我:擁有大量數據,包括流式和存好的數據,并不能幫您了解您做得如何,什么有效,什么無效以及采取何種措施。人們的各種問題(查詢)很復雜,而一個指向一大堆無序數據的簡單SQL引擎,將是無濟于事的。產品演示通制定決策:Hadoop/SparkIO聽聞Hop,通常是過在室網分的臺子真引他注的成。起初,實施Hop把量便的務和一,軟則源“費的關型據通部Hop開,Hdop開供支的業”其與,庫商HopT)Hop/prk問題來了,為什么不在Hadoop中數據呢?事實上,數據倉庫還執行許多更重要的功能。它是集復雜分析和模型處理。因其關系型特性,它在原子級別和處理數據。Hadoop文件系統(HDFS),和云數據庫將數據為文件,因此對這些文件的內容進行操作,需執行分解工作,進而將現今數據科學和人工智能獲得許多關注,同時組織依然必須為滿足和要求,為準備報稅,Hdoop的文件結構不支持這種“單一版本”因其少成關系數庫的多特。我需評QL引擎,以及”QLHdopQL要回答“為什么不在Hadoop中數據倉庫數據”的問題,部分答案如下無公有云或混合云上運行。Hadoop的成本優勢已然下降,因為企業不滿足于使用廉價硬件,而這恰是造就Hadoop價格優勢的因一,并且Hadoop軟件和分銷商支持服務的成本超出“簡單T)例,一人壽公,據庫理來二不內系的數。數倉中提數供估系,系基利假、和數生大現流息在一例中源數次值算精時序現流分后于成付力告其要的PivotalGreenplum組、房地產和項目財務以及企業。它還設有和固定收益部門。作為,關注風險是持計算風險會生成數十億個需整合的數據點,而其數據量每天可能超過1TB。所有這些數據都必須存儲10年,且收到方24小時內需可恢復。風險報告既須準確,也要及時。若銀行向供了確報告,則方可作出直接影響業務的決策。例如,美聯儲可根據一家銀行的風險,控制極度波動,有時是正常量的兩到四倍。若此期間銀行的風險報告系統,可危及銀行一整年的現存系統無力可靠應對和內部分析需求,皆因受累于老舊系統失效,數據量近400億行,及每天數千復雜報告。因此,客戶決定更新架構以降低基礎架構成本,更好地滿足既定SLA,更高效率地滿在實施PivotalGreenplum數據庫后,他們能捕獲每筆,數據庫內累積400億行數據,且分析師可分析不同場景,最終做出更好的知情決策。先前的系統,只有60%時間里能達到SLA。新系統則幾近使用Greenplum,此銀行可捕獲其多達數百的所有柜臺的每筆。他們能整合并對數十億行數據進行計算,每天生產2000億場景結果(輸出)。該銀行的風險管理人員切實受益。IT能更快地提供報告給風險管理人員:日報所需的小時數減少,周報所需的天數減少。Greenplum還支持數千使用各種工具的風險用戶,這些工具包括PL語言、Excel、Tableau和基于SQL的專有報告工具。人壽公司的方主要關注償付能力。由于壽險公司通常簽訂幾十年后才到期的合約,細監督公司業務實踐、投資組合和行為,至關重要。這家人壽公司由于幾點原因,引起了監10歲以許量行別。但要家面估 方要求每季度提供上述結果,直到來年底,共約18 專門負責滿足這些要求的精算部門,遇到了幾個問題。當前流程高度依賴手工操作,從20多個源系統提取數據,其中很多系統數據質量很差。該部門精算師費力地使用COBOL、Fortran、APL、Easytrieve等過時工具獲取數據,然后嘗試手工整理為電子表格。完成一次非逐一估值耗費五個月,故而找到案,每三個月生成一次全面逐一估值,似乎不可能。因此類本不應由精通精算科?了一個ETL/數據倉庫/BI平臺。他們將數據倉庫與第估值工具緊密集成,實現了:所有關于經驗、到期、利率風險等的高級研究,都可輕松使用BI工具生成,因為關系型數據庫模倉庫,在那里可以輕松執行混合情景和假設(whatif)分析。對數據信心的提升,促使釋放了2000萬緊急關頭過后,該組織尋求應用技術和方法的其它方式。在實施階段偏安配角IT部門,接手了數據倉庫,并決意整合其他“數字化”方面的驅動力。他們決定將該數據倉庫改建為他們的“標準”數據庫,這暫時擾動了所有上游和下游工作進程,但一年內他們就實現了與一個數據倉庫肩并肩的Hadoop系統。精算師可先前數據倉庫中不具備的大量外部數據,能夠在產品設計、定價和承保數字化在兩方面讓該公司受益。其一,通過滿足方要求,真正挽救了公司。意料外的受益,是減少了精算部門的人員流動率。其二,建立了數據倉庫同Hadoop裝

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論