基于數據湖構建云上的數據分析架構_第1頁
基于數據湖構建云上的數據分析架構_第2頁
基于數據湖構建云上的數據分析架構_第3頁
基于數據湖構建云上的數據分析架構_第4頁
基于數據湖構建云上的數據分析架構_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于數據湖構建云上的數據分析架構企業應用數據的演進數據察覺數據監控數據驅動ReportStatic

batch

reportsExecutives,

department

headsFinancial

and

operational

data功能能力用戶數據MonitorInteractive

dashboards,

data

warehousePower

usersSiloed

dataGuideDatascience,

AI/ML,

Data

LakeEveryoneAll

data企業應用數據的現狀和常見的功能障礙孤立數據和被丟棄的數據低保真數據多樣性的處理散亂數據發展趨勢隨著數字化技術的成熟發展,企業現在比以往任何時候都需要更好地處理自身擁有的數據,成為數據驅動型組織現實情況企業越來越認識到數據的價值企業在使用越來越多的復雜的技術捕獲數據和處理數據。然而,仍然有超過9成的數據沒有被用到有超過8成的企業被認為應用數據能力低應用數據的能力赤字嚴重地限制了企業的發展并削弱了生存能力現代分析平臺要具備的特點訪問想要的任何數據提供交互式洞察的方式智能嵌入業務流程數據驅動型決策需要訪問眾多不同類型數據多種類型不同來源的數據轉儲到企業數據湖接近實時的處理和報告數據即時響應上游數據源的變化采用AmazonS3或Hadoop等大數據技術存儲數據采用流處理技術正確的時間正確的工具以正確的形式提供數據需要同時使用多種工具以滿足不同用戶需求支持機器學習探索對變化的響應性(數據的訪問速度決定了決策速度)算法平臺與業務平臺集成業務平臺能集成外部數據源或API能利用所有可用云服務幫助實現系統的現代化傳統的數據技術鏈面臨挑戰,并且一直在艱難地試圖適應企業規模的數據發展變化無法擴展數據存儲和處理時間增加總體擁有成本以支持數據管理數據模型變更延遲數據分析部署時間長使洞察滯后本地數據平臺難以支持現代化數據分析的要求圍繞業務挑戰、業務趨勢和業務模式快速洞察更快、實時的洞察力內部數據倉庫無法實現的業務洞察力加強客戶體驗處理數據多樣性移動、社交等多種數據來源創新利用數據進行業務創新設計未來的產品和服務專注于卓越運營利用云技術降低總體擁有成本利用數據提供最高級別的卓越運營確保法規遵從減少部署時間網安法/等保2.0行業合規要求云數據平臺幫助構建新型的數據洞察力和驅動力亞馬遜對數據驅動型企業的理解“一個將數據作為戰略資產加以利用的組織,以驅動創新,并建立可行動的洞察力,從而為其客戶、合作伙伴和員工提供增強體驗”亞馬遜數據分析飛輪模型提高運營效率降低試驗成本增強客戶體驗產品(use-case)信息需求人技術流程關鍵詞資產:常被忽視、低估或誤解持續創新:

關鍵是持續,實現數據驅動的自我推動力可行動的洞察力:能推動業務的洞察客戶體驗:要增強體驗就會產生新的特性和產品需求持續創新的數據分析飛輪應用舉例增加乘客里程收入減少每可用座位里程成本價格優化需求預測

乘客推薦

微目標市場航班中斷預測維護事件預測And

more…愉悅的客戶體驗航空公司舉例MoreusersMeaningfulimpactMoredataBetteranalytics機票價格

航班計劃

客戶忠誠度飛機運營成本遙測/維修And

more…傳統數據平臺的模式已成為數據分析能力的瓶頸應用程序集中的數據存儲集中的數據團隊企業BI能力中心數據消費者Provide

dataQuery

data構建能支持敏捷業務的現代化數據分析平臺領域專業知識簡化數據的注入執行業務優先級數據所有權和治理安全控制業務分析開發數據質量構建并運行平臺數據發現元數據管理企業數據集數據管道的開發培訓和社區創造新的洞察數據驅動的組織通過將責任擴大到邊緣,將責任推廣到數據的生產者和消費者身上,從而實現敏捷性數據湖平臺運行數據市場的團隊數據生產者想要分享數據的團隊數據消費者想要使用數據的團隊現代化數據分析平臺的需求Support

exploratory

data

analysis

and

MLData

discovery,

search,

and

collaborationData

processing

and

platform

frameworksInteractiveQueryDashboardsSQL

based

pipelinesCatalog

and

searchShare

dataNotebook

automationOperationalanalyticsPredictiveanalyticsExploratoryresearchPipelineschedulingCodeand

infrastructureautomationSecurityand

managementData

transformationData

ingestionData

quality數據湖的定義數據湖是一個集中式存儲庫,允許您以任意規模存儲所有結構化和非結構化數據。您可以按原樣存儲數據(無需先對數據進行結構化處理),并運行不同類型的分析–

從控制面板和可視化到大數據處理、實時分析和機器學習,以指導做出更好的決策。應用數據湖

實現企業數據變成資產業務目標數字化經濟,數據驅動業務提升企業運營效率PredictiveReactive建立數據探索能力預判發展趨勢,提升企業競爭力技術目標停止丟棄數據分析無處不在,采用多種技術自動化,

API

化賦能給更多用戶,建立數據探索能力敏捷,自助式服務協作,促進企業內部協作敏捷,

協作經濟自助式被動式基于亞馬遜的數據湖構建云上大數據分析平臺數據湖提供:存儲關系型和非關系型數據可擴展到EBs級別眾多的分析和機器學習工具對數據進行加工而無須移動數據為低成本存儲和分析而設計OLTP ERP CRM LOBData

WarehouseBusinessIntelligenceData

Lake10011000010010101110010101011100101010000101111101101000111100101100101100100011000010Devices

WebSensors

SocialCatalogMachineLearningDW

QueriesBigdata

processingInteractive Real-timeNaturalLanguageProcessing

Language

Translation

Speech

RecognitionText-to-SpeechAWS上的數據湖Storage

|

Archival

Storage

|

DataCatalog分析Interactive

Analysis

Hadoop&Spark

DataWarehousing

Full-textsearch

Real-time

analyticsDashboards

&

Visualizations機器學習實時數據的導入ConnectDevicestoAWS

Real-timeDataStreams

Real-time

Video

Streams本地數據的上傳Dedicated

Network

connectionSecure

appliancesRuggedizedShippingContainer

Database

migrationAWS云上提供豐富的周邊服務強化數據湖能力Managed

ML

Service

Deep

Learning

AMIsVideoandImageRecognition

Conversational

Interfaces

Deep-Learning

Video

CameraInternet

InterfacesAWS

DirectConnectAWS

DatabaseMigrationAmazon

KinesisInternet

of

ThingsIngest Scale

(Batch)Stream

AnalysisAmazon

EMRSpeed

(Real-Time)ML

/

AuditingEvent

CaptureAmazon

KinesisRaw

DataAmazon

S3ETLAmazon

EMRAdvancedAnalytics

MLlibData

ScientistsData

AnalystsBusiness

UsersEngagement

PlatformsAutomation

/

EventsAmazonMachineLearningAmazon

AmazonS3 AthenaServingDirect

QueryAmazon

AthenaSchemalessAmazon

ElasticSearchSemi/UnstructuredAmazon

EMRData

WarehouseAmazon

RedshiftLegacyAppsAmazon

RDSNear-Zero

LatencyAmazon

DynamoDBDataSourcesPLCCamerasSensorsSocialAWS

IAMAWS

KMSAWS

CLOUDTRAILAWS

CLOUDWATCH基于AWS數據湖的現代數據架構洞見增強業務應用和新的數字化服務Staged

Data

(Data

Lake)Amazon

S3中央儲存在S3中,安全經濟高效的儲存S3目錄與搜索訪問和搜索元數據DynamoDBAmazon

ES訪問和用戶界面為您的用戶提供方便和安全的訪問API

GatewayIAMCognito保護和安全確保數據安全,并驗證用戶身份Security

TokenServiceCloudwatchCloudtrailKMSAthenaGlueQuicksightEMRRedshift/

Spectrum處理和分析使用預測和規則分析來理解數據FirehoseDirect

ConnectSnowballDMS數據攝入快速,安全的將數據存入S3Amazon

S3是AWS數據湖的核心數據湖是非常適合部署在云中的工作負載,

因為云提供高性能、可擴展性、可靠性、

可用性、多種分析引擎以及規模經濟帶來

的成本收益99.99%數據可用性高持久性高達11個9的數據持久性高可用性并行吞吐范圍獲取按需儲存,無需預估容量儲存與計算分離無需承諾最小使用量無限擴容開放擴展標準REST

APIAWS

SDKs寫后讀一致性生命周期管理易于使用最受合作伙伴、供應商和AWS

產品支持Talend

/

Apache

CamelApache

Nifi

/Apahce

Sqoop高性能無服務技術使AWS數據湖實現按需響應和付費S3數據湖Glue(ETL和數據目錄)AthenaQuickSight無服務器。零基礎架構。零管理無需為閑置資源付費$內置的可用性和容錯性根據使用情況自動縮放資源AWS

IoTAI/ML設備 網絡

傳感器

社交ML

框架和基礎架構AI

服務P

O

L

L

YT

R

A

N

S

C

R

I

B

ET

R

A

N

S

L

A

T

E

C

O

M

P

R

E

H

E

N

D&

C

O

M

P

R

E

H

E

N

D

M

E

D

I

C

A

LL

E

X視覺語音A

M

A

Z

O

N

S

A

G

E

M

A

K

E

R訓

R

E

K

O

G

N

I

T

I

O

N

R

E

K

O

G

N

I

T

I

O

N

T

E

X

T

R

A

C

TI

M

A

G

E V

I

D

E

OF

O

R

E

C

A

S

TP

E

R

S

O

N

A

L

I

Z

E部

一鍵式部署和托管ML

服務框架接口

基礎架構 E

C

2

P

3&

P

3

d

nE

C

2

C

5F

PG

A

sG

R

E

E

N

G

R

A

S

S E

L

A

ST

I

CI

NF

E

RE

NC

E一鍵式模型訓練和調整優化

(

N

E

O

)強化學習構

預先構建算法和筆記本數據標記

(

G

R

O

U

N

D

T

R

U

T

H

)算法和模型

(

A

W

S

M

A

R

K

E

T

P

L

A

C

E,

語言聊天機器人

預測推薦E

C

2

G

4豐富的人工智能服務快速實現數據智能分析數據湖的優勢–

所有數據在一個地方在一個集中的位置,儲存并分析來自所有來源的數據“我的數據儲存在多個不同的地方,那一份數據才是真實可信的呢?”數據湖的優勢–

快速提取快速提取數據,而無需將其強制轉換到范式中。“如何快速從各種來源收集數據并有效存儲?”數據湖的優勢–

儲存與計算分離將存儲和計算分開,可以根據需要縮放每個組件。“如何擴展容量,以應付持續增長的數據?”數據湖的優勢–

讀取時范式化“有沒有辦法將多個分析和處理框架應用于相同的數據?”數據湖可以通過在讀取時范式化來進行即時分析,而不是在寫入時。典型的構建數據湖的步驟1 存儲設置2 搬運數據清洗,準備和為數據做catalog

data3配置和加強安全和合規策略45 讓數據對分析工作可用AWS

Lake

Formation

-

在數日內構建安全的數據湖S3IAMKMSOLTPERP

CRMLOBbDevicesSensorsWe

SocialKinesisIdentify,

crawl,

andcatalog

sourcesIngest

and

clean

dataTransform

into

optimalformatsEnforce

encryptionDefine

access

policiesImplement

audit

loginData

Lakes

and

analytics

on

AWS快速構建數據湖 簡化安全管理 輕松安全地自助訪問數據Analysts

discover

all

data

available

for

analysisfrom

asingle

datacatalogUse

multiple

analytics

tools

overthe

samedataAthenaAmazonRedshiftAI

ServicesAmazonEMRAmazon中國數據

智Quic能kSight

管理峰會Data

Catalog數據湖行業應用舉例-

工業數據湖預測性維護提升工作安全流程優化產品質量改進豐富產品設計運營提升

提高采購、供應

減少廢料效率 鏈和物流效率 和泄漏工業物聯網解決方案Amazon

QuickSight簡單的數據可視化用戶(本地)Field

P

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論