




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
性能測試報告數據倉庫參考架構包含結構化和非結構化數據PB級數據倉庫使用Solaris?10OS,Sybase?IQ與BMMsoftDataFusion?應Sun公司的邀請,InfoSizing于2007年7月對Sun數據倉庫參考架構的加載及性能進行了驗證,Sun數據倉庫參考架構使用Solaris10操作系統、SybaseIQ、BMMsoftDataFushion,搭建于加州MenloPark,Sun企業技術中心(ETC),我們定義并檢測了一組基準測試。該數據庫的裝載容量達到了破記錄的1PB原始數據,它總共包含6萬億行交易數據,超過1億8千5百萬文本查詢類文檔,比如電子郵件、報表、電子表格以及其他多媒體對象。本次基準測試使用了容量空前的交易數據,描述了一個真實世界的場景——全球金融交易網絡中所產生的交易。將這些交易數據與相應的代表50萬金融交易人之間電子通訊的多媒體文檔進行合并。本次基準測試環境的配置,數據倉庫的裝載以及性能測試的執行均由InfoSizing獨立驗證,并對測試結果進行收集與分析。所附報告是一份關于此次測試的容量與性能結果的獨立證明。此致總裁性能測試報告Sun數據倉庫參考架構使用Solaris10操作系統,SybaseIQ,BMMsoftDataFusion執行摘要Sun數據倉庫參考架構,使用Solaris10操作系統,SybaseIQ分析型服務器以及BMMsoftDataFusion,配置了一臺SunSPARC技術的EnterpriseM9000服務器,帶有三個SunStorageTek6540陣列,取得了如下具有重要意義的成就:■加載了1PB的原始數據(6萬億行股票交易記錄),存于一個全面索引化的星型模型中;建立了一個全新的經獨立驗證的全球最大的數據倉庫記錄。■達到了每天2850億行的加載速度(每秒300萬行),整個數據裝載過程持續了3周多的時間。■僅僅需要不到2秒的數據就緒時間,新加載的數據即可被數據倉庫使用。■用超過72TB的EDM數據(Email/電子郵件,Documents/文本,Multimedia/多媒體)替代一半的T(交易)數據,建立一個裝載有572TB原始“EDMT”數據的數據倉庫。■當使用1億8千5百萬文檔(電子郵件,附件與其他非結構化文檔)裝載數據倉庫時,加載速度達到每天26TB。■電子郵件加載速率達到每小時2百萬封,文檔加載速率達到每小時6百萬份,僅僅消耗不到7%的CPU,而M9000其余93%的CPU可用作他途。■顯著減少所需存儲磁盤空間,將其直接轉換為CO2排放量,則在由Solaris10操作系統、SybaseIQ、BMMsoftDataFushion構建的數據倉庫參考架構之生命期內,可減少CO2排放量高達90%以上。配置說明Sun數據倉庫參考架構所使用的“生產級”的環境包括:一個單節點的SunSPARC技術EnterpriseM9000服務器,運行Solaris10操作系統,與3臺SunStorageTek6540存儲陣列相連,使用光纖通道,并使用SybaseIQ12.7作為數據庫平臺。下圖顯示了該參考架構平臺的具體配置:內存分配■SybaseIQ寫節點運行于64核之上(總共128個線程),分配有大約100GB的主內存。■大約45GB的主內存用于SybaseIQ加載過程,作為數據庫裝載期間輸入數據文件的緩沖。■BMMsoftDataFushion加載服務器運行于64核之上(總共128個線程),分配有大約90GB內存,其中50GB用于對SybaseIQ的支持,40GB由DataFushion單獨使用。■大約20GB主內存分配給Solaris10,用于優化交換(Swapping)與頁面(paging)增長到1PB創建數據庫Sun數據倉庫參考架構使用一個星型模型建立,大約100個事實表,裝載有真實的描述股票交易狀況的T(交易)數據。6個維表被裝載,提供一個寬范圍的表基數(從5行到接近400萬行)。下表列出了維表的裝載情況。維表行數維表行數裝載事實表在SybaseIQ中,創建了100個事實表。每個表大約裝載了120多個加載單元,如下表所示:加載單元___________________________________輸入數據文件原始文件大小字節102,814,873,296記錄數百萬508記錄寬度列18分隔符大小(SizeofDelimiters)字節9,146,722,464帶分隔符的大小(SizewithDelimiters)GB95.8純數據大小GB87.2一組真實世界的交易數據被當作模板,用以在每個加載單元里合成性的創建數據。保證生成的數據倉庫的分配、基數、數據相關性能夠代表一個真實世界的生產環境。實現PB級規模的里程碑100個事實表的裝載大約用了6周的時間,其中一半的時間用于系統的配置與調優,其余時間(大約3周)用于將數據加載到數據庫表中。平均而言,這些表的數據加載速率為每小時1.8TB原始數據,每天加載超過2500億行數據。總體而言,超過1PB的純原始數據(也就是說,不包含實際數據的字節并沒有計算在其中)被加載到表中。在本例中,純原始數據不包含任何用于列之間分割的字節。而數據庫是從1130TB的包含分隔符的輸入文件裝載的,這些文件大約包含1029TB的純原始數據(即去掉列分隔符)。除了股票交易記錄之外,128GB的電子郵件、文本、多媒體文檔也通過DataFusion被加載到數據倉庫中。下表顯示了Sun數據倉庫參考架構1PB的記錄集的裝載情況:PB級數據加載________________________________________________原始輸入數據加載單元數數據文件12081股票報價記錄數萬億6.1原始數據大小(含分隔符)TB1,130純數據大小(不含分隔符)TB1,029純輸入數據大小PB1.01_______________________________________________________平均文本大小KB670非結構化文本數量百萬0.2非結構化數據大小GB128________________________________________________總數據大小TB1,157PB1.13SybaseIQ存儲T數據與索引空間GB162,639TB159壓縮84.57%在上述裝載完成只后,定義了一個全視角的視圖以形成對100個事實表的“UNIONALL”,建立一個對全部加載的6萬億行數據的單一的訪問點。然后對這個PB級的企業數據倉庫執行一組性能評估測試。這些測試結果將在隨后介紹。PB級性能評估查詢執行時間 通過執行多表查詢進行驗證,牽涉到全事實表視圖以及一些維表。這些查詢主要驗證該企業數據倉庫的可操作性及其響應時間是否保持在可接受的范圍。 共有6條不同的查詢被執行,同時不斷增加并發數(從1到50)。這些查詢包括: ●“Active”與“Sector”查詢:簡單查詢,基于T數據 ●“Short”與“Growth”查詢:復雜查詢,基于T數據 ●“Secret”與“Popular”查詢:復雜查詢,基于混合的“EDMT”數據下圖描述了基于這個PB級數據倉庫運行這6個查詢所發生的響應時間:新數據的就緒時間在一個新數據不斷實時生成的環境中,新數據加載到數據倉庫以及能被查詢所見的速度是一個關鍵的指標。一段新的數據實時生成與它可被查詢所見之間的時間間隔稱為“就緒時間”。簡單查詢的響應時間——在我們重點考察就緒時間的同時,也必須提到另外一個指標,那就是對那些基于這個PB級數據庫的交易、電子郵件或者文檔進行的“Pin-Point”查詢的響應時間,它應該保持在秒以內。在執行這些查詢之時,新的電子郵件消息同時產生,并由DataFusion捕獲,然后傳送到SybaseIQ中以供數據倉庫使用。新郵件生成到其可被查詢訪問之間的時間間隔(就緒時間)將會被評估。該測試驗證了Sun數據倉庫參考架構如何獲得在新郵件消息生成到可被查詢訪問之間最小的時間延遲。這是首次基于該PB級數據庫執行的對郵件消息的就緒時間進行評估。下圖描述了測試結構:經測試,該PB級數據庫的電子郵件的平均就緒時間不到2秒。事實上,最長的就緒時間也不到4秒。新股票交易數據的就緒時間——新的復雜的股票交易數據的就緒時間也將被評估。不斷增加并發數量(從3到50),執行相應的查詢。每個查詢針對特定股票的現有報價。在這些查詢執行之時,新的股票交易也不斷完成,記錄也將傳送到SybaseIQ中。本測試驗證了Sun數據倉庫參考架構如何使用Solaris10操作系統、SybaseIQ、BMMsoftDataFusion實現了在反映新交易的新記錄生成到它可被查詢訪問之間的最小的時間延遲。新的交易記錄從生成到可被查詢訪問之間的時間(就緒時間)基于EDMT數據倉庫進行評估。下圖描述了測試結果:
基于該PB級數據庫,新交易數據的平均響應時間不超過5秒。裝載非架構化數據隨后,50%的T(交易)數據從數據倉庫中卸載,以騰出空間用于加載另外的更有意義的“EDM”數據(電子郵件、文本與多媒體)。“EDM”數據由三種類型的非結構化數據對象組成:電子郵件、小型文檔(比如純文本)以及大型文檔(比如視頻片斷、圖形圖像以及格式化文本)。具體的非結構化數據加載顯示如下:總數電子郵件小型文檔大型文檔平均對象大小KB0.3432.47203,205加載的對象百萬18559.01250.374加載的原始大小GB72,72119.329572,406加載速度MB/秒0.1894317對象/小時新的“EDM”數據在加載期間僅僅占用了7%的CPU使用率,也就是說僅僅使用了64顆芯片中的大約6顆。混合的“EDMT”數據加上剩余的T數據,該PB級數據倉庫的最新加載情況如下圖所示:混合EDMT數據裝載原始輸入數據加載單元數數據文件5476股票交易記錄數萬億2.8純T(交易)數據大小TB467EDM文檔數百萬185純EDM(非結構化)數據大小TB71.02混合(EDM+T)數據大小TB537.5非結構化“EDM”對象通過DataFusion存儲到SybaseIQ中。某些文檔是各種不同格式和內容的獨立文件,而有些文檔是電子郵件消息,其中80%帶有附件。在通過DataFusion傳送電子郵件消息時,每個附件同其主體郵件分開成為兩個獨立的文檔。這兩個獨立的文檔與充分的元數據一道被存儲以捕獲郵件主體與其附件之間的關聯。EDMT性能評估新郵件的就緒時間 基于混合的EDMT數據倉庫對新郵件消息的就緒時間進行評估。下表描述了評估測試結果:基于混合的EDMT數據倉庫,新郵件的平均就緒時間小于3秒。事實上,在新裝載了1.85億新的文檔后,新郵件的平均就緒時間的增加幾乎可以忽略不計,僅僅約5%。基于混合的EDMT數據庫,交易數據的平均就緒時間小于5秒。事實上,在裝載了1.85億新的文檔后,其平均交易就緒時間也僅僅增加了約5%。減少CO2的排量從數據壓縮到CO2排量 數據倉庫運轉所需電力的減少可以直接轉化為全球CO2排量的減少。若能評估使用Solaris10操作系統、SybaseIQ、BMMsoftDataFusion所構建的Sun數據倉庫參考架構的數據壓縮,則相應的CO2排量的減少可被計算。其他傳統型數據倉庫解決方案所需的存儲空間一般來說都會大于裝載的原始數據的大小。使用附加索引的“行存儲”模型在存儲需求方面通常會導致幾倍于原始數據的容量。與此形成鮮明對比的是,Sun數據倉庫參考架構顯示了高達85%的數據壓縮。由于高度的數據壓縮,Sun數據倉庫參考架構所需的電力僅僅是其他傳統型解決方案的10%。同樣的,在此參考架構中,所需的物理空間,存儲設備的大小和重量也減少至少90%。計算CO2排量的減少 根據其技術說明,其50%的電力用于冷卻,用于測試的各種配置的電力消耗為90KW,一年的運營需要約780MWh。而傳統的相同容量的數據倉庫,所需存儲設備大約是其10倍,電量消耗每年約7800MWh。 根據普遍接受的“污染因子”認識,每KWh產生1.34磅CO2,Sun數據倉庫參考架構在其3年運行期內可減少CO2排量14000噸。 到其生命周期結束,使用Solaris10操作系統、SybaseIQ、BMMsoftDataFusion構建的Sun數據倉庫參考架構預計可比傳統的同等數據容量與性能水平的解決方案減少污染物排放高達90%。同時,預計可減少生命周期結束時所需拋棄的存儲設備重達26噸。結構化與非結構化數據的相關性 交易型與非結構化數據通過使用BMMsoftDataFusion可以互相關聯。非結構化對象在插入到數據倉庫時可進行實時分析,每個對象生成的元數據也存儲到數據倉庫中。 下面的拷屏圖描述了用來組織電子郵件、附件和其他非結構化對象的Projectfolders(本例中為“MuellerSpoelmann”)是如何被建立的。這些folders自動基于預定義和用戶自定義的規則進行裝載。范圍很廣的用于關系型和全文搜索的字符與數字參數,以及統一數據的相關性可由屏幕右邊輸入。復雜的EDMT分析結果以統一的EDMT數據視圖顯示。電子郵件、文本、交易可以實時地無縫地被分析,集成的結果可被顯示或輸出到文件中。下面的截屏圖描述了潛在的欺詐性股票交易、內幕交易或其他目標事件是如何被實時捕捉的。滿足監管所要求的數據保存要求帶WORM-FS功能的SunStorageTekQFS軟件被配置為用于測試該PB級數據倉庫的平臺的一部分。目的是證明DataFusion可以使用外部WORM存儲子系統滿足監管對數據保存的需求(比如,SOXNASD,SEC17a-4,HIPAA,GLBH以及其他)。上面的截屏圖描述了DataFusion如何被配置為自動存儲外部WORM設備中、存儲服務器(如SybaseIQ)中的新數據(如電子郵件、附件或其他非結構化文檔),或者兩者同時進行。查詢集 用于性能測試的查詢集由以下6個查詢組成:“Active”查詢 查詢所有交易中特定日期前10名最活躍的股票,按交易量排序。SELECT
TOP10TRADING_SYMBOL,
SUM(BID_SIZE)ASTRADESIZE,
DENSE_RANKOVER(ORDERBYSUM(BID_SIZE)DESC)ASRANKING
FROM
STOCK_QUOTE_VIEW
WHERE
QUOTE_DATE='2007-07-04'
GROUPBY
TRADING_SYMBOL
ORDERBY
SUM(BID_SIZE)DESC;“Sector”查詢 查找當前“計算機”行業最活躍的股票。 SELECT
ST.TRADING_SYMBOL,
SUM(BID_SIZE)TRADESIZE,
DENSE_RANK()OVER(ORDERBYSUM(BID_SIZE)DESC)ASRANKING
FROM
STOCK_INNERJOIN
INSTRUMENTIION
II.TRADING_SYMBOL=ST.TRADING_SYMBOL
INNERJOIN
SCND_IDST_CLSSCON
II.SCND_IDST_CLS_ID=SC.SCND_IDST_CLS_IDAND
SC.SIC_NAME='COMPUTERS'
WHERE
ST.QUOTE_DATE='2007-07-04'
GROUPBY
ST.TRADING_SYMBOL;
“Secret”查詢查詢在股票競價(BIDS)與有泄密之嫌的電子郵件之間是否有關聯。SELECT
TRADING_SYMBOL,
QUOTE_DATE,
SUM(BID_SIZE)
FROM
STOCK_QUOTE_VIEW,
BMM_MESSAGEHEADER,
BMM_MESSAGELONGTEXT
WHERE
TEXTTYP='P'AND
MESSAGETEXTLIKE'%SECRET%'AND
MESSAGE_ID=MESSAGE_IDAND
SUBJECT=TRADING_SYMBOLAND
QUOTE_DATE='2007-07-04'
GROUPBY
TRADING_SYMBOL,
QUOTE_DATE;
“Popular”查詢查詢某天在電子郵件通訊中被討論最多的股票。SELECT
COUNT(*),
BM.MESSAGE_TIME,
SQ.TRADING_SYMBOL,
SUM(SQ.BID_SIZE)ASTRADESIZE,
DENSE_RANK()OVER
(ORDERBYSUM(SQ.BID_SIZE)DESC)ASRANKING
FROM
STOCK_QUOTE_VIEWSQ,
BMM_MESSAGEHEADERBM
WHERE
SQ.QUOTE_DATE='2007-07-04'AND
BM.SUBJECT=SQ.TRADING_SYMBOL
GROUPBY
BM.MESSAGE_TIME,
SQ.TRADING_SYMBOL
ORDERBY
SUM(SQ.BID_SIZE)DESC;
“Short”查詢查詢某交易所特定日損失最大的前10名,按照損失百分比排序。損失的計算按照前一日的最后交易價格的百分比計算。SELECT
TOP10INSTRUMENT_ID,
TRADING_SYMBOL,
TRADE_PRICE,
TRADE_DATE
INTO#TEMP_TICK3A
FROM
DBA.STOCK_TRADEST,
(SELECT
INSTRUMENT_IDASIDX,
MAX(TRADE_TIME)ASMAXTIME
FROM
DBA.STOCK_TRADE
WHERE
TRADE_DATE='2005-11-14'
GROUPBY
INSTRUMENT_ID
)Y
WHERE
ST.TRADE_DATE='2005-11-14'AND
ST.TRADE_TIME=MAXTIMEAND
IDX=ST.INSTRUMENT_ID;
CREATEVARIABLEPREV_DAYDATE;
SETPREV_DAY=(SELECTMAX(TRADE_DATE)
FROMSTOCK_TRADE
WHERETRADE_DATE<'2005-11-14');
SELECT
INSTRUMENT_ID,
TRADING_SYMBOL,
TRADE_PRICE,
TRADE_DATE
INTO#TEMP_TICK3B
FROM
DBA.STOCK_TRADEST,
(SELECT
INSTRUMENT_IDASIDX,
MAX(TRADE_TIME)ASMAXTIME
FROM
DBA.STOCK_TRADE
WHERE
TRADE_DATE=PREV_DAY
GROUPBY
INSTRUMENT_ID
)Y
WHERE
ST.TRADE_DATE=PREV_DAYAND
ST.TRADE_TIME=MAXTIMEAND
IDX=ST.INSTRUMENT_ID;
DROPVARIABLEPREV_DAY;
SELECT
INSTRUMENT_ID,
TRADING_SYMBOL,
PER_LOSER,
LOSER_RANK
FROM
(SELECT
INSTRUMENT_ID,
TRADING_SYMBOL,
PER_LOSER,
RANK()OVER(ORDERBYPER_LOSERASC)
LOSER_RANK
FROM
(SELECT
T.INSTRUMENT_ID,
T.TRADING_SYMBOL,
(T.MTP-Y.MTP)*100/Y.MTPPER_LOSER
FROM
(SELECT
INSTRUMENT_ID,
TRADING_SYMBOL,
TRADE_PRICEMTP
FROM
#TEMP_TICK3A)T,
(SELECT
INSTRUMENT_ID,
TRADING_SYMBOL,
TRADE_PRICEMTP
FROM
#TEMP_TICK3B
)Y
WHERET.INSTRUMENT_ID=Y.INSTRUMENT_ID
)A
)B
WHEREPER_LOSER<0;
“Growth”查詢 查詢目前$100,000的價值,假設一年前投資了等值的10支股票(比如每支股票為$10,000)。交易策略遵循如下規則:如果20天平均漲跌高于5個月平均漲跌值,則置為投資;如果20天平均漲跌低于5個月平均漲跌值,則置為出售。TRUNCATETABLEHIST_TEMP;
TRUNCATETABLEHIST7_TEMP;
COMMIT;
INSERTHIST_TEMPSELECT
NUMBER(),
B.INSTRUMENT_ID,
B.TRADING_SYMBOL,
B.TRADE_DATE,B.CLOSE_PRICE,
IFNULL(SUM(A.SPLIT_FACTOR),1,SUM(A.SPLIT_FACTOR)
)
FROM
STOCK_HISTORYASB
LEFTOUTERJOIN
SPLIT_EVENTASAON
B.INSTRUMENT_ID=A.INSTRUMENT_IDAND
B.TRADE_DATE<A.EFFECTIVE_DATE
WHERE
B.INSTRUMENT_IDBETWEEN11AND20AND
B.TRADE_DATE>=DATEADD(DAY,-160,'2012-06-01')AND
B.TRADE_DATE<='2012-12-01'
GROUPBY
B.INSTRUMENT_ID,
B.TRADING_SYMBOL,
B.TRADE_DATE,
B.CLOSE_PRICE
ORDERBY
B.INSTRUMENT_ID,
B.TRADE_DATE;
INSERTHIST7_TEMPSELECT
NUMBER(),
X.INSTRUMENT_ID,
X.TRADE_DATE,
AVG_5MTH,
AVG_21DAY
FROM
(SELECT
B.INSTRUMENT_ID,
B.TRADE_DATE,
AVG(C.CLOSE_PRICE*B.SPLIT_FACTOR)AVG_5MTH
FROM
HIST_TEMPASB
LEFTOUTERJOIN
HIST_TEMPASCON
B.INSTRUMENT_ID=C.INSTRUMENT_IDAND
C.ROW_NBRBETWEENB.ROW_NBR-160AND
B.ROW_NBR
GROUPBY
B.INSTRUMENT_ID,
B.TRADE_DATE
)X,
(SELECT
B.INSTRUMENT_ID,
B.TRADE_DATE,
AVG(C.CLOSE_PRICE*B.SPLIT_FACTOR)AVG_21DAY
FROM
HIST_TEMPASB
LEFTOUTERJOIN
HIST_TEMPASCON
B.INSTRUMENT_ID=C.INSTRUMENT_IDAND
C.ROW_NBRBETWEENB.ROW_NBR-21ANDB.ROW_NBR
GROUPBY
B.INSTRUMENT_ID,
B.TRADE_DATE
)Y
WHERE
X.INSTRUMENT_ID=Y.INSTRUMENT_IDAND
X.TRADE_DATE=Y.TRADE_DATE
ORDERBY
X
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 八年級生物第六單元生物的多樣性及其保護考點總結模版
- 健康生活快樂運動小學生的體育活動與鍛煉
- 區塊鏈在商業合同中的安全性應用及融資策略
- 酒店會議工作總結模版
- 2025年售后年度工作總結模版
- 醫療衛生中心項目前景分析與發展規劃
- 小學秋季開學演講稿
- 新書推介心得體會模版
- 推動人工智能賦能消費升級方案
- 2025年教育孩子的心得體會模版
- 浙江省臺州市十校聯盟2024-2025學年高二下學期期中聯考技術試題(含答案)
- 選擇性必修3 《邏輯與思維》(思維導圖+核心考點+易混易錯)
- 公募基金與私募基金的試題及答案
- 線組長培訓課件
- 2025-2030中國水利建設行業經營形勢分析及未來前景展望研究報告
- 助殘委托服務協議
- 泉州市泉港區總醫院及各分院招聘工作人員筆試真題2024
- 2025年中考數學總復習模擬測試卷(附答案)
- 2025山西地質集團招聘37人筆試參考題庫附帶答案詳解
- 2025年全職高手測試題及答案
- 肝癌的中醫護理查房
評論
0/150
提交評論