HUABASE基于列存儲的關系型數據庫系統_第1頁
HUABASE基于列存儲的關系型數據庫系統_第2頁
HUABASE基于列存儲的關系型數據庫系統_第3頁
HUABASE基于列存儲的關系型數據庫系統_第4頁
HUABASE基于列存儲的關系型數據庫系統_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

本文由thulium2000貢獻pdf文檔可能在WAP端瀏覽體驗不佳。建議您優先選擇TXT,或下載源文件到本機查看。計算機研究與發展JournalofComputerResearchandDevelopmentISSN1000—12391CN11—1777/1rP47(Suppl.):524—528,2010HUABASE:基于列存儲的關系型數據庫系統曾春1胡勁松2邢春曉1馮建華3100084)1(清華大學信息技術研究院北京2(廣東環天電子技術發展有限公司廣州北京510130)100084)3(清華大學計算機科學與技術系(zengchun@tsinghua.org.cn)HUABASE:AColumn—OrientedRelationalDatabaseSystemZengChunl,HuJinson92,XingChunxia01,andFengJianhua31(ResearchInstitute2(Guangdong3(DepartmentofInformationTechnology。TsinghuaUniversity,Beijing100084)HuantianElectronicTechnologyDevelopmentCo.,Ltd.,Guangzhou510130)ofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)AbstractHUABASEiSacolumn-orientedrelationaldatabasesystem.Thethreemainfeaturesbetterqueryefficiency,fewerdiskarchitecturefordatawarehouseaccessesofcolumn—orienteddatabaseorienteddatabaseisanareandlessstorage.Column-implementedidealnatively.HUABASEsparsemultipledatacompressionmechanisms,queryoptimizationandcanindexingtotechnologies.Bysupportingbusinessintelligenceefficiently,HUABASEdecision.Keywordshelpenterprisesmakewisebusinesscolumn—orienteddatabase;businessintelligence;datawarehouse;TPC—H摘要HUABASE是基于列存儲的關系型數據庫系統.列存儲技術的特點是數據查詢效率高、讀磁盤少、存儲空間少,是構建數據倉庫的理想架構.HUABASE實現了多種數據壓縮機制、查詢優化和稀疏索引技術,在支持高效率的商業智能方面具有良好的發展前景,可以幫助企業輕松做出明智的業務經營決策.關整詞列數據庫;商業智能;數據倉庫;TPC—H中圖法分類號TP311.132.3隨著互聯網技術的發展,企業及政府信息化的不斷深入,應用的復雜性日益增強.這些需求推動著數據密集型應用向海量和智能的方向發展.同時,數據倉庫和在線分析等應用迫切需要實時高效的數據處理技術.傳統的基于行存儲的數據庫技術已經出現了技術瓶頸.如何在快速執行復雜查詢的同時,還能縮小存儲空間和節約成本是目前數據庫技術研究的熱點問題.本文介紹一種新型數據庫技術及其驗證系統——基于列存儲的關系型數據庫HUABASE.收稿日期:20lO一06~25列存儲技術的特點是數據查詢效率高、讀磁盤少、存儲空間少,這是構建數據倉庫的理想架構.列數據庫的應用價值來自于它對復雜查詢的快速響應以及數據壓縮所帶來的存儲優勢,使其在商業智能方面具有良好的發展前景.根據Gartner2010年1月關于數據倉庫的分析報告【1],列數據庫與傳統關系型數據庫相比,在數據分析方面表現出卓越的性能,因此,列數據庫技術的研究和產品開發在學術界和工業界受到廣泛關注.基金項目:國家。八六三”高技術研究發展計劃基金項目(2009AA012143)萬方數據曾春等:HUABASE:基于列存儲的關系型數據庫系統列數據庫的學術價值在于其獨特的數據存儲理念,以及基于列的存儲為企業決策分析、數據倉庫、商業智能這些應用領域所帶來的效率和空間上的方便和優勢.目前開源列數據庫有C—Store,rasdaman,MonetDB等,商用列數據庫有SybaseIQ,VerticaAnalyticEXASOLDatabase,ParAccelAnalyticDatabase,據,它是由表、記錄等組成;另一是物理數據,它代表數據庫怎樣存儲邏輯數據.不同的關系數據庫系統或許有相同的邏輯數據,但它們通常有不同的物理數據.實現數據庫物理數據的方法有2種:一是基于行存儲,另一是基于列存儲.對于基于行存儲的實現方法,它把邏輯數據的整條記錄存儲到數據塊中,為了提高查詢速度,要為某些列建立B+樹等類型的索引;對于基于列存儲的實現方法,邏輯數據中的記錄不直接按條映射到物理數據中,而是把記錄按列分開,把所有記錄相同列的值存在一起,同時提供連接數據能夠把記錄相應的列值重新組合起來形成記錄.EXASolution等.近5年來在國際一流的數據庫會議VLDB,SIGMOD,ICDE上有關這個領域的優秀論文也頻頻出現心。10J.1HUABASE數據庫體系架構HUABASE是基于列存儲的關系型數據庫系如圖1所示,HUABASE將記錄進行分段存儲,表段內數據按列排序存儲,表段中列值的個數有一個上限,連接數據存儲記錄號與數據塊序列號.數據插入時,盡管列值的位置會發生變化,只要它仍然在同一個數據塊中,連接數據就不需要更新,除非由于數據塊溢出導致列數據被移到新的數據塊中,數據塊的序列號才發生變化,連接數據可以用來把相應的列值連接起來形成一條記錄.1(P001,1)統.系統基于先進的存儲模型,可用來解決傳統數據庫中一些關鍵的性能問題.HUABASE非常適合于商業智能分析領域,可以輔助BI工具為企業做出有效的業務經營決策.1.1HUABASE簡介關系型數據庫是一個用以存儲及處理結構化數據的軟件系統,其數據分為2個層次:一是邏輯數lI(Pen,2)II(1.99,2)Il(P002,2)I值數據塊1001(1,l001)(2,1001)I(Radio,1)l值數據塊1002l(10.99,1)Il值數據塊1003IDP001P002P003P004NameRadioPenTVCallleraPrice10.991.99200.99loo.99(1,l002)(1,1003)ff(2,1002)IIJ(2,1003)II連接數據塊Il連接數據塊¨連接數據塊IIDN姍e表段II(P003,1)(1:'004,2)I值數據塊2001}(1,2001)(2,2001)Il(Camera,2)iI(100.99,2)I(TV,1)I|(200.99,1)lI值數據塊2002l值數據塊2003r—’。—‘’———————’1|I(1,2002)ff11,2003)J(2,2002)(2,2003)lI連接數據塊II連接數據塊II連接數據塊lIDPriCe表段2圖1邏輯數據與物理數據示例圖2HUABASE概況萬方數據526計算機研究與發展2010,47(增刊)HUABASE非常適合于商業智能分析領域,如圖2所示,HUABASE用戶可以利用ETL工具從多種數據源抽取元數據然后存放到HUABASE數據庫中,HUABASE可以存放和管理海量的數據并用于智能分析,比如:一個數據庫最大可以支持232個表空間;一個表空間最大可以支持256個數據文件I一個數據文件最大可支持32TB數據.1.2HUABASE體系架構HUABASE數據庫管理系統是一個3層架構:核心層、接口層和應用層.核心層完全基于Java實現,包括支持列存儲的所有關鍵組件.接口層支持ODBC和JDBC標準接口.應用層支持各種數據庫應用開發,HUABASE本身提供了多種基于JDBC接口的數據庫管理工具.如圖3所示:數據庫管理工具應用層【l應用程序接口層ODBC3弋弋?7一】[數據庫管理器]【命令編輯器]【命令行工具]lJDBCHUABASE核心核心層列式存儲緩存策略加鎖機制查詢處理安全管理事務處理口志管理全文搜索圖3HUABASE體系架構1.核心層組件1)列式存儲.支持記錄的按列存儲、實現了高效的數據壓縮和稀疏索引技術,可以極大地提高存儲效率和查詢性能.2)緩存策略.支持多種數據塊緩沖機制,比如持久緩沖區、時鐘緩沖區、FIF0緩沖區、LRU緩沖區.發列數據庫應用.2)數據庫管理器.基于Web的數據庫管理器,可以從web瀏覽器登錄,方便遠程管理HUABASE數據庫.根據用戶角色,可以管理當前數據庫的模式、表或用戶等.3)命令編輯器.基于圖形界面的命令編輯工具,可以方便地提交各種查詢和操作命令.4)命令行工具.命令行工具支持交互模式、命令模式和批處理模式.適合管理員做各種管理和維護操作.1.33)加鎖機制.數據塊鎖是為了保持數據塊的操作一致性,支持排它鎖、共享鎖、增量排它鎖、增量共享鎖.4)查詢處理.支持SQL一92和部分SQL-99標準、應用多種查詢優化策略,在復雜查詢上具有比基于行存儲的數據庫系統更優越的性能.5)安全管理.支持數據的加密存儲和傳送,保護用戶數據的隱私和安全.6)事務處理.支持事務的原子性、一致性、隔離性和持久性.7)日志管理.支持日志的回滾和重做,確保系統數據的完整性.8)全文搜索.支持對大文本列的全文搜索方式,可以有效提高大文本的查詢效率.2.接口層組件1)0DBC.支持ODBC標準接口,應用程序可以通過該接口訪問HUABASE數據庫.2)JDBC.支持JDBC標準接I:1,Java應用程序可以通過該接口訪問HUABASE數據庫.3.應用層組件1)應用程序.可以基于ODBC和JDBC接1:3開HUABASE關鍵技術HUABASE支持關系型數據庫的核心功能,在列存儲方面的關鍵技術包含以下3個方面:1.數據壓縮技術基于行存儲的關系型數據庫一般只能做到對數據塊的壓縮.而基于列存儲的HUABASE,采用了多種數據壓縮機制,比如同一列中相同的值只存放一份;對于整型數據,只存放相鄰列值的差.這些機制可以實現更高的數據壓縮效率.列數據庫按列存儲并在列上進行壓縮的技術,在構建大型數據倉庫的時候可以表現出突出的優勢,節省大量的存儲空間.2.查詢優化技術基于行存儲的關系型數據庫查詢時,不能只讀取部分列,所有列都必須讀取到內存中然后再去掉不需要的列,這樣就導致很多不必要的硬盤輸入輸出.而基于列存儲的HUABASE,由于它把記錄的列分開存儲,查詢引擎可以按需讀取列,從而減少了萬方數據曾春等:HUABASE:基于列存儲的關系型數據庫系統527硬盤輸入輸出,提高了數據庫的查詢性能.演示這種效果,我們將準備幾個具有數百列的表進行不同的查詢并觀察響應時間.同時,還與基于行存儲的數據庫系統進行對比.3.稀疏索引效果3.稀疏索引技術基于行存儲的關系型數據庫一般都是稠密索引,不僅增加存儲空間,也增加了數據更新時的代價.因此,為表的所有列都建立索引就不太現實,如HUABASE給表中所有需要索引的列都建立了索引,為了進行對比演示,我們將在基于行存儲的數據庫系統中創建相同的表但只索引部分列,然后在沒建索引的列上進行查詢對比.2.3果對一個未加索引的列進行查詢,系統不得不作全表掃描,導致數據庫的性能嚴重惡化.而基于列存儲的HUABASE所建立的索引是稀疏索引,列值已被排序存儲,索引只建立到數據塊級,當查詢通過索引定位到數據塊后,就可以使用二分法查找,這樣索引的存儲空間很小,維護代價很低,可以給所有需要索引的列都建立索引,從而顯著提高了數據庫的查詢性能.HUABASE數據庫性能演示為了演示HUABASE作為列數據庫的性能優勢,我們采用了TPC—H(商業智能計算測試)的測試方法.TPC-H是TPC的重要測試標準之一(http:1/tpc.org/tpch),主要用來模擬真實商業應用環境.與科學計算測試不同,商業智能計算測試是對現實中商用計算需求的全面模擬.HUABASE數據庫性能演示步驟如圖5所示:2HUABASE數據庫演示環境與步驟HUABASE數據庫完全基于Java實現,所以具有無縫的多平臺部署能力.可以支持不同的操作系統環境,比如:Windows或Linux環境等.2.1回答圄答回I---.---------.-.-.....---------------—--------—.........--......—.一,Jl::—---------------------------.-------------------?—-—----?-----/HUABASE數據庫演示環境HUABASE數據庫服務器運行的基本要求是r—————————————————————————、'●————————————————————————、測試TPc.H查詢裝載TPc.H數據>>>圖5HUABASE數據庫性能演示步驟具有Java1.6運行環境,1GB以上內存,以及10GB大小的存儲空間.HUABASE安裝分為服務器端和客戶端部分,可以分開安裝.為了演示HUABASE數據庫服務器和遠程客戶端的連接,本文設計如圖4所示的演示環境.瓣裳髓藏§{鼉{A囂A霪囂贛糕群鬻產瓣}差玨A囂A霪囂1.裝載TPC~H數據HUABASE提供了多種數據庫管理工具,以方便不同特點的用戶使用.為了配合TPC—H測試演示,我們開發了一些方便的數據裝載和查詢工具.裝載工具可以根據TPC-H數據模板生成要求的數據并裝載到HUABASE數據庫中.為了演示HUABASE在大數據量情況下的查詢性能,我們準備了400萬條數據,裝載時間大約11GB大小.h30min,數據文件大約數糕露瓣努瓣圖42.2HUABASE數據厙演不環境2.測試TPC-H查詢HUABASE數據庫關鍵技術演示TPC—H包括標準的22個查詢,查詢工具可以根據TPC-H查詢模板生成查詢語句,可以演示每個查詢語句的響應時間.此外,為了與基于行存儲的數據庫系統進行對比,我們將選擇一家行業領先的數據庫廠商進行對比測試.為了演示HUABASE列存儲的技術特點,我們設計了幾個演示步驟來展示數據壓縮的效率,查詢優化和稀疏索引的效果.1.數據壓縮效率HUABASE按列存儲并在列上進行壓縮,為了演示壓縮效率,我們將準備大量具有相同列值的原始數據并裝載到數據庫中.可以通過對比原始數據和裝載后數據文件的大小來觀察數據壓縮的效率.此外,還可以與基于行存儲的數據庫系統進行對比.3結束語本文介紹了列存儲的技術優勢,分析了HU越狐SE數據庫的體系架構和關鍵技術,然后演示了HUABASE列存儲的關鍵技術特點,最后通過對比演示TPC-H測試結果,進一步驗證了HUABASE作為列數據庫2.查詢優化效果’HuABASE能根據當前查詢按需讀取列,為了萬方數據528計算機研究與發展2010,47(增刊)的性能優勢.下一步,我們將提高系統的可用性,實現并行查詢和分布式的架構.[7-1IvanovaM,KerstenML,NesN.Self-organizing2008strategiesforacolumn—storedatabase//ProcofEDBT.NewYork:ACM.2008:157-168[83VaidyaP,LeeJ.CharacterizationofTPC-HQueriesforColumn-0rienteddatabase2008onaa致謝本論文研究得到李超老師和張勇老師的dual—coreAMDathlon幫助,謹致謝意!參考文獻[9]processor/Procof2008:1411-1412ACMCIKM.NewYork:ACM?BonczwallinPA,KerstenML,ManegoldS.BreakingthememorymonetDB.CommunicationsoftheACM。2008,51[13FeinbergD,BeyerMA.Magicquadrantfor(12):77—85datawarehousedatabasemanagementsystems.[2010—06一013.http:/www.Do]BonezPA,GrustT,KeulenMV,eta1.MonetDB/XQuerytaAfastXQueryProcprocessorpoweredbyrelationalgarter.COm/DisplayDocument?id=1290514[2]AbadiDengine//of2006J,MaddenSR,HaehemN.ColumnStoresareACMSlGMoD.NewYork:ACM,2006:479—VS.490RowStores:Howdifferenttheyreally?/[Frocof2008ACMSIGMOD.NewYork:ACM,2008:967-980[3]AbadiDJ,MaddenSR,FerreirainM.曾Integrating春男,1976年生,博士,主要研究方向為數據庫、compressionandexecution2006columnorienteddatabase內容管理.systems/]Proeof2006:671—682ACMsIGMOD.NewYork:ACM,胡勁松D男,1970年生,碩士,主要研究方向為列數[4]AbadiDJ,MyersaS,DewittDJ.Materialization2007ICDE.據庫.strategiesincolumn-orientedDBMS//ProeofPiscataway,NJ:IEEE,2007:466—475邢春曉男,1967年生,博士,教授,主要研究方向為數據庫、數字圖書館.York:[5]StonebrakerM,Abadicolumn—orientedDJ,BatkinA,eta1.C-store:A2005VLDB.NewDBMS][ProcofACM,2005:553—564馮建華男,1967年生,博士,教授,主要研究方向為數forindexingICDE.tsinghua.edu.cn).[63GeTingjian,ZdonikinaSFast.Secureeneryption據庫、數據倉儲和www環境下的信息處理(fengjh@column-orientedDBMS//Proeof2007Piscataway,NJ:IEEE,2007:676—685萬方數據HUABASE:基于列存儲的關系型數據庫系統作者:作者單位:刊名:英文刊名:年,卷(期):被引用次數:曾春,胡勁松,邢春曉,馮建華曾春,邢春曉(清華大學信息技術研究院,北京,100084),胡勁松(廣東環天電子技術發展有限公司,廣州,510130),馮建華(清華大學計算機科學與技術系,北京,100084)計算機研究與發展JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENT2010,47(z1)0次參考文獻(10條)1.FeinbergD,BeyerMA.Magicquadrantfordatawarehousedatabasemanagementsystems.[2010-0601]./DisplayDocument?id=12905142.AbadiDJ,MaddenSR,HachemN.ColumnStoresvs.RowStores:Howdifferentaretheyreally?//Procof2008ACMSIGMOD.NewYork:ACM,2008:967-9803.AbadiDJ,MaddenSR,FerreiraM.Integratingcompressionandexecutionincolumnorienteddatabasesystems//Procof2006ACMSIGMOD.NewYork:ACM,2006:671-6824.AbadiDJ,MyersDS,DeWittDJ.Materializationstrategiesinacolumn-orientedDBMS//Procof2007ICDE.Piscataway,NJ:IEEE,2007:466-4755.StonebrakerM,AbadiDJ,BatkinA,etal.C-store:Acolumn-orientedDBMS//Procof2005VLDB.NewYork:ACM,2005:553-5646.GeTingjian,ZdonikSFast.Secureencryptionforindexinginacolumn-orientedDBMS//Procof2007ICDE.Piscataway,NJ:IEEE,2007:676-6857.IvanovaM,KerstenML,NesN.Self-organizingstrategiesforacolumn-storedatabase//Procof2008EDBT.NewYork:ACM,2008:157-1688.VaidyaP,LeeJ.CharacterizationofTPC-HQueriesforaColumn-Orienteddatabaseonadual-coreAMDathlonprocessor//Procof2008ACMCIKM.NewYork:ACM,2008:1411-14129.BonczPA,KerstenML,ManegoldS.BreakingthememorywallinmonetDB.Communicationsofthe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論