數據倉庫的高校數據統計服務平臺教材_第1頁
數據倉庫的高校數據統計服務平臺教材_第2頁
數據倉庫的高校數據統計服務平臺教材_第3頁
數據倉庫的高校數據統計服務平臺教材_第4頁
數據倉庫的高校數據統計服務平臺教材_第5頁
已閱讀5頁,還剩43頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于數據倉庫的高校數據統計服務平臺研究提綱背景需求分析平臺設計平臺實現平臺部署背景

各高校建成的信息管理系統越來越多,海量數據背后隱藏著許多重要信息,是學校正常運轉的核心資源,以靈活便捷的方式對數據進行統計、分析,進而為高校管理與決策提供支持的需求日益強烈背景

商業智能(BI,

business

intelligence)

Gartner

Group,

Howard

Dresner,

1996:一類由

數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成,以幫助企業決策為目的的技術及其應用。背景

微軟的BI體系框架背景

IBM的BI體系框架背景

建立BI系統的基本步驟包括:

確認和解讀數據源;

進行數據采集和存儲管理;

構建模型并在此基礎上分析數據背景

商業智能的基礎是數據倉庫(DW

,

Data

Warehouse)

數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合。

數據倉庫為有效地為BI系統提供了全局一致的數據環境,也為歷史數據綜合數據的處理提出了一種行之有效的解決方法。背景

國外:BI應用已經進入了數據分析階段,有些已經積累了高端的數據挖掘經驗;

國內:BI的應用則還停留在數據整合的初級階段,應用的主要領域集

中在電信、保險、銷售等行業,

國內高校的情況不容樂觀:

數據分散在不同的源系統中,數據的規范性和共享性還存在很大問題;

數據統計和分析基本上是基于單個系統中的操作型數據進行的,既不能反映出不同系統之間的數據關聯,又缺乏對數據的全局把握;還會因為操作型數據的動態性和分散性影響統計結果的準確性,也無法對歷史數據進行統計和分析。背景

要建立高校的BI應用,滿足為高校管理與決策提供支持的需求,首先必須打破不同應用系統之間的“藩籬”,建立全局一致的數據倉庫,將操作型數據轉換為靜態的、穩定的、規范化的、能夠反映歷史的分析型數據,然后在此基礎上搭建統一的數據統計服務平臺。需求分分析數據統統計需需求按按用途途不同同分為為2類:一是以以年報報表或或者季季度報報表的的形式式上報報上級級部門門的統統計數數據,,有著固定定的報報表格格式、、復雜雜的報報表內內容、、專門門的統統計口口徑,,有的的報表甚至至還有有嚴格格的填填報流流程;;二是部部門日日常所所需要要統計計數據據,往往往和和某種種類型型具體體業務務相關關,和第一一類需需求相相比,,統計計數據據的格格式和和內容容比較較簡單單,沒沒有復復雜的填報報流程程,但但時間間粒度度要求求更細細,要要以月月報表表、周周報表表乃至至日報表的的形式式提供供統計計結果果,并并且要要求提提供數數據鉆鉆取的的功能能。需求分分析這些需需要統統計的的數據據涉及及高校校人事事、學學生、、科研研、教教學等等各個領域域,每每個領領域下下面又又細分分為了了很多多不同同的細細類,,具體體如圖1所示。。平臺設設計總體架架構數據倉倉庫建建模統計數數據模模型總體架架構高校數數據統統計服服務平平臺由由源系系統、、數據據倉庫庫和統統計平平臺三三部分組成成。總體架架構源系統統:高校業業務涉涉及的的數據據源比比較廣廣泛,,主要要有人人事系系統、、教務系系統、、研究究生系系統、、科研研系統統等,,再加加上校校園網網之外外的一些其其他外外部數數據源源,構構成了了數據據統計計服務務平臺臺的數數據基基礎,,由于系系統業業務職職能和和具體體需求求不同同,在在實現現時會會選用用不同同的數據庫庫,數數據結結構也也可能能存在在較大大差異異,從從而導導致數數據間間有較大的的異構構性和和不一一致性性。總體架架構數據倉倉庫:數據據倉庫庫全面面接收收源系系統數數據,,ETL進程對對數據據進行規規范化化、驗驗證、、清洗洗,并并最終終裝載載進入入數據據集市市,通通過數據集集市支支持系系統進進行數數據查查詢、、分析析;整整個數數據倉倉庫包包含四大層層次::復制層層(SSA,system-of-records-staging-area)原子層層(SOR,system-of-record)匯總層層(SMA,summary-area)集市層層(DM,datamart)總體架架構復制層層(SSA,system-of-records-staging-area):直接復制制源系系統的的數據據,盡盡量保保持業業務數數據的的原貌貌;與與源系系統數數據唯一一不同同的是是,復復制層層中的的數據據在源源系統統數據據的基基礎上上加入入了時間間戳的的信息息,形形成了了多個個版本本的歷歷史數數據信信息;;原子層層(SOR,system-of-record):基于于模型型開發發的一一套符合3NF范式規規則的的表結結構,,它存存儲了了數據據倉庫庫內最最細層層次的的數據,,并按按照不不同的的主題題域對對數據據分類類存儲儲;根根據目目前部部分需需求,將將全校校數據據在原原子層層中按按人事事、學學生、、教學學、科科研四四大主主題存儲儲;原原子層層是整整個數數據倉倉庫的的核心心和基基礎,,在設設計過過程中中應具有有足夠夠的靈靈活性性,以以能應應對添添加更更多的的數據據源、、支持持更多多的分析析需求求,同同時能能夠支支持進進一步步的升升級和和更新新;總體架架構匯總層層(SMA,summary-area):匯總總層是是原子子層和和集市層的的中間間過渡渡,由由于原原子層層的數數據是是高度度規范范化數數據,,因此要要完成成一個個查詢詢需要要大量量的關關聯工工作,,同時時集市市層中中的數據據粒度度往往往要比比原子子層高高很多多,對對要生生成集集市層層中的的匯總數數據需需要進進行大大量的的匯總總工作作,因因此,,匯總總層根根據需需求把原子層層數據進行行適度的反反范(例如如,設計寬寬表結構將將人員信息、、干部信息息等多個表表的數據合合并起來))和匯總(例如,一一些常用的的人頭匯總總、機構匯匯總等);;從而提高高數據倉庫查查詢的性能能。總體架構集市層(DM,datamart):集市層保保存的數據據是供用戶戶直接訪問的;;可以將集集市層理解解成最終用用戶直接最最終想要看看的數據;集市市層主要是是各類粒度度的事實數數據,通過過提供不同同粒度的數據,,適應不同同的數據訪訪問需求;;集市層中中的數據以以2種不同類型型存儲:一一類以星型型模型建設設,便于部部門日常的的靈活查詢和統統計,另一一類按寬表表以及重新新組織的適適應固定報報表的表結構存存儲,便于于高校的年年統和季度度統計工作作。總體架構統計平臺:高校數據據統計服務務平臺采用用B/S架架構的3層層體系結構,即:數數據操作層層、邏輯層層、表示層層。數據操作作層邏輯層表示層總體架構構數據操作作層:充分考慮慮系統的的高可用用性,數數據統計計服務平平臺與數據據倉庫所所使用的的數據庫庫互相獨獨立,由由此保證證數據統統計服務平平臺對數數據進行行加工處處理時不不會影響響數據倉倉庫中的的數據;數數據存取取模塊實實現對數數據統計計服務平平臺數據據的訪問問。總體架構構邏輯層::分為報表表預定義義、報表表查詢、、報表生生成、報報表填報報、報表審核核及報表表匯總等等模塊;;每個模模塊分別別實現不不同的功功能;在統計平平臺中,,不同身身份的用用戶其功功能權限限和數據據權限是是不一樣的::報表預預定義是是給系統統管理員員用的;;報表生生成、報報表填報是給給院系管管理人員員使用的的,只能能查看和和操作本本院系的的數據;報表表審核、、報表匯匯總是給給學校相相關部門門的管理理人員用用的,可以操作作全校數數據;功功能權限限和數據據權限通通過公用用層與身身份認證服務務平臺對對接,統統一進行行管理總體架構構表示層::提供交互互界面給給用戶使使用,此此外還提提供一些些服務接接口供其他他系統調調用數據倉庫庫建模目前較為為流行的的數據倉倉庫的建建模方法法較多,,常用的的有Inmon所提倡的的范式建建模法和和Kimball所提倡的的維度建建模法。數據倉庫庫建模維度建模模法針對對各個維維做了大大量的預預處理,,通過這這些預處處理能夠夠極大地提提升數據據倉庫的的處理能能力,相相對于范范式建模模法來說說,在性性能上占據據了明顯顯的優勢勢;同時時維度建建模非常常直觀,,緊緊圍圍繞著業業務模型,,可以直直觀地反反映出業業務模型型中的業業務問題題。不需需要經過過特別的抽抽象處理理即可以以完成維維度建模模。因此此高校數數據統計計服務平平臺的數據據倉庫采采取維度度建模的的方式構構建。維度建模模法采用用事實表表—維表的方方式來構構建數據據倉庫,,數據集集市、事實表存存儲實際際的數據據,維表表存儲事事實表中中對象的的屬性,,事實表表和維表的的關聯關關系常用用的是““星型模模型”。。數據倉庫庫建模維度建模模的步驟驟結合具體體需求確確定分析析主題,結合高高校主要要業務定定義了一一個公共共維度主題和和人事、、學生、、教學、、科研4個業務主主題:公公共維度度包含時時間維、地理理維、國國標及校校標,時時間維和和地理維維在不同同的應用用場景可可以使用視圖圖形式轉轉換為具具體的分分析維度度,國標標和校標標主要用用來解決決在數據集成成過程中中的一致致性問題題;人事事主題核核心內容容是教師師的基本本情況,具體體分析主主體有收收入、崗崗位、職職稱以及及杰出人人才等;;學生主主題核心內容容是在校校生基本本情況,,具體分分析主題題有招生生、成績績、獎懲懲、異動、就就業等;;科研主主題主要要分析全全校師生生科研成成果完成成情況,,根據實際業業務可以以納入所所有科研研成果,,如項目目、論文文、著作作、專利利、學術活動動等;教教學主題題以教學學活動相相關內容容為主,,如課程程計劃、、教學任務、、選課、、教學工工作量等等。數據倉庫庫建模確定分析析粒度,通俗地地說就是是分析對對象的詳詳細程度度。為了了滿足分析的的可擴展展性及需需求的多多樣性,,以最小小粒度來來設計數數據模型總是是能達到到最好的的分析效效果,如如:記錄錄每個學學生的明明細情況、記記錄每項項科研成成果的詳詳細情況況。數據倉庫庫建模設計維表表,維度是是統計和和分析數數據的角角度,與與統計查查詢的參參數相對應應。在選選取維度度時應該該將實體體作為一一個對象象,把與與該對象相關關的所有有重要屬屬性都提提取出來來作為獨獨立維度度。數據倉庫庫建模設計事實實表,為了跟跟蹤具有有生命周周期的活活動數據據的變化化過程以保留歷歷史信息息,設計計事實表表時使用用緩慢變變化維的的方法以以捕獲變化數數據。事事實表中中的版本本、開始始時間和和結束時時間3個字段是實現現緩慢變變化的核核心。版版本表示示同一事事物歷史史狀態的的順序,開始始時間和和結束時時間表示示在該段段時間內內該事物物處于某某一狀態,每每一條數數據的結結束時間間等于新新數據的的開始時時間,這這樣該事物不不同時間間段的狀狀態就分分布在一一條時間間軸上,,從而可可以得到任一一時間點點該事物物的狀態態信息數據倉庫庫建模統計數據據模型確定統計計相關的的星型模模型,即即數據統統計針對對的是事事實表中中間的那那些事實,,涉及到到哪些統統計指標標,統計計的粒度度如何。。確定報表表中具體體的每一一行和每每一列分分別代表表的統計計指標,,統計指指標簡單地地說即維維度取值值,每個個統計指指標對應應到維表表中是某某個維度度取某個值,也也有可能是多多個維度取值值的累加。確定單元格的的統計方法,,每個單元格格的統計指標標應該是其對對應的行、列所代表表的維度取值值的并集。將維度轉化為為可執行查詢詢的語句,去去事實表中查查詢出相應的的統計數據和事實數數據,為了方方便,在數據據統計服務平平臺的報表數數據庫中還可以將查查詢到的統計計結果固化,,以數據庫表表的形式存儲儲下來。統計數據模型型將1張業務報表拆拆分為5張配置表,它它們分別是指指標表、維表、維值表、、行列表、指指標維度組合合表;最后計計算得到的結結果存儲在指標標數據表中。。平臺實現ETL處理前臺展示ETL處理ETL(extraction-transformation-loading)負責將分散的、異構構數據源中的的數據抽取到到臨時中間層層后進行清洗洗、轉換、集成,,最后加載到到數據倉庫或或數據集市中中。ETL是實施數據倉庫的的核心和靈魂魂,ETL規則的設計和和實施約占整整個數據倉庫搭建建工作量的60%~80%。ETL處理數據抽取包括初始化數數據裝載和數數據刷新:初初始化數據裝裝載主要關注注的是如何建立立維表、事實實表,并把相相應的數據放放到這些數據據表中,在數據據倉庫建模小小節中已經做做了詳細介紹紹;而數據刷刷新關注的是當當源數據發生生變化時如何何對數據倉庫庫中的相應數數據進行追加和和更新等維護護ETL處理觸發器方式((又稱為快照照式)來實現現數據刷新,,具體來說就就是:在SSA層需要抽取數據的的數據表上建建立了插入、、修改、刪除除3個觸發器(trigger),每當源數據庫中中數據表中的的數據發生變變化時,復制制到SSA的數據也會相相應發生改變,相應的的觸發器將變變化的數據寫寫入一個臨時時區(buffer);在數據庫庫層定義了一系列列的作業(job)和存儲過程程(procedure):作業規定定了包括數據刷新頻率率和數據刷新新先后次序在在內的一系列列任務調度策策略,調用相相應的存儲過程從臨時時表中抽取需需要刷新的數數據,臨時表表中抽取過的的數據被標記記或刪除;觸發器方式的的好處是:數數據抽取的性性能高、規則則簡單,對于于編程人員來來說易于上手,特別適適合北京大學學數據倉庫現現有規模還較較小的特點,,是一種簡單單易行的好辦法;但隨隨著以后數據據倉庫規模的的越來越大,,數據表越來來越多,需要要編寫的觸發器、存儲儲過程和作業業就越來越多多,可能會不不利于管理ETL處理數據清洗主要是針對源源數據庫中出出現的二義性性、重復、不不完整、違反反業務或邏輯規規則等問題的的數據進行統統一的處理,,下表列出了了北京大學在對對業務系統進進行數據清洗洗時發現的幾幾類最常見的的問題及針對這這些問題所采采取的策略。。ETL處理數據轉換主要是為了將將數據清洗后后的數據轉換換成數據倉庫庫所需要的數數據:來源于不不同源系統的的同一數據字字段的數據字字典或者數據據格式可能不一一樣,在數據據倉庫中需要要給它們提供供統一的數據據字典和格式,,對數據內容容進行歸一化化;另一方面面,數據倉庫庫所需要的某些些字段的內容容可能是源系系統所不具備備的,而是需需要根據源系統統中多個字段段的內容共同同確定;例如,數據倉倉庫中的人員員類型“事業業單位專業技技術人員”實實際上是根據人事表中中“編制類型型=事業單位”、、“崗位級別別=985”并且“人員類別=在職職工”等等多個字段的的內容共同得得出的,像這這樣字段的形成也依賴賴于數據轉換換ETL處理考察的工具ColverETL:開源ETL工具,免費版版本支持的連連接組件太少少(Pass)Kettle:功能完善,組組件齊全的處處理平臺Talend:功能完善,組組件齊全的處處理平臺Jitterbit:ETL工具,但是功功能比較簡單單,維護、日日志、監控等等功能缺乏Apatar:ETL工具,非服務務器結構,適適合單機版本本開發小的ETL程序OpenDigger:ETL工具,非圖形形化接口Springbatch:主要用于實實現調度平臺臺,配置方法法和spring工具ETL處理ETL處理Kettle優勢LGPLLicense限制較為寬松松免費的Repository使得版本管理理和代碼遷移移非常容易任務調度支持持定時,時間和命令支持JobDuplicationETL處理Talend優勢接口支持非常常豐富,包括括:各種數據據庫,文件(ExcelCSVJasonXMLMail等),外圍系統(SAP,CRM,FTP,SCP,JMS等),網絡(WS,Socket,RPC,RSS,SOAP等),流(Buffer,Row)有若干干高性性能組組件如如:外外排序序,批批量插插入(如SQLLoader)結構簡簡單,,只發發布jar包前臺展展示常見的的數據據倉庫庫的前前端展展示工工具有有BO、Cognos等,能能基于Web的直觀觀界面面,能能提供供報表表、圖圖表、、儀表表盤等等多種種展示方式式。但但都是是商業業產品品,價價格比比較昂昂貴。。ExtJs是一款款開源源的創創建前前端用用戶界界面,,是一一個基基本與與后臺臺技術無無關的的前端端ajax框架,,具有有功能能強大大、編編程簡簡單的的特點,數數據統統計服服務平平臺的的用戶戶界面面基于于ExtJS開發。。前臺展展示界界面平臺部部署結束語語提出了了基于于數據據倉庫庫技術術的高高校數數據統統計服服務平平臺,,通過過合理的架架構設設計、、科學學的數數據建建模實實現了了對數數據的的集中中存儲儲、加工,,以及及統計計數據據生成成、統統計數數據查查詢等等功能能。該該系統統能夠有效效地滿滿足高高校新新形勢勢下的的業務務發展展需求求,對對于促促進高高校數據集集約化化管理理水平平的提提升、、搭建建數據據統籌籌管理理和決決策支支持服務的的長效效機制制框架架具有有十分分重要要的意意義2013/10/1647謝謝!!9、靜夜四無無鄰,荒居居舊業貧。。。1月-231月-23Friday,January6,202310、雨中黃黃葉樹,,燈下白白頭人。。。01:08:2401:08:2401:081/6/20231:08:24AM11、以以我我獨獨沈沈久久,,愧愧君君相相見見頻頻。。。。1月月-2301:08:2401:08Jan-2306-Jan-2312、故人人江海海別,,幾度度隔山山川。。。01:08:2401:08:2401:08Friday,January6,202313、乍見翻疑夢夢,相悲各問問年。。1月-231月-2301:08:2401:08:24January6,202314、他他鄉鄉生生白白發發,,舊舊國國見見青青山山。。。。06一一月月20231:08:24上上午午01:08:241月月-2315、比不了得得就不比,,得不到的的就不要。。。。一月231:08上上午1月-2301:08January6,202316、行動動出成成果,,工作作出財財富。。。2023/1/61:08:2401:08:2406January202317、做前,,能夠環環視四周周;做時時,你只只能或者者最好沿沿著以腳腳為起點點的射線線向前。。。1:08:24上午午1:08上午午01:08:241月-239、沒有有失敗敗,只只有暫暫時停停止成成功!!。1月-231月-23Friday,January6,202310、很很多多事事情情努努力力了了未未必必有有結結果果,,但但是是不不努努力力卻卻什什么么改改變變也也沒沒有有。。。。01:08:2401:08:2401:081/6/20231:08:24AM11、成功就是日日復一日那一一點點小小努努力的積累。。。1月-2301:08:2401:08Jan-2306-Jan-2312、世間成事事,不求其其絕對圓滿滿,留一份份不足,可可得無限完完美。。01:08:2401:08:2401:08Friday,January6,202313、不知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論