數據中臺及大數據支撐平臺項目建設方案_第1頁
數據中臺及大數據支撐平臺項目建設方案_第2頁
數據中臺及大數據支撐平臺項目建設方案_第3頁
數據中臺及大數據支撐平臺項目建設方案_第4頁
數據中臺及大數據支撐平臺項目建設方案_第5頁
已閱讀5頁,還剩29頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據中臺及大數據支撐平臺項目建設方案目錄TOC\o"1-4"\h\z\u1、項目概況 11.1、項目背景 11.2、現狀分析 11.4、建設目標 21.5、建設內容 31.6、建設效果 32、項目建設方案 42.1、總體架構 42.2、總體設計原則 52.3、總體建設方案 72.4、詳細建設方案 72.4.1、數據資源梳理 72.4.1.1數據資源梳理方式 72.4.1.2信息資產梳理與編目工具 92.4.2、建立數據標準和規范 132.4.2.1信息資源標準和管理規范制定 132.4.2.2標準規范體系和管理規范制定思路 142.4.2.3標準規范體系和管理規范制定范圍 152.4.3、數據接入服務 182.4.4、基礎信息資源庫建設 202.4.4.1設計原則 202.4.4.2基礎數據庫設計 252.4.4.3中心數據庫組成 272.4.5、數據處理系統 302.4.5.1數據清洗、比對和處理步驟 302.4.5.2數據清洗系統 332.4.5.3數據比對系統設計 382.4.5.4數據處理的技術要求 422.4.5、數據資源目錄 442.4.6、數據監管服務 472.4.7、統一的數據服務 512.4.8、數據共享交換服務 572.4.9、數據中臺服務可視化服務 632.4.10、大數據支撐平臺 651、項目概況1.1、項目背景伴隨著數據量的與日俱增,基層人員對業務的理解隨著大數據思維的影響越來越活躍,日益復雜的應用需求、應用的個性化要求日益增多、模型的快速個性化開發、應用的實時交流與共享、專項行動支撐等敏捷式交互已成主流,所以目前迫切需要既能貼近員工日常各類應用的大數據支撐統一平臺。單位目前無數據留存的載體,使每次新建業務系統都需要協調其他各部門的數據未能體現數據共享的原則,隨著業務系統的不斷深入,單位也迫切打破數據壁壘,能對接各單位的數據加以綜合應用。1.2、現狀分析單位目前信息化水平已步入前列,但是在數據使用和管理上仍然存在諸多問題和矛盾,主要體現在以下幾點:單位建設了若干應用系統,系統建設后的每種應用產生的二次加工數據未回流,不知存在哪里,也沒有把二次產生的歷史數據利用起來。每次建設不同應用系統都會向上級單位申請數據,相同的數據資源重復申請,本地未能做好備份和數據積累。數據質量無法管控,數據安全性無法保證。信息不全面、不及時、不準確,容易造成管理漏洞。對數據資源價值認識不足缺乏大數據應用經驗。應用的規劃局限大,應用的建設成效不理想。1.4、建設目標通過大數據中臺建設,匯集大量單位及社會層面的數據資源,并整理形成數據資源目錄,梳理數據的字段結構、數據字典項等內容。為全面推動單位數據標準化工作、促進信息資源的共享,確保數據質量,進一步規范基礎數據采集、數據資源共享交換,以“全面整合信息資源、信息高度集成共享、方便基層人員使用、貼近一線實戰業務”為指導思想,面向決策與實戰的大數據應用與部門間業務協同等工作為目標,對單位內、外部的海量信息進行加工、處理、整合,建設具有單位局特色的大數據管理服務平臺。以數據治理為抓手,以共享服務為支撐,以實戰為唯一檢測標準。過程中以“建的精、管的細,用的好”為指導思想推進數據中臺建設。建的精:通過建立數據交換平臺和渠道,構建“大數據基礎”。管的細:通過大數據支撐跨部門跨系統的應用建設,實現“大數據綜合治理”。用的好:通過分析挖掘和營運大數據面向不同業務提供服務,建成“大數據公共服務”。1.5、建設內容結合單位的需求和實際情況,本次規劃單位數據中臺項目主要從以下幾個方面開展建設。建立單位數據標準整理目前所能獲取的數據資源單位數據接入服務數據清洗系統建立數據資源目錄建立數據監管系統建立統一的數據服務系統建立統一的數據交換系統建設數據可視化服務系統項目建設分三個階段完成,建設周期9個月。1.6、建設效果打破數據孤島,形成內部開放的數據格局基于自身的信息化建設基礎、數據基礎以及業務特點對數據中臺的能力進行定義,匯聚內外部數據,形成數據倉庫,通過清洗、數據資源目錄,開放的數據共享和交換服務,使數據在匯聚的同時,提高數據的準確和有效性,能充分達到內外部系統的方便有序共享。快速響應業務需求,靈活實現數據服務大部分服務都是圍繞數據而生,數據中臺是圍繞向上層應用提供數據服務構建的,中臺戰略讓數據在數據平臺和業務系統之間形成了一個良性的閉環,應用與數據之間的關系較之以往更加緊密。從而使敏捷前臺開發成為了可能。深度挖掘數據價值,為整合高階算法打下基礎數據資產的最大價值在于分析應用,當下的諸多高階的算法,其應用場景都是建立在一個相對規范,體量巨大的數據資產之上的。數據中臺構建了開放、靈活、可擴展的統一數據管理,將內、外部數據隨需關聯,打破了數據的系統界限。從而為日后的可視化建模等高階的分析應用提供了良好的數據基礎。因為數據的良好基礎,從而使跨維度,帶算法的分析成為可能,從而真正能實現大數據分析的“隨需而變、數里淘金”。2、項目建設方案2.1、總體架構治理、建立目錄、共享、服務、可視化的全鏈路環節。架構總體上是一種服務化的架構,各服務模塊間弱耦合。每個模塊對外的服符合邏輯的問題拆解,將每個子問題域控制在合適的粒度大小,這利于展開落地方案的架構設計,并為系統的運行演化奠定了模塊化、組件化的指導基礎。各層次間的銜接與交互采取“服務化”的設計思路,層次間弱耦合,在層間通信契約穩定的前提下,各層均可獨立的進行擴展變更。同時,基于這種松耦合的邏輯設計與實現,在部署架構上,可以支持靈活地按需部署,各種不同的模塊部件,可以按需地分布在相同或者不同的進程單元中,并且各層次內也可以根據數據處理規模來橫向伸縮擴展。2.2、總體設計原則數據中臺的涉及內容眾多,技術復雜,使用對象覆蓋面廣。因此,在建設時,項目規劃設計應遵循以下基本原則:先進性原則。本項目整個平臺應采用先進的技術,符合技術發展趨勢。數據中臺采用先進技術,針對不同的業務場景,采用不同的計算和存儲技術來對應等。平臺采用先進的架構,各個部分之間采用松耦合,一個子系統出現問題不會影響其他系統。易用性原則。平臺應注重易用性,方便用戶使用。數據中臺的各個子系統注重易用性的設計,界面和操作直觀、美觀、方便,易理解性,使用戶抓住重點,一目了然;易操作性,提供便捷、一致的操作方式,減少用戶輸入和點擊次數;易管理性,縮減安裝、配置、實施、備份的時間和難度。安全性原則。應充分保證數據的安全性,提供合理的解決方案。針對數據安全性,采用立體化的安全防范手段,一方面加強對現有安全設備的利用,另一方面應采用安全加密和脫敏系統加強對數據的防護,并結合已有的安全管理制度,共同形成高安全性防護。擴展性原則。平臺應考慮技術的發展和未來的應用需求,提供良好的擴展性,確保隨著業務的發展能夠快速進行系統的擴展。為保證系統的可擴展性設計,在系統架構上,采用系統分層設計實現。保證在設計開發上具有適應業務變化的能力,當系統新增業務功能或現有業務功能改變時(界面的改變、業務實體變化、業務流程變化、規則的改變、代碼改變等),應盡可能的保證業務變化造成的影響局部化。整體性原則。要考慮各系統之間的集成,形成一個整體對外提供服務。由于數據中臺類項目涉及的子平臺和子系統眾多,為體現系統的整體性,應提供統一門戶,完成各子平臺和子系統的身份統一和集成,完成各系統的界面、應用和數據集成,確保各部分形成一個整體統一對外提供服務。2.3、總體建設方案中臺技術建設逐步成為構建“大中臺、輕應用”的信息化建設格局,加快信息化應用創新和發展,進一步解決現有數據平臺瓶頸的重要手段和支撐。數據中臺是中臺技術的關鍵內容,數據中臺建設主要包括數據存儲、數據集成、數據治理、數據服務等方面以及相關的數據實施。數據存儲、數據集成、數據治理方面主要是為了加強數據中臺的數據處理能力,數據服務則主要是為了支持應用和業務的進一步創新和發展。同時,數據實施服務是數據中臺建設能較好落地的基礎和保障。2.4、詳細建設方案2.4.1、數據資源梳理本次項目需要的梳理的數據資源包括對接上級單位的數據資源、單位自身擁有的數據資源、調研梳理其他上級單位數據資源,上級單位和單位的數據資源相對比較明確,其他上級單位數據相對較模糊需花費一定的時間進行調研。2.4.1.1數據資源梳理方式在梳理信息資源時可以通過以下4種方式進行:l、采取不同的收集手段。A.兼容各個電子系統,收集整理數據。近幾年,隨著信息化建設的推動和發展,各個部門的信息化建設都有不同程度的提高。各個部門或多或少都建立起計算機系統,只是各個部門發展程度不一樣,有些部門電子化程度很高,絕大多數數據都納入到計算機系統中,而有些部門電子化的東西還很少。充分利用現有的各個電子系統,是獲得信息資源最有效的途徑。但在利用同時還存在一些問題,如各個部門即有自己的辦公自動化系統,又有業務系統;既有以前開發的系統,又有新開發的系統;既有可公開的系統,又有密級的系統,幾個系統間并不兼容,這樣就需要在收集整理這些數據前,先對這些系統進行整合,抽取出符合要求的信息資源。B.手工整理資源。各個部門信息化建設時總會有些數據資源被落下,特別是些老數據,像很多年前的檔案數據、歷史數據,這些數據就需要手工進行整理。2、以信息資源的時間為主線收集。信息資源雖然內容多而雜,但也是有規律地產生的,可以根據信息資源的產生的時間先后進行整理。時間的不同,部門所賦予的職責也會有變化,不同時期部門的名稱都會有明顯變化,職能的調整就更多,職能對應的資源信息也就有變化。通過時間整理數據,邏輯上比較清楚。3、以信息資源的研究內容為主線。以信息資源的研究內容整理數據,其實就是根據其職能范圍來整理數據。根據部門的每個職能,收集相應職能所涉及到的信息資源。由于有些信息資源包含的內容比較多,因此這種整理方式會有重復收集的現象。4、從業務應用出發進行梳理。業務部門在履行職能、辦理業務和事項中隨時都需要和產生的信息資源,它的存在和分布是跨行業、跨部門、跨地域的,并且大部分信息資源隨著業務的開展不斷產生和變化,是一種與政府活動相關的動態信息資源。由于各個地區經濟發展不同、各個部門職能不同,所擁有的政府信息資源也各不相同。信息資源與業務密切相關的特點要求信息資源整合方法應適應業務和信息的動態產生和變化。信息資源目錄體系就是從業務應用出發,梳理業務辦理的流程、職責、依據等,編制信息資源目錄。如針對案件研判業務,需要通過調查和梳理相關的業務環節和部門,根據業務流程,梳理和分析業務相關的信息,并且根據相關的信息資源描述規范和分類規范描述以及標識信息資源,編制面向業務的信息資源分類目錄和共享目錄,在目錄體系的基礎上進行信息資源整合。這樣的整合方法為信息資源的動態有機整合建立了基礎,可以適應政府信息隨業務處理而動態變化的特點。2.4.1.2信息資產梳理與編目工具為實現對信息資產的梳理與編目,我們在信息資源管理與服務平臺中提供了信息資產登記與管理系統。通過系統實現:采用標準化工具完成基礎信息資源的梳理,資源梳理工具的管理內容包括系統目標、組織結構、業務角色、用戶視圖等;對業務流程圖和數據流程圖進行管理,能夠識別協同關系和信息共享需求,能夠明確職責、整理和挖掘數據資源、規范數據表示;對數據庫的主題庫、邏輯實體、實體關系圖、數據映射圖、數據元標準、信息分類編碼進行管理;通過梳理明確信息資源的出口、入口、數據間關系;支持信息資源的文檔的自動化生成(數據庫設計文檔、信息資源目錄、實體關系圖等);支持思維導圖等方式的可視化展示。信息資源梳理的成果為數據交換提供數據來源、業務流程、資源目錄、標準規范等服務支撐。資源梳理工具的功能包括高階導圖、思維導圖、業務架構、數據架構、應用架構、需求管理、文檔附件、系統編碼、權限管理、項目管理、系統設置等。信息資源梳理平臺通過兩類視角進行說明:管理視角、維護視角。在管理視角下進行系統編碼字典、用戶及權限管理、項目模塊管理、系統設置等系統管理級別操作。在維護視角下對高階導圖、業務架構、數據架構、應用架構、需求管理等功能模塊內容進行編輯和查詢操作。信息資產登記信息資產登記系統實現了各類信息資產的注冊與維護,實現信息資源的編目功能。信息資產登記系統包括業務架構登記管理、數據架構登記管理和應用架構登記管理、架構資產目錄管理功能。信息資產是政府架構里的核心構成和基礎,對信息資產的梳理和編目、信息資產登記系統是政府整個信息化工作的靈魂和基石,信息資產登記系統產品用來支持信息資產初始化,并作為有序存儲和可持續管控的起點。在信息化工作過程中,將產生大量、復雜的信息,它們數量多、門類廣、分布分散、信息資源提供者和信息資源使用者的信息不對稱,這些信息只有經過梳理、分類、編目和可視化,才能變得更有價值,從而形成真正的資產,完全依靠手工和紙面管理幾乎變成不可能,必須引入資產知識儲藏庫,通過合理的架構管控,保持定義與理解的一致性,并貫穿信息化建設的始終,對信息從產生、處理、傳輸、利用的全生命周期進行梳理、規劃、設計和實施落地,保證信息和知識記存與使用的無歧義和連續性。為此,必須使用科學、合理、動態、活化的技術文檔來存儲相關信息,建立此儲藏庫是一個積累發展過程,首次規劃資料的存儲,有利于后續開發工作的進行;修訂業務架構,優化數據架構和系統架構,都建立在原有知識庫的基礎上。信息資產登記系統將滿足其他組織建立信息資產編目體系而開發的產品,可以輔助這些組織的架構管理機構或信息部門,對業務、數據、應用等進行可視化的信息資產構建工作,并支持彼此之間的關聯和可持續改進,形成清晰完整的高階資產模型。有效支撐信息資產和企業架構開發理論、方法的具體實施。產品的信息資產知識庫,存儲整個開發過程中的各種資產和資源,管理層、決策層可從不同角度、視點去審視企業的結構和運作,幫助政府或企業有效實現IT戰略。該工具軟件主要基于企業架構、信息工程、總體數據規劃、數據管理等理論,引入高階的架構開發方法和信息化建設中的標準化核心內容,工具通過中心數據庫共享功能將各模塊有機聯系在一起,集中記錄和管理需求,支持多團隊協作和各實施階段成果之間的一致性,同時,支持主流建模標準文檔的導出。 2.信息資產管理信息資產管理是系統維護人員對登記后的信息資產,實現有效的管理,并通過平臺實現對外的可視化展現與信息資源的發布。資產管理包括資源目錄的管理、文件的管理和服務的管理。信息資產管理子系統為可視化管理平臺。通過該平臺,中心管理員可管理整個域內的信息資產情況,部門管理員可管理該相關部門的資產情況。信息資產管理子系統主要包括以下幾大部分功能:1、資產總體視圖2、組織機構視角3、服務對象視角4、信息資產視角5、協同主題視角2.4.2、建立數據標準和規范建立的一套符合自身實際,涵蓋定義、操作、應用多層次數據的標準化體系。數據治理對標準的需求可以劃分為兩類,即基礎性標準和應用性標準。前者主要用于在不同系統間,形成信息的一致理解和統一的坐標參照系統,是信息匯集、交換以及應用的基礎,包括數據分類與編碼、數據字典、數字地圖標準;后者是為平臺功能發揮所涉及的各個環節,提供一定的標準規范,以保證信息的高效匯集和交換,包括元數據標準、數據交換技術規范、數據傳輸協議、數據質量標準等。2.4.2.1信息資源標準和管理規范制定標準規范體系是區單位單位大數據中心標準化工作的核心,也是區單位局大數據中心總體設計的重要內容。區單位局大數據中心標準規范體系建設過程將按標準規范辦事,使工程建設效果符合最新的行業技術質量標準規范,保證工程的先進性和可靠性,符合國家、省、市電子政務項目建設規范的要求。2.4.2.2標準規范體系和管理規范制定思路建立標準規范體系是實現城市大數據中心對外提供數據服務的重要支撐,是直接導致本項目建設成敗的重中之重。具體的建設思路如下:1)符合國家和單位局信息化規劃的相關政策法規項目相關標準規范體系設計及制度的制定,必須在國家和單位局相關政策的指導下,根據《中華人民共和國標準化法》,從項目建設的實際需要出發,統籌考慮大數據中心切實利益,進行制定。2)遵循國家相關標準規范和管理規章審查項目相關標準、規范及制度的制定,必須遵循國家信息化建設的相關標準規范,以及標準制定相關規章制度,進行起草、送審和發布。3)從區單位局信息化建設發展的大局出發項目相關標準、規范及制度的制定,要符合無錫市信息化建設總體思路,進行深入研究、探討、制定,按需建立信息資源的統一數據標準。4)充分滿足本項目建設和發展要求緊密貼合項目的建設目標,充分滿足大數據中心的建設和發展要求。2.4.2.3標準規范體系和管理規范制定范圍1.數據規范數據標準規范由公共數據元標準、公共代碼標準、公共數據存取規范和數據交換規范組成。除國信辦[2003]62號要求的六項基本信息和十二項應用信息的標準外,基礎信息庫建設還需其他信息標準的制定。(1)數據分類與編碼數據分類與編碼標準是信息化建設中標準化的一項基礎工作,該類標準規定平臺匯集、交換相關信息統一的分類系統和排列順序以及編碼規則,目的是在不同系統和用戶之間建立交通數據的一致參照,對提高數據采集、處理和數據交換效率具有重要作用。數據分類與編碼標準的制定將有力推進平臺標準化及交通信息化建設標準化的進程。(2)數據字典針對實際需求,定義數據集,建立各個領域的數據字典,規范數據概念和數據定義。在此基礎上,形成完備的集團單位數據集和數據字典。(3)元數據標準元數據標準是描述數據資源的具體對象時所有規則的集合,它包括了完整描述一個具體數據對象時所需要的數據項集合。針對各種信息資源分別制定適當的元數據標準,可為信息的管理、發現和獲取提供一種實際而簡便的方法,從而提高數據交換效率。(4)數據交換標準為了保證數據共享和交換的順利實現,必須明確定義和規范數據交換的相關標準。數據交換的標準規范是綜合信息平臺的核心標準。其中應當包括數據交換內容、數據交換格式、數據傳輸方式、各類中心間數據接口的標準化等方面。(5)數據質量標準由于數據采集任務通常由其他二級平臺完成,數據治理平臺的標準方法主要集中在數據的加工和管理上。應該重點開發的一個領域是數據質量控制方法。應當從三個方面對數據質量方法進行研究:“壞數據”或“不可靠數據”的識別,錯誤數據的編輯方法,以及缺少值的處理。2.技術規范技術規范由如下組成。基礎數據庫標準規范針對基礎信息數據庫建庫標準制定規范,并為未來其他基礎庫建設形成體系規范。外部接口規范外部接口規范為其他系統接入提供可執行規范,包括在系統接口定義、交換系統交換方式、部門接入信息字段定義、各類應用層協議等。二次開發規范二次開發規范,明確開發權限定義、數據接口定義、功能掛接定義、平臺要求等。測試規范測試規范規定測試條件、范圍、選擇數據,以及測試案例定義等。3.業務規范業務操作流程規范配合信息資源整體建設,規范業務人員操作各應用系統所確定的業務規范。安全保密規范配合信息資源整體建設,明確應用系統使用安全與保密規范,完善系統保密規范。4.信息化管理規范配合信息資源整體建設,形成信息化管理規范。業務部門數據交換共享機制規范配合數據交換平臺相關規范制定,確定業務部門數據共享機制規范,明確業務部門信息共享指南。5.系統運行管理規范。系統運行管理規范,為各級管理員和用戶提供運行管理指南與規范。6.數據維護管理規范數據維護管理規范,針對中心數據庫的各類數據,進行管理維護的規范等。數據標準對數據集成和信息資源共享具有重要意義:增強業務部門和技術部門對數據定義和使用的一致性。減少數據轉換,促進系統集成。促進信息資源共享。促進單一數據視圖的形成,支持管理信息能力的發展。消除各部門間的數據壁壘,方便數據的共享,另外數據標準同樣對業務流程的規范化有幫助作用。2.4.3、數據接入服務數據接入系統主要實現多源異構數據的跨網絡、跨地域的統一接入,為數據資源的匯聚集中、標準化處理和數據資源池構建提供支撐,功能主要有數據抽取、數據庫同步、文件導入、數據填報等。主要為了解決各級部門和組織在中心側的數據落地問題,采集后的數據統一歸集到數據湖滄庫中的“原始數據區”。需要支持的數據采集方式需包含數據流采集、數據庫采集、日志采集、接口采集、應用數據采集、網頁爬取、文件交換等多種方式。數據接入可以分為以下幾個部分:執行引擎:依照用戶設定的業務流程,完成對變更數據的捕獲。通過重做日志采集和對數據庫日志的解析,識別出變更數據內容;再通過事務的過濾、合成和加載等流程,實現事務的統一控制,確保事務的一致性和準確性。控制臺:控制臺負責為用戶提供多種管理和監控功能,包括數據采集的性能監控,異常情況的管理,采集任務的調度管理以及元數據的管理等。第三方接口:系統提供了種類豐富的第三方服務接口,包括管理監控類的接口,以及服務集成類的接口等。通過上述服務接口,用戶可以在第三方系統中進行產品的集成和二次開發,以滿足用戶不同業務場景的功能需求。在數據接入過程中采根據建立的數據標準,用數據清洗模型可快速對不同的數據進行整合清洗。數據接入日志:接入數據做好日志記錄,可根據要求定制日志需記錄的內容。本次規劃的數據接入包含如下幾種類型:(1)單位現有存量數據的數據接入:該部分數據主要是依托大數據基礎平臺提供的數據庫環境,開展存量數據的抽取、標準化轉換和加載工作最終將該類數據整合到單位大數據資源庫。(2)現有業務系統不斷新增的生產數據的數據治理:該部分數據的處理根據源數據的提供方式不同,分為兩部分:一是源數據的業務系統直接開放數據庫賬號(只讀),直接通過數據庫直連的方式進行數據抽取整合;二是源數據的業務系統開放webservice接口,設置相關的訪問規則,然后通過該數據接口進行數據抽取整合。(3)市單位局同步的數據,根據上級單位接口的要求,針對性的對每種數據開發對應的接口,根據上級單位數據同步的周期,可以和數據更新周期,也可以定時抽取同步。同步上級單位的數據可采用數據抽取、數據庫同步、斷點續傳等多種方式。(4)單位體系外黨政單位、社企單位所共享出來的數據資源與社會化采集資源,例如工商數據(法人庫)、稅務數據、社醫保數據、銀行數據等,需要利用單位安全邊界平臺,實現與此類數據的整合作業。通過數據接入服務,建立了部分符合數據標準要求的單位數據倉庫。2.4.4、基礎信息資源庫建設2.4.4.1設計原則城市大數據中心數據庫的數據涉及到各類基本信息資源、擴展信息資源,以及多種專業應用等多方位多層次數據和信息。數據類型有數字、文字乃至圖片等,主要以表格形式表現,既有實時采集數據,也要包含多年歷史數據。對于基于大型關系數據庫的核心業務系統,數據庫是系統的核心。數據庫結構的設計也就是項目成敗的關鍵。設計不好的數據庫,會增加編程復雜度、后期維護繁瑣、系統性能低下等等問題。由此,數據庫設計之初必須遵守如下設計原則。盡量減少數據冗余,實現最低的存儲空間、最高的存取速度、確保各數據項間的關系規范,能夠展現完整的政務信息視圖。數據庫的數據規范化設計達到第四范式(4NF)。關系模式規范化設計的基本思想是通過對關系模式進行分解,用一組等價的關系子模式來代替原有的關系模式,消除數據依賴(包括函數依賴和多值依賴)中不合理的部分,使得一個關系僅描述一個實體或者實體間的一種聯系。這一過程必須在保證無損連接性、保持函數依賴性的前提下進行,即確保不破壞原有數據,并可將分解后的關系通過自然聯接恢復至原有關系。規范化設計的優點包括可有效地消除數據冗余,理順數據的從屬關系,保持數據庫的完整性,增強數據庫的穩定性、伸縮性、適應性。通常認為規范化設計存在的主要問題是增加了查詢時的連接庫表運算,導致計算機時間、空間、系統及運行效率的損失。在大多數情況下,這一問題可通過良好的索引設計等方法得到解決。具體地說,規范化設計的過程就是按不同的范式,將一個二維表不斷地分解成多個二維表并建立表之間的關聯,最終達到一個表只描述一個實體或者實體間的一種聯系的目標。目前遵循的主要范式包括1NF、2NF、3NF、BCNF、4NF和5NF等幾種;在工程中3NF、BCNF應用得最廣泛,本次項目采用4NF作為標準。此外,數據庫系統對信息的處理、獲取、發布、存儲等提出了很高的性能要求。主要體現在以下幾個方面:一、信息的存儲,以及日益膨脹的歷史數據。二、信息的檢索,各種各樣的用戶如何從一個數據庫中快速的查詢到所需的信息。三、數據的完整性和一致性如何保證。隨著客戶/服務器(Client/Server)技術的成熟和大型關系型數據庫(LDBMS)技術的發展,出現了Oracle,Sybase,Informix,DB2,MsSqlserver等一些著名的數據庫產品,使得這些問題得到完美的解決。但是,一個好的數據庫產品不等于就有一個好的應用系統,如果不能設計一個合理的數據庫模型,不僅會增加客戶端和服務器端程序的編程和維護的難度,而且將會影響系統實際運行的性能。一般來講,在一個軟件系統分析、設計、測試和試運行階段,因為數據量較小,設計人員和測試人員往往只注意到功能的實現,而很難注意到性能的薄弱之處,等到系統投入實際運行一段時間后,隨著數據的日益膨脹,才發現系統的性能在降低,這時再來考慮提高系統性能則要花費更多的人力物力,而整個系統也不可避免的形成了一個打補丁工程。依據在軟件行業信息化應用中的數據庫設計和使用經驗,以及對項目建設的理解,提出以下一些設計準則:命名規范原則。不同的數據庫產品對對象的命名有不同的要求,因此,數據庫中的各種對象的命名、后臺程序的代碼編寫應采用大小寫敏感的形式,各種對象命名長度不要超過30個字符,這樣便于應用系統適應不同的數據庫平臺。游標的慎用原則。游標提供了對特定集合中逐行掃描的手段,一般使用游標逐行遍歷數據,根據取出的數據不同條件進行不同的操作。尤其對多表和大數據表定義的游標(大的數據集合)循環很容易使程序進入一個漫長的等待甚至死機。在有些場合,有時也非得使用游標,此時也可考慮將符合條件的數據行轉入臨時表中,再對臨時表定義游標進行操作,可使得性能得到明顯提高。索引(Index)的使用原則。創建索引一般有以下兩個目的:維護被索引列的唯一性和提供快速訪問表中數據的策略。大型數據庫有兩種索引即簇索引和非簇索引,一個沒有簇索引的表是按堆結構存儲數據,所有的數據均添加在表的尾部,而建立了簇索引的表,其數據在物理上會按照簇索引鍵的順序存儲,一個表只允許有一個簇索引,因此,根據B樹結構,可以理解添加任何一種索引均能提高按索引列查詢的速度,但會降低插入、更新、刪除操作的性能,尤其是當填充因子(FillFactor)較大時。所以對索引較多的表進行頻繁的插入、更新、刪除操作,建表和索引時應設置較小的填充因子,以便在各數據頁中留下較多的自由空間,減少頁分割及重新組織工作的產生的概率。通常,還要根據算法邏輯關系動態調整數據庫信息表的索引。數據的一致性和完整性。為了保證數據庫的一致性和完整性,設計人員往往會設計過多的表間關聯(Relation),盡可能的降低數據的冗余。表間關聯是一種強制性措施,建立后,對父表(ParentTable)和子表(ChildTable)的插入、更新、刪除操作均要占用系統的開銷,另外,最好不要用Identify屬性字段作為主鍵與子表關聯。如果數據冗余低,數據的完整性容易得到保證,但增加了表間連接查詢的操作,為了提高系統的響應時間,合理的數據冗余也是必要的。使用規則(Rule)和約束(Check)來防止系統操作人員誤輸入造成數據的錯誤是設計人員的另一種常用手段,但是,不必要的規則和約束也會占用系統的不必要開銷,需要注意的是,約束對數據的有效性驗證要比規則快。所有這些,設計人員在設計階段應根據系統操作的類型、頻度加以均衡考慮。事務的陷阱。事務是在一次性完成的一組操作。雖然這些操作是單個的操作,Oracle數據庫能夠保證這組操作要么全部都完成,要么一點都不做。正是大型數據庫的這一特性,使得數據的完整性得到了極大的保證。數據庫性能調整。在計算機硬件配置和網絡設計確定的情況下,影響到應用系統性能的因素不外乎為數據庫性能和客戶端程序設計。而大多數數據庫設計員采用兩步法進行數據庫設計:首先進行邏輯設計,而后進行物理設計。數據庫邏輯設計去除了所有冗余數據,提高了數據吞吐速度,保證了數據的完整性,清楚地表達數據元素之間的關系。而對于多表之間的關聯查詢(尤其是大數據表)時,其性能將會降低,同時也提高了客戶端程序的編程難度,因此,物理設計需折衷考慮,根據業務規則,確定對關聯表的數據量大小、數據項的訪問頻度,對此類數據表頻繁的關聯查詢應適當提高數據冗余設計。數據庫模實體生成后,應根據應用系統的事物大小、服務器的性能調整數據庫服務器的系統參數,一般來講,有兩個系統參數鎖(Locks)的數量、內存(Memory)和過程高速緩存(Procedurecache)大小應加以提高,可以提高數據庫的操作性能。2.4.4.2基礎數據庫設計數據庫設計是建立數據庫及其應用系統的核心和基礎,它要求對于指定的應用環境,構造出較優的數據庫模式,建立起數據庫應用系統,并使系統能有效地存儲數據,滿足用戶的各種應用需求。一般按照規范化的設計方法,常將數據庫設計分為若干階段:需求分析階段需求分析階段要在用戶調查的基礎上,通過分析,逐步明確用戶對系統的需求,包括數據需求和圍繞這些數據的業務處理需求。通過對組織、部門、企業等進行詳細調查,在了解現行系統的概況、確定新系統功能的過程中,收集支持系統目標的基礎數據及其處理方法。系統規劃階段系統規劃階段主要是確定系統的名稱、范圍;確定系統開發的目標功能和性能;確定系統所需的資源;估計系統開發的成本;確定系統實施計劃及進度;分析估算系統可能達到的效益;確定系統設計的原則和技術路線等。對分布式數據庫系統,還應分析用戶環境及網絡條件,以選擇和建立系統的網絡結構。概念設計階段概念設計階段要產生反映單位各組織信息需求的數據庫概念結構,即概念模型。概念模型必須具備豐富的語義表達能力、易于交流和理解、易于變動、易于向各種數據模型轉換、易于從概念模型導出與DBMS有關的邏輯模型等特點。邏輯設計階段邏輯設計階段除了要把E-R圖的實體和聯系類型,轉換成選定的DBMS支持的數據類型,還要設計子模式并對模式進行評價,最后為了使模式適應信息的不同表示,需要優化模式。物理設計階段物理設計階段的主要任務是對數據庫中數據在物理設備上的存放結構和存取方法進行設計。數據庫物理結構依賴于給定的計算機系統,而且與具體選用的DBMS密切相關。物理設計常常包括某些操作約束,如響應時間與存儲要求等。系統實施階段系統實施階段主要分為建立實際的數據庫結構;裝入試驗數據對應用程序進行測試;裝入實際數據建立實際數據庫三個步驟。2.4.4.3中心數據庫組成中心數據庫是大數據中心的核心數據庫,根據項目建設要求包括:信息采集庫、綜合信息庫、規則數據庫、元數據庫和管理數據庫。如下所示:圖:中心數據庫組成舉例中心數據庫各庫間邏輯關系如下所示。1.信息資源采集庫中心信息資源采集庫部署在交換信息中心,其數據結構與各部門交換的數據源結構相對應。信息資源采集庫的內容來源于各個政務部門業務庫,是由各業務庫通過數據共享與交換平臺匯總形成,它是綜合信息數據庫的生成來源。如上圖所示。2.綜合信息數據庫綜合信息庫是基于信息采集庫生成的信息數據庫。包括將信息采集數據庫數據經過比對和整合系統進行比對、梳理形成的如法人和人口基礎信息庫等,和根據應用需求梳理、匯總形成的支撐各類主題的專業數據庫。人口信息基礎庫與法人基礎數據庫等的設計來源于部門業務資源,根據部門業務信息資源進行結構設計。3.規則數據庫該數據庫用于存儲數據庫應用、維護中的各種規則。包括比對整合系統比對規則信息,比對輔助信息,交換系統各類規則信息等。應用系統的運行必須制定相應的規則,包括用戶權限設計、比對策論與方法規則,以及應用的調用規則等。4.元數據庫元數據庫用于存儲對數據項的描述信息。根據國家《政務信息資源目錄體系》(GB/T21063-2007)標準的規定,核心元數據的定義包含6個必選的元數據實體和元數據元素,分別是:信息資源名稱:縮略描述政務信息資源內容的標題。信息資源摘要:對資源內容進行概要說明的文字。信息資源提供方:信息資源的完整性、正確性、真實性等負有責任的業務部門的名稱和地址信息。信息資源分類:說明共享政務信息資源分類方式及其相應的分類信息。信息資源標識符:信息資源的唯一不變的標識編碼。元數據標識符:元數據的唯一標識。此外,配合目錄體系建設,此次的企業和人口基礎信息建設的核心元數據,還包括6個可選的元數據實體和元數據元素。信息資源發布日期:信息資源提供方發布共享政務信息資源的日期。關鍵字說明:說明共享政務信息資源的關鍵字內容及其依據。在線資源鏈接地址:可以獲取共享政務信息資源的網絡地址。服務信息:描述政務信息資源提供者所提供的計算機服務功能接口的基本信息。元數據維護方:對元數據內容負責的政務部門的名稱和地址信息。元數據更新日期:更新元數據的日期。5.管理數據庫管理數據庫用于存儲問題數據、日志及權限等信息。包括比對過程問題數據;面向安全性的用戶管理、權限管理和密碼管理;面向可用性的節點管理和狀態監控;面向運行管理機制的信息管理。2.4.5、數據處理系統2.4.5.1數據清洗、比對和處理步驟在數據經過數據共享交換平臺處理完成之后,針對基礎數據的入庫還需要經過數據處理方能正式入庫,以達到數據的統一和標準化,數據入庫流程如下:圖:數據入庫流程接下來圍繞數據比對、清洗及建庫來展開介紹。數據處理主要包含兩個方面:數據清洗、數據比對、數據遠管理、規則管理、數據整合流程管理、作業管理,下面分開展述:數據清洗:按照通用或者指定的清洗規則,針對數據本身屬性錯誤的數據進行過濾,例如:身份證號碼位數,只有15位或者18位,其他位數即可認定為身份證號錯誤,通過過濾規則,即可將這類錯誤數據過濾。通過數據清洗功能,為數據比對提供干凈、準確的數據環境。數據比對:將同一屬性但來自不同數據源的數據,通過制定的比對規則進行比對,例如:同一人的婚姻狀況信息即可來自單位部門,也可來自民政部門,通過數據比對,比對一致,即可認定該人的婚姻狀況準確,不一致,則認定為錯誤,反饋到相關部門進行核查。中心通過清洗比對系統,對采集庫獲取的各部門匯總信息進行清洗、比對,形成標準、規范、準確、可信度高的法人和人口基礎信息。數據清洗比對系統主要功能包括:數據源管理:通過數據源管理模塊可以定義多種數據源連接,獲得數據源的元數據,對數據源可進行增刪改查等操作。規則管理:通過通用數據規則管理模塊,可以將基礎數據規則庫內的規則進行組合,形成新的規則。除了以圖形方式進行規則的組合和定義之外,還可以通過腳本定義更復雜的規則,包括規則的輸入參數和返回值等。通過這兩種方式自定義的規則都可被進一步使用,組合成更復雜的規則。某個項目下的自定義規則可以另存為擴展規則作為所有項目公用的擴展規則。數據整合流程管理:數據整合流程的定義是通過在圖形界面上指定數據處理組件之間的關聯關系而完成的。數據處理組件包括數據過濾,數據轉換等多種類型。從數據整合流程生成數據作業,數據作業可以直接放入數據處理引擎執行。作業管理:作業管理模塊負責將數據處理流程轉換為可運行的數據作業,并將作業上傳到中心管理平臺上,由中心平臺對作業進行統一的調度和管理。2.4.5.2數據清洗系統數據清洗實現對不符合規定格式的數據的“洗除”,利用用戶認可的過濾規則,過濾那些不符合要求的數據,最終將過濾的結果交給相關業務部門的過程。數據清洗系統的功能包括元數據管理、數據服務、數據規則管理和安全模塊。具體如下。元數據管理元數據記錄了數據源的結構信息,有了元數據才能對數據源進行各種操作,元數據管理模塊提供了對各數據源的元數據進行注冊,加載,查看等功能。數據清洗系統首先提供對關系型數據庫元數據的支持,以后可以逐漸擴展到對XML格式,消息隊列,文件,以及應用程序的特殊格式等進行支持。管理平臺通過元數據存儲模塊提供的接口,獲得元數據倉庫中所有元數據的列表,并通過樹狀結構呈現出來。業務元數據和技術元數據分別顯示,技術元數據還可以按各數據源的實際類型分類顯示。管理平臺的使用者可以對元數據進行修改或刪除等操作。元數據存儲模塊集中存儲了各個數據源的技術元數據(由數據源注冊而來),業務元數據(由數據源注冊或通過中心操作管理平臺定義),以及從技術元數據到業務元數據的映射規則等內容。元數據注冊模塊則負責監聽數據源的注冊請求,當接收到注冊請求時,注冊模塊會分析接收到的元數據是否有效,并將有效的元數據注冊到元數據存儲模塊中。在每個數據源端,元數據是通過XML文件描述的,在注冊數據源元數據的時候,數據源管理模塊會把要注冊的元數據生成XML文檔,并通過元數據注冊模塊提供的接口將此XML文檔注冊到中心。元數據存儲模塊還對外提供了一系列的接口,允許外部應用程序通過這些接口對元數據倉庫進行一些操作,比如獲得元數據列表,查詢某些符合條件的元數據,注冊新的元數據等。信息資源元數據根據部門共享信息資源的內容進行編目,提取其基本特征,按照《政務信息資源目錄體系標準》(GB/T21063-2007)第三部分核心元數據、第四部分分類標準、第五部分資源標識編碼等相關標準,實現元數據賦值,形成目錄內容。編目過程遵循以下國標規定的技術要求:編目對象是具體的共享信息資源,主要內容包括數據集、檔案、法律法規、文件、報告、服務等,具體的形式可以是數據庫、圖片、文檔、音頻、視頻、網頁、服務等;編目系統應支持自動、機輔方式完成元數據元素的賦值;唯一標識符管理功能:按照GB/T21063.5-2007,支持唯一標識符的分配和賦值,包括支持后段碼的自動生成和管理;標準符合性檢查功能:支持政務信息資源元數據完整性和標準一致性檢查,元數據完整性檢查的主要目的是保證所有必選的元數據實體和元數據元素已經賦值,標準一致性檢查的主要目標是保證已填寫的元數據實體和元數據元素的取值符合GB/T21063.3-2007、GB/T21063.4-2007和GB/T21063.5-2007的規定;信息資源分類:按照GB/T21063.4-2007,實現對共享政務信息資源的分類。數據服務數據服務是數據清洗系統中最核心的部分,由于采用了面向服務的架構(SOA),對數據的操作全部被包裝成服務的形式,數據服務種類的多少決定了對數據可以進行什么樣的操作。數據清洗系統提供了一些預定義的基礎數據服務,如數據傳輸,數據轉換,數據清洗,數據比對,數據加載,數據共享等。同時還支持用戶自定義數據服務并注冊到平臺上,形成多樣化的擴展服務,實現了數據服務的安全性,可靠性,以及可調度性等。數據清洗服務是數據清洗系統的核心,作為一個面向服務的平臺,數據清洗系統是由多個數據清洗服務組成的,其中包括一系列預定義的基礎數據服務,這些基礎數據服務包括以下幾個:數據清洗:數據清洗過程應該包含兩個層次的含義,第一是數據過濾,將源數據按照一定的過濾規則進行區分,符合規則和不符合規則的數據分別存放到不同的數據表中;第二就是真正意義上的數據清洗,即按照清洗規則將數據源中的數據直接進行轉換,并代替原來的數據。在實際工作中,可以先實現數據過濾的功能。不管是數據過濾還是數據清洗都需要相應的規則,由規則定義模塊負責制定。數據比對:數據比對過程對兩個數據表中的數據按照規則進行比對,比如只在某一個表中存在的數據,或者通過字段之間的關系定義比對規則。比對之后生成符合比對規則的結果表,和比對的統計信息表。數據加載:即在目的數據源中有一張目的表,多個數據源的多張表通過一定的加載規則將結果數據加載到這張目的表中。在實際的工作中,往往是有一張表作為基準數據表,首先進行加載入庫的操作,然后其它數據表通過與基準表進行比對,將相應的信息插入或更新至目的表中。數據轉換:數據轉換可以看作是數據傳輸和數據清洗過程的結合,數據源的數據按照一定的轉換規則生成新的數據并存放至目的數據源中。數據轉換支持數據字段之間一對多,多對一,以及多對多的映射關系。底層使用XSLT描述數據轉換的內容。數據共享:對分布式的異構數據源進行集中統一的查詢。中心有一個統一的數據視圖,但是并不保存數據,只有在進行查詢的時候,才將查詢語句拆分并發布到每個數據源進行實際的數據查詢。每個數據源查詢得出的結果整合之后返回給中心的查詢者,從而得到想要的查詢結果。除了以上這些基礎數據清洗服務之外,數據清洗系統還應支持用戶自定義數據清洗服務,并提供數據清洗服務注冊接口,用戶可以按照提供的數據服務定義規范制定自己的數據清洗服務,并通過注冊接口將服務注冊到數據清洗系統的平臺上。數據清洗服務的定義和注冊機制提供了極大的擴展性,使得添加新的功能更加方便。數據規則管理許多數據操作,如數據清洗,數據比對,數據轉換等,都需要通過一定的規則才能完成。數據清洗系統的規則管理模塊提供了定義規則的用戶界面,使用者可以很方便的以圖形方式定義自己的規則。同時還提供了解釋規則的規則引擎,以及存儲規則的規則倉庫。在數據清洗,數據比對,數據轉換等基礎數據服務,以及很多自定義的擴展服務中,都需要指定按照何種方式對數據進行操作,也就是數據操作規則。這些規則由規則管理模塊定義并維護,規則管理的內容包括:提供基礎的函數庫,這里面的函數是定義一切規則的基礎,通過函數的組合關系,可以進行規則的定制。支持規則的保存和重用,已定義的規則可以被用在新的規則定義中,從而制定更復雜的規則,減少了重復勞動。提供定義規則的圖形界面,用戶不需要手工書寫規則文件的內容,而是只要在界面上通過拖拉連接的方式即可,已保存的規則可以在圖形界面上再次打開修改。規則文件以xml格式保存,被保存在項目目錄下的自定義規則子目錄中,可以考慮采用xslt的格式。為一些常用的規則提供已定義好的規則模版,用戶可以直接使用,或重用這些模版定義新的規則。支持項目之間規則的導入導出。支持多個規則按一定順序連接形成的規則流程。使用規則時,從已有的規則庫中選擇要用的規則,并定義從數據表字段到規則變量的映射關系,從而從一個規則模版生成跟數據相關的具體規則。安全模塊主要負責用戶權限的管理。安全模塊應該包含兩方面的內容,一是用戶的權限管理,包括用戶登錄,用戶對功能模塊的使用權限,數據源、規則的查看、修改、或刪除權限等;另一方面是數據傳輸的安全,因為大部分的數據服務都是包括數據傳輸部分的,如何保證數據的安全傳輸是一個很重要的方面。2.4.5.3數據比對系統設計數據比對服務系統主要解決不同數據集合間的數據比對問題。系統基于J2EE架構,提供了數據轉換與加載、數據預處理、比對規則設置、比對引擎、比對分析報告等功能模塊。政府、企事業單位用戶根據對數據比對的需求,利用系統提供的功能,可以方便、快捷地在線實現數據比對分析,提供自動比對和手工比對策略相結合的方式,改變傳統的手工比對工作方式的不足,提高辦事效率。同時,可大大節約建設專用數據比對分析系統的資金。數據比對服務系統可以滿足多種信息比對、分析的需求,主要功能是比較不同數據集之間的差異性。比較兩個數據集合之間的差異情況,如企業基礎信息比對是這種情況的一個典型應用,通過比較工商、質監、稅務部門之間企業注冊登記、變更登記、注銷登記信息,找出不同部門之間重復采集、重復錄入造成的數據不一致問題,同時,通過比較可以發現在工商部門注冊,但未在稅務部門辦理稅務登記;已辦理稅務登記注銷但未辦理工商營業執照注銷等企業信息,加強稅源監控力度。比較的方法是以企業的工商注冊號、企業名稱為比較依據,對比不同部門提供的企業信息,等到完全一致的信息,企業名稱相同、企業注冊號不同,企業注冊號相同、企業名稱不同,工商有但稅務沒有的企業信息等多種不同情況比對結果。本次系統建設,將比對系統引擎嵌入到系統底層,實現如法人基礎信息和人口基礎信息的比對引擎調用,根據法人基礎信息和人口基礎信息的比對規則,制定的比對策略,根據一數一源的原則,保證數據規則確定的唯一性,實現多層次的比對方法和策略。數據處理流程進行數據比對處理的一般包括4個環節:(一)系統初始化(1)系統管理員建立用戶,并分配用戶權限。(2)用戶數據建模,規劃定義比對數據的原始數據結構、比對數據庫表結構以及兩者之間的映射關系,定義數據比對結果表結構。數據建模完成后,可以被同類型數據重復使用。(二)規則定義和任務配置(1)定義規則:用戶利用工具集定義數據過濾、數據比對映射、數據入庫規則。(2)配置比對任務:用戶建立比對任務,任務的內容是執行不同的規則。(三)運行使用(1)用戶上傳原始文件,系統自動入庫(2)執行比對任務,自動或人工執行比對任務(3)使用比對結果:瀏覽比對結果、生成結果報告數據關系轉換為了適應不同用戶的需求,系統提供了數據關系轉換功能,用戶可以自定義數據結構。數據關系轉換功能的要點如下:(1)定義原始數據文件:確定原始數據文件類型、數據結構。原始數據文件支持各類數據庫文件、文本文件、Excel文件、XML文件、Access文件等。(2)定義數據庫結構:原始數據的數據庫表結構、比對結果數據表結構。(3)定義原始數據文件與數據庫表的映射關系及數據轉換關系。規則管理規則配置包括:數據過濾規則配置、數據比對規則配置、比對結果入庫規則配置。(1)數據過濾規則配置:配置數據過濾條件,篩選數據。一般包括:字段類型校驗、字段值是否為空校驗、字段值長度校驗、字段間關系校驗等。(2)數據比對規則配置:定義數據比較的規則,如比較的字段項、比對條件等,系統提供測試功能,用戶可以直接運行測試配置的比對規則。(3)比對結果入庫規則配置:配置比對結果存儲規則。任務管理任務管理包括任務配置、任務監控等功能。任務配置用來定義任務定時或周期性啟動比對規則進行數據比對處理。任務監控功能可以監控任務執行歷史情況。比對結果查看對系統進行比對后的數據進行相關的條件查詢,并根據用戶的需求導出為相應的文件。支持的文件主要有:Excel、XML、TXT等。比對結果數據主要分為兩大類:比對匹配上的數據和比對匹配不上的數據。其他功能數據比對服務系統還提供用戶管理、權限管理、數據源配置管理、日志管理等系統級功能。2.4.5.4數據處理的技術要求數據處理是完成一個完整數據交換流程中的一個重要環節,是數據交換平臺所應具備的重要功能之一。數據處理過程包括數據抽取、數據橋接、數據過濾、數據清洗、數據比對和數據入庫幾個重要步驟。通過對數據處理流程及規則的解析,根據定義的運行任務,自動執行數據處理工作,完成對數據的過濾、清洗、映射、轉換等功能。數據處理引擎支持模板技術,能夠根據不同的模板執行不同的處理語言,包括多種數據庫存儲過程、JAVA語言、C語言等。數據處理功能可以通過手工方式和圖形化配置工具兩種方式實現。由于圖形化數據處理方式帶來的便捷性、可靠性、技術先進性和易維護性等特點,新一代的數據交換平臺必須聽過強大的數據處理功能。對主流數據庫和常用格式化文件的支持支持所有的ODBC或JDBC兼容數據庫,包括Oracle、Sybase、Informix、MicrosoftSQLServer等。可以方便的實現對數據庫的訪問,無論從數據庫抽取數據,還是插入數據。支持格式化數據文件,如XLS、XML、文本文件等。數據轉換實現源數據庫和目標數據庫之間的信息的轉換,根據需求對抽取的數據進行必要數據處理配置,不需要開發代碼,提供圖形化界面,方便用戶設置數據轉換規則。轉換的類型包括:字段名轉換、代碼轉換、數據類型轉換、數據校驗、數據合并等。數據抽取方式支持完全提取和增量提取兩種方式。完全抽取是一次性將源數據庫的所有業務數據抽取到目標數據庫中;增量抽取是只將發生過增、刪、改的新鮮數據抽取到目標數據庫中。支持數據庫映象方式的數據抽取。支持實時、定時、周期等多種采集方式。對負載均衡及容錯的支持前置交換結點(適配器)應提供負載均衡及容錯支持功能,任何一臺機器發生故障均不影響整個交換結點的正常工作和運行,在交換任務繁忙是可將任務自動分配到多臺交換前置機上運行。部門維護“零管理”的支持應用適配器是在中心管理和維護的,對部門來說,無需任何維護和管理工作。數據過濾和清洗設置數據轉換字典,定義數據庫中的臟數據及所述臟數據的修改規則;獲取所述數據庫的屬性,數據屬性包括數據的編碼格式、字符格式及字符長短;按照規則對編碼格式不符合設定標準的數據和含有“臟數據”的數據進行修正;對所述讀取的數據進行標準化處理,將經過標準化處理后的新數據導入數據庫或送到交換平臺。2.4.5、數據資源目錄數據資源目錄管理是,建立統一的數據匯集庫和管理界面,方便數據運維管理人員對“標準數據區”的數據進行管理、分類、查找。數據接入獲取到的結構化數據進行全量的存儲。根據建立的數據標準進行相應的數據處理后,可根據主題建立多級目錄進行管理。圍繞業務流程和研判分析等應用需要可建立各種類型的專題資源庫。通過對結構化數據進行二次抽取關聯,按不同業務主題建立專題庫、支持將結構化數據通過二次抽取,建立可進行全文檢索的全文庫。1)關聯資源庫在基礎數據資源庫的基礎上,采用關聯的技術方法,建立關聯模型,實現各類數據資源的關聯和集成調用。建立要素內各類基礎數據的集成關聯以及各要素事實表相互間的關聯,并進一步延伸實現各要素內基礎業務管理數據及可關聯共享數據維度表相互間的關聯。2)專題資源庫圍繞業務流程和研判分析等應用需要,基于基礎數據和綜合關聯數據,按照一般地級市單位局不同的應用側重點,分類研究制定不同的數據組織策略和技術實現方法,建設形成流程應用和專題研判兩大應用層面數據資源庫。建立具有專題性質和關聯關系的表。主要包含三個功能模塊:a、行篩選。b、列篩選。c、表關聯。通過行篩選可進行內容的篩選,如籍貫選擇:新疆。通過列篩選可選擇需要建立專題表所包含的字段,將無用字段進行剔除。通過表關聯將數據進行邏輯上的打通,實現數據間的關聯。專題庫可對外開放給業務人員進行數據接口的調用。1)類目標庫類目標庫按照單位“五要素”的數據大類分類習慣,分為“人、車、地、物、組織”五大類,可根據業務要求對要素分類進行重新歸類整合。2)專題目標庫專題目標庫按照數據的業務分析研判使用習慣,包括“涉恐重點人員專題庫”、“高危車輛活動匯集專題庫”、“涉穩情報線索專題庫”、“重大安保專題庫”、“關系人員專題庫”、“人車布控專題庫”等,可根據業務要求無限制拓展專題庫種類和范圍。此外專題庫的單位包括但不限于以上的內容,可在項目執行過程中不斷細化分類。3)全文資源庫在完成基礎數據資源庫、綜合關聯資源庫和應用數據資源庫建設的基礎上,按照數據資源邏輯關聯、集成共享的目標要求,建設統一的標化共享全文資源庫,用于描述存儲其他數據中心開放共享和局方開放給其他數據中心共享的各類數據資源目錄清單、共享服務方式和調用路徑等信息。在基礎資源庫上進行二次抽取建立的全文庫,目的為進行全文檢索的底層庫。進行數據庫全文檢索時僅可檢索出全文庫中的數據。并在全文庫中建立一級目錄便于在全文檢索結果中進行分類查找。在創建全文表時需選擇首頁展示字段,在全文搜索的結果的第一頁面進行展示。數據資源目錄的建設可以使數據的管理者清楚知道目前的數據總量、數據類型、數據來源以及方便的查找每種類型數據的獲取方法獲取路徑。能做到方便的數理淘金。2.4.6、數據監管服務數據監管服務包含了數據運維監管和數據質量監管兩大部分。數據質量監管:數據作為信息化應用的主體,本身具有多重特性,不僅有適用性、準確性、完整性、及時性、有效性等質量特性,還具有可取得性、可銜接性、可解釋性、客觀性、專業性、可比性等非質量的應用屬性。所采集原始數據的真實性是確保整個統計數據質量的基礎。要對數據質量進行較好地控制,就必須對數據的質量特性進行很好了解,從而在各個方面采取措施,杜絕數據質量問題的出現,使數據監督工作能夠真正達到控制數據質量的目的。數據質量管理可以根據用戶的業務規則和邏輯,通過大量內置的質量校驗模型對原始的業務數據進行檢查,并生成質量檢查報告。業務人員可以根據質量檢查報告及時修正原始的業務數據,提升業務數據的完整性、一致性、準確性等質量問題,實現改善數據質量的目的。產品能夠分析多種類型的數據源,包括國內外主流的數據庫Oracle/MySQL/SQLServer/DB2/Sybase/Netezza/HIVE/HBase/神通/達夢/金倉/通用等;支持txt/csv格式的文本數據源校驗。同時,可以通過擴展接口配置,提供擴展新數據源功能。業務數據檢查通過數據挖掘分析出異常數據對異常數據進行檢查質量模型管理質量模型管理主要負責管理業務校驗模型,功能包括新建校驗模型、修改校驗模型、刪除校驗模型、搜索校驗模型、校驗模型分組管理以及分發校驗模型。質量規則管理質量規則管理主要負責管理系統的質量校驗規則,包括對數據質量規則的新建、刪除、修改、導入導出等,同時提供質量規則分組管理功能,便于對數據質量規則進行分類。質量規則擴展系統除了內置大量已有的通用質量規則以外,還應支持質量規則的自定義擴展能力。允許用戶依據具體的行業特性自定義擴展校驗規則,具體擴展方式包括常規校驗規則,正則表達式校驗規則和JavaScript表達式校驗規則等。校驗維度管理產品提供完全基于web方式的管理和配置,可以提供多種校驗維度,包括表間校驗、表級校驗和字段級校驗三種。以上三種不同的校驗維度均需內置大量常用的校驗規則,滿足日常的數據校驗需求。數據質量監控數據質量監控是對任務最近執行情況的管理與跟蹤,主要包括了快速搜索任務、運行校驗任務、查看校驗報告、檢查規則、重置值域緩沖數據等功能。質量報告管理針對數據質量校驗結果,系統可以出具質量校驗報告,報告可以提供在線查閱的功能,能夠詳細展示每次校核任務的執行結果,判斷數據質量問題的具體細節,同時,用戶可以通過頁面下載所有的錯誤數據,便于業務人員進行數據修正。數據質量分析可以方便的查看各個數據源和某一時間段內的數據健康情況和排名統計,以及系統數據的規則數統計和問題數據量統計等信息,便于用戶宏觀地掌控系統數據質量情況。同時,系統提供“數據質量評估統計結果”,“數據質量分數走勢圖”和“問題數據占比走勢圖”等統計功能。錯誤數據入庫允許用戶通過系統配置自定義錯誤數據寫入的目標庫。在數據質量校驗后,產品將錯誤數據自動寫入目標庫中,用戶可以在數據庫中查看所有錯誤數據。規則權重管理允許用戶自定義校核規則的權重,即可以自定義某一個校驗規則的全局權重值,也可以自定義某一個校核方案中具體規則的權重值。成功設定權重值后,質量校核的打分將依據最新的權重值進行計算。多種碼表管理產品提供數據質量校核碼表管理功能,支持業務碼表管理和系統碼表管理。業務碼表管理可以根據用戶自定義的數據源,通過SQL語句自定義碼表內容;系統碼表可通過excel模板的填寫,批量地導入碼表內容。前置任務管理前置任務管理完成服務間的聯系,實現服務間通信,收發業務模型。提供對前置任務的新建、修改、刪除等功能。任務調度管理針對執行頻率較高或者執行時間較固定任務,可以利用調度管理功能進行精細的作業調度。產品提供新建調度和關聯任務模板的功能。用戶可以使用這些功能定義多個調度,并將調度與質量校驗任務關聯,實現質量校驗任務根據調度策略自動執行。數據運維管理:監控平臺運行、標準建設度、數據集成異常動態、代碼差異統計動態、數據質量統計動態、以及數據庫聯動監控;可在線化動態生成數據模型拓撲、數據流向拓撲圖。可實時監控數據的動態。平臺運維為系統管理員對系統運行狀態,數據情況,服務使用情況提供監測界面;提供任務調度機制,對任務進度情況進行實時監控;對任務做配置操作,如數據更新方式、任務調度周期等。監測界面包含平臺監測和數據監測,其中平臺監測展示集群服務器運行的狀態,包含CPU、內存、15分鐘負載、HDFS的空間占用率,并對Hadoop運行組件進行監控,及時掌握系統的運行狀態。數據監測為對系統中錄入的數據和接口服務狀態進行可視化統計和展示,包含錄入數據總量、錄入表總量、本周數據增量、上周數據增量、所錄數據來源分布圖、數據趨勢圖、服務申請TOP10、服務申請統計。(可視化部分需與指揮中心大屏顯示系統進行對接)。任務調度實現對數據錄入、同步等在執行任務進行任務跟蹤和任務的配置。通過數據跟蹤可查看正在執行任務的進度和狀態,可進行啟停操作。通過任務配置,將任務調度機制進行配置和修改,保障系統資源占用合理。2.4.7、統一的數據服務數據服務是敏捷的數據虛擬化平臺產品,可以將共享數據通過Web頁面快速封裝成API接口,以API接口形式對外提供數據服務。通過實時統一的數據訪問入口提供數據服務,一方面可以屏蔽共享異構數據的復雜性,同時也大幅降低了傳統硬編碼共享接口的工作量,顯著縮短項目工期。此外,數據服務系統應具備完善的權限控制能力,可以滿足用戶在多種復雜的應用場景中對數據訪問和內容安全的權限控制需求。整合智能數據中臺的數據服務能力,快捷的將已有能力授權給外部應用訪問使用,服務于各業務系統。提供數據服務資源注冊、審批管理,并面向應用開發者提供數據服務申請、授權管理的系統。服務資源管理既可以注冊由本地數據倉庫服務接口系統提供的數據服務,也可以注冊來自其他系統提供的數據服務系統應采用業界先進的設計理念和成熟的技術路線。架構設計遵循自主可控、安全、高效、開放、穩定的原則,確保整個產品平臺的安全性、高效性、易用性、可擴充性和可維護性。其系統功能架構如下所示:產品的系統架構可以分為以下幾個部分:執行引擎:在執行引擎中,系統具備完善的適配模塊,可以適配國內外主流的關系型數據庫、擴展支持文件數據源以及NoSQL數據源等。用戶可以依托產品提供的各功能模塊完成數據接口封裝,權限控制以及OData解析等功能。控制臺:控制臺負責為用戶提供多種管理和監控功能,包括API接口調用情況的監控、API接口維護管理、用戶管理和元數據管理等。第三方接口:系統提供了種類豐富的第三方服務接口,包括APIGateway接口以及服務集成類的接口等。通過上述服務接口,用戶可以在第三方系統中進行產品的集成和二次開發,以滿足用戶不同業務場景的功能需求。數據源管理產品具備國內外各類主流數據庫的訪問能力,包括Oracle、MySQL、SQLServer、DB2、Sybase、PostgreSQL、HBase、神通、達夢、金倉、南大通用等等。同時也支持靈活擴展新的數據源類型。數據發布支持基于國際通用的ODataV4.0標準發布RESTAPI標準接口。多表關聯產品既可以針對單表的應用場景發布共享服務接口,也可以針對多表關聯的復雜場景,提供數據服務接口的封裝,并提供查詢、插入、修改和刪除等功能。此外,針對多級嵌套的關聯查詢場景,允許用戶在任意的嵌套層級中過濾和篩選數據。安全管理產品可以提供完善的數據安全管理能力,具體包括:設定接口類型:完全公開、需要申請、不公開。設定接口請求類型:全部、查詢、新增、修改、刪除設定數據資源項是否隱藏:針對數據資源中的某一項,管理員可以設定為對外公開或者對外隱藏。設定查詢條件:管理員可以通過自定義where查詢條件,只返回滿足查詢條件的數據資源,而非全部數據,滿足數據安全控制需求。提供必填列校驗,過濾列篩選校驗以及必填過濾列校驗等。用戶級別權限控制:針對同一個接口,管理員可根據不同的申請用戶,設定返回不同的字段列,也可以通過where查詢條件,設定只返回滿足查詢條件的數據資源。加密解密訪問控制產品能夠以白名單的形式控制IP地址訪問權限,不在IP地址白名單內的服務器無法調用API接口。訪問地址控制功能應提供兩級設置,包括全局設置和用戶級別的白名單設置。全局設置里的白名單可以針對所有用戶都起作用。用戶級別的白名單功能,可以針對某一個用戶,指定允許調用接口的合法IP地址。調試功能產品內嵌數據服務調試功能,可基于自定義的條件格式和數據內容調試服務接口,便于用戶實時掌握接口的健康狀態。審計日志產品將用戶對數據服務的調用時間、調用行為、調用結果、客戶端IP和登出系統時間等信息都可以持久化到數據庫中,形成審計日志以便后續查詢審計。此外,數據服務系統應具備完善的權限控制能力,可以滿足用戶在多種復雜的應用場景中對數據訪問和內容安全的權限控制需求。服務平臺實現的功能要求:目錄服務:在目錄服務模塊中,產品對所有數據資源提供統一的元數據管理功能。同時,該模塊提供了數據資源的注冊、發布、審核、申請和訂閱等全流程管理功能,滿足數據資源日常管理需求。瀏覽檢索:提供數據資源的全局檢索和數據地圖瀏覽功能。管理監控:提供目錄管理和統計功能。服務接口:系統提供了種類豐富的第三方服務接口,包括管理集成服務接口,以及下載服務接口等。通過上述服務接口,用戶可以在第三方系統中進行產品的集成和二次開發,以滿足用戶不同業務場景的功

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論