




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS01.040.03
CCSA12
DB52
貴州省地方標準
DB52/T1541.6—2021
政務數據平臺第6部分:面向全網搜索
應用的數據處理規范
Governmentdataplatform—Part6:Datapreprocessingspecificationsfor
searchingapplicationbasedontheplatform
2021-05-17發布2021-09-01實施
貴州省市場監督管理局發布
DB52/T1541.6—2021
政務數據平臺第6部分:面向全網搜索應用的數據處理規范
1范圍
本文件規定了面向政務數據平臺全網搜索應用的數據處理的總體框架、數據接入、數據處理、搜索
應用和數據安全相關要求。
本文件適用于政務數據平臺全網搜索應用的數據處理活動。
2規范性引用文件
下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T2260中華人民共和國行政區劃代碼
GB/T2261.1個人基本信息分類與代碼第1部分:人的性別代碼
GB/T7408數據元和交換格式信息交換日期和時間表示法
GB11643公民身份號碼
GB32100法人和其他組織統一社會信用代碼編碼規則
GB/T37973-2019信息安全技術大數據安全管理指南
DB52/T1540.2政務數據第2部分:元數據管理規范
DB52/T1541.3政務數據平臺第3部分:數據存儲規范
3術語和定義
下列術語和定義適用于本文件。
3.1
政務數據平臺governmentdataplatform
依托政務云計算平臺搭建,承載政務數據并支撐數據統籌存儲、統籌治理、統籌應用和統籌安全的
基礎信息技術平臺。
[來源:DB52/T1541.3-2020,3.1]
3.2
全網搜索datasearchingapplicationsbasedongovernmentdataplatform
基于政務數據平臺圍繞特定應用場景進行數據處理,通過搜索引擎和機器學習技術實現數據的組織
呈現、融合重構、關聯分析和衍生應用。
1
DB52/T1541.6—2021
3.3
數據處理datapreprocessing
對擬進入搜索數據庫的數據進行前期處理加工以達到特定的規范性要求,支撐后續搜索應用的實
現。
3.4
數據元dataelement
用一組屬性描述其定義、標識、表示和允許值的數據單元。數據元由三部分組成:對象、特性、表
示。
[來源:GB/T18391.1-2009,3.3.8]
3.5
元數據metadata
關于數據或數據元素的數據(可能包括其數據描述),以及關于數據擁有權、存取路徑、訪問權和
數據易變性的數據。
[來源:GB/T35295-2017,2.2.7]
3.6
統計指標statisticalindicators
說明總體數量特征的概念及其數值的綜合。
3.7
基礎數據庫basicinformationdatabase
國家信息化和電子政務建設基礎數據資源庫,包括人口基礎數據庫、法人數據庫、宏觀經濟數據庫、
自然資源與空間地理數據庫、電子證照庫等。
3.8
主題數據庫thematicinformationdatabase
針對特定應用主題將存在內在邏輯關聯關系的各類數據有序匯聚形成的指定數據庫。
3.9
搜索數據庫searchingdatadatabase
基于政務數據平臺數據,結合特定搜索應用業務需求進行管理規劃并有序存放經數據前置處理后的
有效數據的專題數據庫。
2
DB52/T1541.6—2021
3.10
結構化數據structureddata
一種數據表示形式,按此種形式,由數據元素匯集而成的每個記錄的結構都是一致的并且可以使用
關系模型予以有效描述。
[來源:GB/T35295-2017,2.2.13]
3.11
非結構化數據unstructureddata
不具有預定模型或未以預定方式組織的數據。
[來源:GB/T35295-2017,2.1.25]
3.12
半結構化數據Semistructureddata
具有結構性,但結構變化大,且難以用結構化數據的處理方法將其放進二維表的數據。
示例:XML文檔內容,每項都被一對標記封起來,如<title></title>,表面上看是結構化數據,但<title></title>
之間的數據卻是千變萬化,這是典型的半結構化數據。
[來源:DA/T82-2019,2.8]
3.13
數據類型datatype
規定數據結構的數據對象的經定義的集合和一組許可的運算,在這些運算中任何一個執行時,其中
數據對象都當作運算數。
示例:整數型的結構非常簡單,整數型的值是在某一規定范圍內的整數的一個成員的表示,許可的運算包括對這些
整數的常見算術運算。
[來源:GB/T5271.17-2010,17.5.8]
3.14
全量更新fullupdate
使用新的數據對歷史數據進行完全覆蓋。
[來源:DB52/T1541.2—2020,3.14]
3.15
增量更新incrementalupdate
將兩次更新間隔發生變更的數據同步到存儲區域。
[來源:DB52/T1541.2—2020,3.15]
3
DB52/T1541.6—2021
3.16
數據脫敏datamask
從原始環境向目標環境進行敏感數據交換的過程中,通過一定方法消除原始環境數據中的敏感信
息,并保留目標環境業務所需的數據特征或內容的數據處理過程。
[來源:DB52/T1126—2016,2.1]
3.17
數據加密dataencryption
對數據進行密碼變換以產生密文的過程。一般包含一個變換集合,該變換使用一套算法和一套輸入
參量。輸入參量通常被稱為密鑰。
[來源:GB/T25069—2010,2.2.2.60]
3.18
數據完整性dataintegrity
數據沒有遭受以未授權方式所作的更改或破壞的特性。
[來源:GB/T25069—2010,2.1.36]
3.19
數據模型datamodel
按照信息系統中的形式描述和所應用的數據庫管理系統的要求構造的數據庫中數據的一種原型。
[來源:GB/T5271.17-2010,17.1.7]
3.20
主鍵primarykey
一種用于標識一個記錄的鍵。
[來源:GB/T5271.17-2010,17.3.11]
3.21
外鍵foreignkey
在某一關系中,與另一類關系中的主鍵對應的一個或一組屬性。
[來源:GB/T5271.17-2010,17.4.15]
3.22
關系relation
具有相同屬性的各實體值的集合以及這些屬性。
注:在關系數據庫中,一個關系能通過一個表來表示,表中各行對應于各實體值,各列對應于各屬性。
[來源:GB/T5271.17-2010,17.4.1]
4
DB52/T1541.6—2021
3.23
數據描述datadescription
對某一數據元素與其中出現該元素的名稱和字的數據結構的形式化描述。
[來源:GBT5271.17-2010,17.6.3]
3.24
總量指標totalquantityindex
用來反映特定對象或現象在一定條件下總規模、總水平或工作總量的統計指標。
3.25
相對指標relativeindices;
relativeindicators
用兩個關聯指標的比值來反映特定對象或現象的數量特征、數量關系的綜合指標。
3.26
平均指標averageIndex
同一時間的同類型主題對象或現象的一般水平,或是不同時間的同類型主題對象或現象的一般水
平。
4縮略語
下列縮略語適用于本文件。
OSS:對象存儲服務(ObjectStorageService)
ETL:加載、抽取、轉換(Extract-Transform-Load)
API:應用程序編程接口(ApplicationProgrammingInterface)
URL:統一資源定位符(UniformResourceLocator)
5總體框架
政務數據平臺的全網搜索應用的整體業務邏輯架構圖見圖1。其組成部分如下:
a)數據接入:將來源于政務數據平臺各存儲模塊中各種類型的數據進行規范接入管理,并根據業
務需求從不同存儲模塊中接入數據元進行對應數據處理。存儲模塊包括數據采集區、基礎庫和
主題庫;
b)數據處理:對接入的數據元按照數據治理規范,結合業務場景與搜索目標進行數據元梳理、數
據清洗融合和數據模型設計,并將結果存儲到搜索數據庫中。處理內容包括數據描述、數據指
標、數據標簽和關聯關系等;
c)搜索應用:通過元數據管理系統對搜索數據庫中表結構與關聯關系進行抽取,結合搜索應用業
務需求對元數據進行管理分類、知識構建,支撐搜索引擎和領導駕駛艙建設;
d)數據安全:包括數據機密性、完整性、數據備份。采用數據脫敏、數據加密、制定備份機制等
數據處理方法進行數據傳輸與存儲,確保數據安全。
5
DB52/T1541.6—2021
圖1全網搜索應用的整體業務邏輯架構圖
6數據接入
6.1存儲要求
6.1.1數據分類存儲按DB52/T1541.3的規定進行。
6.1.2數據接入前應根據待處理數據的結構化程度將數據存儲至以下區域:
a)結構化數據應存儲到統一數據采集區;
b)非結構化數據應存儲于云計算的開放存儲區OSS,并建立對應數據描述表以支撐搜索應用;
c)半結構化數據按將文件基本屬性、存儲路徑等描述信息以結構化數據文件入庫存儲至統一數據
采集區。
6.2接入規則
6.2.1結構化、非結構化數據,通過ETL工具進行分類接入;
6.2.2半結構化數據化解為結構化數據通過ETL工具進行接入;
6.2.3接入形式包括二維庫表類型、文本類型、URL連接地址、API接口等。
6
DB52/T1541.6—2021
6.3更新機制
6.3.1全量更新
將數據源中的表或視圖的數據全部從數據庫中抽取出來,通過ETL工具遷移到搜索數據庫中。
6.3.2增量更新
增量更新是指在進行更新操作時,只更新需要改變的地方,不需要更新或者已經更新過的地方則不
會重復更新,增量更新與全量更新相對。
6.3.3更新頻率
數據更新頻率包括以下方式:
a)數據更新頻率應達到秒級響應,實現實時更新:
b)在設定時間的誤差范圍內,準實時批量接入;
c)數據按天、周、月進行定時調度,實現同步更新。
7數據處理
7.1數據描述規范化處理
7.1.1處理方法
數據描述的規范化處理方法包括但不限于:
a)數據格式處理:對錯誤的數據格式進行治理、修改;
b)關鍵信息缺失補全:對需要搜索的關鍵信息出現缺失的部分進行補全;
c)明顯邏輯錯誤修正:核查數據元間業務邏輯關系,對明顯錯誤邏輯進行修正。如對數據上下級、
歸屬關系進行修正;
d)數據類型錯誤修正:根據搜索目標對數據類型進行判斷,對不滿足數據類型的錯誤進行修正。
7.1.2通用型數據處理要求
時間、區劃地點、對象等通用數據處理,應滿足以下要求:
a)行政區劃代碼應符合GB/T2260規定;
b)性別代碼應符合GB/T2261.1規定;
c)日期和時間應符合GB/T7408規定;
d)公民身份號碼應符合GB11643規定;
e)法人和其他組織統一社會信用代碼應符合GB32100規定。
7.1.3非通用型數據處理要求
非通用的描述類數據處理應滿足以下要求:
a)可計算型數據元的計算類型,應滿足當前系統可連接數據庫類型的可計算數據類型的要求,計
算單位根據業務進行描述;
b)可分組維度的數據字段應按其特征進行分組;
c)可比較數據元應按照不同維度、不同規則進行比較;
d)主體數據元應對主體的核心內容進行描述。
7
DB52/T1541.6—2021
7.2數據指標處理
對數據元中涉及數值與統計數據的指標數據,應按同一指標內部相對差距不變、不同指標間的相對
差距不確定、標準化后極大值相等原則采用數據同趨化和無量綱化等方法進行處理。按照其反映的內容
或其數值表現形式分為總量指標、相對指標和平均指標三種。
指標統計處理應包括以下內容:
a)確定指標的含義和范圍;
b)指標指向的對象或現象應具有同類性;
c)有統一的計量單位;
d)兩個對比指標要有可比性。
7.3數據標簽處理
7.3.1對具有搜索價值的數據元應根據業務信息及搜索目標進行標簽定義,對數據屬性進行歸類。
7.3.2數據標簽可分為以下兩類:
a)基于統計類的標簽:從政務平臺基礎數據中直接統計得出,為基礎的標簽類型,如性別、城市、
月均消費金額等字段構成用戶畫像的基礎;
b)基于規則類的標簽:基于行為及確定的規則產生,開發標簽中的標簽規則由涉及的雙方共同協
商確定,如距今90天內交易次數>3是“交易活躍”標簽的定義和口徑。
7.4關聯關系處理
7.4.1同一個業務源不同數據表之間,需要有對應的主外鍵關系,表與表之間依據主外鍵進行關聯。
7.4.2針對不同業務與業務之間,需要設立統一規范的業務主鍵,利用業務主鍵進行關聯。
8搜索應用
8.1經數據處理后的數據應按描述數據、業務數據、模型和標簽等類型數據進行分類存放進搜索數據
庫。
8.2按DB52/T1540.2(政務數據元數據管理規范)的規定對搜索數據庫數據的元數據進行管理。
8.3計算機對數據標簽、關聯關系信息、數據指標進行學習理解并最終記憶,形成知識構建。
8.4經知識構建形成的可理解和處理的數據,與搜索內容進行語義對齊,理解搜索意圖,最終查找出
結果。
8.5對于非結構化數據,搜索實現文本語言數據之間的比較,當核心內容相似性達到一定程度時,判
斷為找到用戶需求,并反饋結果。
8.6全網搜索主要應用方向包括數據查詢、數據畫像、數據調
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電梯困人培訓方案
- 初一寒假安全教育主題班會
- 護士入崗前教育
- 讀單詞游戲設計
- 頤和園說課課件
- 體育運動中燙燒傷防護與處理
- 頸椎的護理課件
- 界面設計風格解析與應用
- 《智能網聯汽車技術》課件-自動駕駛等級劃分的認知
- 預防流感主題班會課件
- 垃圾處理焚燒培訓課件
- 國家中小學智慧教育平臺培訓專題講座
- GMP附錄-細胞治療產品
- 2025年中國烘焙食品行業發展深度分析及行業發展趨勢報告
- 專業燒烤店管理制度
- GB/T 45668-2025地下空間信息系統建設技術要求
- DB32-T 4001-2025 公共機構能耗定額及計算方法
- 中醫護理技術創新思維
- 2025江蘇省惠隆資產管理限公司招聘30人易考易錯模擬試題(共500題)試卷后附參考答案
- 招標代理服務服務方案
- 學術規范與論文寫作講述課件
評論
0/150
提交評論