我國(guó)開放政府?dāng)?shù)據(jù)“臟數(shù)據(jù)”問題研究及應(yīng)對(duì)_第1頁
我國(guó)開放政府?dāng)?shù)據(jù)“臟數(shù)據(jù)”問題研究及應(yīng)對(duì)_第2頁
我國(guó)開放政府?dāng)?shù)據(jù)“臟數(shù)據(jù)”問題研究及應(yīng)對(duì)_第3頁
我國(guó)開放政府?dāng)?shù)據(jù)“臟數(shù)據(jù)”問題研究及應(yīng)對(duì)_第4頁
我國(guó)開放政府?dāng)?shù)據(jù)“臟數(shù)據(jù)”問題研究及應(yīng)對(duì)_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 我國(guó)開放政府?dāng)?shù)據(jù)“臟數(shù)據(jù)”問題研究及應(yīng)對(duì) 摘要:數(shù)據(jù)質(zhì)量是影響開放數(shù)據(jù)價(jià)值生成的關(guān)鍵因素。本文采用網(wǎng)絡(luò)調(diào)查和數(shù)據(jù)分析方法, 對(duì)13個(gè)開放數(shù)據(jù)平臺(tái)中的數(shù)千個(gè)數(shù)據(jù)集進(jìn)行分析, 歸納出29類“臟數(shù)據(jù)”, 統(tǒng)計(jì)了北京、上海和哈爾濱三地的數(shù)據(jù)質(zhì)量問題分布情況。文章建議在引進(jìn)“數(shù)據(jù)清洗”和“質(zhì)量檢查”環(huán)節(jié)、采用標(biāo)準(zhǔn)規(guī)范等方面借鑒先進(jìn)經(jīng)驗(yàn), 提升和保障數(shù)據(jù)質(zhì)量。“開放政府?dāng)?shù)據(jù)” (Open Government Data, OGD) 運(yùn)動(dòng)能夠釋放數(shù)據(jù)價(jià)值, 產(chǎn)生積極的社會(huì)和經(jīng)濟(jì)效益, 在世界范圍得到了快速發(fā)展。2013年10月, 麥肯錫研究院的報(bào)告預(yù)測(cè)1, 在教育、交通、能源及醫(yī)療等七個(gè)領(lǐng)域, 開放數(shù)據(jù)每

2、年將為全球釋放約3萬億至5萬億美元的潛在經(jīng)濟(jì)價(jià)值;報(bào)告同時(shí)指出, 在一些領(lǐng)域 (如交通) 使用開放數(shù)據(jù)的最大障礙之一是“數(shù)據(jù)質(zhì)量”。經(jīng)合組織 (OECD) 認(rèn)為, 為確保OGD創(chuàng)造價(jià)值, 政府面臨的最重要任務(wù)是2: (1) 識(shí)別高價(jià)值的數(shù)據(jù); (2) 保障數(shù)據(jù)質(zhì)量; (3) 培育需求及促進(jìn)數(shù)據(jù)使用。“開放政府合作組織” (Open Government Partnership, OGP) 對(duì)各成員國(guó)20122015年行動(dòng)計(jì)劃的評(píng)估發(fā)現(xiàn), 低價(jià)值和低質(zhì)量數(shù)據(jù)引發(fā)了數(shù)據(jù)供給與需求之間的“鴻溝”3。提高數(shù)據(jù)質(zhì)量, 避免因劣質(zhì)數(shù)據(jù)而帶來的消極影響, 始終是數(shù)據(jù)管理領(lǐng)域最嚴(yán)峻的挑戰(zhàn)之一4。據(jù)估算, 美國(guó)

3、每年因劣質(zhì)數(shù)據(jù)造成的損失高達(dá)6千億美元5,6, 包括數(shù)據(jù)錯(cuò)誤引起的醫(yī)療事故及電信設(shè)備故障排除引發(fā)的延誤等, 零售業(yè)標(biāo)價(jià)錯(cuò)誤造成的損失及公司缺陷數(shù)據(jù)引起的財(cái)政損失等。OGD領(lǐng)域的數(shù)據(jù)質(zhì)量問題也日益凸顯, 澳大利亞昆士蘭大學(xué)S.Sadiq等的研究發(fā)現(xiàn), 美國(guó)數(shù)據(jù)門戶Data.Gov上的槍支犯罪者數(shù)據(jù)集曾存在數(shù)據(jù)不完整、不一致和記錄重復(fù)等問題7。巴西學(xué)者M(jìn).I.S.Oliveira等對(duì)巴西13個(gè)數(shù)據(jù)門戶的分析發(fā)現(xiàn), CSV數(shù)據(jù)文件中有記錄重復(fù)、字段定義不一致等問題8。英國(guó)開放知識(shí)國(guó)際 (Open Knowledge International) 的網(wǎng)站開辟專欄O/bad-dat

4、a/展示了“壞數(shù)據(jù)” (Bad Data) 的實(shí)例9。在我國(guó), “政府?dāng)?shù)據(jù)資源共享開放工程”位列促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要規(guī)劃的十大數(shù)據(jù)工程之首10。從2012年開始, 已有20多個(gè)地方政府建設(shè)和發(fā)布了數(shù)據(jù)開放網(wǎng)站 (或欄目) , 隨著數(shù)據(jù)量的增加, 數(shù)據(jù)質(zhì)量也日益得到關(guān)注10,11。目前, 數(shù)據(jù)質(zhì)量管理面臨的問題和挑戰(zhàn)主要有錯(cuò)誤發(fā)現(xiàn)、錯(cuò)誤修復(fù)和近似查詢處理等6。在此背景下, 我國(guó)開放政府?dāng)?shù)據(jù)是否存在“臟數(shù)據(jù)”, 有哪些主要的質(zhì)量問題及如何應(yīng)對(duì), 就成為本文要回答的問題。1 臟數(shù)據(jù)的分類數(shù)據(jù)質(zhì)量 (Data Quality) 是“數(shù)據(jù)滿足任務(wù)需求的程度”, 數(shù)據(jù)質(zhì)量問題指“給使用這些數(shù)據(jù)的應(yīng)用帶來

5、潛在影響的一系列數(shù)據(jù)表現(xiàn)”12, 那些不符合要求或標(biāo)準(zhǔn)規(guī)范的質(zhì)量差的數(shù)據(jù)常常被稱為“臟數(shù)據(jù)” (Dirty Data) 或“壞數(shù)據(jù)” (Bad Data) 13。“臟數(shù)據(jù)”的分類可以幫助人們更好地理解和發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題, 相關(guān)學(xué)者從不同視角研究取得了一系列成果。Rahm等14,15分別從模式層和實(shí)例層分析了單源/多源數(shù)據(jù)常見的9類質(zhì)量問題, 如糟糕的模式設(shè)計(jì), 冗余、互相矛盾或者不一致的數(shù)據(jù), 拼寫錯(cuò)誤和命名沖突等。Kim等16提出如圖1所示的33種“臟數(shù)據(jù)”的分類系統(tǒng), 分為缺失的數(shù)據(jù)和沒有缺失的數(shù)據(jù)兩大類, 沒有缺失的數(shù)據(jù)又分為了錯(cuò)誤的數(shù)據(jù)和沒有錯(cuò)誤的數(shù)據(jù)。Oliveria等17將21個(gè)質(zhì)

6、量問題劃分為四個(gè)粒度級(jí)別 (Granularity Level) :單元/列/行、單表、多表和多源。Li等18利用規(guī)則將38類企業(yè)臟數(shù)據(jù)分為五個(gè)維度:準(zhǔn)確性、完整性、時(shí)效性、一致性和唯一性。Gschwandtner等19分析的對(duì)象是“面向時(shí)間的數(shù)據(jù)”, 將臟數(shù)據(jù)分為單源和多源兩大類。Almeida等20基于數(shù)據(jù)倉(cāng)庫的多維數(shù)據(jù)模型, 將30個(gè)質(zhì)量問題歸為五組:單值、多值、元組、列和整個(gè)關(guān)系表。圖1 Kim等提出的“臟數(shù)據(jù)”分類系統(tǒng)這些研究主要面向傳統(tǒng)的數(shù)據(jù)管理領(lǐng)域, 如數(shù)據(jù)倉(cāng)庫、企業(yè)信息系統(tǒng)等。Laranjeiro等21則面向大數(shù)據(jù), 通過文獻(xiàn)分析將24個(gè)質(zhì)量問題映射到五個(gè)質(zhì)量維度:可訪問性、準(zhǔn)

7、確性、完整性、時(shí)效性和一致性。在伴隨大數(shù)據(jù)而興起的“數(shù)據(jù)新聞” (Data Journalism) 領(lǐng)域, 美國(guó)數(shù)字媒體網(wǎng)站Quartz于2015年整理出“壞數(shù)據(jù)手冊(cè)” (Bad Data Guide) , 將45個(gè)質(zhì)量問題分成四個(gè)方面:數(shù)據(jù)源問題、人為問題、專家可以解決的問題和開發(fā)者可以解決的問題13。在上述工作的基礎(chǔ)上, 面向我國(guó)開放政府?dāng)?shù)據(jù)的實(shí)踐, 在深入調(diào)查和分析基礎(chǔ)上, 本文歸納出OGD領(lǐng)域29類“臟數(shù)據(jù)”, 見表1。該表分為“模式層” (7類) 和“實(shí)例層” (22類) 兩個(gè)層次, 前者指數(shù)據(jù)的模式定義, 含完整性、一致性和準(zhǔn)確性三個(gè)維度;后者指開放的數(shù)據(jù)本身, 含正確性、規(guī)范性、

8、開放性等八個(gè)維度。維度的選擇基于數(shù)據(jù)質(zhì)量的核心維度22和開放數(shù)據(jù)原則, 包括數(shù)據(jù)應(yīng)是完整的、原始的、及時(shí)的、可獲取的、機(jī)器可讀的和開放許可等23,24。不同于傳統(tǒng)領(lǐng)域, “開放性”和“安全或隱私”是兩個(gè)新的維度, 相應(yīng)地有7類“臟數(shù)據(jù)”是開放數(shù)據(jù)所獨(dú)有的, 它們?cè)诒?中通過星號(hào) (*) 標(biāo)記。表1中的臟數(shù)據(jù)實(shí)例全部來自各地的實(shí)際開放數(shù)據(jù)。表1 我國(guó)OGD領(lǐng)域臟數(shù)據(jù)的分類表1 德國(guó)OGD領(lǐng)域臟數(shù)據(jù)的分類2 調(diào)查內(nèi)容與方法為盡可能全面地發(fā)現(xiàn)各種質(zhì)量問題, 筆者在選取政府開放數(shù)據(jù)網(wǎng)站/平臺(tái)時(shí), 綜合考察數(shù)據(jù)集的個(gè)數(shù)、是否有模式定義及是否提供了多種格式的文件。選取的13個(gè)網(wǎng)站見表2, 數(shù)據(jù)集的個(gè)數(shù)等指

9、標(biāo)在不斷變化, 表中的數(shù)據(jù)取自2017年912月。調(diào)查的對(duì)象是各網(wǎng)站數(shù)據(jù)目錄中的數(shù)據(jù)集, 不包括接口 (API) 和應(yīng)用等其他開放資源。表2 調(diào)查對(duì)象地方政府開放數(shù)據(jù)網(wǎng)站/平臺(tái)2.1 數(shù)據(jù)集及數(shù)據(jù)文件對(duì)開放數(shù)據(jù)本身的調(diào)查是本文的重點(diǎn)和核心。研究通過下載數(shù)據(jù)集的數(shù)據(jù)文件, 考察和分析文件中的數(shù)據(jù), 依據(jù)臟數(shù)據(jù)的基本特征 (見表1) , 有可能發(fā)現(xiàn)實(shí)例層的16類質(zhì)量問題, 即正確性 (D8D12) 、一致性 (D13D15) 、完整性 (D17D18) 、唯一性 (D20) 、規(guī)范性 (D21D24) 與安全或隱私 (D29) 等維度下的“臟數(shù)據(jù)”。例如, “哈爾濱市建設(shè)項(xiàng)目選址意見書信息”數(shù)據(jù)集

10、的Excel文件中含有846條記錄, 每條記錄8個(gè)字段。圖2抽取了10條記錄, 展示了其中存在的五類“臟數(shù)據(jù)”:“建設(shè)項(xiàng)目名稱”“建設(shè)位置”“占地面積”和“建設(shè)規(guī)模”四列存在“數(shù)據(jù)值缺失” (D17) 現(xiàn)象, “占地面積”和“建設(shè)規(guī)模”兩列“數(shù)據(jù)沒有單位” (D23) 與部分單元是“不合理值 (0) ” (D10) , “建設(shè)位置”列的值出現(xiàn)“數(shù)據(jù)籠統(tǒng) (不詳細(xì)) ” (D8) 現(xiàn)象, “出證日期”列的取值“格式不規(guī)范” (D22) 。此外, 文件中還存在“未知值表達(dá)不一致” (D14) 問題:NULL與*都在表示“無數(shù)據(jù)或未知值”。圖2“臟數(shù)據(jù)”示例 (淺色的數(shù)據(jù)單元和列存在質(zhì)量問題)對(duì)開放

11、性維度下的質(zhì)量問題D25和D26, 則要依據(jù)文件格式來判別。在我國(guó)各地采用的文件格式 (見表2) 中, XLS (即Excel) 與Word是微軟公司專有格式, 不符合開放標(biāo)準(zhǔn), PDF、Word與HTML不是機(jī)器可讀的。在開放數(shù)據(jù)網(wǎng)站中, 當(dāng)一個(gè)數(shù)據(jù)資源有多個(gè)文件時(shí), 只要一個(gè)文件符合開放標(biāo)準(zhǔn)或是機(jī)器可讀的, 我們則認(rèn)定不存在質(zhì)量問題D25或D26。當(dāng)沒有數(shù)據(jù)文件可供下載、文件不能下載或數(shù)據(jù)只在網(wǎng)頁 (HTML) 上, 我們則認(rèn)為存在問題D27 (不能開放獲取) , 但提供了API接口的除外。當(dāng)數(shù)據(jù)存在于PDF、Word文檔或網(wǎng)頁的新聞稿、政府文件或統(tǒng)計(jì)報(bào)告中, 不是原始數(shù)據(jù)的可能性就比較大

12、 (D28) , 這方面問題突出的是新疆的開放數(shù)據(jù) (詳見表1“實(shí)例”一列) 。2.2 數(shù)據(jù)模式定義圖2中“出證日期”列的取值“格式不規(guī)范”問題與數(shù)據(jù)模式的定義有關(guān)。根據(jù)國(guó)家標(biāo)準(zhǔn)數(shù)據(jù)元和交換格式信息交換日期和時(shí)間表示法 (GB/T 7408-2005) , 日期的格式應(yīng)為:YYYYMMDD (如20090320) , 開放數(shù)據(jù)實(shí)際中以YYYY-MM-DD、YYYY.MM.DD或YYYY/MM/DD等格式居多。因此, 與普通的“文本類型”區(qū)分開, 日期類數(shù)據(jù)應(yīng)定義為“日期類型”。圖3 模式定義中的質(zhì)量問題對(duì)數(shù)據(jù)模式定義的調(diào)查是本文的另一個(gè)重點(diǎn)。圖2展示了“哈爾濱市建設(shè)項(xiàng)目選址意見書信息”數(shù)據(jù)集的

13、模式定義, 其中存在三類質(zhì)量問題:類型定義錯(cuò)誤 (D5) 、命名不準(zhǔn)確 (D6) 和未定義數(shù)據(jù)單位 (D7) 。一個(gè)開放數(shù)據(jù)網(wǎng)站是數(shù)百個(gè)乃至數(shù)千個(gè)數(shù)據(jù)集的集合, 模式定義的一致性尤為重要。例如, 一個(gè)網(wǎng)站在字段的命名規(guī)則上應(yīng)保持一致, 但調(diào)查發(fā)現(xiàn)在哈爾濱、北京等地存在著“名稱”與“企業(yè)名稱”、“地址”與“企業(yè)通訊地址”在不同的數(shù)據(jù)集中混用的現(xiàn)象 (D3) 。一個(gè)數(shù)據(jù)集中的數(shù)據(jù)資源的不同格式文件也應(yīng)在模式上保持一致, 但在哈爾濱和廣州等的開放數(shù)據(jù)中普遍存在XLS與XML模式不一致問題 (D4) 。圖4對(duì)比了“哈爾濱市考試中心基本信息”數(shù)據(jù)集的兩種格式數(shù)據(jù), XLS數(shù)據(jù)的“標(biāo)題”為中文名稱 (如“

14、地址”) , 而XML數(shù)據(jù)的“元素名稱”則為漢語拼音縮寫 (如DZ, 應(yīng)為“地址”) , 造成用戶難以理解與使用這些XML數(shù)據(jù)。圖4 兩種格式數(shù)據(jù)的模式不一致2.3 多種格式數(shù)據(jù)的一致性同一數(shù)據(jù)資源不同格式的文件, 不僅數(shù)據(jù)模式應(yīng)一致, 其中的數(shù)據(jù)更應(yīng)保持一致。但調(diào)查發(fā)現(xiàn), 上海、廣州和哈爾濱等地存在著“同一數(shù)據(jù)集的不同格式文件的數(shù)據(jù)不一致”問題 (D16) 。圖5 兩種格式數(shù)據(jù)不一致例如, 上海“攝像頭設(shè)置地點(diǎn)”的XLS文件中的第9條數(shù)據(jù)為“金沙江路/真光路”, 但CSV文件的相應(yīng)數(shù)據(jù)卻是“?金沙江路/真光路”。廣州“黃埔區(qū)信用信息雙公示行政處罰”的XLS數(shù)據(jù)共有14列, 但相應(yīng)的CSV數(shù)據(jù)

15、的一些行卻出現(xiàn)了第15或16列, 見圖5。哈爾濱的一些數(shù)據(jù)集也有類似情況, 即CSV中數(shù)據(jù)串列了。W3C Web數(shù)據(jù)最佳實(shí)踐 (DWBP) 工作組將“以多種格式提供數(shù)據(jù)” (Provide data in multiple formats) 列為35個(gè)“最佳實(shí)踐” (Best Practice, BP) 之一 (BP14) 25, 它可以節(jié)省用戶在數(shù)據(jù)轉(zhuǎn)換上的時(shí)間和成本。理想狀態(tài)下, 各種格式的數(shù)據(jù)應(yīng)是完全等價(jià)的, 用戶只要任意選擇其一即可使用。如果不同格式數(shù)據(jù)的質(zhì)量不同, 反而會(huì)給用戶帶來選擇數(shù)據(jù)的成本和代價(jià)。鑒于D4和D16兩類質(zhì)量問題的隱蔽性強(qiáng)、難以發(fā)現(xiàn), 我們認(rèn)為它們是開放數(shù)據(jù)質(zhì)量管理

16、的新情況和新挑戰(zhàn), 應(yīng)引起各級(jí)政府?dāng)?shù)據(jù)管理者的重視。2.4 通過元數(shù)據(jù)判別時(shí)效性2016年9月19日, 印發(fā)政務(wù)信息資源共享管理暫行辦法第十三條規(guī)定:按照“誰主管, 誰提供, 誰負(fù)責(zé)”的原則, 提供部門應(yīng)及時(shí)維護(hù)和更新信息, 保障數(shù)據(jù)的完整性、準(zhǔn)確性、時(shí)效性和可用性, 確保所提供的共享信息與本部門所掌握信息的一致性26。為判別一個(gè)數(shù)據(jù)集的時(shí)效性, 即數(shù)據(jù)是否陳舊或過時(shí) (D19) , 需要依照元數(shù)據(jù)“最后更新時(shí)間”和“更新頻率”的值。以貴州“全省戶籍人口統(tǒng)計(jì)數(shù)據(jù)”為例, 它的“最后更新時(shí)間”和“更新頻率”分別為“2016-10-17”和“年”, 同時(shí)數(shù)據(jù)文件中給出的是20102014年的數(shù)據(jù),

17、 則可判定該數(shù)據(jù)集沒有及時(shí)更新。在貴州省的網(wǎng)站中共有130個(gè)數(shù)據(jù)集在2017年沒有更新, 占比27.6%, 而其他數(shù)據(jù)集則得到了及時(shí)更新, 占比72.4%。廣州、深圳和佛山等地的數(shù)據(jù)文件中增加了“更新日期”字段, 方便了用戶判別其時(shí)效性。而北京和上海等地沒有“更新頻率”或“最后更新時(shí)間”的元數(shù)據(jù), 造成很多數(shù)據(jù)集的時(shí)效性無法判別。2.5 參照外部權(quán)威數(shù)據(jù)源當(dāng)網(wǎng)站內(nèi)的信息不足以判別數(shù)據(jù)質(zhì)量狀況時(shí), 就需要參照外部權(quán)威數(shù)據(jù)源。例如, 北京的“高校”數(shù)據(jù)集是2012年10月29日發(fā)布的, 能否反映當(dāng)前實(shí)際情況呢?對(duì)比教育部的最新數(shù)據(jù) (截至2017年5月31日) 27, 里面沒有“中國(guó)科學(xué)院大學(xué)”,

18、 因此認(rèn)定該數(shù)據(jù)集是過時(shí)的。2012年7月19日發(fā)布的“機(jī)場(chǎng)班車線路”只有9條線路, 而首都國(guó)際機(jī)場(chǎng)網(wǎng)站上公布的線路已達(dá)18條, 表明該數(shù)據(jù)不僅過時(shí)、而且不準(zhǔn)確。政府開放數(shù)據(jù)應(yīng)是權(quán)威的數(shù)據(jù)源, 但要達(dá)到這一目標(biāo)還需要在質(zhì)量管理等方面加強(qiáng)工作。2.6 隱私泄露問題隨著開放數(shù)據(jù)的深入, 隱私保護(hù)和安全問題日益得到關(guān)注28。實(shí)踐上, 深圳政府?dāng)?shù)據(jù)開放平臺(tái)用戶服務(wù)條款、貴陽數(shù)據(jù)開放授權(quán)協(xié)議和數(shù)據(jù)東莞網(wǎng)使用協(xié)議等均含有“隱私保護(hù)聲明”, 承諾網(wǎng)站不主動(dòng)將用戶個(gè)人信息泄露給任何第三方。2017年5月1日起施行的我國(guó)首部政府?dāng)?shù)據(jù)共享開放條例貴陽市政府?dāng)?shù)據(jù)共享開放條例規(guī)定29:涉及國(guó)家秘密的、商業(yè)秘密的、個(gè)人

19、隱私的和法律法規(guī)規(guī)定不得開放的其他政府?dāng)?shù)據(jù)不能向社會(huì)開放。2017年6月1日起施行的中華人民共和國(guó)網(wǎng)絡(luò)安全法第四十二條規(guī)定30:網(wǎng)絡(luò)運(yùn)營(yíng)者不得泄露、篡改、毀損其收集的個(gè)人信息;未經(jīng)被收集者同意, 不得向他人提供個(gè)人信息。同時(shí)將“個(gè)人信息”定義為:以電子或者其他方式記錄的能夠單獨(dú)或者與其他信息結(jié)合識(shí)別自然人個(gè)人身份的各種信息, 包括但不限于自然人的姓名、出生日期、身份證件號(hào)碼、個(gè)人生物識(shí)別信息、住址、電話號(hào)碼等。美國(guó)列入個(gè)人信息保護(hù)范圍的數(shù)據(jù)包括名字、身份證號(hào)碼、郵件地址、IP地址、電話號(hào)碼等31。歐盟個(gè)人數(shù)據(jù)保護(hù)法指出, 身份證號(hào)碼、定位數(shù)據(jù)、網(wǎng)絡(luò)標(biāo)識(shí)符、基因、經(jīng)濟(jì)、文化、社會(huì)身份等隱私受法律

20、保護(hù)32。筆者在調(diào)查過程中, 重點(diǎn)考察數(shù)據(jù)中是否含有“自然人的姓名”“電話”“住址”和“身份證號(hào)碼”等敏感信息, 發(fā)現(xiàn)浙江、貴州和哈爾濱等地的個(gè)別開放數(shù)據(jù)存在隱私泄露問題 (D29) 或風(fēng)險(xiǎn), 見圖6 (只給出數(shù)據(jù)文件的標(biāo)題行, 隱去了數(shù)據(jù)) 。圖6 個(gè)人敏感數(shù)據(jù)示例相對(duì)照的是, 貴陽對(duì)“導(dǎo)游人員名單”等、東莞對(duì)“公證員信息”等進(jìn)行了脫敏處理, 見圖7。圖7 經(jīng)脫敏處理的個(gè)人信息示例表1中D29類臟數(shù)據(jù)也包括“泄露的商業(yè)秘密”, 這方面已有學(xué)者做了專門研究33。3 結(jié)果分析本節(jié)以“開放數(shù)據(jù)網(wǎng)站/平臺(tái)”為單位, 對(duì)數(shù)據(jù)質(zhì)量問題進(jìn)行整體分析。3.1 各平臺(tái)數(shù)據(jù)模式對(duì)比表2中的13個(gè)開放數(shù)據(jù)平臺(tái)中有

21、8個(gè)給出了模式定義, 其中廣東和東莞沒有“類型定義” (質(zhì)量差) , 其余6家的對(duì)比見表3。普遍存在的問題是字段的英文命名不規(guī)范、數(shù)據(jù)類型單一和數(shù)值型數(shù)據(jù)無單位, 規(guī)范的做法是統(tǒng)一采用英文單詞命名、區(qū)分各種數(shù)據(jù)類型 (文本、枚舉、布爾型、數(shù)值與日期等) 及將“單位”單獨(dú)定義為一列等。表3 各平臺(tái)數(shù)據(jù)模式的對(duì)比數(shù)據(jù)模式定義的缺陷或缺失是實(shí)例層在“一致性”和“規(guī)范性”等維度的質(zhì)量問題的根源, 因此“數(shù)據(jù)模式質(zhì)量”在整個(gè)開放數(shù)據(jù)質(zhì)量管理中處于基礎(chǔ)性位置, 應(yīng)優(yōu)先得到提升和保障。3.2 北京的數(shù)據(jù)質(zhì)量問題圖8 北京市存在的主要臟數(shù)據(jù)類型 (前10名)在調(diào)查的北京市726個(gè)開放數(shù)據(jù)集中, 出現(xiàn)次數(shù)最多的

22、質(zhì)量問題是“數(shù)據(jù)值缺失” (D17) , 共有311個(gè)數(shù)據(jù)集存在不同程度的數(shù)據(jù)不完整現(xiàn)象。接下來是“數(shù)據(jù)過于籠統(tǒng)” (D8) 、“不合理值或錯(cuò)誤值” (D10) 、“未知值表達(dá)不一致” (D14) 及“一列的數(shù)據(jù)格式不一致” (D15) 等, 見圖8。調(diào)查共發(fā)現(xiàn)631個(gè)質(zhì)量問題, 按照正確性、完整性、規(guī)范性和開放性等八個(gè)維度統(tǒng)計(jì)占比, 結(jié)果見圖9。其中, 完整性問題的比例最高, 達(dá)49%;其次是正確性問題, 占18%。圖9 北京市各維度質(zhì)量問題占比3.3 上海的數(shù)據(jù)質(zhì)量問題圖10 上海市存在的主要臟數(shù)據(jù)類型 (前10名)上海市的用戶評(píng)價(jià)機(jī)制從準(zhǔn)確性、及時(shí)性、滿意性和可用性等方面對(duì)數(shù)據(jù)集打分,

23、得分一星到五星的數(shù)據(jù)集共324個(gè)。調(diào)查結(jié)果見圖10, 出現(xiàn)的質(zhì)量問題依次是“數(shù)據(jù)值缺失” (D17) 、“不合理值或錯(cuò)誤值” (D10) 、“數(shù)據(jù)陳舊或過時(shí)” (D19) 、“一列的數(shù)據(jù)格式不一致” (D15) 及“數(shù)據(jù)過于籠統(tǒng)” (D8) 等。發(fā)現(xiàn)的324個(gè)質(zhì)量問題在八個(gè)維度上的分布情況見圖11, 排在前兩位的同樣是完整性問題 (30%) 和正確性問題 (20%) 。圖11 上海市各維度質(zhì)量問題的占比3.4 哈爾濱的數(shù)據(jù)質(zhì)量問題哈爾濱市的數(shù)據(jù)開放專欄于2016年底上線, 據(jù)媒體報(bào)道, 其整體水平處于全國(guó)前列。通過對(duì)672個(gè)數(shù)據(jù)集的調(diào)查, 較多的質(zhì)量問題是“數(shù)據(jù)值缺失” (D17) 、“數(shù)據(jù)過

24、于籠統(tǒng)” (D8) 、“不合理值或錯(cuò)誤值” (D10) 、“同一數(shù)據(jù)集的不同格式文件的數(shù)據(jù)不一致” (D16) 及“一列的數(shù)據(jù)格式不一致” (D15) 等, 見圖12。發(fā)現(xiàn)的760個(gè)質(zhì)量問題在八個(gè)維度上的分布情況見圖13, 其中正確性問題突出, 占32%, 其次是完整性問題, 占30%。圖12 哈爾濱市存在的主要臟數(shù)據(jù)類型 (前10名)圖13 哈爾濱市各維度質(zhì)量問題的占比3.5 三地對(duì)比從全部被調(diào)查數(shù)據(jù)集的五個(gè)方面:無問題的數(shù)據(jù)集個(gè)數(shù)占比、有一個(gè)問題的數(shù)據(jù)集個(gè)數(shù)占比、有兩個(gè)問題的數(shù)據(jù)集個(gè)數(shù)占比、有兩個(gè)以上問題的數(shù)據(jù)集個(gè)數(shù)占比及平均一個(gè)數(shù)據(jù)集的問題個(gè)數(shù) (問題個(gè)數(shù)/數(shù)據(jù)集個(gè)數(shù)) , 對(duì)三地進(jìn)行對(duì)

25、比, 結(jié)果見表4和圖14。可見, 總體上北京和上海的數(shù)據(jù)集質(zhì)量狀況相當(dāng), 要好于哈爾濱。表4 三地各類數(shù)據(jù)集的占比圖14 三地各類數(shù)據(jù)集占比的對(duì)比圖進(jìn)一步, 從表1選出嚴(yán)重影響用戶可用性的兩組六類質(zhì)量問題:“正確性”下的D10 (不合理值或錯(cuò)誤值) 、D11 (列與列的值的位置相互串位) 和D12 (出現(xiàn)亂碼) , “開放性”下的D26 (文件格式不是機(jī)器可讀的) 、D27 (數(shù)據(jù)不能被下載) 和D28 (不是原始數(shù)據(jù)) , 對(duì)比三地至少有一個(gè)質(zhì)量問題的數(shù)據(jù)集個(gè)數(shù)的占比, 見表5。可見, 北京的“不可用”數(shù)據(jù)集的占比要明顯少于上海和哈爾濱兩地。表5 三地“不可用”數(shù)據(jù)集的占比需要說明的是, 由

26、于方法 (見第2節(jié)) 的局限、技術(shù)手段的不足、數(shù)據(jù)過時(shí)及背景材料的缺乏等, 筆者不可能發(fā)現(xiàn)所有的質(zhì)量問題 (特別是正確性問題) , 發(fā)現(xiàn)的質(zhì)量問題其危害程度也會(huì)因用戶需求的不同而有差異。4 對(duì)策建議提升和保障數(shù)據(jù)質(zhì)量是我國(guó)政府?dāng)?shù)據(jù)共享開放工程的核心工作之一。“十三五”國(guó)家信息化規(guī)劃在強(qiáng)化數(shù)據(jù)資源管理、推進(jìn)數(shù)據(jù)開放部分指出, 要加強(qiáng)“數(shù)據(jù)資源目錄管理、整合管理、質(zhì)量管理、安全管理, 提高數(shù)據(jù)準(zhǔn)確性、可用性、可靠性”34。我國(guó)各級(jí)政府的開放數(shù)據(jù)政策文件對(duì)“數(shù)據(jù)質(zhì)量”的規(guī)定包括數(shù)據(jù)校核、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)生命周期的質(zhì)量管理和數(shù)據(jù)弄虛作假行為處理等35。本文僅從借鑒各國(guó)先進(jìn)經(jīng)驗(yàn)的角度, 提出以下可操作

27、層面的對(duì)策建議。4.1 發(fā)布之前的數(shù)據(jù)清洗“數(shù)據(jù)清洗” (Data Cleaning) 是為提高數(shù)據(jù)質(zhì)量而對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的過程36。數(shù)據(jù)倉(cāng)庫裝載數(shù)據(jù)之前要進(jìn)行數(shù)據(jù)清洗15, 在大數(shù)據(jù)的質(zhì)量管理中, 數(shù)據(jù)清洗也起到了關(guān)鍵作用5。在開放政府?dāng)?shù)據(jù)領(lǐng)域, 澳大利亞等在數(shù)據(jù)發(fā)布周期中引入了“數(shù)據(jù)清洗”環(huán)節(jié)37, 用以實(shí)現(xiàn)各字段 (如日期、年齡和郵政編碼等) 的格式統(tǒng)一、空值補(bǔ)齊及非文本信息移除等, 見圖15。圖15 數(shù)據(jù)清洗前后對(duì)比圖 (澳大利亞)各級(jí)政府通過合適的技術(shù)、工具、規(guī)范和工作流程, 可以“清洗”表1中“正確性” (D9D12) 、“一致性” (D13D15) 、“完整性” (D17) 、“

28、唯一性” (D20) 和“規(guī)范性” (D21D24) 等維度下的10余種“臟數(shù)據(jù)”, 有效提升數(shù)據(jù)質(zhì)量。數(shù)據(jù)管理部門將數(shù)據(jù)文件轉(zhuǎn)化為開放標(biāo)準(zhǔn)下的機(jī)器可讀格式 (如CSV、XML和JSON等) , 可以提升數(shù)據(jù)的開放程度, 解決D25和D26這兩個(gè)質(zhì)量問題。用來消除原始數(shù)據(jù)中敏感信息的數(shù)據(jù)脫敏技術(shù), 可以有效防范隱私泄露問題 (D29) 。2016年9月28日貴州省質(zhì)監(jiān)局發(fā)布的政府?dāng)?shù)據(jù)數(shù)據(jù)脫敏工作指南地方標(biāo)準(zhǔn)38, 規(guī)范了數(shù)據(jù)脫敏的方法、過程、技術(shù)原則和管理原則。北京對(duì)敏感數(shù)據(jù), 如29家醫(yī)院的176萬個(gè)病例, 經(jīng)脫敏處理后向特定用戶開放39。4.2 采用標(biāo)準(zhǔn)規(guī)范在數(shù)據(jù)清洗過程中, 需要標(biāo)準(zhǔn)規(guī)范指導(dǎo)“數(shù)據(jù)格式統(tǒng)一”等操作。愛爾蘭“開放數(shù)據(jù)技術(shù)框架”采用了30余項(xiàng)標(biāo)準(zhǔn)40, 部分見表6。表6 愛爾蘭采用的部分標(biāo)準(zhǔn)規(guī)范我國(guó)各地也應(yīng)遵循國(guó)家標(biāo)準(zhǔn)GB/T 7408和GB/T 12406等來規(guī)范“日期/時(shí)間”和“幣值”等數(shù)據(jù)的取值格式和內(nèi)容。4.3 質(zhì)量檢查新西蘭政府機(jī)構(gòu)在Dt.nz上開放數(shù)據(jù)前要進(jìn)行質(zhì)量檢查41,42, 包括開放許可、數(shù)據(jù)格式、更新時(shí)間和是否刪除任何個(gè)人身份信息等。美國(guó)交通部對(duì)開放數(shù)據(jù)質(zhì)量的評(píng)價(jià)共有兩個(gè)維度下的10個(gè)問題, 滿分是35, 見表742,43。表7 美國(guó)交通部開放數(shù)據(jù)質(zhì)量檢查表英國(guó)和歐盟還建議用戶在使用開放數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論