




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)清洗(時間序列數(shù)據(jù)TSD(time series Data)需求設(shè)計Data Cleaning ModuleDCM應(yīng)該屬于DAX的一個模塊。1、 數(shù)據(jù)清洗的目的原始采集的數(shù)據(jù)會受到傳感器、變送器、信號傳輸、環(huán)境干擾(電磁、潮濕、高熱)、人為造假等各種因素的影響,數(shù)據(jù)中會包含一些受到“污染”的數(shù)據(jù)。如果直接利用這些數(shù)據(jù)進行控制、繪圖、制表、數(shù)據(jù)分析、數(shù)據(jù)挖掘,則不可避免的會影響分析過程和結(jié)果,總的來說:低質(zhì)量的數(shù)據(jù)無法獲得高質(zhì)量的分析結(jié)果。任何規(guī)模的數(shù)據(jù)在分析以前,有必要對原始數(shù)據(jù)進行預(yù)處理,以使其達到必要的質(zhì)量,這個過程我們稱之為數(shù)據(jù)清洗。數(shù)據(jù)清洗后,一般有兩類用途,一是直接用于在線過程控
2、制,二是用于事后分析。那些數(shù)據(jù)需要清洗任何直接采集的數(shù)據(jù)都需要進行清洗,利用清洗程序?qū)?shù)據(jù)處理后,會對數(shù)據(jù)的各種缺陷進行標記,對發(fā)現(xiàn)的有缺陷的數(shù)據(jù)進行拋棄、估計、修改。很多工廠由于缺乏數(shù)據(jù)清洗這個環(huán)節(jié),會大大影響過程控制的可靠性。低質(zhì)量的數(shù)據(jù),在事后分析時會帶來很大的困難。不少環(huán)境監(jiān)測類的投資,由于缺乏數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)清洗技術(shù),會使投資回報大大降低。2、 通用性設(shè)計常見的原始數(shù)據(jù)問題1) 數(shù)據(jù)缺失2) 跳點3) 干擾(白噪聲或其它)4) 漂移(線性與非線性)5) 超限6) 滯后造成的時間不同步7) 邏輯缺失(因果關(guān)系、相關(guān)關(guān)系)8)數(shù)據(jù)檢驗的方法1) 上下限制檢驗法 2) 斜率檢驗法 3)
3、差值檢驗法 4) 頻率檢驗法 5) 時間區(qū)間檢驗法 6) 人工數(shù)據(jù)修正 1 / 87) 關(guān)系檢驗(因果、相關(guān)性)8)數(shù)據(jù)處理的方法1) 刪除法2) 補差法a) 取前點b) 均值插補c) 回歸插補d) 極大似然估計3) 回歸法4) 均值平滑法5) 離群點分析6) 小波去噪7) 人工修改8)對時間序列數(shù)據(jù)的定義1) 源數(shù)據(jù)序列(Origin TSD):一般保存人工采集導(dǎo)入和自動測報采集的原始數(shù)據(jù),為確保該類型數(shù)據(jù)安全,數(shù)據(jù)設(shè)置只讀。2) 生產(chǎn)時序數(shù)據(jù)(Production TSD):拷貝自源數(shù)據(jù),加以校核和清洗。對數(shù)據(jù)的常規(guī)維護通常在這類序列上進行。3) 衍生時序數(shù)據(jù)(Derived TSD):一
4、般是通過一些標準方法計算的統(tǒng)計序列,例如日月年特征值等。3、 數(shù)據(jù)處理數(shù)據(jù)處理的過程是通過數(shù)據(jù)計算任務(wù)來執(zhí)行,數(shù)據(jù)清洗屬于計算任務(wù)的一部分。1) 用于在線過程控制的計算任務(wù),此類計算任務(wù)的執(zhí)行實時性高,例如AVS,少人無人值守控制平臺,計算任務(wù)在常規(guī)自控的輪詢周期中。一般的刷新率是秒級或毫秒級。此類計算任務(wù)最好在PLC中處理,如無法再PLC中處理,就在上位機進行計算。進行數(shù)據(jù)清洗的計算任務(wù),一般屬于此類,計算是實時進行。2) 用于事后分析的計算任務(wù),此類計算任務(wù)的實時性不高,用途主要是數(shù)據(jù)分析,例如各類KPI、周期性的數(shù)據(jù)整理、各類自定義的計算等等,大數(shù)據(jù)分析通常也是利用這些數(shù)據(jù)。此類數(shù)據(jù)的計
5、算任務(wù)實時性不高,可以在事后按照固定的周期或者條件進行。4、 數(shù)據(jù)質(zhì)量(DQ)的定義:1) 完整性 Completeness完整性指的是數(shù)據(jù)信息是否存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。不完整的數(shù)據(jù)所能借鑒的價值就會大大降低,也是數(shù)據(jù)質(zhì)量最為基礎(chǔ)的一項評估標準。2) 一致性 Consistency一致性是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范(這些規(guī)范可以是格式,數(shù)位,或者是數(shù)據(jù)的統(tǒng)計性特征),研判數(shù)據(jù)集合是否保持了統(tǒng)一的規(guī)范。數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯。規(guī)范可以特指:一項數(shù)據(jù)存在它特定的格式,例如手機號碼一定是13位的
6、數(shù)字,IP地址一定 是由 4個0到255間的數(shù)字加上”.”組成的。規(guī)范也可以特指,多項數(shù)據(jù)間存在著固定的邏輯關(guān)系,例如PV一定是大于等于UV的,跳出率一定是在0到1之間的,還有數(shù)據(jù)統(tǒng)計性特征,比如儀表測量的數(shù)據(jù)和人為偽造的數(shù)據(jù)的統(tǒng)計特征是顯著不同的。3) 準確性 Accuracy準確性是指數(shù)據(jù)記錄的信息是否存在異常或錯誤。和一致性不一樣,存在準確性問題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致。最為常見的數(shù)據(jù)準確性錯誤就如亂碼。其次,異常的大或者小的數(shù)據(jù)也是不符合條件的數(shù)據(jù)。一般而言,僅僅靠一些簡單規(guī)則無法判斷數(shù)據(jù)的準確性,通常會借助人工或自動系統(tǒng)的檢驗,或者在檢測過程中增加一些標準樣的測量。比較特定樣品
7、的檢測值就可以判斷該批次檢測的數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量的準確性可能存在于個別記錄,也可能存在于整個數(shù)據(jù)集,例如數(shù)量級記錄錯誤。這類錯誤則可以使用多種方法去審核。一般數(shù)據(jù)都符合正態(tài)分布的規(guī)律,如果一些占比少的數(shù)據(jù)存在問題,則可以通過比較其他數(shù)量少的數(shù)據(jù)比例,來做出判斷。4) 及時性 Timeliness不同的應(yīng)用場景對數(shù)據(jù)的及時性要求不同,在線控制條件下,假如某個關(guān)鍵性的輸入數(shù)據(jù)無法及時獲得,會影響后后續(xù)的過程控制。在事后分析中,對及時性的要求就大大降低。5) 合理性 Validation6) 關(guān)聯(lián)性 Integration7) 絕對質(zhì)量8) 過程質(zhì)量數(shù)據(jù)標注的方法源數(shù)據(jù)序列ODSN = Normal
8、正常U = Unchecked未檢驗E = Estimated 估計數(shù)據(jù)M = Missing 丟失數(shù)據(jù)生產(chǎn)數(shù)據(jù)序列 PDSG= Good 優(yōu)質(zhì)E= Estimated估計,包括自動修改及人工修改,標注方法 S= Suspect 可疑數(shù)據(jù)U= Unchecked未檢查L= Loss 丟失數(shù)據(jù)M= Manual input人工輸入數(shù)據(jù)C= CheckPoint 質(zhì)控檢查點(用于和鴻海配合)衍生時序數(shù)據(jù) DDSD = Derived 衍生的,這個部分設(shè)計請參考測點數(shù)據(jù)管理(計算任務(wù))數(shù)據(jù)標記除了上述表述數(shù)據(jù)分析結(jié)果的項次外,建議還記錄標記數(shù)據(jù)的算法名稱、版本、計算時間等。對時間序列數(shù)據(jù)整體質(zhì)量的定
9、義時間序列數(shù)據(jù)表現(xiàn)為按照一定頻率不斷記錄的數(shù)據(jù),如每秒記錄1次的時間序列數(shù)據(jù)在1小時內(nèi)會有3600個記錄,每分鐘記錄1次的數(shù)據(jù)每天會有1440個記錄。需要有一種方法整體性的評估某個時間區(qū)間內(nèi)的時間序列數(shù)據(jù)的整體質(zhì)量。例如:某個采集頻率為1/min的源數(shù)據(jù)在10天時間內(nèi)的整體數(shù)據(jù)質(zhì)量,根據(jù)自動檢驗的方法檢驗后,結(jié)果為:正常88.2%,丟失11.3%,估計數(shù)據(jù)0.5%,檢測率100%;沒有經(jīng)過自動檢測的數(shù)據(jù),統(tǒng)計標記為未檢測。某個采集頻率為1/min的生產(chǎn)序列數(shù)據(jù)在10天時間內(nèi)的整體數(shù)據(jù)質(zhì)量,根據(jù)自動檢驗的方法檢驗后,結(jié)果為:優(yōu)質(zhì)83.5%,估計15.7%,可疑0.8% ,檢測率100%;沒有經(jīng)過
10、自動檢測的數(shù)據(jù),統(tǒng)計標記為未檢測。根據(jù)數(shù)據(jù)的自動檢測情況,可以將源數(shù)據(jù)或者生產(chǎn)序列數(shù)據(jù)分類為優(yōu)質(zhì)、正常、較差、不可用等類別【這個部分尚需討論】。在后續(xù)的大數(shù)據(jù)分析中,如果采用了較差、不可用等標記的數(shù)據(jù),會極大的影響分析結(jié)果,導(dǎo)致錯誤的結(jié)論。用于在線控制的數(shù)據(jù)清洗功能在線數(shù)據(jù)清洗的基本功能如下:1) 數(shù)據(jù)清洗任務(wù)應(yīng)該在輪巡任務(wù)中,循環(huán)一周,該任務(wù)就會執(zhí)行一次。2) 該場景下的數(shù)據(jù)清洗任務(wù)主要是目標是加工生成:生產(chǎn)序列數(shù)據(jù)。3) 如當(dāng)前某測點的檢測結(jié)果生成的數(shù)據(jù)標記,對應(yīng)措施如下表:數(shù)據(jù)標記措施風(fēng)險類型G采用原值小PDSE采用估計值較小PDSS采用上一個標記為G的原值較小PDSU不做清洗處理,采用
11、原值大PDSM無無4) 每個控制器既可以有自控程序判斷啟動,也可以由人工啟動(S2);5) 當(dāng)前控制器的某一路信號被判斷為不可信時,系統(tǒng)可以用虛擬信號替代(S2)6) 需要有一張圖,可以呈現(xiàn)所有的控制器的在用狀態(tài),最好采用自控中的標準圖形和標注方法(S2)注:這里后面標記為S2的需求,以后并入少人無人值守系統(tǒng)設(shè)計的需求中。用于事后數(shù)據(jù)分析的數(shù)據(jù)清洗用于事后分析數(shù)據(jù)清洗的基本功能如下:1) 數(shù)據(jù)清洗任務(wù)根據(jù)任務(wù)特點,選擇定時清洗、逢變清洗、條件清洗等,常見的事后處理規(guī)則是間隔一定時間后批處理。處理時需要考慮依賴關(guān)系,即首先是對ODS數(shù)據(jù)處理,然后是PDS、DDS,其它的再加工應(yīng)該在上述任務(wù)之后。
12、2) 數(shù)據(jù)清洗任務(wù)應(yīng)該在專用的數(shù)據(jù)處理程序中進行,在大任務(wù)量情況下支持多機部署。3) 數(shù)據(jù)清洗應(yīng)該可以并入DAX平臺中,作為一個必要的功能模塊。4) 支持對第三方數(shù)據(jù)進行數(shù)據(jù)清洗,第三方數(shù)據(jù)必須符合DAX的數(shù)據(jù)規(guī)范,導(dǎo)入DAX數(shù)據(jù)庫中,進行清洗選項的配置,啟動清洗,生成結(jié)果,結(jié)果導(dǎo)出。5) 支持第三方軟件通過接口,條件是這些數(shù)據(jù)應(yīng)該在被合理的配置過了,獲取我們的清洗后數(shù)據(jù)結(jié)果,作為一個數(shù)據(jù)服務(wù)。6) 其它數(shù)據(jù)應(yīng)用程序在使用清洗過的數(shù)據(jù)時,可以根據(jù)讀到的數(shù)據(jù)標記,制定自己的處理規(guī)則。7) DAX中的報表功能,推薦使用PDS和DDS作為源數(shù)據(jù)。8) DAX中的曲線繪制功能,在讀取數(shù)據(jù)標記后,繪制P
13、DS和DDS趨勢曲線時,可以解析不同的標記,并在曲線上顯示出來 參見數(shù)據(jù)清洗的管理.1。9) DAX中曲線繪制功能中的數(shù)據(jù)列表選項,應(yīng)該能夠?qū)Ξ惓?shù)據(jù)做出醒目標記。10) 可以接收特定質(zhì)控數(shù)據(jù)(如鴻海),將數(shù)據(jù)和某一個TSD進行合并分析。接收的方法推薦由鴻海直接采集進我們的DAX數(shù)據(jù)庫,其次允許數(shù)據(jù)導(dǎo)入后分析。11) 數(shù)據(jù)脫敏.12)5、 數(shù)據(jù)清洗的管理數(shù)據(jù)清洗是DAX功能的一部分,但在一些特定情況下,可以單獨使用。數(shù)據(jù)清洗后需要呈現(xiàn)以下幾個場景1) 針對單測點的時間序列數(shù)據(jù)(選定的時間段內(nèi))a) 可以用趨勢圖,或者用數(shù)據(jù)表的形式,展示該數(shù)據(jù)中存在問題的數(shù)據(jù)點,并可以把這些數(shù)據(jù)點用特殊的圖形、
14、符號或顏色標記出來。b) 可以用餅圖或者百分比的數(shù)字,表現(xiàn)出某段時間區(qū)間內(nèi)的存在問題的數(shù)據(jù)比例,并分類展示。c) 可以用統(tǒng)計性的指標,如方差、分布特征等,特殊情況下這些統(tǒng)計性指標可以作為時間序列數(shù)據(jù)的數(shù)據(jù)指紋,用于判定不同期限的數(shù)據(jù)是否一致。因測量方法、傳感器器更換、傳感器位置更換可能會帶來一致性的不同。一般而言,人工偽造的數(shù)據(jù),不符合正態(tài)分布,比較容易識別。d) 在趨勢圖下面X軸下部,有個色帶可以用不同的顏色標記不同質(zhì)量數(shù)據(jù)的顏色,進而呈現(xiàn)出分布情況。i. 例如綠色是優(yōu)質(zhì)數(shù)據(jù),黃色是未檢驗數(shù)據(jù),紅色是可疑數(shù)據(jù)等等2) 針對多測點的時間序列數(shù)據(jù)(選定的時間段內(nèi))a) 在一個數(shù)據(jù)表中,可以用不同
15、的標記(顏色、)表現(xiàn)出不同的測點數(shù)據(jù)的質(zhì)量情況,參見對時間序列數(shù)據(jù)整體質(zhì)量的定義。數(shù)據(jù)質(zhì)量低于某個指標,需要顯著的標記為不可用。排序中的不同的列,可以是單測點數(shù)量質(zhì)量的某個維度。b) 可以用排序的方法羅列出數(shù)據(jù)表中數(shù)據(jù)質(zhì)量從高到低,或者從低到高的排序。c) 檢驗多測點時間的相關(guān)性,并采用適合表達相關(guān)性的圖表方式(參考某些BI軟件,如SPSS)進行表達。根據(jù)不同的相關(guān)性群組,進一步可以進行聚類分析,因果檢驗等。d)3) 為后續(xù)數(shù)據(jù)挖掘和分析做好數(shù)據(jù)基礎(chǔ)a) 了解行業(yè)排名前三的數(shù)據(jù)分析和挖掘軟件,了解他們的數(shù)據(jù)結(jié)構(gòu),DCM應(yīng)該能夠輸出和他們匹配的數(shù)據(jù)結(jié)構(gòu),有這些軟件的用戶可以直接使用DAX。b) 4) 數(shù)據(jù)清洗的配置a) 提供為任意一個單測點進行數(shù)據(jù)清洗所需的配置項,內(nèi)容包括需要進行的自動檢測,需要檢測的項目進行勾選,某些檢測項勾選后還需要填充必要的參數(shù)。該配置項可以并入DAX的數(shù)據(jù)基礎(chǔ)配置中。b) 任何已經(jīng)配置好的清洗選項,在使用過程中可以修改,修改后可以選擇立即啟用,或某具體時間后啟用。建議可以給用戶提供演算功能,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年鄂爾多斯市公務(wù)員考試行測真題(含答案詳解)
- 山東省泰安市部分學(xué)校2023-2024學(xué)年高二下學(xué)期期末測試數(shù)學(xué)試題(解析版)
- 項目管理工具在房地產(chǎn)中的適用性
- 肯德基炸雞的制作工藝
- 靈活應(yīng)對房地產(chǎn)市場變化的策略
- 2023學(xué)年湖州市吳興區(qū)八年級語文下學(xué)期期末練習(xí)卷附答案解析
- 怎樣打造百變發(fā)型
- 卡通過年的樂趣
- 家國情懷:在血脈中奔涌的生命史詩-2025屆高三語文主題讀寫素材
- 環(huán)境災(zāi)害應(yīng)急響應(yīng)預(yù)案培訓(xùn)教材重點基礎(chǔ)知識點歸納
- 高速鐵路技規(guī)課件
- 三年級《中國古代寓言故事》知識考試題庫(含答案)
- 小學(xué)語文修改語段課件
- (新版)供電可靠性理論考試題庫大全-上(單選、多選題)
- C型鋼檢驗報告
- AS9100D體系標準中文版
- 艾滋病、梅毒、乙肝試驗室檢測技術(shù)
- 空調(diào)安裝安全協(xié)議書1
- WS T 510-2016病區(qū)醫(yī)院感染管理規(guī)范
- 中南大學(xué)計算機體系結(jié)構(gòu)題庫
- 兒童身高預(yù)測與促進課件
評論
0/150
提交評論