人工智能數(shù)據(jù)服務(wù) 課件 3-3 項目三 任務(wù)3-3 數(shù)據(jù)清洗_第1頁
人工智能數(shù)據(jù)服務(wù) 課件 3-3 項目三 任務(wù)3-3 數(shù)據(jù)清洗_第2頁
人工智能數(shù)據(jù)服務(wù) 課件 3-3 項目三 任務(wù)3-3 數(shù)據(jù)清洗_第3頁
人工智能數(shù)據(jù)服務(wù) 課件 3-3 項目三 任務(wù)3-3 數(shù)據(jù)清洗_第4頁
人工智能數(shù)據(jù)服務(wù) 課件 3-3 項目三 任務(wù)3-3 數(shù)據(jù)清洗_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

任務(wù)3.3從混亂到有序的蛻變:數(shù)據(jù)清洗3知識&技能圖譜數(shù)據(jù)是信息分析的核心基礎(chǔ)。無論是商業(yè)分析中的銷售數(shù)據(jù)、市場調(diào)研中的問卷結(jié)果,還是科學(xué)研究中的實驗數(shù)據(jù),它們都包含著寶貴的信息和洞見。然而,這些數(shù)據(jù)往往并不是完美無瑕的,它們可能存在著缺失、錯誤、重復(fù)或格式不一致等問題,使得計算機算法難以直接進行高效的分析。因此,我們需要對數(shù)據(jù)進行清洗,將其轉(zhuǎn)化為算法能夠準(zhǔn)確處理的格式和結(jié)構(gòu)。本任務(wù)將提供34589組數(shù)據(jù),利用python的pandas和numpy庫,完成數(shù)據(jù)的清洗。部分?jǐn)?shù)據(jù)集如圖所示。實驗圖像實驗圖像3.1.1數(shù)據(jù)清洗的定義數(shù)據(jù)清洗(Datacleaning)是對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。它是數(shù)據(jù)預(yù)處理的第一步,也是保證后續(xù)結(jié)果正確的重要一環(huán)。數(shù)據(jù)清洗包括去除重復(fù)數(shù)據(jù)、填補缺失值、處理異常值和轉(zhuǎn)換數(shù)據(jù)格式等操作,以提高數(shù)據(jù)的準(zhǔn)確性和可靠性。數(shù)據(jù)清洗3.1.1數(shù)據(jù)清洗的定義這一過程有助于消除數(shù)據(jù)錯誤和噪聲,提高分析和建模的精度。在數(shù)據(jù)量較大的項目中,數(shù)據(jù)清洗時間可達(dá)整個數(shù)據(jù)分析過程的一半或以上。通過數(shù)據(jù)清洗,我們可以確保數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,為后續(xù)的數(shù)據(jù)分析和建模工作提供堅實的基礎(chǔ)。數(shù)據(jù)清洗3.1.2數(shù)據(jù)清洗的應(yīng)用場景數(shù)據(jù)清洗在各個領(lǐng)域和行業(yè)中都扮演著至關(guān)重要的角色,因為原始數(shù)據(jù)往往存在著各種質(zhì)量問題,如缺失值、異常值、重復(fù)項、格式不一致等,這些問題如果不得到有效處理,將會對后續(xù)的分析、建模和決策產(chǎn)生嚴(yán)重的負(fù)面影響。以下是一些數(shù)據(jù)清洗的典型應(yīng)用場景:數(shù)據(jù)清洗3.1.2數(shù)據(jù)清洗的應(yīng)用場景(1)商業(yè)和市場營銷:在市場營銷領(lǐng)域,企業(yè)需要清洗從各種渠道收集到的消費者數(shù)據(jù),以確保數(shù)據(jù)的準(zhǔn)確性和完整性。數(shù)據(jù)清洗包括處理缺失值、重復(fù)項、異常值以及統(tǒng)一化數(shù)據(jù)格式,這有助于進行客戶分析、市場細(xì)分和預(yù)測模型的構(gòu)建,從而提升營銷活動的精準(zhǔn)度和效果。數(shù)據(jù)清洗3.1.2數(shù)據(jù)清洗的應(yīng)用場景(2)金融和風(fēng)險管理:在金融領(lǐng)域,清洗數(shù)據(jù)對于風(fēng)險評估和金融建模至關(guān)重要。金融機構(gòu)需要處理大量的交易數(shù)據(jù)和客戶信息,以識別潛在的欺詐行為、風(fēng)險因素和市場趨勢。數(shù)據(jù)清洗能夠幫助發(fā)現(xiàn)數(shù)據(jù)中的異常模式和不一致性,為金融決策提供可靠的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)清洗3.1.2數(shù)據(jù)清洗的應(yīng)用場景(3)醫(yī)療保健:醫(yī)療保健領(lǐng)域需要處理大量的患者數(shù)據(jù)、臨床試驗數(shù)據(jù)和醫(yī)療記錄,以支持臨床決策、疾病預(yù)測和流行病學(xué)研究。數(shù)據(jù)清洗可以幫助確保數(shù)據(jù)的準(zhǔn)確性和一致性,為醫(yī)療分析和決策提供可靠的基礎(chǔ),同時確保患者隱私和醫(yī)療安全。數(shù)據(jù)清洗3.1.2數(shù)據(jù)清洗的應(yīng)用場景(4)物聯(lián)網(wǎng)(IoT):隨著物聯(lián)網(wǎng)設(shè)備的不斷增加,大量的傳感器數(shù)據(jù)需要進行清洗和預(yù)處理,以用于智能城市、智能制造和環(huán)境監(jiān)測等應(yīng)用。數(shù)據(jù)清洗可以幫助過濾掉無效數(shù)據(jù)和噪聲,提取有用的信息用于預(yù)測和決策,從而推動物聯(lián)網(wǎng)技術(shù)的發(fā)展和應(yīng)用。數(shù)據(jù)清洗3.1.2數(shù)據(jù)清洗的應(yīng)用場景(5)科學(xué)研究:在科學(xué)研究領(lǐng)域,數(shù)據(jù)清洗對于實驗數(shù)據(jù)、觀測數(shù)據(jù)和模擬數(shù)據(jù)的處理至關(guān)重要。科學(xué)家需要清洗數(shù)據(jù)以確保實驗結(jié)果的準(zhǔn)確性和科學(xué)結(jié)論的可靠性,這對于推動科學(xué)研究的進展至關(guān)重要。數(shù)據(jù)清洗3.1.2數(shù)據(jù)清洗的應(yīng)用場景數(shù)據(jù)清洗在各個行業(yè)和領(lǐng)域都具有重要的應(yīng)用意義,它是數(shù)據(jù)預(yù)處理過程中不可或缺的一步,對于確保數(shù)據(jù)質(zhì)量、提高分析效率和支持決策制定具有關(guān)鍵意義。通過數(shù)據(jù)清洗,原始數(shù)據(jù)得以凈化,為后續(xù)的數(shù)據(jù)分析和挖掘奠定了堅實的基礎(chǔ)。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法數(shù)據(jù)清洗旨在確保原始數(shù)據(jù)的準(zhǔn)確性、完整性和可靠性。在數(shù)據(jù)清洗過程中,需要處理缺失值、異常值、重復(fù)項,標(biāo)準(zhǔn)化數(shù)據(jù)格式,解決矛盾數(shù)據(jù),去除噪音,并驗證數(shù)據(jù)的完整性和準(zhǔn)確性。通過這些步驟,可以確保數(shù)據(jù)質(zhì)量,消除潛在的錯誤和不一致性,為后續(xù)的數(shù)據(jù)分析和建模提供可靠的基礎(chǔ),以支持科學(xué)決策和有效的業(yè)務(wù)應(yīng)用。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法根據(jù)應(yīng)用領(lǐng)域和場景的不同,綜合考慮數(shù)據(jù)特點、業(yè)務(wù)需求以及行業(yè)規(guī)范,選擇合適的數(shù)據(jù)清洗方法和步驟,以確保數(shù)據(jù)清洗的效果最大化。有效地提升數(shù)據(jù)質(zhì)量,為數(shù)據(jù)驅(qū)動的決策和應(yīng)用奠定堅實基礎(chǔ)。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法1缺失值處理缺失值是指在數(shù)據(jù)集中某個字段或變量的取值缺失或未記錄的情況。在現(xiàn)實數(shù)據(jù)中,由于各種原因(如人為錄入錯誤、設(shè)備故障、數(shù)據(jù)采集不完整等),數(shù)據(jù)中經(jīng)常會出現(xiàn)某些數(shù)值或字段為空的情況,這就稱為缺失值。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法在數(shù)據(jù)處理中,缺失值是一種常見且影響數(shù)據(jù)質(zhì)量的情況。數(shù)據(jù)清洗的關(guān)鍵任務(wù)之一是有效處理這些缺失值,以確保數(shù)據(jù)的準(zhǔn)確性和完整性。處理缺失值的方法通常包括填充缺失值、刪除包含缺失值的行或列,以及利用插值方法進行估算填充。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法填充缺失值是一種常見的處理方法,可以通過各種方式填補缺失數(shù)值,如用平均值、中位數(shù)、眾數(shù)等統(tǒng)計指標(biāo)代替缺失值,或者根據(jù)數(shù)據(jù)分布特征進行合理的填充。另一種處理方式是刪除包含缺失值的行或列,但需要謹(jǐn)慎操作,避免對整體數(shù)據(jù)造成較大影響。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法此外,插值方法是一種常用的技術(shù),通過在已知數(shù)據(jù)點之間進行插值來估算缺失值,如線性插值、多項式插值等,以盡可能準(zhǔn)確地填充缺失值。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法在實際應(yīng)用中,選擇何種方法處理缺失值需要根據(jù)數(shù)據(jù)的特點、缺失值的類型和缺失值產(chǎn)生的原因進行綜合考慮。有效處理缺失值不僅可以提高數(shù)據(jù)質(zhì)量,還可以減少數(shù)據(jù)分析和建模過程中的誤差,從而確保基于數(shù)據(jù)的決策和應(yīng)用的準(zhǔn)確性和可靠性。因此,在數(shù)據(jù)清洗過程中,正確處理缺失值是至關(guān)重要的一環(huán),有助于為后續(xù)數(shù)據(jù)處理和分析工作打下堅實的基礎(chǔ)。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法2異常值處理異常值(Outliers)是指在數(shù)據(jù)集中與大多數(shù)觀測值顯著不同的數(shù)值。這些數(shù)值可能是由于測量誤差、數(shù)據(jù)錄入錯誤、真實變化或者稀有事件所導(dǎo)致,與數(shù)據(jù)集中的大多數(shù)數(shù)值存在明顯偏離。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法異常值的存在可能會對統(tǒng)計分析、數(shù)據(jù)挖掘和機器學(xué)習(xí)模型產(chǎn)生負(fù)面影響,因此在數(shù)據(jù)處理和分析過程中,需要對異常值進行識別和適當(dāng)處理,以確保數(shù)據(jù)分析結(jié)果的準(zhǔn)確性和可靠性。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法識別異常值通常涉及使用統(tǒng)計方法或領(lǐng)域知識來確定哪些數(shù)值是異常的。統(tǒng)計方法包括基于數(shù)據(jù)分布的方法,如Z分?jǐn)?shù)、箱線圖等,以及基于距離或密度的方法,如DBSCAN、LOF(局部離群因子)等。除了統(tǒng)計方法,領(lǐng)域知識也是識別異常值的重要依據(jù),專業(yè)領(lǐng)域的專家可以根據(jù)經(jīng)驗和理論知識判斷哪些數(shù)值是異常的。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法一旦識別出異常值,就需要決定如何處理這些異常值。處理方法可以包括修正、刪除或標(biāo)記。修正異常值意味著嘗試通過合理的方法修正異常值,比如用均值或中位數(shù)進行替換。刪除異常值意味著將其從數(shù)據(jù)集中移除,但需要謹(jǐn)慎操作,避免過度刪除導(dǎo)致信息丟失。標(biāo)記異常值意味著將其進行特殊標(biāo)記,以便在后續(xù)分析中加以識別和區(qū)分。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法綜合考慮數(shù)據(jù)特點、異常值的類型以及業(yè)務(wù)需求,選擇合適的處理方法對異常值進行處理,有助于提高數(shù)據(jù)分析和建模的準(zhǔn)確性和可靠性。因此,對異常值的識別和處理是數(shù)據(jù)清洗過程中至關(guān)重要的一環(huán),能夠有效提升數(shù)據(jù)質(zhì)量,并為后續(xù)分析和建模工作打下堅實基礎(chǔ)。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法3重復(fù)項處理重復(fù)項是指在數(shù)據(jù)集中存在兩個或多個記錄具有相同或高度相似的數(shù)據(jù),這些記錄可能在所有字段上完全相同,也可能在部分字段上存在重復(fù)信息。重復(fù)項的出現(xiàn)可能是由于數(shù)據(jù)采集過程中的錯誤、系統(tǒng)故障或重復(fù)輸入等原因?qū)е碌摹?shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法在數(shù)據(jù)清洗和數(shù)據(jù)處理過程中,識別和處理重復(fù)項是確保數(shù)據(jù)集準(zhǔn)確性和唯一性的重要步驟。通過識別和處理重復(fù)項,可以有效地提高數(shù)據(jù)質(zhì)量和準(zhǔn)確性,確保后續(xù)的數(shù)據(jù)分析和建模工作能夠基于可靠的數(shù)據(jù)基礎(chǔ)展開。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法在數(shù)據(jù)集中存在重復(fù)記錄是數(shù)據(jù)清洗過程中常見的問題,識別重復(fù)項通常涉及比對數(shù)據(jù)集中的記錄,查找其中是否存在完全相同或部分重復(fù)的情況。可以通過比較各字段數(shù)值、關(guān)鍵標(biāo)識符或者組合字段來確定是否存在重復(fù)記錄。在識別重復(fù)項時,還需要考慮數(shù)據(jù)集的特點和業(yè)務(wù)需求,有時候重復(fù)記錄并非完全相同,可能存在輕微差異,這也需要謹(jǐn)慎處理。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法處理重復(fù)項的方法包括刪除重復(fù)記錄、合并重復(fù)記錄以及保留一個記錄并對其進行標(biāo)記。刪除重復(fù)記錄是最常見的處理方式,可以確保數(shù)據(jù)集的唯一性。合并重復(fù)記錄適用于需要將重復(fù)信息整合的情況,可以將重復(fù)記錄中的信息進行合并,生成一條完整的記錄。保留一個記錄并進行標(biāo)記可以幫助在后續(xù)分析中識別和區(qū)分重復(fù)項。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法在處理重復(fù)項時,需要根據(jù)具體情況選擇合適的方法,并確保處理后的數(shù)據(jù)集符合業(yè)務(wù)需求和分析目的。通過識別和處理重復(fù)項,可以提高數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性,為后續(xù)的數(shù)據(jù)分析和建模工作奠定良好的基礎(chǔ)。因此,重復(fù)項處理是數(shù)據(jù)清洗過程中必不可少的一環(huán),對確保數(shù)據(jù)質(zhì)量和分析結(jié)果的準(zhǔn)確性至關(guān)重要。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法4數(shù)據(jù)格式標(biāo)準(zhǔn)化數(shù)據(jù)格式標(biāo)準(zhǔn)化是指將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式或結(jié)構(gòu),以便于統(tǒng)一處理、分析和存儲。在數(shù)據(jù)集成、數(shù)據(jù)交換和數(shù)據(jù)處理過程中,不同數(shù)據(jù)源往往采用不同的數(shù)據(jù)格式和結(jié)構(gòu),這可能導(dǎo)致數(shù)據(jù)之間難以對比、整合和分析。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法因此,數(shù)據(jù)格式標(biāo)準(zhǔn)化的主要目的是消除數(shù)據(jù)的多樣性,使得數(shù)據(jù)具有一致的表達(dá)形式,便于進行數(shù)據(jù)管理和分析。數(shù)據(jù)格式標(biāo)準(zhǔn)化通常包括以下方面:(1)數(shù)據(jù)類型統(tǒng)一:將不同數(shù)據(jù)源中的數(shù)據(jù)類型進行統(tǒng)一,例如將日期時間數(shù)據(jù)統(tǒng)一為特定的日期時間格式,將文本數(shù)據(jù)進行標(biāo)準(zhǔn)化處理等。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法(2)數(shù)據(jù)單位統(tǒng)一:將數(shù)據(jù)中的單位進行統(tǒng)一,確保數(shù)據(jù)在同一計量單位下進行比較和分析。(3)數(shù)據(jù)結(jié)構(gòu)統(tǒng)一:統(tǒng)一數(shù)據(jù)的字段名、字段順序和數(shù)據(jù)排列方式,使得不同數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)一致。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法(4)數(shù)據(jù)標(biāo)準(zhǔn)化:對數(shù)值型數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,如歸一化或標(biāo)準(zhǔn)化,以便于不同數(shù)據(jù)之間的比較和分析。這種一致性對于后續(xù)的數(shù)據(jù)分析和建模工作至關(guān)重要,因為不一致的數(shù)據(jù)格式和單位可能會導(dǎo)致分析結(jié)果的不準(zhǔn)確甚至錯誤。首先,對于日期和時間數(shù)據(jù),應(yīng)當(dāng)采用統(tǒng)一的格式來表示,比如yyyy-mm-ddHH:MM:SS或者其他常見的國際標(biāo)準(zhǔn)時間格式。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法這有助于確保不同來源的數(shù)據(jù)能夠被正確地解釋和處理,避免因為日期和時間格式不一致而導(dǎo)致的數(shù)據(jù)混亂和錯誤分析。另外,對于貨幣數(shù)據(jù),也需要統(tǒng)一使用相同的貨幣符號和精度,比如美元、人民幣等,并且要保證小數(shù)點位數(shù)的一致性,以確保在進行數(shù)值計算時不會引入誤差。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法除了日期、時間和貨幣數(shù)據(jù)之外,其他類型的數(shù)據(jù)也需要進行相應(yīng)的標(biāo)準(zhǔn)化處理。例如,對于長度、重量、溫度等物理量,需要明確定義其單位,并且在整個數(shù)據(jù)集中保持一致。這樣做可以確保數(shù)據(jù)分析和建模過程中的計算正確性,并且避免因為單位不一致而引入錯誤的結(jié)論。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法數(shù)據(jù)格式標(biāo)準(zhǔn)化通過確保數(shù)據(jù)格式和單位的一致性,可以提高數(shù)據(jù)的質(zhì)量,減少分析過程中的錯誤,從而為后續(xù)的數(shù)據(jù)分析和建模工作奠定堅實的基礎(chǔ)。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法5.矛盾數(shù)據(jù)處理矛盾數(shù)據(jù)處理在數(shù)據(jù)清洗過程中扮演著至關(guān)重要的角色。所謂矛盾數(shù)據(jù),指的是數(shù)據(jù)集中不同字段之間存在邏輯上的不一致性,可能呈現(xiàn)為相互矛盾的信息或邏輯錯誤。這種矛盾數(shù)據(jù)的存在會極大地影響數(shù)據(jù)的準(zhǔn)確性和可靠性,因此需要通過數(shù)據(jù)清洗來解決這些問題,以確保數(shù)據(jù)的內(nèi)在一致性。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法在數(shù)據(jù)清洗過程中,處理矛盾數(shù)據(jù)通常包括以下幾個關(guān)鍵步驟。首先,識別矛盾數(shù)據(jù)是至關(guān)重要的。這一過程可以通過對數(shù)據(jù)進行深入分析和比對來發(fā)現(xiàn)數(shù)據(jù)間的不一致之處。其次,在處理矛盾數(shù)據(jù)時,需要確定數(shù)據(jù)的優(yōu)先級,即哪些數(shù)據(jù)應(yīng)被視為準(zhǔn)確的信息,從而為后續(xù)處理提供依據(jù)。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法邏輯驗證和修復(fù)是解決矛盾數(shù)據(jù)的關(guān)鍵環(huán)節(jié)。這包括檢查數(shù)據(jù)間的邏輯關(guān)系,驗證數(shù)據(jù)的一致性,并進行必要的修正或更新,以確保數(shù)據(jù)整體的邏輯正確性。在一些情況下,簡單的邏輯修復(fù)可能無法解決矛盾數(shù)據(jù)。這時可能需要進行數(shù)據(jù)合并或剔除操作,保留準(zhǔn)確的數(shù)據(jù)并丟棄不一致的信息,以確保數(shù)據(jù)質(zhì)量得到有效提升。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法最后,記錄處理過程是不可或缺的一環(huán)。記錄包括發(fā)現(xiàn)的矛盾情況、處理方法以及最終結(jié)果,有助于追溯數(shù)據(jù)清洗的全過程,確保數(shù)據(jù)處理的透明度和可追蹤性。綜上所述,解決矛盾數(shù)據(jù)需要綜合運用數(shù)據(jù)分析、邏輯驗證和修復(fù)、數(shù)據(jù)合并或剔除等方法,確保數(shù)據(jù)清洗后的數(shù)據(jù)集具有內(nèi)在一致性和準(zhǔn)確性,為后續(xù)數(shù)據(jù)分析和建模工作奠定堅實基礎(chǔ)。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法6.數(shù)據(jù)去噪數(shù)據(jù)去噪旨在識別和消除數(shù)據(jù)中存在的噪聲或無關(guān)信息,以確保數(shù)據(jù)的質(zhì)量和準(zhǔn)確性。噪聲可以是由各種因素引起的,如人為錯誤、傳感器誤差、數(shù)據(jù)損壞等,若不加處理直接用于分析和建模,將會對結(jié)果產(chǎn)生不良影響。因此,數(shù)據(jù)去噪是確保數(shù)據(jù)分析結(jié)果可靠性的重要環(huán)節(jié)。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法在進行數(shù)據(jù)去噪時,首先需要識別可能存在的噪聲類型。這包括但不限于異常值(outliers)、缺失值、重復(fù)數(shù)據(jù)、不一致數(shù)據(jù)等。異常值是指與其他觀測值相比明顯不同的數(shù)值,可能是由輸入錯誤或系統(tǒng)故障引起的,需進行判斷是否合理并進行相應(yīng)處理。缺失值是指數(shù)據(jù)中某些字段缺乏數(shù)值,需要考慮填充缺失值或者選擇合適的處理方法。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法重復(fù)數(shù)據(jù)則需要進行去重操作,避免重復(fù)數(shù)據(jù)對分析結(jié)果造成影響。其次,在識別噪聲的基礎(chǔ)上,需要選擇合適的數(shù)據(jù)去噪方法進行處理。常見的方法包括插值法填充缺失值、離群值檢測和剔除、數(shù)據(jù)平滑、數(shù)據(jù)變換等。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法對于缺失值,可以使用均值、中位數(shù)、眾數(shù)等統(tǒng)計量進行填充;對于異常值,可以通過箱線圖、Z-score等方法進行檢測和處理;同時,數(shù)據(jù)平滑和變換可以幫助降低數(shù)據(jù)中的噪聲,使數(shù)據(jù)更加平穩(wěn)和符合分析要求。數(shù)據(jù)清洗3.1.3數(shù)據(jù)清洗的步驟和方法最后,在應(yīng)用數(shù)據(jù)去噪方法時,需要綜合考慮數(shù)據(jù)的特點、領(lǐng)域知識和分析目的,以確保去噪的過程不會改變數(shù)據(jù)的本質(zhì)特征,并且不會引入新的錯誤。通過有效的數(shù)據(jù)去噪操作,可以提高數(shù)據(jù)的質(zhì)量和可靠性,為后續(xù)的數(shù)據(jù)分析和建模工作提供更加可靠的基礎(chǔ),從而得出準(zhǔn)確和有意義的結(jié)論。數(shù)據(jù)清洗64班級:組別:姓名:掌握程度:任務(wù)名稱基于numpy和pandas的數(shù)據(jù)清洗任務(wù)目標(biāo)清洗缺失,異常,重復(fù),格式不正確,矛盾數(shù)據(jù)操作系統(tǒng)Win10、Win11工具清單Python,pycharm,numpy,pandas操作步驟環(huán)境準(zhǔn)備;導(dǎo)入數(shù)據(jù):缺失值處理;異常值處理;重復(fù)項處理;格式標(biāo)準(zhǔn)化;矛盾數(shù)據(jù)處理。考核標(biāo)準(zhǔn)清洗后的數(shù)據(jù)無缺失,錯誤,重復(fù)。步驟一環(huán)境準(zhǔn)備64SUGGESTION11、下載并安裝好Pycharm和Anaconda,Windows系統(tǒng)中通過開始菜單在所有應(yīng)用中找到Anaconda下的AnacondaPowershellPrompt,如圖所示;點擊鼠標(biāo)左鍵打開圖窗,在命令提示符下輸入condaactivatelabel-studio,Enter鍵確認(rèn)后,激活LabelStudio虛擬環(huán)境。12642、在虛擬環(huán)境中下載圖像增廣項目所依賴的python第三方庫pandas,在Anaconda命令行操作圖窗中通過以下命令condainstallpandas在label-studio虛擬環(huán)境中安裝pandas庫,如圖所示。641步驟二導(dǎo)入數(shù)據(jù)1、準(zhǔn)備好環(huán)境之后,在Pycharm中使用準(zhǔn)備好的Anaconda虛擬環(huán)境,并在當(dāng)前的工程目錄下,創(chuàng)建cleaning_data文件夾,將要處理的數(shù)據(jù)10.xlsx保存到該文件夾。如下圖所示。1264SUGGESTION12、使用pandas的read_excel函數(shù)來讀取Excel文件。使用read_excel函數(shù)讀取Excel文件,可以選擇工作表的名字或者索引,默認(rèn)讀取第一個工作表。如果Excel文件中有多個工作表,可以使用sheet_name參數(shù)指定,例如sheet_name='Sheet1'。1264步驟三缺失值處理首先對每列進行數(shù)據(jù)檢測,使用ffill()向前填充(用前一個非NaN值填充NaN),然后使用bfill()向后填充(用后一個非NaN值填充NaN)。這樣可以確保即使是連續(xù)的空值NaN,也能至少被前端或后端的非NaN值填充其中之一。對于缺失值,另一種方式是計算相鄰行的平均值進行插補,這里需要特別注意,如果直接使用.mean()函數(shù),會忽略NaN值計算所有數(shù)據(jù)的平均值,但我們的目標(biāo)是使用非空的相鄰行的值來計算平均值,而不是使用非空的全部值來計算平均值,因此需要更復(fù)雜的邏輯來準(zhǔn)確找到并計算這些平均值,如圖所示。1261上述代碼中的df[column].ffill().bfill()是為了確保即使有連續(xù)的NaN也能至少被一端的非NaN值填充,但這一步并不是直接計算相鄰行的平均值。計算相鄰行平均值的部分較為復(fù)雜,特別是處理兩端的NaN或間斷的NaN時。步驟四異常值處理識別異常值通常涉及使用統(tǒng)計方法或領(lǐng)域知識來確定哪些數(shù)值是異常的。這里主要使用統(tǒng)計計算離群值并繪制箱線圖的方式發(fā)現(xiàn)數(shù)據(jù)中的異常值。1、在虛擬環(huán)境中下載專門用于數(shù)據(jù)可視化的python第三方庫seaborn和matplotlib。141matplotlib是一個強大的繪圖庫,提供了制作靜態(tài)、動態(tài)、交互式可視化的工具,支持生成線圖、柱狀圖、散點圖等多種圖形。它是Python中最基礎(chǔ)且廣泛使用的繪圖庫。seaborn則是基于matplotlib構(gòu)建的高級數(shù)據(jù)可視化庫,它提供了更易于使用的接口來創(chuàng)建統(tǒng)計圖形。seaborn專長在于數(shù)據(jù)分析和統(tǒng)計圖形,如熱圖、jointplot、violinplot、boxplot等,并且自帶了一套美觀的風(fēng)格設(shè)置,使得圖表更加吸引人。在Anaconda命令行操作圖窗中通過以下命令condainstallseabornmatplotlib在label-studio虛擬環(huán)境中安裝pandas庫,如下圖所示。26412、篩選出所有的數(shù)值型列,嘗試將非數(shù)值類型的列轉(zhuǎn)換為數(shù)值類型(例如,某些列可能是可轉(zhuǎn)換的,如存儲數(shù)字的字符串),然后基于這些列使用Seaborn的boxplot函數(shù)繪制箱線圖,并利用其內(nèi)置的離群值檢測功能,繪制所有列的箱線圖。代碼如圖所示,效果如圖所示(下頁)1264SUGGESTION11264SUGGESTION13、定義離群值的判斷標(biāo)準(zhǔn),通常Seaborn庫使用的是IQR方法,默認(rèn)是1.5倍的四分位距。12644、返回離群值所在的行,通過isin()函數(shù)創(chuàng)建一個布爾掩碼,該掩碼指示了原始數(shù)據(jù)框df中哪些行的索引存在于離群值數(shù)據(jù)框outliers的索引中。然后,使用波浪線~對這個掩碼取反,這樣就可以選擇出那些不在離群值列表中的行,最后用這個布爾索引從原始數(shù)據(jù)框中篩選出沒有離群值的行,得到一個“清洗”后的數(shù)據(jù)框df_cleaned。1261步驟五重復(fù)項處理對每一行的數(shù)據(jù)進行排查,使用Pandas的drop_duplicates()函數(shù),刪除數(shù)據(jù)df中完全重復(fù)的行(基于所有列考慮)。這段代碼會遍歷DataFrame中的每一行,比較所有列的值,如果發(fā)現(xiàn)有完全相同的行,則根據(jù)drop_duplicates()函數(shù)的參數(shù)決定保留或刪除。默認(rèn)情況下,它會保留每個重復(fù)組的第一個實例(即第一次出現(xiàn)的行),如果你想刪除所有重復(fù)行,可以設(shè)置keep=False。12641步驟六數(shù)據(jù)格式標(biāo)準(zhǔn)化對代表日期的、名為DATATIME的列,從1/10/2021這種類型的數(shù)據(jù)轉(zhuǎn)化成時間戳的格式,完成數(shù)據(jù)格式標(biāo)準(zhǔn)化1、首先對于名為DATATIME的列使用pd.to_datetime()函數(shù)將字符串轉(zhuǎn)換為Pandas的DateTime對象,其中format參數(shù)指定了日期字符串的格式。612、直接使用.astype(64)/.view(64)來獲取納秒級時間戳,然后除以10的9次方來轉(zhuǎn)換為秒。時間戳(Timestamp)是一種表示時間的方式,通常是從一個特定的參考時間點(比如1970年1月1日00:00

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論