




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據科學與工程導論IntroductiontoDataScienceandEngineering開篇實例軟件開發過程與新技術迭代開篇實例軟件開發過程與新技術迭代數據科學過程基礎1第9章
數據科學過程數據科學工作流2
-設定研究目標-數據獲取-數據預處理-探索性分析-數據建模-交流與展示9.1數據科學過程基礎什么是數據科學過程NationalAcademyofSciences(NAS):Pipelinesofprocessesthatcombinepeople,data,toolsandsystemstosolvedatacentricproblems.formulatinggoodquestionspreparingavailabledatachoosingasetoftoolsandsystemsundertakinganalysesinareproduciblemannerassessinganalyticmethodsdrawingappropriateconclusionscommunicatingresults9.1數據科學過程基礎什么是數據科學過程微軟:DataScienceProcess(DSP)是一種敏捷的迭代式數據科學方法,可有效交付預測分析解決方案和智能應用程序。
JoeBlitzstein(Harvard):adatascienceprocessframeworkincluding:Stage1:AskAQuestionStage2:GettheDataStage3:ExploretheDataStage4:ModeltheDataStage5:CommunicatetheDataCRISP-DM:isanopenstandardprocessmodelthatdescribescommonapproachesusedbydataminingexperts.9.1數據科學過程基礎MicrosoftTeamDataScienceLifecycleBusinessunderstandingDataacquisitionandunderstandingModelingDevelopment9.1數據科學過程基礎MicrosoftTeamDataScienceProcess9.1數據科學過程基礎AnotherDataScienceProcess提出一個有趣的問題Skills:science,domainexpertise,curiosityTools:yourbrain,talkingtoexperts,experience獲取數據Skills:webscraping,datacleaning,queryingdatabases,CSstuffTools:python,pandas探索數據Skills:Gettoknowdata,develophypotheses,patterns?anomalies?Tools:matplotlib,numpy,scipy,pandas數據建模Skills:regression,machinelearning,validation,bigdataTools:scikitslearn,pandas,mrjob,mapreduce交流與可視化結果Skills:presentation,speaking,visuals,writingTools:matplotlib,powerpoint/keynote9.1數據科學過程基礎設立研究目標設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示定義研究目標:了解研究的目標和背景創立項目章程:明確的研究目標項目任務和背景如何進行分析期望使用什么資源論證項目可行性明確可交付的成果時間表9.1數據科學過程基礎數據獲取設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示PrivatedataPublicdataOpendata9.1數據科學過程基礎數據獲取設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示9.1數據科學過程基礎數據獲取設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示SODA大賽數據上海市居民公交卡刷卡記錄強生出租車數據浦東公交到離站數據聯通數據、電信數據:上網行為、用戶特征公安數據:道路事故、犯罪統計、派出所出警匯納科技商圈數據:商圈客流量城市綠化數據、工商局數據、運輸公司數據環保數據:AQI數據、重點污染源、天氣數據:實時雨量信用平臺數據摩拜單車騎行數據開放數據集(OpenDataset)政府(Government)聯合國數據庫、美國政府、地方政府企業(Company)AWS、Facebook、Google健康(Healthcare)金融(Finance)天氣(Climate)休閑娛樂科學研究語言數據集、世界銀行、人口與健康競賽數據Kaggle、天池、SODA9.1數據科學過程基礎數據預處理的目的設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據預處理是數據處理過程中非常重要的一步。這個過程,也許會是整個數據處理流程中最耗費時間的一環。過程中也許會很枯燥和煩悶,但是絕對不可或缺。《探索性數據挖掘和數據清理》的作者西奧多·約翰遜和塔瑪拉帕拉尼·達蘇曾經說過:“根據我們的經驗,最終數據挖掘的價值有百分之八十都取決于探索式數據分析和數據清洗的效果。”9.1數據科學過程基礎數據預處理的原因設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示為什么需要進行數據的預處理呢?因為在原始數據中存在著各種各樣的問題。雜亂性重復性不完整性存在噪聲9.1數據科學過程基礎數據預處理的原因設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示雜亂性重復性不完整性存在噪聲雜亂性是指系統中的數據缺乏統一的標準和定義。具體表現形式包括:在不同的數據來源中的同義異名情況,例如為了標示客戶,一些數據來源用cust_id來區分,另一些則用cust_number;不同數據來源采用的度量標準可能不同,比如對于性別,一些采用M或F來區分,另一些則采用男或女來區分;對同一屬性定義的類型不同,以工資為例,一些數據來源可能定義為Int型,另一些則將工資定義為Double型。9.1數據科學過程基礎數據預處理的原因設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示雜亂性重復性不完整性存在噪聲重復性是指同一事物在數據庫中存在兩條或多條完全相同的記錄。這種情況非常常見,如實際使用過程中出現的意義相同或者表示同一信息的多個屬性。9.1數據科學過程基礎數據預處理的原因設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示雜亂性重復性不完整性存在噪聲不完整性是指系統設計的不合理或者使用過程中的某些因素所造成的屬性值缺失或者不確定。或者是某個元組中缺少了某樣或者某幾樣屬性,甚至是多個元組直接缺失。造成這種情況的原因,或許是在數據輸入時,某些數據可能被誤認為不重要而刪除掉了。或是某些數據由于存在不一致性,結果被刪除了。9.1數據科學過程基礎數據預處理的原因設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示雜亂性重復性不完整性存在噪聲存在噪聲是指測量變量中的隨機錯誤或偏離期望的鼓勵點值。噪聲數據的來源眾多,起因也各異。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示按照所處理的內容不同,可以分為以下幾類:數據清洗:
數據清理即填寫空缺值、平滑噪聲數據、識別刪除孤立點,以及解決數據中的不一致性問題;數據集成:數據集成即通過操作集成多個來源不同的數據庫、數據立方或文件;數據變換:數據變換即對原始數據進行規范化和聚集操作;數據規約:數據規約即通過操作得到數據集的壓縮表示,所得到的壓縮表示將會小得多,但可以在其上得到與原始數據相同或相近的數據挖掘結果。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據清洗的主要任務就是對原始數據進行處理,將“臟”數據轉化為“干凈的”數據。其主要任務包括:填補空缺值平滑噪聲數據糾正不一致數據
消除冗余數據數據清洗9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示原始數據并不總是完整的,在很多情況下,會出現數據庫中,很多條記錄的對應字段為空的情況。引起空缺值的原因很多,例如:設備異常與其他已有數據不一致而被刪除因為誤解而沒有被輸入的數據在輸入時,有些數據因為得不到重視而沒有被輸入對數據的改變沒有進行日志記載數據清洗–填補空缺值9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示填補空缺值的方法一般有以下幾種:直接忽略存在屬性缺失的元組人工方式來填寫空缺值自動填充空缺值要注意的是:自動填充的方法會使數據分布產生傾斜,導致數據分布過度集中于數據空間的某端,造成“頭重腳輕”或者“比薩斜塔”等不均勻分布特點。數據分布傾斜性將造成運算效率上的“瓶頸”和數據分析結果的“以偏概全”。而且,不管采用了何種方式來推斷空缺值,填入的值都可能是不正確的。因為,我們畢竟不知道空缺處真實的值是多少,而是使用現有數據的信息來推測的。數據清洗–填補空缺值9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示噪聲數據,是指原始數據中所存在的隨機錯誤或偏差。引起噪聲數據的原因有很多,比如:數據收集工具的問題數據輸入錯誤數據傳輸錯誤技術限制命名規則的不一致數據清洗–平滑噪聲數據9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示平滑噪聲數據的方法分箱法:指把待處理的數據按照一定的規則放進一些箱子中,考察每一個箱子中的數據,再采用某種方法來分別對各個箱子中的數據進行處理的方法。聚類方法:將相似的值組織成群或類,那么落在群或類外的值就是孤立點。孤立點可能是垃圾數據,也可能為我們提供重要的信息。對于確認的孤立點垃圾數據將從數據庫中予以清除。回歸方法:可以找到恰當的回歸函數來平滑數據。線性回歸要找出適合兩個變量的“最佳”直線,使得一個變量可以預測另一個。多線性回歸涉及多個變量,數據要適合一個多維面。數據清洗–平滑噪聲數據9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據集成就是將多個數據源中的數據結合起來存放在一個一致的數據存儲中。在數據集成的過程中,通常需要考慮多信息源的匹配、數據冗余、數據值沖突等問題。數據集成9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示將不同源的數據集成到一起,需要完成各信息源的匹配,即從多信息源中識別現實世界的實體,并進行匹配。這是一個非常復雜的問題,比如,如何確定一個數據庫中的id和另一個數據庫中的customer_id所指的實體是否是同一個實體呢?有的時候需要借助元數據(即數據的數據)的幫助,從而避免在數據集成中發生錯誤。數據集成–多信息源匹配9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據集成–多信息源匹配讓我們考察表1和表2中的數據,若用戶希望發現客戶背景和客戶購買類型、購買力的關系,針對數據挖掘的需要,數據預處理時需要將兩張表集成為一個數據挖掘源。屬性名稱數據類型說明Customer_idInt客戶標志TimeDate交易日期GoodsString商品名稱PriceReal商品價格CountShortint商品數量Total_priceReal總價格屬性名稱數據類型說明IdShortint客戶標志GenderBoolean性別BirthDate出生日期TypeBoolean是否會員IncomeShortint月收入(元)表1表29.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示冗余數據是指重復存在的數據。數據冗余的存在使挖掘程序需要對相同信息進行重復處理,從而增加了數據挖掘的復雜性,導致了挖掘效率的降低。數據冗余問題屬性冗余:一個屬性可能由一個或多個其他屬性導出屬性或命名的不一致,導致數據集成的冗余數據集成–冗余數據處理9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據集成–冗余數據處理屬性名稱數據類型說明Customer_idInt客戶標志TimeDate交易日期GoodsString商品名稱PriceReal商品價格CountShortint商品數量Total_priceReal總價格Total_price這個屬性,實際上可以通過price和count兩個屬性計算得到,這樣就產生了屬性冗余9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據變換是采用線性或非線性的數學變換方法將多維數據壓縮成較少維數的數據,消除它們在時間、空間、屬性及精度等特征表現方面的差異。這種方法雖然對原始數據都有一定的損害,但其結果往往具有更大的實用性。常見數據變換方法:數據平滑數據聚集數據概化數據規范化屬性構造數據變換9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據規范化是指將數據按比例進行縮放,使之落入一個小的特定區域,以加快訓練速度,消除數值型屬性因大小不一而造成數據處理和分析結果的偏差。例如,可以將工資收入屬性值映射到[-1.0,1.0]范圍內。常用的規范化方法有:最小-最大規范化(Min-maxNormalization)零-均值規范化(Z-scoreNormalization)小數定標規范化(NormalizationbyDecimalScaling)數據變換–數據規范化9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示要進行數據歸約,是因為被分析的對象數據集往往非常大,分析與挖掘會特別耗時甚至不能進行。而通過數據歸約處理,可以減少對象數據集的大小。數據歸約技術能夠從原有的龐大數據集中獲得一個精簡的數據集合,并使這一精簡的數據集保持原有數據集的完整性,以提高數據挖掘的效率。數據歸約9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據歸約的要求所得歸約數據集要小;歸約后的數據集仍接近于保持原數據的完整性;在歸約數據集上所得分析結果應與原始數據集相同或基本相同;歸約處理時間少于挖掘所節約的時間。數據歸約9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示數據歸約的策略數據立方體聚集:結果數據量最小,不丟失分析任務所需信息維歸約:檢測并刪除不相關、弱相關或冗余屬性樣本歸約:從數據集中選出一個有代表性的樣本的子集。子集的大小的確定要考慮計算成本、存儲要求、估計量的精度以及其他一些與算法和數據特性有關的因素。特征值歸約:即特征值離散化技術,它將連續型特征的值離散化,使之成為少量的區間,每個區間映射到一個離散符號。這種技術的好處在于簡化數據描述,并易于理解數據和最終的挖掘結果。數據歸約9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示所謂數據立方體,就是一類多維矩陣,讓用戶從多個角度探索和分析數據集,通常是一次同時考慮三個維度。數據規約–數據立方體聚集數據立方體某商場2008-2010年每季度的銷售數據9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示柱狀圖是一種以長方形的長度為變量的表達圖形的統計報告圖,它由一系列高度不等的縱向條紋表示數據分布的情況。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示適用場景:適用場合是二維數據集(每個數據點包括兩個值x和y),但只有一個維度需要比較,用于顯示一段時間內的數據變化或顯示各項之間的比較情況。優點:利用人眼對高度差異的敏感性,將數據大小反應在柱子的高度上,可以很明顯的對比數據的差異缺點:柱狀圖的局限在于只適用中小規模的數據集9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示堆積柱狀圖不僅可以直觀的看出每個系列的值,還能夠反映出系列的總和,尤其是當需要看某一單位的綜合以及各系列值的比重時,最適合。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示折線圖將排列在工作表列或行中的數據進行繪制。折線圖可以顯示隨時間而變化的連續數據,因此非常適用于顯示在相等時間間隔下數據的趨勢。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示適用場景:折線圖將排列在工作表列或行中的數據進行繪制,適用二維的較大數據集,特別是分析趨勢比單個數據點更重要的分析過程。縱軸為可量化的變量一般用來分析某時間段內事物的變化趨勢一般來說,曲線圖X軸為時間維度9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示柱狀圖與折線圖結合9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示餅圖以二維或三維格式顯示每一數值相對于總數值的大小。餅圖是一種應該避免使用的圖表,因為肉眼對面積的大小不敏感一般情況下,使用柱狀圖代替餅圖當反映部分占總體比重時,應該用餅圖復合餅圖分離餅圖9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示散點圖適用于三維數據集,但是其中只有兩個維度需要比較。為了識別第三個維度,可以為每個點加上文字標識或不同的顏色。適用場景:散點圖適用于三維數據集,但是其中只有兩個維度需要比較;一般情況下,為了識別第三個維度,可以為每個點加上文字標示,或者不同的顏色;散點圖可以分析坐標點的分布情況,判斷兩個變量之間的關聯或分布趨勢。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示氣泡圖是散點圖的變體,在氣泡圖中,三個維度都是可變化的量;氣泡圖將散點圖的數據點變為氣泡,通過氣泡的面積大小反應第三維度變量值,面積越大表示強度越大(因為用戶不善于判斷面積大小,所以氣泡圖只適用于不要求精確判斷第三維的場合);如果數據有三個維度,并且每個維度都包含一組數值,則可以使用氣泡圖來代替散點圖。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示雷達圖也稱為蜘蛛圖、星狀圖,是一種以二維形式展示多維數據的圖形,雷達圖從中心點出發輻射出多條坐標軸,數據在每一維度的數值都占用了一條坐標軸,并和相鄰坐標軸上的數據點連接起來,形成一個不規則多邊形。整個圖形形似蜘蛛網,因此得名。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示適用場景:雷達圖適用于多維數據(一般四維以上),而且每個維度可以排序:不同數值單位可以不同,但需要按照同樣比例進行分布;雷達圖可以對兩組變量進行多種項目的對比,常用于多想指標的全面分析,尤其適用于對多屬性體系結構描述的對象作出全局性、整體性評價;雷達圖的重要特點是直觀,從雷達圖可以直觀地看出評價對象的狀況,因而可以直接用雷達圖進行定性評價。9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示圖表維度注意柱狀圖二維只能比較其中一維折線圖二維適用于較大的數據集餅圖二維只適用反映部分與整體的關系散點圖二維或三維有兩個維度需要比較氣泡圖三維或四維其中只有兩個維度能精準辨識雷達圖四維以上需要添加文字說明9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示幾種常見的數據建模技術:統計模型機器學習模型數據挖掘模型模型是一個迭代的過程,建立模型的方式取決于使用經典統計學還是流行的機器學習等技術,無論哪種方式,大多數模型構建包括以下步驟:選擇模型技術和變量執行模型診斷和模型比較9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示利用線性回歸擬合一條直線,同時最小化到每個點的距離實例1:一個線性回歸模型9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示線性回歸模型的信息輸出實例1:一個線性回歸模型模型擬合:越高越好,但又要防止過擬合P值表示預測變量對目標變量的影響。值越低越好,通常<0.05即被認為是“顯著的”9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示實例2:機器學習建模ThemodelingprocessFeatureengineeringandmodelselectionTrainingthemodelModelvalidationandselectionApplyingthetrainedmodeltounseendata9.1數據科學過程基礎數據預處理的主要任務設立研究目標數據獲取數據預處理探索性分析數據建模交流與展示Presentingyourresultstothestakeholdersandindustrializingyouranalysisprocessforrepetitivereuseandintegrationwithothertools.數據科學過程基礎1第9章
數據科學過程數據科學工作流2
-設定研究目標-數據獲取-數據預處理-探索性分析-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設備設施保養管理制度
- 設立網絡保密管理制度
- 設計單位公司管理制度
- 設計項目售后管理制度
- 診所安全用電管理制度
- 診所藥房倉庫管理制度
- 試驗檢測臺賬管理制度
- 財務資料安全管理制度
- 財政分局合同管理制度
- 貨款回收利息管理制度
- 2025年湖北恩施州檢察機關招聘雇員制檢察輔助人員40人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 陜西省濱河2025屆中考生物模擬預測題含解析
- 招標代理招標服務實施方案
- DBJ51T062-2016 四川省旋挖孔灌注樁基技術規程
- DB11-T 420-2019 電梯安裝、改造、重大修理和維護保養自檢規則
- 湖南省長沙五中學2025屆中考生物適應性模擬試題含解析
- 幼兒園園長,教師輪訓工作制度及流程
- 《銀行個人理財業務PEST探析和SWOT探析》4000字
- 2025下半年江蘇南京市浦口區衛健委所屬部分事業單位招聘人員24人高頻重點提升(共500題)附帶答案詳解
- 從細節開始為家人制定科學合理的膳食計劃
- 省級溫室氣體清單編制指南
評論
0/150
提交評論