Python數據分析基礎與應用(微課版) 教案 模塊9 數據分析與可視化綜合實戰_第1頁
Python數據分析基礎與應用(微課版) 教案 模塊9 數據分析與可視化綜合實戰_第2頁
Python數據分析基礎與應用(微課版) 教案 模塊9 數據分析與可視化綜合實戰_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Python數據分析基礎與應用模塊模塊9數據分析與可視化綜合實戰【學習與訓練】9.1數據分析的過程數據分析可以概括為明確目的與問題定義、數據收集與提取、數據預處理、數據分析、數據展示與探索、預測模型創建和選擇、評估模型和部署與應用幾個階段。1.明確目的與問題定義在數據分析前,首先需要明確數據分析的目標,即本次數據分析要研究的主要問題和預期的分析目標等,這稱為問題定義。只有弄清楚了分析的目的是什么,才能提出有價值的問題,提供清晰的指引方向。數據分析總是始于要解決的問題,而這個問題需要事先定義。問題定義這一步及產生的相關文檔,將決定整個數據分析所遵循的指導方針。2.數據收集與提取經過問題定義階段后,在分析數據之前,首先要做的就是獲取數據。數據收集對數據分析的成功起著至關重要的作用,所采集的樣本數據應盡可能多地反映實際情況,即能夠描述系統對來自現實真實的反應。如果收集了不合適的數據,或者對不能很好地代表系統的數據集進行數據分析,得到的模型將會偏離作為研究對象的系統數據提取是將數據取出的過程,數據提取的核心環節是從哪取、何時取、如何取。?從哪取,數據來源——不同的數據源得到的數據結果未必一致。?何時取,提取時間——不同時間取出來的數據結果未必一致。?如何取,提取規則——不同提取規則下的數據結果很難一致。3.數據預處理數據預處理是指對收集到的原始數據進行數據加工,主要包括數據清洗、數據合并、數據變換、數據規約等處理方法,即將各種原始數據加工成為符合準確、完整、簡潔等標準的高質量數據,保證該數據能更好地服務于數據分析工作。(1)數據清理數據清理主要是將“臟”數據變成“干凈”數據的過程,通過一系列的方法對“臟”數據進行處理,包括刪除重復數據、填充缺失數據、檢測異常數據等,以達到清除冗余數據、糾正錯誤數據的目的。(2)數據合并數據集成主要是把多個數據源合并成一個數據集,以達到增大數據量的目的。(3)數據變換數據變換主要是將數據轉換成適當的形式,以降低數據的復雜度。(4)數據規約數據規約主是是在盡可能保持數據原貌的前提下,最大限度地精簡數據量,包括除低數據的維度、刪除與數據分析主題無關的多余數據等。4.數據分析數據分析是指通過分析手段、方法和技巧對準備好的數據進行探索分析,從中發現因果關系、內部聯系和隱藏的規律性,為科學決策提供參考。數據預處理完畢,就要對數據進行綜合分析和相關分析,需要對產品、業務、技術等了如指掌才行,需要熟悉數據分析原理和方法,常用的數據分析方法包括分類、聚類、關聯和預測等。也需熟悉專業數據分析工具,Excel是最簡單的數據分析工具,專業數據分析工具有Python、FineBI等。5.數據展示和探索數據可視化是獲得信息的最佳方式之一,通過可視化呈現數據的方式,不僅能快速抓住要點信息,而且,還可以揭示通過簡單統計不能觀察到的模式和結論。數據展示最佳方式是圖表,能用圖說明問題的就不用表格,能用表說明問題的就不用文字。因為借助數據可視化圖表,能有效直觀地表述想要呈現的信息、觀點和建議,同時也可以使用報告等形式與他人交流。一般情況下,數據是通過表格和圖形的方式來呈現的。常用的數據圖表包括餅圖、柱形圖、條形圖、折線圖、氣泡圖、散點圖、雷達圖等。進一步加工整理變成我們需要的圖形,例如金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6.預測模型創建和選擇預測模型是指用于預測的、用數學語言或公式來描述的事物間的數量關系。它在一定程度上揭示了事物間的內在規律性,預測時把它作為計算預測值的直接依據。在數據分析的預測模型的創建和選擇階段,要創建或選擇合適的統計模型來預測某一個結果的概率。根據輸出結果的類型,模型可分為以下3種。①分類模型:模型輸出結果為類別型數據。②回歸模型:模型輸出結果為數值型數據。③聚類模型:模型輸出結果為描述型數據。創建或選擇合適的統計模型來預測某一個結果的概率。7.模型評估模型評估階段也就是測試階段,該階段是從整個數據分析的原始數據集中抽取出一部分用作驗證集,并用驗證集去評估使用先前采集的數據所創建的模型是否有效。8.部署與應用數據分析的最后一步是部署與應用,部署過程基本上就是把數據分析得到的結果應用到實踐中去,數據應用是數據具有落地價值的直接體現。數據分析的結果有多種部署方案,通常這個階段也稱為數據報告的撰寫。數據報告的撰寫應詳細描述以下幾點:結果分析、決策部署、風險分析、評估商業影響。9.2基于互聯網的數據分析的專業術語解釋基于互聯網的數據分析過程中,例如電子商務用戶行為分析,經常會涉及轉化率、跳出率、有效用戶、活躍用戶、流失用戶、核心用戶、用戶流失率等專業術語。對這些術語的解釋如下所示。1.轉化率用戶執行了期盼動作的比重,計算公式為:進行了相應動作的訪問量/總訪問量。2.跳出率代表訪問者在某一頁面立即關閉網站或App的比例,計算公式為:當前頁面退出產品的訪問量/當前頁面的總訪問量。3.有效用戶當前產品注冊用戶并在當前產品中發生過行為的用戶。4.活躍用戶打開產品并且每天在在當前產品中發生過行為的用戶。5.流失用戶曾經打開產品或注冊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論