項目7 使用Power Query方法處理數據_第1頁
項目7 使用Power Query方法處理數據_第2頁
項目7 使用Power Query方法處理數據_第3頁
項目7 使用Power Query方法處理數據_第4頁
項目7 使用Power Query方法處理數據_第5頁
已閱讀5頁,還剩20頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

使用PowerQuery方法處理數據07-2月-251導入數據目錄認識PowerQuery2數據處理3PowerQuery(查詢增強版)為Excel的一個插件,實現數據獲取和數據清理。PowerQuery在Excel中通過簡化數據發現、訪問和合作的操作,從而增強了商業智能自助服務體驗。PowerQuery將不同來源的數據源整合在一起,建立好數據模型,為使用Excel、PowerPivot、PowerView、PowerMap進行進一步的數據分析做好準備。PowerQuery2022/9/19從不同來源、不同結構、不同形式獲取數據,并按統一格式進行橫向合并、縱向(追加)合并、條件合并等。將原始數據轉換成期望的結構或格式。為了后續的分析需要進行數據預處理,如添加新列、新行、處理某些單元格值等。數據處理數據轉換數據獲取1導入數據目錄認識PowerQuery2數據處理3單擊【從文本】命令:新建一個名為“消費行為分析表(清洗完數據)”的工作簿,在【數據】選項卡的【獲取和轉換】命令組中,依次單擊【新建查詢】圖標→【從文件】命令→【從文本】命令。導入學生ID表選擇需要導入的學生ID表:在彈出的【導入數據】對話框中,選擇“學生ID表.txt”,單擊【導入】按鈕。

加載學生ID表:在彈出左圖所示的【學生ID表.txt】對話框中,單擊【加載】按鈕,即可在Excel中新建一個【Sheet2】工作表存放學生ID表,如右圖,將【Sheet2】工作表重命名為“學生信息表”。導入學生ID表

單擊【從CSV】命令:在【數據】選項卡的【獲取和轉換】命令組中,依次單擊【新建查詢】圖標→【從文件】命令→【從CSV】命令。選擇需要導入的消費記錄表。加載消費記錄表:在彈出的【消費記錄表.csv】對話框中,單擊【加載】按鈕,即可在Excel中新建一個【Sheet3】工作表存放學生ID表,將【Sheet3】工作表重命名為“消費記錄表”,刪除【Sheet1】工作表。導入消費記錄表1導入數據目錄認識PowerQuery2數據處理3一般情況下,學生在食堂消費不會過高,消費時間也應在處于食堂的正常營業時間內,當出現超過最大消費金額或非營業時間的消費記錄時,說明這部分數據為異常數據。因此需要對【消費記錄標】中的“消費金額(元)”“消費類型”“消費時間”列進行異常值分析,并刪除存在的異常值:處理消費金額的異常值:

消費金額大于或等于300元為異常消費金額,做刪除處理。處理消費類型的異常值:

消費類型有存款、退款、無卡銷戶和消費4種消費類型,但是本項目主要分析的是消費類型,所以需要將非消費的數據進行刪除。處理消費時間的異常值:在【消費記錄(清洗完數據)】工作表中,所有的營業地點的營業時間為6:00~24:00,因此0:00~5:00之內的所有消費記錄屬于異常情況,需要對0:00~5:00之內的消費數據進行刪除。處理異常值

在【查詢】選項卡的【編輯】命令組中,單擊【編輯】圖標,即可打開【消費記錄表-PowerQuery編輯器】。處理消費金額的異常值處理消費金額的異常值打開【篩選行】對話框:在【消費記錄表-PowerQuery編輯器】中,單擊“消費金額(元)”列旁邊的倒三角按鈕,在下拉列表中,依次選擇【數字篩選器】命令→【小于…】命令。處理消費金額的異常值篩選出【消費金額(元)】小于300的記錄:在【篩選行】對話框中,設置第1個篩選條件為“小于”“300”;單擊【確定】按鈕,此時在【查詢設置】窗格的【應用的步驟】列表中會顯示操作記錄。

顯示“消費類型”列的取值:單擊“消費類型”列旁邊的倒三角按鈕,在下拉列表中,單擊【加載更多】命令,即可顯示消費類型的4種取值。處理消費類型的異常值處理消費類型的異常值篩選消費類型為“消費”的數據:取消勾選【全選】選項,再勾選【消費】選項,單擊【確定】按鈕。

添加“小時”列:在【添加列】選項卡的【從日期和時間】命令組中,依次單擊【時間】圖標→【小時】命令→【小時】命令,此時在表的最后一列將會增加“小時”列。處理消費時間的異常值處理消費時間的異常值顯示“小時”列的取值:單擊“小時”列旁邊的倒三角按鈕,在左圖中所示的下拉列表中,單擊【加載更多】命令。篩選小時數為5~24的數據:在右圖的下拉列表中,取消勾選“0”“2”“3”“4”這4個選項,單擊【確定】按鈕。如果消費記錄表中存在大量的缺失值,那么可能會造成分析結果的偏差。因此需要對【消費記錄表】進行缺失值的統計,并對存在缺失值的列進行處理。對于缺失值較大的列,且在實際的數據分析中無意義時,予以刪除處理。處理缺失值

查看第一列是否有缺失值:單擊“序號”列旁邊的倒三角按鈕,在下拉列表中單擊【加載更多】命令,查看數據是否存在空值。查看其他列是否有缺失值:按照上一步的方法,對其他列進行查看,發現“消費項目的序列號”列只有一個取值,即空值“NULL”。處理缺失值處理缺失值選擇需刪除的列:選擇“消費項目的序列號”列,按住【Shift】鍵的同時,選擇“消費操作的編碼”列。右鍵單擊上一步選中的兩列,在彈出的快捷菜單中選擇【刪除列】命令。保存處理結果:單擊【消費記錄表-PowerQuery編輯器】界面左上角的【文件】,選擇【關閉并上載】命令。處理缺失值每位學生的校園卡號和門禁卡號都是唯一的,如果出現了重復值,那么說明數據是有問題的。因為不可能出現兩個相同校園卡號的學生,也不可能出現兩個相同門禁卡號的學生,所以需要刪除此類重復值。因此,需要檢查校園卡號和門禁卡號是否存在重復值,并對重復值進行去重處理。處理重復值

打開【學生ID表-PowerQuery編輯器】:在【學生信息表】工作表中,將鼠標光標移至【工作簿查詢】窗格的【學生ID表】,會出現學生ID表的加載信息,單擊下方的【編輯】命令。處理重復值處理重復值刪除“校園卡號”列和“門禁卡號”列的重復值:右鍵單擊“校園卡號”列,在彈出的快捷菜單中選擇【刪除重復項】命令;按照相同的方法刪除“門禁卡號”列的重復值。2022/9/19注:執行【刪除重復項】命令后,只保留重復值的第1條數據,此處假設對重復的門禁卡號或校園卡號進行處理時,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論