




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Python數據分析基礎與應用模塊模塊1認知數據分析與構建程序運行環境【學習與訓練】1.1初識數據分析1.1.1數據分析定義什么是數據分析呢?數據分析是指用合適的統計方法及工具,對收集來的大量原始數據進行處理分析,對處理過的數據進行分類解析,為了提取有價值信息和形成有效結論而對數據加以詳細研究和概括總結的過程。以求最大化發揮數據的作用,推動業務的發展。1.1.2比較數據分析與數據挖掘1.數據分析(1)數據分析的基本定義數據分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,形成結論,發揮數據的作用。數據分析可以幫助人們作出判斷,以便采取適當行動。數據分析是數學與計算機科學相結合的產物。(2)數據分析的主要作用數據分析主要實現三大作用:現狀分析、原因分析、預測分析(定量)。數據分析的目標明確,先做假設,然后通過數據分析來驗證假設是否正確,從而得到相應的結論。(3)數據分析的主要方法主要采用對比分析、分組分析、交叉分析、回歸分析等常用分析方法。(4)數據分析的輸出結果數據分析通常會得到一個指標統計量結果,例如總和、平均值等,這些指標數據都需要與業務結合進行解讀,才能發揮出數據的價值與作用。2.數據挖掘數據挖掘一般是指從大量數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計計算、分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。3.比較狹義的數據分析和廣義的數據分析完整的數據分析包括基本的數據分析和深入的數據挖掘兩個部分,數據分析可以分為廣義的數據分析和狹義的數據分析。狹義的數據分析其主要目標就是生成可視化圖表,并通過這些圖表來洞察業務中的問題。廣義的數據分析包括狹義的數據分析和數據挖掘,即不僅要通過數據實現對業務的監控和分析,還要利用機器學習算法,找出隱藏在數據背后的知識,并利用這些知識為將來的決策提供支撐。我們通常所說的數據分析就是指狹義的數據分析。(1)基本的數據分析工作基本的數據分析工作一般包含以下幾個方面的內容,當然因為行業和工作內容的不同會略有差異。?確定目標(輸入)?獲取數據?清洗數據?數據透視?數據報告(輸出)?分析洞察(后續)(2)深入的數據挖掘工作深入的數據挖掘工作應該包含以下幾個方面的內容,當然因為行業和工作內容的不同會略有差異。?確定目標(輸入)?數據準備?數據加工?數據建模?模型評估?模型部署(輸出)4.數據分析與數據挖掘的主要區別數據分析是對數據的一種操作手段或者算法,其目標是針對先驗的約束,對數據進行整理、篩選、加工,由此得到信息。數據挖掘是對數據分析手段后的信息,進一步進行價值化的分析。數據分析的結果是信息,這些信息作為數據,由數據去挖掘。而數據挖掘,又使用了數據分析的手段,周而復始。數據分析和數據挖掘的最大區別在于,數據分析是以輸入的數據為基礎,通過先驗的約束,對數據進行處理,其重點在于數據的有效性、真實性和先驗約束的正確性。而數據挖掘則不同,數據挖掘是對信息的價值化的獲取。價值化自然不考慮數據本身,而是考慮數據是否有價值。1.1.3數據分析在企業經營決策的主要作用在企業的經營決策中,數據分析具有以下三大作用。1.現狀分析——透過表面現象挖掘背后本質2.原因分析——異常情況下的影響因素探析3.預測分析——探求未來發展趨勢與走向1.1.4常用數據分析框架常用的數據分析框架有:PEST、5W2H、SWOT、4P理論、邏輯樹、客戶生命周期等。1.1.5常用數據分析方法常用的數據分析方法有:趨勢分析、多維分解、用戶分群、漏斗分析、留存分析、A/B測試、對比分析、交叉分析。1.1.6常用數據分析工具與類庫類庫是用來實現各種功能的類的集合,Python本身的數據分析功能不是很強,需要借助一些功能強大的第三方擴展庫來增強其數據分析能力,常用的擴展庫有NumPy、Pandas、Matplotlib、SciPy、Seaborn和Scikit-learn等,這些庫在數據分析中起著很重要的作用,有關這些庫的使用將在后面模塊中做詳細介紹。1.NumPyNumPy(NumericalPython)是Python科學計算的基礎包,是機器學習框架的基礎類庫。2.PandasPandas是Python數據分析的核心庫,它是基于NumPy構建的含有復雜數據結構和工具的數據分析包。Pandas納入大量庫和標準數據模型,提供了大量的可快速便捷處理數據的函數和高效操作大型數據集所需的工具。Pandas圍繞Series和DataFrame這兩個核心數據結構展開的,而Series和DataFrame分別對應于一維序列和二維表結構。Pandas提供了復雜精細的索引功能,以便快捷地完成切片、切塊、聚合、選取數據子集、重塑和處理缺失值等操作。3.MatplotlibMatplotlib是最流行的用于繪制數據圖表的Python庫,能夠根據我們提供的數據創建高質量的圖形。Matplotlib中應用較為廣泛的模塊是pyplot,該模塊提供了一套與MATLAB類似的繪圖API,可以方便用戶快速繪制2D圖表,例如折線圖、柱狀圖、條形圖、直方圖、散點圖、餅圖等。Matplotlib使用NumPy進行數組運算,并調用一系列其他的Python庫來實現交互功能。Matplotlib庫中還提供了名為pylab的模塊,其中包括了許多NumPy和pyplot中常用的4.SciPySciPy是一個專門用于科學計算的開源Python庫,它建立在NumPy的基礎上,提供了一個用在Python中進行科學計算的工具集。SciPy完善了NumPy的功能,封裝了大量科學計算的算法,包括線性代數、稀疏矩陣、信號和圖像處理、最優化問題、常微分方程數值求解、快速傅里葉變換等。5.SeabornSeaborn是一個基于Matplotlib的可視化工具,它提供了一種高度交互式界面,便于用戶能夠做出各種有吸引力的統計圖形。Seaborn在Matplotlib的基礎上進行了更高級的封裝,提供了很多高級封裝的函數,幫助數據分析人員快速繪制美觀的圖形,從而使得圖形繪制更加方便快捷,在大多數情況下,Seaborn可以讓用戶以更簡潔有效的方式繪制出很具有吸引力的圖形,Seaborn能高度兼容NumPy與Pandas數據結構,Seaborn是Matplotlib的補充,有助于更高效地觀察分析數據。6.pyecharts庫pyecharts是一個強大的可視化庫,相比于matplotlib來說,具有強大的可交互功能,除了可以生成靜態圖像,還可以生成html格式圖像。使用pyecharts可以生成獨立的網頁,也可以在flask、Django中集成使用。7.Scikit-learnScikit-learn最初是SciPy的一部分,它是Python數據科學運算的核心,提供了大量機器學習可能用到的工具,包括:數據預處理、監督學習(分類、回歸)、無監督學習(聚類)、模式選擇、交叉檢驗等。Scikit-learn是一個簡單有效的數據挖掘和數據分析工具,是一個專門針對機器學習應用而開發的Python開源庫,Scikit-learn是建立在NumPy、SciPy和Matplotlib的基礎上的,對一些常用的算法進行了封裝,利用這幾大模塊的優勢,可以大大提高機器學習的效率。Scikit-learn簡稱為Sklearn,其基本功能主要包括:分類、回歸、聚類、數據降維、特征提取、模型選擇、數據預處理和模型評估。1.1.7數據分析過程中遇到的常見數據問題數據分析過程中常見的數據問是如下:(1)數據缺失(2)數據重復(3)數據異常(4)數據冗余(5)數據值沖突(6)數據噪聲1.2熟悉與準備數據分析的編程環境1.2.1熟悉與使用Python的交互式編程環境1.下載與安裝Python掃描二維碼,瀏覽下載與安裝Python的過程與方法。2.進入python的交互式界面打開【命令提示符】窗口,在命令提示符后輸入命令“python”,按【Enter】鍵,出現如圖1-1所示的信息。同時進入python的交互式界面,提示符為“>>>”,等待用戶輸入python命令。圖1-1【命令提示符】窗口在提示符>>>后面輸入命令:print("Goodluck"),然后按【Enter】鍵執行該命令,輸出結果如下:Goodluck如圖1-2所示。圖1-2在【命令提示符】窗口執行命令1.2.2熟悉與使用JupyterNotebook集成開發環境1.JupyterNotebook概述JupyterNotebook是基于網頁的用于交互計算的開源Web應用程序,可以用于代碼編寫、文檔撰寫、代碼運行和結果展示。簡單的說,可以在網頁中直接編寫代碼和運行代碼,代碼的運行結果也會直接在代碼塊下方進行展示。如在編寫代碼的過程中需要編寫說明文檔,可在同一個頁面中使用Markdown格式進行編寫,而且可以直接看到渲染后的效果。2.下載與安裝Anaconda對于個人用戶來說,可以從Anaconda的官方網站下載它的“個人版(IndividualEdition)”安裝程序,安裝完成后,計算機上不僅擁有了Python環境和Spyder(類似于PyCharm的集成開發工具),還擁有了與數據科學工作相關的近200個工具包,包括我們Python數據分析的三大神器(NumPy、Pandas、Matplotlib)。除此之外,Anaconda還提供了一個名為conda的包管理工具,通過這個工具不僅可以管理Python的工具包,還可以用于創建運行Python程序的虛擬環境。3.安裝數據分析的相關依賴項在啟動JupyterNotebook之前,建議先安裝好數據分析相關依賴項,包括之前提到的三大神器以及相關依賴項,包括:NumPy、Pandas、Matplotlib、openpyxl、xlrd、xlwt等。如果使用Anaconda,則無需單獨安裝。如果已經啟動了JupyterNotebook但尚未安裝相關依賴庫,例如NumPy,可以在Jupyter的單元格中輸入命令:!pipinstallnumpy,并運行該單元格來安裝NumPy,其他庫的安裝方法類似。安裝成功后選擇【Kernel】(服務)菜單的【Restart】(重啟)命令選項來重啟Notebook內核來使新安裝的庫生效。4.安裝和運行JupyterNotebook(1)使用Anaconda安裝JupyterNotebook對于Python初學者,建議使用Anaconda發行版安裝Python和Jupyter,其中包括Python、JupyterNotebook和其他常用的科學計算和數據科學軟件包。首先,下載Anaconda,建議下載Anaconda的最新Python3版本。其次,請按照前述安裝過程安裝Anaconda。(2)使用pip命令安裝JupyterNotebook對于安裝了Python環境但是沒有安裝Anaconda的用戶,可以使用Python的包管理工具pip來安裝JupyterNotebook。在Windows10系統中打開命令行窗口,在該窗口通過命令pipinstalljupyter安裝JupyterNotebook即可。5.配置JupyterNotebook的默認路徑JupyterNotebook安裝完成后,先不要急于啟動JupyterNotebook,先應配置默認路徑,否則打開和保存JupyterNotebook文件默認在C盤。這里創建專門用來存放JupyterNotebook項目的文件夾“AnacondaProjects”,這對于不同的Python版本以及一些Python項目是非常必要的。打開Windows的命令行窗口,在該窗口命令提示符后面輸入以下命令:jupyternotebook--generate-config生成默認的配置文件jupyter_notebook_config.py其存儲位置為:C:\Users\Administrator\.jupyter\jupyter_notebook_config.py打開jupyter_notebook_config.py配置文件,在該配置文件中查找#c.NotebookApp.notebook_dir,先把#號去掉,將值修改你要存放JupyterNotebook文件的文件夾路徑,作者計算機中為“D:\AnacondaProjects”。完整的配置語句為:c.NotebookApp.notebook_dir='D:\AnacondaProjects'以后Jupyternotebook創建的文件都會默認保存到這個文件夾路徑中。6.啟動JupyterNotebook(1)使用桌面快捷方式【JupyterNotebook(anaconda3)】啟動JupyterNotebook右鍵單擊桌面JupyterNotebook的快捷方式,在彈出的快捷菜單中選擇【屬性】命令,打開【JupyterNotebook(anaconda3)屬性】對話框,自動切換到【快捷方式】選項卡。在該對話框的【快捷方式】選項卡中,將“目標”文本框中的內容"%USERPROFILE%/"修改為"D:\AnacondaProjects",然后單擊【確定】按鈕關閉【JupyterNotebook(anaconda3)屬性】對話框。雙擊桌面的快捷方式【JupyterNotebook(anaconda3)】,再次打開JupyterNotebook,可以發現工作文件夾已經修改為剛才所設置的文件夾“D:\AnacondaProjects”了。(2)使用jupyternotebook命令方式啟動JupyterNotebook成功安裝JupyterNotebook后,啟動JupyterNotebook很簡單,只需要在Terminal(Mac/Linux)或CommandPrompt(Windows)中運行以下命令,就會在當前操作的文件夾下啟動JupyterNotebook。jupyternotebook(3)Windows用戶使用【開始】菜單【JupyterNotebook】選項啟動JupyterNotebook7.認知JupyterNotebook【Home】頁面(1)JupyterNotebook界面的左邊選項JupyterNotebook界面的左邊選項有以下3項:①Files選項卡對應文件列表。②Running選項卡是一個可以看到命令行窗口和notebooks文件運行的管理窗口,好像計算機的任務管理器,如圖1-9所示。圖1-9JupyterNotebook界面的Running選項卡③Clusters選項卡為跳轉頁面,可以看到有關安裝詳細信息:“ClusterstabisnowprovidedbyIPythonparallel.See'IPythonparallel'forinstallationdetails.”。(2)Jupyternotebook界面的右邊選項Jupyternotebook界面的右側上方的【Quit】和【Logout】分別為【退出】和【注銷】按鈕。右側中部的【Upload】按鈕用于上傳文件,【New】按鈕用于新建文件。(3)JupyterNotebook界面下邊的文件列表Jupyternotebook界面的下邊顯示文件夾和文件列表。8.JupyterNotebook【Home】頁面操作文件與文件夾在JupyterNotebook界面左下方單擊【選擇】按鈕(小三角按鈕),彈出用于分類選擇文件夾或者文件的命令選項列表,如圖1-12所示。圖1-12用于分類選擇文件夾或者文件的命令選項用于分類選擇文件夾或者文件的命令選項的作用如下:?Folders:選擇所有文件夾。?AllNotebooks:選擇所有Notebooks文件(.ipynb)。?Running:選擇所有在運行的文件?Files:選擇所有文件在【選擇】按鈕的下拉菜單中選擇【Files】命令,就會出現一排的命令選項,如圖1-13所示。圖1-13用于文件操作的命令選項文件操作的命令選項的功能說明如下:?Duplicate:復制。?Rename:重命名。?Move:移動(剪切)。?Download:下載。?View:視圖。?Edit:修改。?垃圾桶標志的按鈕用于刪除列表中的選擇項。如果在【選擇】按鈕的下拉菜單中選擇【AllNotebooks】或選擇【Running】,還會出現如下所示的命令選項:?Shutdown:關閉對于文件夾,則只有重命名
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 自動控制原理課程設計8
- 設備培訓方案 (一)
- 峨邊彝族自治縣教學質量檢測八年級生物試題
- 貝克痣的心理影響評估工具開發
- Unit 10 Lesson 7 Reading for Writing 課件 2024-2025學年仁愛科普版英語七年級下冊
- 建筑施工特種作業-建筑架子工(普通腳手架)真題庫-7
- 日語考級教材題目及答案
- 2023-2024學年湖南省郴州市高二下學期期末教學質量監測數學試題(解析版)
- 2023-2024學年福建省寧德市高二下學期期末質量檢測數學試題(解析版)
- (高清版)DB32∕T 4799-2024 地震預警信息發布
- 2025年浙江杭州錢塘區和達能源有限公司招聘筆試沖刺題(帶答案解析)
- 2025年衣物清潔多元化發展趨勢白皮書-天貓家清第一財經商業數據中心
- 冷鏈物流園建設項目投融資與財務方案
- 2024統編版七年級道德與法治下冊期末測試卷(含答案)
- 酒店經銷商合同協議書
- 轉讓釣場合同協議書
- 醫院感染教學課件
- 叉車考試試題模擬100題及答案
- 《全球教育資源庫》課件
- 2025年中考生物模擬測試卷及答案
- 慢性胃炎考試題及答案
評論
0/150
提交評論