Python財務(wù)數(shù)據(jù)分析與應(yīng)用(微課版)課件 07Pandas數(shù)據(jù)集處理_第1頁
Python財務(wù)數(shù)據(jù)分析與應(yīng)用(微課版)課件 07Pandas數(shù)據(jù)集處理_第2頁
Python財務(wù)數(shù)據(jù)分析與應(yīng)用(微課版)課件 07Pandas數(shù)據(jù)集處理_第3頁
Python財務(wù)數(shù)據(jù)分析與應(yīng)用(微課版)課件 07Pandas數(shù)據(jù)集處理_第4頁
Python財務(wù)數(shù)據(jù)分析與應(yīng)用(微課版)課件 07Pandas數(shù)據(jù)集處理_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Pandas數(shù)據(jù)集處理7PandasDatasetProcessing內(nèi)容概述本章學(xué)習(xí)目標財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析(1)掌握利用Pandas內(nèi)置函數(shù)對DataFrame進行數(shù)據(jù)變形操作的方法;(3)掌握利用Pandas內(nèi)置函數(shù)對多個DataFrame進行數(shù)據(jù)連接操作的方法。(2)掌握利用Pandas內(nèi)置對象GroupBy對DataFrame進行分組操作的方法;目錄CONTENTS財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析第7章Pandas數(shù)據(jù)集處理 7.1數(shù)據(jù)變形7.2數(shù)據(jù)分組

7.3數(shù)據(jù)連接

【Python財務(wù)數(shù)據(jù)分析】——A股上市公司基本行業(yè)分類處理數(shù)據(jù)變形PartOne01財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析長寬表的變形長表和寬表是數(shù)據(jù)的兩種不同表示方式。長表(longformat)通常用于存儲逐行記錄的數(shù)據(jù),而寬表(wideformat)則在列中存儲更多的維度信息。這兩種表示方式各有優(yōu)缺點,并在不同的分析任務(wù)中各有用途。Pandas提供了多種方法來在長表和寬表之間進行轉(zhuǎn)換。長表(LongFormat):每行表示一個觀測值,每列表示一個變量。長表通常具有重復(fù)的行索引。寬表(WideFormat):每行表示一個觀測單位,每列表示一個變量的不同維度。寬表通常具有更多的列。財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析長寬表的變形財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析長寬表的變形財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析pivot()函數(shù)1)整理透視Pivot()函數(shù)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析pivot()函數(shù)1)整理透視Pivot()函數(shù)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析pivot_table()函數(shù)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析pivot_table()函數(shù)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析melt()函數(shù)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析melt()函數(shù)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析wide_to_long()函數(shù)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析wide_to_long()函數(shù)數(shù)據(jù)分組PartThere03財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析groupby()函數(shù)1)分組要素分組是根據(jù)一定的規(guī)則進行數(shù)據(jù)劃分,將一個數(shù)據(jù)集劃分成若干個小的區(qū)域,然后可以針對若干個小區(qū)域進行數(shù)據(jù)處理。df.groupby()

函數(shù)是按指定字段對DataFrame行分組,生成一個分組器對象,然后再把這個對象的各個字段按一定的聚合方法輸出。因此,df.groupby()

函數(shù)的一般化應(yīng)用格式:df.groupby(分組依據(jù))[數(shù)據(jù)來源].使用操作財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析groupby()函數(shù)groupby()函數(shù)的分組依據(jù)有多種形式。(1)列名構(gòu)成的列表在groupby()函數(shù)中傳入相應(yīng)列名構(gòu)成的列表作為分組依據(jù)。(2)條件表達式groupby()函數(shù)的分組依據(jù)是直接可以從列中按照名字獲取的。還可以通過一定的復(fù)雜邏輯條件來分組。財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析groupby()函數(shù)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析分組操作groupby()方法實現(xiàn)分組聚合的過程可以分為以下3個階段。?分組(Split):將數(shù)據(jù)按照標準拆分成多個組。?應(yīng)用(Apply):將一個指定函數(shù)應(yīng)用于拆分后的每一組數(shù)據(jù),產(chǎn)生一個新值。?合并(Combine):將各組產(chǎn)生的結(jié)果合并成一個新的對象。財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析Groupby對象groupby對象的屬性和方法(部分)屬性和方法說明示例ngroups可以訪問組數(shù)量gb.ngroupsgroups組名映射組索引列表的字典gb.groups.keys()indices鍵是創(chuàng)建的組,值是df中每組的實例的軸標簽列表或索引gb.indicessize()統(tǒng)計每個組的元素個數(shù)gb.size()get_group()直接獲取所在組對應(yīng)的行g(shù)b.get_group(('中國平安','環(huán)境')).iloc[:,:2]遍歷對象組名和分組DataFramefor

name,

entries

in

gb:

print(name)

print(entries.head(2),

'\n\n')財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析組應(yīng)用函數(shù)將原始數(shù)據(jù)并分組之后,我們可以對每個組執(zhí)行以下操作之一或組合:聚合(Aggregation):計算每個組的匯總統(tǒng)計量變換(Transformation):按組進行操作,如計算每個組的z-score值過濾(Filtration):根據(jù)預(yù)定義的條件拒絕某些組1).聚合聚合函數(shù)通常要求返回標量值,常用的函數(shù)包括:

max,min,mean,median,count,all,any,idxmax,idxmin,mad,nunique,skew,quantile,sum,std,var,sem,size和prod等。2).變換GroupBy對象的transform()函數(shù),與agg()聚合函數(shù)不同,其返回值為與源數(shù)據(jù)同長度的序列,如累計函數(shù)cumcount,cumsum,cumprod,cummax和cummin等,使用方式和聚合方法類似。3).過濾分組過濾可以被視為行過濾的推廣,指的是如果對一個組的全體所在行進行統(tǒng)計的結(jié)果返回

True則會被保留,F(xiàn)alse則該組會被過濾,最后把所有未被過濾的組其對應(yīng)的所在行拼接起來作為DataFrame返回數(shù)據(jù)連接PartFour03財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析數(shù)據(jù)連接的概念1)關(guān)系型數(shù)據(jù)的連接示意圖(鍵值唯一)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析數(shù)據(jù)連接的概念2)關(guān)系型數(shù)據(jù)的連接示意圖(笛卡爾積)財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析值連接merge()函數(shù)主要參數(shù)說明:l

left/right:2個不同的DataFrame對象l

on:指定用于連接的鍵,2個DataFrame共同的鍵。不指定,以2個DataFrame的列名交集作為連接鍵l

left_on/right_on:該參數(shù)在左、右列標簽名不相同,指定連接鍵的列名l

left_index/

right_index:布爾參數(shù),True則使用行索引作為連接鍵,默認為Falsel

how:要執(zhí)行的合并類型,從

{'left',

'right',

'outer',

'inner'}中取值,默認為'inner'內(nèi)連接財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析索引連接join()函數(shù)join()函數(shù)來處理索引連接,參數(shù)設(shè)置與merge()函數(shù)類似。on參數(shù)指索引名,單層索引時省略參數(shù)表示按照當(dāng)前索引連接。join()函數(shù)的語法格式:財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析數(shù)據(jù)拼接concat()函數(shù)數(shù)據(jù)拼接concat()函數(shù)也稱方向連接函數(shù),實現(xiàn)縱向和橫向連接,將數(shù)據(jù)連接后會形成一個新的DataFrame。concat()

函數(shù)可以沿著行或者列進行操作,同時可以指定非合并軸的合并方式(合集、交集等)。concat()函數(shù)語法格式:【Python財務(wù)數(shù)據(jù)分析】

——A股上市公司行業(yè)分類處理PartPractice05財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析實踐1.數(shù)據(jù)清洗讀入<公司基本信息.xlsx>文件,將數(shù)據(jù)集[行業(yè)代碼B]列,拆分為[行業(yè)門類碼]和[行業(yè)大類碼]。2.變形操作針對1.得到的數(shù)據(jù)集,考察每個行業(yè)門類的公司數(shù)量,注冊資本的最大值,最小值和均值3.數(shù)據(jù)連接針對1.得到的數(shù)據(jù)集,增加[行業(yè)門類]和[行業(yè)大類]數(shù)據(jù)列4.分組操作新公司基本信息數(shù)據(jù)集df_com_new,分組處理。財務(wù)數(shù)據(jù)分析財務(wù)數(shù)據(jù)分析【本章小結(jié)】數(shù)據(jù)集基于業(yè)務(wù)關(guān)系可以設(shè)定為長表和寬表,這取決于標簽(行列索引)和數(shù)據(jù)值之間的轉(zhuǎn)化。Pandas可對多個數(shù)據(jù)集進行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論