




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章
數據處理包Pandas數據框(DataFrame)簡介、創建數據框屬性與方法數據框訪問與切片數據框(DataFram)簡介第3章
Pandas中另一個重要的數據對象為數據框(DataFram),由多個序列按照相同的index組織在一起形成一個二維表。事實上,數據框的每一列為序列。數據框的屬性包括index、列名和值,均可以獲取出來并進行操作。由于數據框是更為廣泛的一種數據組織形式,許多外部數據文件讀取到Python中大部分會采用數據框的形式進行存取,比如數據庫、excel和TXT文本。同時數據框也提供了極為豐富的方法用于處理數據及完成計算任務。數據框創建第3章
基于字典,利用Pandas庫中的DataFrame函數,可以創建數據框。其中字典的鍵轉化為列名,字典的值轉化為列值,而索引為默認值,即從0開始從小到大排列。importpandasaspdimportnumpyasnpdata={'a':[2,2,np.nan,5,6],'b':[‘kl’,’kl’,’kl’,np.nan,’kl’],’c’:[4,6,5,np.nan,6],’d’:[7,9,np.nan,9,8]}df=pd.DataFrame(data)數據框屬性第3章
數據框對象具有三個屬性,分別為列名、索引和值。以前面定義的df為例print('columns=',df.columns)print('-'*50)print('index=',list(df.index))print('-'*50)print('values=')print(df.values)輸出結果為:columns=Index(['a','b','c','d'],dtype='object')--------------------------------------------------index=[0,1,2,3,4]--------------------------------------------------values=[[2.0'kl'4.07.0][2.0'kl'6.09.0][nan'kl'5.0nan][5.0nannan9.0][6.0'kl'6.08.0]]數據框方法第3章dropna()通過dorpna()方法,可以去掉數據集中的空值(nan值),需要注意的是原來數據集不發生改變,新數據集需要重新定義。df1=df.dropna()數據框方法第3章
fillna()通過fillna()方法,可以對數據框中的空值(nan值)進行填充。默認情況下所有空值填充同一個元素值(數值或者字符串),也可以指定不同的列填充不同的值。df2=df.fillna(0)#所有空值元素填充0df3=df.fillna('Kl')#所有空值元素填充kldf4=df.fillna({'a':0,'b':'kl','c':0,'d':0})
#全部列填充df5=df.fillna({'a':0,'b':'kl'})#部分列填充數據框方法第3章
sort_values()可以利用sort_values()方法,指定列按值進行排序importpandasaspddata={'a':[5,3,4,1,6],'b':['d','c','a','e','q'],'c':[4,6,5,5,6]}Df=pd.DataFrame(data)Df1=Df.sort_values('a',ascending=False)#默認按升序,這里設置為降序數據框方法第3章sort_index()有時候需要按索引進行排序,這時候可以使用sort_index()方法。Df2=Df1.sort_index(ascending=False)#默認按升序,這里設置為降序數據框方法第3章head()通過head(N)方法,可以取數據集中的前N行,比如取前面定義的數據框Df2中的前4行。H4=Df2.head(4);數據框方法第3章
drop()利用dorp()方法,可以刪掉數據集中的指定列。比如刪除前面定義的H4中的b列。H41=H4.drop('b',axis=1)#需指定軸為1數據框方法第3章
join()利用join()方法,可以實現兩個數據框之間的水平連接Df3=pd.DataFrame({'d':[1,2,3,4,5]})Df4=Df.join(Df3)數據框方法第3章to_excel()通過to_excel()方法,可以將數據框導出到Excel文件中,Excel文件中。importpandasaspdlist1=['a','b','c','d','e','f']list2=[1,2,3,4,5,6]list3=[1.4,3.5,2,6,7,8]list4=[4,5,6,7,8,9]list5=['t',5,6,7,'k',9.6]D={'M1':list1,'M2':list2,'M3':list3,'M4':list4,'M5':list5}G={'M1':list2,'M2':list3,'M3':list4}D=pd.DataFrame(D)#將字典D轉化為數據框G=pd.DataFrame(G)#將字典G轉化為數據框D.to_excel('D.xlsx')G.to_excel('G.xlsx')數據框方法第3章
描述統計方法可以對數據框中各列求和、求平均值或者進行描述性統計,以前面定義的Df4為例Dt=Df4.drop('b',axis=1)#Df4中刪除b列R1=Dt.sum()#各列求和R2=Dt.mean()#各列求平均值R3=Dt.describe()#各列做描述性統計數據框訪問與切片第3章
利用數據框中的iloc屬性進行切片假設DF為待訪問或切片的數據框,則切片形式為:DF.iloc[①,②]。其中①為行下標控制,②為列下標控制,可通過數值列表來實現,取所有的行或者列用“:”。同時,行控制還可以通過邏輯列表來實現。#ilocforpositionalindexingc3=df2.i
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司月度美食節活動方案
- 公司暖心小服務活動方案
- 公司武術協會活動方案
- 2025年網絡營銷師職業資格考試試卷及答案
- 2025年建筑設計專業資格考試題及答案
- 2025年供應鏈管理師職業資格考試題及答案
- 2025年愛好與特長發展課程考試卷及答案
- 2025年中國梁模板行業市場全景分析及前景機遇研判報告
- 住宅裝飾裝修施工課件
- 大學生心肺復蘇健康宣教
- GB 10770-2025食品安全國家標準嬰幼兒罐裝輔助食品
- 臨時鍋爐工用工合同標準文本
- 單病種質量管理實施方案
- 結構檢測員考試題及答案
- 旅游保險產品講解
- 裝修業務居間推廣合同
- 2025年內蒙古地礦集團直屬子公司招聘筆試參考題庫含答案解析
- 卵巢交界性腫瘤診治進展
- 持續葡萄糖監測臨床應用專家共識2024解讀
- 《冠心病的規范化診》課件
- 《數據挖掘與機器學習》 課件7.2.1 K-Means聚類
評論
0/150
提交評論