




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
授課教師:趙
宇項目一智慧校園消費數據分析任務二
提取18級校園消費數據模塊目標:提取18級學生校園消費數據data1:18級學生基本信息data2:消費數據任務拆解:18級學生的校園消費數據讀:數據讀取,查看基本內容合并:data1(18級學生基本信息)和data2(消費數據刷卡記錄)查:缺失值;清洗:缺失值存:合并后的數據模塊1:校園消費數據的讀取與查看任務二
提取18級校園
消費數據案例:讀取18級學生校園消費數據pandas是一個強大的數據分析庫,它支持多種數據格式的讀取。1.CSV文件:CSV(逗號分隔值)文件是一種常見的文本文件格式,每行表示一條記錄,字段之間用逗號分隔。importpandasaspd#讀取CSV文件df_csv=pd.read_csv('file.csv')2.Excel文件:pandas支持讀取Excel文件。可以指定要讀取的工作表名稱或索引。importpandasaspd#讀取Excel文件df_excel=pd.read_excel('file.xlsx',sheet_name='Sheet1')3.JSON文件:JSON(JavaScriptObjectNotation)是一種輕量級數據交換格式,pandas可以從JSON文件中讀取數據。importpandasaspd#讀取JSON文件df_json=pd.read_json('file.json')pandas是一個強大的數據分析庫,它支持多種數據格式的讀取。4.SQL數據庫:pandas支持從SQL數據庫中讀取數據。你需要使用sqlalchemy庫來創建數據庫連接。importpandasaspdfromsqlalchemyimportcreate_engine#創建數據庫連接engine=create_engine('sqlite:///mydprint(data1.head(3))atabase.db')#讀取SQL數據庫中的表df_sql=pd.read_sql('tablename',con=engine)5.Parquet文件:Parquet是一種高效的列式存儲格式,適用于大規模數據集。pandas可以讀取Parquet文件。importpandasaspd#讀取Parquet文件df_parquet=pd.read_parquet('file.parquet')校園消費數據是什么格式?CSV(Comma-SeparatedValues,逗號分隔值,有時也稱為字符分隔值,因為分隔字符也可以不是逗號),其文件以純文本形式存儲表格數據(數字和文本)。校園消費數據的讀取?絕對路徑:從盤符(c盤、d盤)開始一直到文件所在的具體位置。相對路徑:針對“當前文件夾”這一參考對象,來描述文件路徑的形式。相對路徑使用..\\或.\\表示。一個點.\表示文件或文件夾所在的當前目錄。兩個點..\表示當前目錄的上一級目錄。上n級就用n個..\\表示。一個點.\表示文件或文件夾所在的當前目錄,可省略。兩個點..\表示當前目錄的上一級目錄。Pandas查看數據在數據分析過程中,df.head()經常用于初步檢查數據,包括數據的結構、數據類型以及是否存在明顯的異常值。通過查看前幾行數據,分析人員可以大致了解數據的分布和特性,為后續的數據處理和分析打下基礎。print(data1.head(3))print(data2.head(3))print(data2.head(3))pd.set_option('display.max_columns',None)print(data2.head(3))顯示所有列(否則會以省略號的形式省略)Pandas的數據結構DataFrame的特點二維表格:由多個列組成的二維表格;數據類型支持:可以包含不同類型的數據,如整數、浮點數和字符串等。列的靈活性:可以添加、刪除或更改列。列的大小不可變。Pandas的數據結構--DataFrameindex:索引值,或者可以稱為行標簽。columns:列標簽,默認為RangeIndex(0,1,2,…,n)shape_of_data1=data1.shapeprint(data1.shape)print(f"TheDataFramehas{shape_of_data1[0]}rowsand{shape_of_data1[1]}columns.")如何將列標簽由英文改成中文?print(data1.columns)print("原始的列名是:",data1.columns.tolist())data1.columns=['序號','校園卡號','性別','專業名稱','門禁卡號']print(data1.columns)print("當前的列名是:",data1.columns.tolist())print(data1.dtypes)Pandas所支持的數據類型:1.float2.int3.bool4.datetime64[ns]5.datetime64[ns,tz]6.timedelta[ns]7.category8.object如果pandas數據對象在一列中包含多種數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學無紙化考試活動方案
- 客戶踏青活動方案
- 家電策劃活動方案
- 小區婦聯春游活動方案
- 安陽除夕祭祖活動方案
- 家具類目活動方案
- 寶雞站采風活動方案
- 宣城公司慶典策劃方案
- 定制家居活動方案
- 寵物保險策劃活動方案
- 《食管胃底靜脈曲張》課件
- 周圍性面癱的分期治療技術課件
- AutoCAD 2020中文版從入門到精通(標準版)
- 初中英語2023年中考專題訓練任務型閱讀-判斷正誤篇
- 2022年江西南昌高新技術產業開發區人民檢察院聘用制檢察輔助人員招聘考試真題
- 小學安全隱患排查表
- 學校財務人員述職報告范文
- 履帶式微耕機的結構設計說明書
- 一種鰭狀結型場效應晶體管及其制備方法、芯片與流程
- 套管開窗側鉆技術
- 【2023有效教學設計原理、策略與評價讀書報告3600字】
評論
0/150
提交評論