




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主講人:AiPPT時間:20XX.XXPOWERPOINTDESIGN202XPowerPointDesign------------------Python的數據讀取與處理Python數據讀取與查看01Python數據清洗02Pandas讀取與處理表格數據03NumPy處理數據04scikit-learn處理數據05目錄--------------PowerPointDesignPython數據讀取與查看01PARTPOWERPOINTDESIGNPython中使用open函數進行文件讀寫。例如,使用open('filename.txt','r')讀取文件,open('filename.txt','w')寫入文件。使用with語句可自動關閉文件,如withopen('filename.txt','r')asf:。文件讀寫操作默認使用系統編碼,一般為utf8。可使用encoding參數設置編碼方式,如open('filename.txt','wt',encoding='ascii')。遇到編碼錯誤可使用errors='ignore'或errors='replace'參數處理。讀寫字節數據讀寫字節數據如圖片、音頻時,使用'rb'和'wb'模式。例如,withopen('filename.bin','rb')asf:讀取字節數據,withopen('filename.bin','wb')asf:寫入字節數據。從字節數據中讀寫文本需編碼和解碼。如withopen('filename.bin','rb')asf:后使用.decode('utf-8')讀取文本,寫入時使用.encode('utf-8')。02文件讀寫操作01Python的文件讀寫Python中使用pickle模塊實現對象序列化和反序列化。例如,pickle.dump(l1,f1)序列化對象l1到文件f1,pickle.load(f2)從文件f2反序列化對象。pickle模塊中的dump和dumps方法區別在于dumps將對象存儲為字符串,對應的loads()用于反序列化。大部分Python對象可通過這種方式存儲和加載,但一些特殊對象如進程對象、網絡連接對象等無法序列化。使用pickle模塊對象序列化CSV文件以純文本形式存儲表格數據,由記錄組成,記錄之間以換行符分隔,每條記錄中是字段。Python的csv模塊用于操作本地CSV文件。讀取網絡資源中的CSV文件時,可先下載到本地或轉換為StringIO對象操作。使用csv.DictReader可將CSV的每一行作為字典返回,csv.reader則把每一行作為列表返回。寫入CSV文件時,使用csv.writer的writerow()方法寫入一行,writerows()方法寫入多行。CSV文件操作CSV的讀寫在Python中使用數據庫需通過特定程序模塊(API)實現。以MySQL為例,使用PyMySQL模塊連接數據庫。首先安裝模塊,創建數據庫和用戶,然后使用pymysql.connect()連接數據庫,執行SQL語句進行操作,最后關閉連接。SQLite3是一種輕量型關系型數據庫系統,Python內置sqlite3模塊用于交互。使用sqlite3.connect()連接數據庫,執行SQL語句創建表和插入數據,使用commit()提交操作,最后關閉連接。不同數據庫類型使用的通配符可能不同,操作完畢后需關閉數據庫連接。使用PyMySQL和SQLite3數據庫的使用--------------PowerPointDesignPython數據清洗02PARTPOWERPOINTDESIGN處理方法對于缺失值,可忽略有缺失值的數據,刪除存在缺失項的記錄或缺失值過多的屬性列,但可能損失大量數據。也可進行缺失值填補,填補某一固定值、平均值或根據記錄填充最有可能值,最有可能值的確定可利用決策樹、回歸分析等方法。缺失值處理處理技術分箱技術通過考察相鄰數據確定最終值,實現異常或噪聲數據的平滑處理。基本思想是按屬性值劃分子區間,將數據放入對應“箱子”內,然后按箱平均值、中值、邊界值等方法對數據進行平滑處理。聚類技術將數據集合分組為多個簇,找出并清除落在簇之外的孤立點,這些孤立點被視為噪聲。回歸技術通過發現兩個相關變量之間的關系,建立數學模型預測下一個數值,包括線性回歸和非線性回歸,用于平滑數據。噪聲數據處理處理方案對于數據不一致性問題,需根據實際情況給出處理方案。可使用相關材料人工修復,用知識工程的工具修改違反給定規則的數據。在多個數據源集成處理時,對不同數據源的數據進行數據轉化,解決編碼規則差異問題。不一致數據的處理處理方法異常數據如字符編碼問題引起的亂碼、字符被截斷、異常的數值等,大部分情況難以修正,只能過濾。但有些異常數據可還原,如原字符中摻雜無用字符可用取子串方法處理,字符被截斷的情況若能推導出原字符串也可還原。數值記錄中異常大或小的值可分析是否數值單位差異引起,通過轉化處理,數值單位差異也可視為數據的不一致性。異常數據的處理--------------PowerPointDesignPandas讀取與處理表格數據03PARTPOWERPOINTDESIGN支持的數據格式Pandas支持多種格式數據讀取,包括CSV、Excel、SQL數據庫和JSON。讀取CSV文件使用pd.read_csv('example.csv'),讀取Excel文件第一個工作表使用pd.read_excel('example.xlsx',sheet_name=0),讀取JSON文件使用pd.read_json('example.json')。還可只讀取特定列,如pd.read_csv('example.csv',usecols=['Column1','Column2']),跳過文件開頭的行,如pd.read_csv('example.csv',skiprows=2),將特定字符串視為缺失值,如pd.read_csv('example.csv',na_values=['NA'])。讀取表格數據在數據可視化項目中,常需將不同來源的數據集合并為統一數據結構。Pandas提供pd.concat()、pd.merge()和df.join()等函數實現數據合并和連接。pd.concat()用于沿軸堆疊多個對象,如pd.concat([df1,df2],ignore_index=True)。pd.merge()適用于數據庫連接操作,如pd.merge(left,right,on='key',how='left')。df.join()用于按索引合并不同索引的DataFrame,如left.join(right,how='outer')。數據合并與連接處理表格數據--------------PowerPointDesignNumPy處理數據04PARTPOWERPOINTDESIGNndarray對象NumPy是開源Python庫,支持大量維度數組與矩陣運算,提供數學函數庫。NumPy核心是ndarray對象,由Python的n維數組封裝而來,通過C語言預編譯數組操作,比原生Python執行效率高,但使用Python語言編碼。ndarray與數組區別在于元素類型相同且創建時大小固定。創建數組最簡單方式是使用array函數,如np.array([1,2,3])創建一維數組,np.array([[1,2,3],[4,5,6]])創建二維數組。數組屬性包括ndarray.ndim(數組維數)、ndarray.shape(數組形狀)、ndarray.size(數組中元素總數)和ndarray.dtype(數組元素類型)。NumPy庫介紹常見操作NumPy數組可進行索引、切片和迭代操作。還可使用一系列數學函數直接在數組上操作,如加減乘除、平方根、指數、對數等。例如,數組加法c+d,數組乘法c*d。對于數組合并,使用np.concatenate()方法,如np.concatenate((a1,a2))合并數組,np.concatenate((a1,a2),axis=1)指定合并的軸。數組操作--------------PowerPointDesignscikit-learn處理數據05PARTPOWERPOINTDESIGN數據處理功能Scikit-learn是廣泛使用的Python機器學習庫,建立在NumPy、SciPy和matplotlib之上,提供數據挖掘和分析工具。自帶多個數據集,如鳶尾花數據集load_iris()、手寫數字數據集load_digitals()等。不直接從文件讀取數據,通常與Pandas結合使用處理任務。提供預處理庫preprocessing,包括標準化、編碼分類特征、處理缺失值、特征選擇等功能。標準化將特征數據縮放至均值為0、方差為1,如StandardScaler().fit_transform(X)。編碼分類特征將分類特征轉換為數值數據,如OneHotEncoder().fit_transform(X).toarray()。處理缺失值使用SimpleImputer填充缺失值,如SimpleImputer(missing_values=np.nan,strategy='m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學英語課堂流動攤販英語口語交際能力培養策略論文
- 高中數學建模競賽中的數學建模問題發現與解決研究論文
- 蕪湖分公司管理制度
- 蘋果店規章管理制度
- 蛋白粉與免疫力提升
- 課標專用5年高考3年模擬A版2024高考物理專題十一電磁感應試題
- 教學目標知識與能力1培養觀察日常生活中的景物事物的
- 山東省濟寧市鄒城市第一中學2024-2025學年高一下學期5月月考地理試卷(含答案)
- 江蘇省南通市2024-2025學年八年級下學期數學期末考試模擬試卷(含答案)
- 設計與共享經濟
- 中國傳統禮儀全課件
- 自然保護地勘界立標技術指引
- 《論文寫作》課件 第1章 論文寫作的基本概念
- 廣東省省級政務信息化服務預算編制標準(運維服務分冊)
- 心肺復蘇課件2024
- 2025年1月福建省普通高中學業水平合格性考試語文仿真模擬卷02(春季高考適用)(考試版)
- PMCAD(V31)用戶手冊標準版
- 《粉塵分散度和游離》課件
- 物業管理會務服務方案
- GB/T 35601-2024綠色產品評價人造板和木質地板
- 新就業形態勞動者的風險識別及治理機制研究
評論
0/150
提交評論