Python文件和數據格式化的實踐技巧_第1頁
Python文件和數據格式化的實踐技巧_第2頁
Python文件和數據格式化的實踐技巧_第3頁
Python文件和數據格式化的實踐技巧_第4頁
Python文件和數據格式化的實踐技巧_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

匯報人:XX2024-01-11Python文件和數據格式化的實踐技巧目錄文件讀寫基本操作數據格式化方法文件路徑處理技巧文本內容提取與清洗技巧數據持久化存儲方案異常處理和日志記錄方法01文件讀寫基本操作使用`open()`函數打開文件,指定文件名和打開模式(如讀取模式"r"、寫入模式"w"、追加模式"a"等)。打開文件使用`close()`方法關閉文件,釋放資源。關閉文件打開與關閉文件讀取整個文件使用`read()`方法一次性讀取整個文件內容。逐行讀取使用`readlines()`方法或循環遍歷文件對象逐行讀取文件內容。指定字符編碼在打開文件時指定字符編碼,如`open(filename,'r',encoding='utf-8')`。讀取文件內容03追加寫入以追加模式打開文件,使用`write()`方法將數據追加到文件末尾。01寫入字符串使用`write()`方法將字符串寫入文件。02寫入多行數據使用`writelines()`方法將多行數據寫入文件,每行數據以換行符分隔。寫入文件內容02數據格式化方法010203使用`%`操作符通過`%`操作符,可以將變量值插入到字符串中,例如`"Hello,%s!"%name`。使用`str.format()`方法通過`str.format()`方法,可以使用花括號`{}`作為占位符,并按照位置或關鍵字參數進行替換,例如`"Hello,{name}!".format(name=name)`。使用f-string在Python3.6及以上版本中,可以使用f-string進行字符串格式化,通過在字符串前加上`f`或`F`,并在字符串中使用花括號`{}`包圍變量名,例如`f"Hello,{name}!"`。字符串格式化列表推導式使用列表推導式可以快速生成格式化后的列表,例如`[x2forxinrange(10)]`將生成一個包含0到9的平方的列表。使用`map()`函數通過`map()`函數可以將函數應用于列表或元組的每個元素,例如`list(map(lambdax:x2,range(10)))`將生成與上面相同的列表。使用列表的`format()`方法對于包含字符串的列表或元組,可以使用列表的`format()`方法進行批量格式化,例如`['Hello,{name}!'.format(name=name)fornameinnames]`。列表與元組格式化使用字典推導式通過字典推導式可以快速生成格式化后的字典,例如`{x:x2forxinrange(10)}`將生成一個鍵為0到9,值為對應平方的字典。使用`dict()`構造函數通過`dict()`構造函數可以將包含鍵值對的序列轉換為字典,例如`dict([(x,x2)forxinrange(10)])`將生成與上面相同的字典。使用字典的`update()`方法對于已存在的字典,可以使用`update()`方法添加或更新鍵值對,例如`dict1.update({x:x3forxinrange(10)})`將在`dict1`中添加0到9的立方作為新的鍵值對。010203字典格式化03文件路徑處理技巧使用`os.getcwd()`函數這個函數可以返回當前Python腳本的工作目錄路徑。要點一要點二使用`os.path.abspath(os.curdi…os.curdir返回當前目錄的字符串('.'或'..'),os.path.abspath()將其轉換為絕對路徑。獲取當前工作目錄使用`os.path.join()`函數這個函數可以接收任意數量的參數,并將它們拼接成一個完整的文件路徑。它會根據操作系統的不同,自動選擇正確的路徑分隔符。使用字符串格式化或f-string可以使用字符串的`format()`方法或f-string來格式化字符串,將文件和目錄名稱插入到路徑模板中。拼接文件路徑這個函數可以生成一個目錄樹下的所有文件和目錄。對于每個目錄,它返回一個三元組`(dirpath,dirnames,filenames)`,其中`dirpath`是目錄的路徑,`dirnames`是目錄下的子目錄名列表,`filenames`是目錄下的文件名列表。使用`os.walk()`函數這個函數返回一個迭代器,可以遍歷指定目錄下的所有文件和子目錄。與`os.walk()`不同,`os.scandir()`只遍歷一層目錄,不會遞歸遍歷子目錄。對于每個文件或目錄,它返回一個`os.DirEntry`對象,包含了文件或目錄的名稱、路徑和其他屬性。使用`os.scandir()`函數遍歷目錄結構04文本內容提取與清洗技巧匹配文本模式使用正則表達式可以方便地匹配文本中的特定模式,如電話號碼、郵箱地址等。提取關鍵信息通過正則表達式可以從文本中提取出所需的關鍵信息,如從日志文件中提取錯誤信息等。文本替換與格式化正則表達式還可以用于文本的替換和格式化操作,如將文本中的特定格式轉換為另一種格式。正則表達式應用分詞處理及停用詞過濾對于中文文本,需要進行分詞處理將句子劃分為詞語。可以使用Python中的分詞庫如jieba進行分詞。停用詞過濾停用詞是指在文本中頻繁出現但對文本意義貢獻較小的詞語,如“的”、“是”等。通過過濾停用詞可以減少文本中的噪聲,提高文本處理的效率。自定義詞典針對特定領域的文本處理,可以自定義詞典來提高分詞的準確性。分詞處理編碼轉換01在處理文本時,可能會遇到不同編碼格式的文本文件,如UTF-8、GBK等。Python提供了方便的編碼轉換功能,可以將文本從一種編碼格式轉換為另一種編碼格式。解碼處理02對于二進制格式的文本數據,需要進行解碼操作將其轉換為可讀的字符串格式。Python提供了多種解碼方式,如base64解碼、URL解碼等。處理亂碼問題03在處理文本時可能會遇到亂碼問題,可以通過指定正確的編碼格式或使用字符編碼檢測庫如chardet來解決亂碼問題。文本編碼轉換與解碼05數據持久化存儲方案使用Python內置的csv模塊,將數據以逗號分隔的形式寫入CSV文件。可以設置文件頭、數據行和分隔符等參數。同樣使用csv模塊,讀取CSV文件中的數據。通過遍歷文件中的每一行,將數據解析為Python對象(如列表或字典)。CSV文件格式存儲與讀取CSV文件讀取CSV文件存儲JSON文件格式存儲與讀取JSON文件存儲使用Python內置的json模塊,將數據以JSON格式寫入文件。可以使用dumps()方法將Python對象轉換為JSON字符串,然后寫入文件。JSON文件讀取使用json模塊的load()方法從文件中讀取JSON數據,并將其解析為Python對象。可以處理嵌套的JSON數據結構。XML文件格式存儲與讀取使用Python的xml.etree.ElementTree模塊創建XML文檔。通過構建XML元素和屬性,將數據以XML格式寫入文件。XML文件存儲使用xml.etree.ElementTree模塊的parse()方法解析XML文件。通過遍歷XML文檔的節點和屬性,提取所需的數據。XML文件讀取06異常處理和日志記錄方法try-except語句使用try塊來捕獲可能出現的異常,except塊來處理異常。可以指定具體的異常類型,也可以使用多個except塊來處理不同類型的異常。無論是否發生異常,finally塊中的代碼都會被執行。通常用于清理資源、關閉文件等操作。可以在代碼中主動拋出異常,以便在上層調用中捕獲處理。finally語句raise語句異常捕獲和處理機制日志級別設置及輸出格式調整可以將日志輸出到控制臺、文件、郵件等不同的目標。通過配置logging模塊的Handler類,可以實現靈活的日志輸出方式。日志輸出Python標準庫中的logging模塊提供了DEBUG、INFO、WARNING、ERROR和CRITICAL五個級別的日志。可以根據需要設置不同的日志級別,以控制日志輸出的詳細程度。日志級別通過logging模塊的Formatter類,可以自定義日志的輸出格式,包括日志級別、時間戳、日志消息等內容。日志格式日志文件輪轉和保留策略日志文件輪轉當日志文件達到一定大小時,可以自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論