




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《Python人工智能技術與應用》能力模塊五掌握基于深度學習的自然語言處理技術應用任務二完成文本數據采集與預處理實訓TaskImport任務導入
公司的汽車門戶網站已經有大量的合作廠商決定接入,公司的汽車門戶網站非常的火熱,收到了很多用戶對各種汽車品牌的評價和反饋。現需要對合作廠商的汽車相關數據進行收集和文本預處理以及文本表示。
你作為該公司數據科學助理,主要負責協助數據科學家完成數據的準備和特征表示的任務。為后續建立模型對汽車口碑進行分析做數據準備。素養目標引導問題的過程中,培養學生形成勤于思考的能力獲得分析解決問題以及多元化思考解決問題的方法,形成創新意識。TaskObject任務目標知識目標了解文本數據的定義。了解文本數據的主要特點。了解文本數據的采集方法。了解文本數據的數據來源。了解中文文本預處理的流程以及與英文文本預處理的區別。技能目標能夠列舉實現汽車評論文本數據的采集和預處理相關Python工具。能夠思考出汽車評論文本數據的采集和預處理的實現流程,在思考中鍛煉系統性的職業思維。新
授Python實現汽車評論文本的采集和預處理04CONTENTS目錄文本數據的定義與主要特點01文本數據的采集方法和數據來源02自然語言文本數據預處理流程0301文本數據的定義與主要特點
文本數據是用字符串形式表示的信息。可以是文字、語音、圖像或其他多媒體形式在計算機中存儲和處理為字符串格式;也可以是文章、評論、社交媒體消息、電子郵件等表示各種類型的信息形式。定義
由于目前的大多數信息(80%)是以文本的形式來保存,文本挖掘被認為具有較高的商業潛在價值。應用形式(一)文本數據的定義01文本數據的定義與主要特點(二)文本數據的主要特點半結構化,包含標題、作者、分類等結構字段,又包含非結構化的文字內容1蘊含語義、情感,如一詞多義、一義多詞、起承轉合、時間關系等2文本數據的采集方法和數據來源02(一)文本數據的采集方法
如scikit-learn中包含20類新聞數據集和口語語料庫。Keras中的IMDB評論數據集和商品評論數據集。Python及其第三方庫內置的數據集文本數據的采集方法和數據來源02(一)文本數據的采集方法開源數據集
當前已有很多公開的NLP數據集支撐相關的研究和應用分析,如github項目:CLUEDatasetSearch(收集了眾多中英文NLP數據集)、funNLP(分門別類地組織了眾多的NLP數據集和項目)、awesome-chinese-nlp(收集了中文自然語言處理相關資料)等。文本數據的采集方法和數據來源02(一)文本數據的采集方法網絡爬蟲
很多情況所研究的是面向某種特定的領域,這些開放語料庫經常無法滿足使用需求,可使用爬蟲爬取相應的信息。文本數據的采集方法和數據來源02(二)文本數據的來源參考
文本數據集的來源通常是在調查報告、社交媒體、在線評論中。以社交媒體為例,在社交平臺上,人們通過社交帖子中的語言和表情符號表達自己的想法、感受和行動。社交帖子對于理解目標受眾并引起共鳴非常有價值,社交媒體可視為世界上最大的文本數據池。
社交媒體上存在著大量文本數據更多的文本數據還來源于社交論壇、新聞報道、訪談、學術研究論文、演講稿等。自然語言文本數據預處理流程03
文本數據預處理是指對原始文本數據進行清洗、格式化、結構化處理,以便于后續的分析和模型訓練。包括但不限于去除噪音數據、標準化語言、分詞、詞干提取、去除停用詞等步驟。(一)中文文本預處理流程(以中文文本為例)去除無效標簽:例如從網頁源代碼獲取的文本信息中包含HTML標簽。基本糾錯:對于文本中明顯的人名、地名等常用語和特定場景用語的錯誤進行糾正。去除空白:文本中可能包含的大量空格、空行等需要去除。去標點符號:去除句子中的標點符號、特殊符號等。分詞:將連續的字序列按照一定的規范重新組合成詞序列的過程。去停用詞:比如“的”“是”等。自然語言文本數據預處理流程03(二)中英文文本預處理的主要區別對英文預處理要包括拼寫檢查,比如“HeloWorld”這樣的錯誤。詞干提取(stemming)和詞形還原(lemmatization)英文文本可直接處理得到單詞的原始形態。比如,"faster"、"fastest",都變為"fast";“leafs”“leaves”,都變為"leaf"。拼寫英文可以直接用最簡單的空格和標點符號完成分詞。中文詞沒有一個形式上的分界符。分詞自然語言文本數據預處理流程03(二)中英文文本預處理的主要區別步驟中文文本預處理英文文本預處理分詞中文文本需要分詞,將連續的漢字切分成離散的詞語英文文本通常已經是離散的單詞形式停用詞過濾中文文本需要去除常見但無實際含義的詞語,如“的”“是”等英文文本也需要去除停用詞,如“the”“a”等詞干提取/詞形還原中文文本不需要詞干提取,但可以使用詞形還原進行規范化處理英文文本需要進行詞干提取,如將“running”轉化為“run”實體識別中文文本需要進行實體識別,如人名、地名、機構名等英文文本也可以進行實體識別,如人名、公司名等詞向量表示中文文本需要進行中文詞向量表示,如使用Word2Vec或BERT等模型進行訓練英文文本也可以進行詞向量表示,使用相應的模型進行訓練編碼轉換中文文本需要將文本從GBK或GB2312等編碼轉換為UTF-8編碼英文文本通常已經是UTF-8編碼清洗/過濾中文文本需要清洗去除一些噪聲、無用信息和不規范的文本格式,如網頁標簽等英文文本也需要進行類似的清洗和過濾文本歸一化中文文本需要進行拼音轉化、數字規范化、繁簡體轉換等處理英文文本通常不需要進行文本歸一化處理
中英文文本預處理步驟區別表Python實現汽車評論文本的采集和預處理04Jieba庫采用了基于前綴詞典的分詞方法,可以實現高效準確的中文分詞。Jieba庫支持三種分詞模式:精確模式、全模式和搜索引擎模式。其中,精確模式是默認模式,它試圖將文本切分成最精確的詞語;全模式則將文本中可能的詞語全部切分出來;搜索引擎模式則在精確模式的基礎上,對長詞再次進行切分。Jieba還提供了一些其他的功能,比如關鍵詞提取、詞性標注、繁體轉簡體等。Jieba庫是一個開源的Python庫,可以通過pip安裝。它的使用非常簡單,只需要導入庫并調用相應的函數即可。(一)工具介紹
Jieba(結巴)是一個中文分詞庫,它可以將中文文本分成一個一個的詞語。Python實現汽車評論文本的采集和預處理04(二)實現流程1.通過pip命令安裝Jieba庫。代碼示例:!pipinstalljieba2.對文本進行分詞,使用默認分詞模式。代碼示例:importjieba<br>seg_list=jieba.cut("我來到清華大學",cut_all=False)<br>print("DefaultMode:"+"/".join(seg_list))3.將"自然語言處理"添加到詞典中,以便在分詞時被識別。代碼示例:jieba.add_word("自然語言處理")4.將"機器學習"從詞典中刪除。代碼示例:jieba.del_word("機器學習")Python實現汽車評論文本的采集和預處理04(二)實現流程5.使用TF-IDF算法提取關鍵詞,返回前3個關鍵詞及其權重。代碼示例:importjieba.analyse<br>text="結巴是一個優秀的中文分詞工具,使用方便,效果出眾"<br>keywords=jieba.analyse.extract_tags(text,topK=3,withWeight=True)<br>print(keywords)6.對文本進行詞性標注,輸出每個詞及其對應的詞性標記。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水體生態修復技術的應用與挑戰
- 函數的表示講課件
- 王英造價工程師課件下載
- 烏鴉和狐貍講課件
- 鄉村特殊教育發展的系統化治理路徑分析
- 杜甫絕句教案講課件
- 房顫介入治療護理管理講課件
- 2025年四川省自貢市中考物理試卷及答案
- 公司員工證書補貼管理制度
- 公司外勤銷售員管理制度
- 《數學歸納法》 優秀獎 教學課件
- ANSIESD S20.202021 中英文對照版
- 投入的主要施工機械計劃
- GB-T 19639.2-2014 通用閥控式鉛酸蓄電池 第2部分:規格型號
- 公司財政資金財務管理辦法
- 《數據采集與預處理》教學教案(全)
- 2022年《內蒙古自治區建設工程費用定額》取費說明
- DVD在線租賃的分配問題
- Q∕GDW 10799.6-2018 國家電網有限公司電力安全工作規程 第6部分:光伏電站部分
- 暴雨產流計算(推理公式_四川省)
- 焊接技能訓練教案.
評論
0/150
提交評論