



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《自然語言處理技術》初識文本基礎處理——應用中文分詞技術實訓目標掌握安裝jieba庫的方法。掌握使用jieba庫中的cut函數獲取語料庫中的文本標識列表的方法。掌握全模式、精確模式、搜索引擎模式進行中文分詞的流程。實訓環境環境版本說明Windows1064電腦操作系統Python3.8.5Python語言版本pandas1.3.0主要用于數據讀取、清洗等操作NumPy1.21.6主要用于Python中的數值計算jieba0.42.1主要用于文本分詞Gensim4.2.0主要用于檢索文本、計算文本相似度、訓練詞向量、建模主題等Matplotlib3.3.0主要用于數據可視化PaddlePaddle2.4.2是一個深度學習框架,提供了高效的計算框架和優化算法PaddleSpeech1.2.0主要用于語音和音頻中的各種關鍵任務的開發scikit-learn1.0.2廣泛地用于統計分析和機器學習建模等數據科學領域Librosa0.8.1主要用于分析一般的音頻信號,是一個非常強大的Python語音信號處理的第三方庫NLTK3.5是一個常用的自然語言處理工具包,可用于文本處理、語義分析、詞性標注等SciPy1.7.3是一個科學計算工具包,可用于數學、科學、工程學等領域pyttsx32.9.0主要用于將文本轉換成語音實訓說明中文分詞技術是自然語言處理中的重要基礎技術之一,也是中文文本處理的關鍵步驟。在處理中文文本時,需要將連續的文本序列切分成詞匯單元,這個處理過程即為中文分詞。中文分詞的結果對于后續的自然語言處理任務至關重要,如文本分類、信息檢索、機器翻譯等。因此,掌握中文分詞技術(如基本簡介、分詞工具等)是進行中文文本處理的基礎,也是實現中文文本相關應用的前提條件。本實訓將通過jieba庫,分別以全模式、精確模式、搜索引擎模式對中文文本進行分詞。實訓步驟以全模式進行中文分詞首先進入NLP虛擬環境,執行“condainstalljieba”或“pipinstalljieba”命令安裝jieba,安裝成功后檢查安裝列表中是否出現jieba,若出現,則表示安裝成功。以“熱愛學習是一種積極向上的品質,它可以讓我們不斷地探索新的知識領域,不斷地拓展我們的視野和思維。”為例,使用全模式進行中文分詞,如REF_Ref133761029\h代碼41所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s21使用全模式進行中文分詞importjiebatext='熱愛學習是一種積極向上的品質,它可以讓我們不斷地探索新的知識領域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut(sentence=text,cut_all=True)print('全模式:','/'.join(seg_list))在REF_Ref133761029\h代碼41中,使用到jieba庫中的cut函數獲取語料庫中的文本標識列表,其中,cut函數的常用參數說明如REF_Ref133761049\h表41cut函數的常用參數說明所示。表STYLEREF2\s4SEQ表\*ARABIC\s21cut函數的常用參數說明參數名稱參數說明sentence接收str,表示需要進行分詞的文本內容。無默認值cut_all接收bool,表示是否采用全模式分詞。默認為False運行REF_Ref133761064\h代碼41使用全模式進行中文分詞REF_Ref133761029\h代碼41,得到分詞結果如下。全模式:熱愛/學習/是/一種/積極/積極向上/向上/的/品質/,/它/可以/讓/我們/不斷/地/探索/新/的/知識/領域/,/不斷/地/拓展/我們/的/視野/和/思維/。全模式會輸出所有可能的分詞結果。以精確模式進行中文分詞以“熱愛學習是一種積極向上的品質,它可以讓我們不斷地探索新的知識領域,不斷地拓展我們的視野和思維。”為例,使用精確模式進行中文分詞,如REF_Ref133761089\h代碼42所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s22使用精確模式進行中文分詞importjiebatext='熱愛學習是一種積極向上的品質,它可以讓我們不斷地探索新的知識領域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut(text,cut_all=False)print('精確模式:','/'.join(seg_list))運行REF_Ref133761089\h代碼42,得到分詞結果如下。精確模式:熱愛/學習/是/一種/積極向上/的/品質/,/它/可以/讓/我們/不斷/地/探索/新/的/知識/領域/,/不斷/地/拓展/我們/的/視野/和/思維/。精確模式僅輸出一種分詞結果。以搜索引擎模式進行中文分詞以“熱愛學習是一種積極向上的品質,它可以讓我們不斷地探索新的知識領域,不斷地拓展我們的視野和思維。”為例,使用搜索引擎模式進行中文分詞,如REF_Ref133761103\h代碼43所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s23使用搜索引擎模式進行中文分詞importjiebatext='熱愛學習是一種積極向上的品質,它可以讓我們不斷地探索新的知識領域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut_for_search(text)print('搜索引擎模式:\n','/'.join(seg_list))運行REF_Ref133761103\h代碼43,得到分詞結果如下。搜索引擎模式:熱愛/學習/是/一種/積極/向上/積極向上/的/品質/,/它/可以/讓/我們/不斷/地/探索/新/的/知識/領域/,/不斷/地/拓展/我們/的/視野/和/思維/。搜索引擎模式會輸出所有可能的分詞結果。除了一些適
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 診所引流現場管理制度
- 診療技術授權管理制度
- 調解中心監督管理制度
- 財政特設專戶管理制度
- 貨代公司各類管理制度
- 貨物裝卸安全管理制度
- 貨船安全生產管理制度
- 2025年中國感應式皂液器行業市場全景分析及前景機遇研判報告
- 2025年中國動作感應手柄行業市場全景分析及前景機遇研判報告
- 液壓工具質保協議書范本
- 兒童用藥合理使用課件
- 2025-2030年中國發泡包裝行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025至2030中國材料疲勞試驗機行業項目調研及市場前景預測評估報告
- 2025年陜西、山西、寧夏、青海四省(陜晉寧青)高考 生物真題試卷 附答案
- 2024年西昌市教育和體育局考核聘用公立幼兒園教師真題
- 2025設備租賃合同版本范文
- 2025年浙江杭州錢塘區和達能源有限公司招聘筆試沖刺題(帶答案解析)
- 2025年衣物清潔多元化發展趨勢白皮書-天貓家清第一財經商業數據中心
- 冷鏈物流園建設項目投融資與財務方案
- 保險業務員分級考試試題及答案
- 2024統編版七年級道德與法治下冊期末測試卷(含答案)
評論
0/150
提交評論