自然語言及語音處理項目式教程 課件3.2.2-5訓練W d2Vec模型_第1頁
自然語言及語音處理項目式教程 課件3.2.2-5訓練W d2Vec模型_第2頁
自然語言及語音處理項目式教程 課件3.2.2-5訓練W d2Vec模型_第3頁
自然語言及語音處理項目式教程 課件3.2.2-5訓練W d2Vec模型_第4頁
自然語言及語音處理項目式教程 課件3.2.2-5訓練W d2Vec模型_第5頁
已閱讀5頁,還剩11頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目任務深入文本進階處理Word2Vec詞向量的訓練論文文本相似度計算文本依存句法分析垃圾短信分類游客目的地聚類分析基于LSTM實現情感分析Word2Vec詞向量的訓練使用從某網站中爬取到的新聞數據,包含的特征為新聞內容和新聞類別。新聞內容新聞類別昨天下午,廣州市政府常務會議審議通過《廣州市綜合交通發展第十三個五年規劃》。“十……旅游昨天開始進入“黃金周”旅游昨天,微博博主“小5啊”發起了一個征集——教育昨日,省教育考試院發布了《關于廣東省2016年普通高等學校招生專業目錄更正及增補的通……教育最新消息:喜大普奔!國務院日前批復同意將惠州市列為國家歷史文化名城啦!繼廣州、潮州……旅游……Word2Vec詞向量的訓練對Word2Vec模型進行訓練的基本流程。1讀取文本數據2對文本數據進行預處理3使用Word2Vec模型輸出Word2Vec詞向量的訓練使用到gensim.models中的Word2Vec函數訓練詞向量。參數名稱參數說明sentences接收list,表示訓練模型的文本數據。無默認值sg接收int,表示訓練算法的選擇,0表示使用CBOW算法,1表示使用Skip-Gram算法。默認為0size接收int,表示詞向量的維度,較大的size值可以提高模型的準確性,但也可能導致更長的訓練時間和更多的內存占用。默認為100window接收int,表示上下文窗口大小,即在訓練過程中,一個詞與其前后多少個詞共同出現的次數會被考慮,較大的窗口值可以捕捉到更遠的詞匯關系。默認為5min_count接收int,表示詞頻閾值,小于該值的單詞將被丟棄。默認為5workers接收int,表示并行計算時的線程數。默認為3Word2Vec詞向量的訓練論文文本相似度計算文本依存句法分析垃圾短信分類游客目的地聚類分析基于LSTM實現情感分析論文文本相似度計算基于文本相似度計算的方法,用于比較兩篇中文論文之間的相似度。計算相似度04文本向量化03中文分詞02從PDF中提取文本01Word2Vec詞向量的訓練論文文本相似度計算文本依存句法分析垃圾短信分類游客目的地聚類分析基于LSTM實現情感分析文本依存句法分析基本流程Word2Vec詞向量的訓練論文文本相似度計算文本依存句法分析垃圾短信分類游客目的地聚類分析基于LSTM實現情感分析垃圾短信分類基本流程1數據預處理2特征工程3模型訓練4模型評估數據預處理需要經過加載停用詞表、加載數據集、中文分詞和去除停用詞的步驟。特征工程需要經過初始化TF-IDF向量化器、對文本數據進行向量化處理、獲取文本標簽的步驟,從中提取出最能代表數據特征的信息。數據預處理、特征工程模型訓練MultinomialNB函數的常用參數說明參數名稱參數說明alpha接收float,表示平滑參數,用于避免概率為0的情況,通常取值在0~1之間。默認為1.0fit_prior接收bool,表示是否學習類的先驗概率。默認為Trueclass_prior接收numpy數組,表示類的先驗概率,若指定,則不根據數據自動計算先驗概率。默認為None模型評估accuracy_score函數的常用參數說明參數名稱

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論