統計學建模概述_第1頁
統計學建模概述_第2頁
統計學建模概述_第3頁
統計學建模概述_第4頁
統計學建模概述_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計學建模概述導語統計學建模方法的本質導語/01導語語言學建模方法進行了大量的文本分析工作,力求通過預定義的詞典、語法庫、知識庫來把文本所描述的“故事”完整地抽象出來。與語言學建模不同,統計學建模方法對于語言學知識的依賴較少,很少采用外部復雜的知識結構。因此,統計學建模方法通常只能處理淺層次的語義分析問題。

統計學建模方法的本質

/02

統計學建模方法的本質

統計學的建模方法對文本的處理工作比較單純,不需要對文本背后的邏輯以及知識進行深層次的理解,其目標只是用數字來量化文本中某一方面的內容強度。被數字化的文本對象可以像其他數值型數據一樣進行大小比較、距離計算、分類、聚類等各種形式的統計分析。

統計學建模方法的本質

統計學的建模方法忽略了文本的語法結構,所以從詞匯到文章的中間結構都被“打破”了。因此,對于統計學的文本建模,一般只考慮兩個層次的建模問題,即詞匯的建模及文章的建模。其中,對文章的建模是大部分文本挖掘的工作重點。

統計學建模方法的本質

靜態的建模方法也稱為基于向量的統計學建模方法,即用數值向量表示文檔。在靜態建模方法中,文檔與數值向量具有對應關系,在給定任意文檔時都可以按照預先定義的轉化規則計算出具體的數值向量。靜態建模方法在進行向量轉換時,通常直接對整個文檔整合進行映射,并不對文檔背后的語言模型進行推導。因此,靜態建模方法的可擴展性和靈活性較差。統計學建模方法靜態的建模方法動態的建模方法

統計學建模方法的本質

從數學來看,靜態建模方法的技術核心在于矩陣分析技術。將文檔定義成詞匯特征的向量后,整個文檔整合就可以看作“詞匯--文檔”矩陣。其中,矩陣中的每一行內容對應一篇文檔,每行每個位置上的元素對應某個詞匯是否出現或出現頻率的信息。基于“詞匯---文檔”矩陣,可以使用各種矩陣壓縮技術進行文本分析,提取其中更加豐富、抽象的信息。

統計學建模方法的本質

動態的建模方法被稱為基于頻率的統計學建模方法。其中,文檔被看作是由某個語言模型隨機產生的,文檔是可觀測變量,而文檔模型是隱含的不可觀測變量。基于概率的文本建模過程的本質問題是機器學習的問題。當前主流的基于概率的建模方法是LDA主題模型,LDA主題模型有很多變種,并被應用于不同的在線分析場景,已成為當前主流的文本建模技術。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論