




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學建模概述導語統計學建模方法的本質導語/01導語語言學建模方法進行了大量的文本分析工作,力求通過預定義的詞典、語法庫、知識庫來把文本所描述的“故事”完整地抽象出來。與語言學建模不同,統計學建模方法對于語言學知識的依賴較少,很少采用外部復雜的知識結構。因此,統計學建模方法通常只能處理淺層次的語義分析問題。
統計學建模方法的本質
/02
統計學建模方法的本質
統計學的建模方法對文本的處理工作比較單純,不需要對文本背后的邏輯以及知識進行深層次的理解,其目標只是用數字來量化文本中某一方面的內容強度。被數字化的文本對象可以像其他數值型數據一樣進行大小比較、距離計算、分類、聚類等各種形式的統計分析。
統計學建模方法的本質
統計學的建模方法忽略了文本的語法結構,所以從詞匯到文章的中間結構都被“打破”了。因此,對于統計學的文本建模,一般只考慮兩個層次的建模問題,即詞匯的建模及文章的建模。其中,對文章的建模是大部分文本挖掘的工作重點。
統計學建模方法的本質
靜態的建模方法也稱為基于向量的統計學建模方法,即用數值向量表示文檔。在靜態建模方法中,文檔與數值向量具有對應關系,在給定任意文檔時都可以按照預先定義的轉化規則計算出具體的數值向量。靜態建模方法在進行向量轉換時,通常直接對整個文檔整合進行映射,并不對文檔背后的語言模型進行推導。因此,靜態建模方法的可擴展性和靈活性較差。統計學建模方法靜態的建模方法動態的建模方法
統計學建模方法的本質
從數學來看,靜態建模方法的技術核心在于矩陣分析技術。將文檔定義成詞匯特征的向量后,整個文檔整合就可以看作“詞匯--文檔”矩陣。其中,矩陣中的每一行內容對應一篇文檔,每行每個位置上的元素對應某個詞匯是否出現或出現頻率的信息。基于“詞匯---文檔”矩陣,可以使用各種矩陣壓縮技術進行文本分析,提取其中更加豐富、抽象的信息。
統計學建模方法的本質
動態的建模方法被稱為基于頻率的統計學建模方法。其中,文檔被看作是由某個語言模型隨機產生的,文檔是可觀測變量,而文檔模型是隱含的不可觀測變量。基于概率的文本建模過程的本質問題是機器學習的問題。當前主流的基于概率的建模方法是LDA主題模型,LDA主題模型有很多變種,并被應用于不同的在線分析場景,已成為當前主流的文本建模技術。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 交通事故損害賠償及車輛維修服務合同
- 車輛抵押貸款信用評估與授信合同
- 電力設施運維及售后保障合同范本
- 餐飲企業廚師保密協議及知識產權保護合同
- 六年級個人工作總結(8篇)
- 小學二年級演講稿(19篇)
- 武漢漢正街地區用地規劃說明書
- 2025小班幼師健康教育計劃(4篇)
- 營業員技能大賽復習測試卷附答案
- 氣瓶練習試題及答案
- 應用電化學習題及答案
- 夜班管理中的質量控制和監督措施
- 110KV變壓器檢修施工方案
- 認知行為療法(CBT)實操講座
- 養老院行業現狀分析-2023年中國養老院行業市場發展前景研究報告-智研咨詢
- 電梯機房操作規程
- 餐飲業勞務合同
- 廣聯達BIM智慧工地
- 安全生產教育培訓記錄表
- 電梯參數及配置要求
- -高考體育單招真題現代文專項閱讀匯編(含答案)-備戰2023屆高考體育單招語文一輪復習之現代文閱讀復習之一
評論
0/150
提交評論