20141217-計算語言學-學習總結_第1頁
20141217-計算語言學-學習總結_第2頁
20141217-計算語言學-學習總結_第3頁
20141217-計算語言學-學習總結_第4頁
20141217-計算語言學-學習總結_第5頁
已閱讀5頁,還剩2頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

----------------------------精品word文檔值得下載值得擁有--------------------------------------------------------------------------精品word文檔值得下載值得擁有---------------------------------------------------------------------------------------------------------------------------------------------------------------------------內容來自中科院劉群研究員計算語言學PPT的整理筆記一、概述1.應用機器翻譯(MT)信息檢索(IR)自動問答(QA)自動文摘(AU,automaticsummary)信息抽取(IE)信息過濾(IF)特點2.1定義:計算語言學是一門以計算為手段對自然語言進行研究和處理的科學。區別:自然語言和形式語言的本質區別在于前者具有歧義性。語言的層次劃分:從底層到上層,詞法->句法->語義->語用2.2歧義現象詞法層歧義:i)詞性兼類歧義。例子:工作-ng、vg,高-adj、ng;ii)詞語切分歧義。 例子:乒乓球/拍賣/完/了/、乒乓/球拍/賣/完/了/,南京/市長/江大橋/、南 京市/長江大橋/句法層歧義:結構歧義。例子:張三/和/李四的朋友/、張三和李四/的/朋友/;語義層歧義:i)一詞多義。例子:“杜鵑”,可以是一種鳥,也可以是一種花;ii)一義多詞。例子:“可能、大概、也許”。語用層歧義:例子:“你很好。”正義,“你很好!”反義。2.3未登陸詞:現有知識庫,比如WordNet、HowNet、FrameNet等,均無法解決未登錄詞的問題。2.4中文特點:中文是以字為基本單位,但中文意義是以詞語為基本單位;中文詞語未被分割,做中文處理的第一步就是分詞;中文無詞形變化的特點,詞語的詞性難以區分;中文是詞語序列的意義組合,無固定的結構2.5一些語言學特點:Zipf定律:漢字出現的頻率與漢字按詞頻排列的名次大體等于一個定值;常見的漢字定量,大概在四五千個左右;漢字的使用頻率符合高斯定律;二、基礎知識1.基于規則的基礎知識1.1詞典。詞典結構1.2形式語言自動機。背景。描述一種語言,通常聯想到三種方法。i)窮舉。缺點:語言變化的多樣性導致不能完全窮舉,且窮舉時間、空間復雜度大;ii)語法總結。缺點:語法不可能總結所有的語言現象,且語法之間會出現沖突。鑒于以上兩者的缺陷,采用iii)形式語言自動機。即給出能識別該語言句子的機械方法。形式語法。四元組G=<初始符,非終結符,終結符,規則>表示。基于統計的基礎知識2.1概率論:樣本空間、事件隨機變量、概率、聯合概率、條件概率、貝葉斯分布、概率分 布、協方差、相關系數、參數估計、極大似然比、馬爾科夫過程。2.2統計學:各種常見分布、三大分布函數、Dirichlet分布、卡方檢驗、T檢驗。2.3信息論:熵、聯合熵、條件熵、互信息、困惑度。熵:描述事件的不確定性。熵越大,表示事件的不確定性越高。熵等于0,事 件確定。熵等于1,表示隨機事件為均勻分布。最大熵理論:在無外力作用下,事物總是朝著最混亂的方向發展。即在已知條 件下,熵最大的事物,最可能接近它的真實狀態。2.4自然語言處理:統計模型,如HMM、CRF、ME、SVM等。文本處理相關知識文本表示:布爾模型、VSM、BM25、倒排索引文本存儲:Hash映射、Trie樹,B樹、紅黑樹文本特征:詞、詞性、上下文信息、位置信息、詞間信息、詞內信息文本相似度計算:cosine、SAO、PCA、LDA三、詞法分析1.分詞1.1基于詞典的分詞方法正向最大匹配逆向最大匹配雙向最大匹配:當正向匹配和逆向匹配出現不一致的情況時,利用一些特征(比如:分詞后的個數最少、分詞后的單字非連續等)來選擇最優的分詞結果。1.2基于統計模型的分詞方法N元語法模型。理論:任何字的集合都可以構成句子,只是構成句子的概率大小不一樣。當字集合達到一定 概率,就認為是句子。缺陷:沒有考慮語言內部的結構信息。方法:利用訓練語料,統計測試語料中N元字之間的概率,將滿足最大概率的句子當做正 確的結果。N等于1,為1元模型,即假定當前字僅和前一個字有關,N等于2,為 2元模型,即假定當前自僅和前兩個字有關,N等于3,即假定當前字僅和前三個字 有關。數據平滑:在利用訓練語料進行統計的時候,會出現訓練語料數據稀疏導致概率為0的情況, 這時需要做平滑處理。方法:加1法,GoodTuring,絕對減值法,線性減值法, 回退法。2.詞性標注(POSTagging)2.1基于轉換的錯誤驅動方法:基于轉換規則,先給出初始標記,然后不斷修正。通過語料庫學習轉換規則,是一種有監督的學習方法。2.2基于HMM的詞性標注(成果:ICTCLAS利用層疊HMM實現的分詞、詞性標注、命名實體識別的工具。)3.命名實體識別3.1i)專有名詞:人、地、機構、……;ii)專業名詞3.2技術路線:基于HMM、ME、CRF等模型,基于角色標注的命名實體識別新詞發現基于字標注的句法分析5.1基于字的分詞方法基于HMM的分詞方法:將詞進行切分標記,切分標記包括:O(單字)、B(詞首字)、M(詞中字)、E(詞尾字),然后利用Viterbi算法求概率最大的切分標記集合?;贛E的分詞方法基于互信息的分詞方法5.2基于字標注方法的特點模型簡單:單一模型解決所有問題,詞語切分、未定義詞識別,甚至詞性標注也可以用這個模型解決。模型功能強大:可以任意選擇特征、可以調節特征直接的權重。四、句法分析1.句法分析基礎知識1.1策略:自頂向下(演繹)分析法;自底向上(規約)分析法;左角分析法:自頂向下和自底向上相結合的方法。1.2上下文無關語法的分析算法移進-規約算法。操作:移進、規約、接受、拒絕。沖突:移進-規約沖突;規約-規約沖突;沖突解決方法:回溯特點:是一種自底向上的分析算法。為了得到所有可能的分析結果,可以再每次分析成 功時都強制性回溯,知道分析失敗。效率低下。CYK算法。不需要回溯;建立在Chomsky范式的基礎上;數據結構為一個斜角二維矩陣:上。每一個元素對應于輸入句子中某一個區間(Span)上所有可能形成的短語的非終結符集合。矩陣中填入該區間對應的詞語序列上所有可能的短語標記。Earley算法。在CYK的基礎上加入了點規則。Chart算法(圖分析算法、線圖分析算法)2.上下文無關文法2.1概率上下文無關文法(PCFG)在CFG的基礎上,加入規則的概率信息。2.2詞匯化概率上下文無關文法每一個非終結符被關聯到一個中心詞w和一個中心詞形t。中心成分的生成:詞匯中心和結構中心,首先生成詞匯中心,其次生成結構中心。詞匯中心:中心詞和中心詞詞性標記。結構中心:中心成分的短語標記。組塊分析又稱為淺層分析(ShallowParsing)。基本思想:由于完全句法分析非常困難。研究者采用分而治之的策略。首先從句子中識別出組塊(Chunk),然后由組塊結合成句子。3.基于短語的句法分析4.基于依存的句法分析4.1依存分析與短語結構分析類似,但依存分析丟掉了跨度信息和跨度上的句法標識。任何短語結構樹句法分析模型輸出的句法樹,通過中心詞映射規則即可轉化為依存結構樹。4.2依存分析模型i)生成式依存模型詞匯依存概率模型(Collinsmodel)Train:通過極大似然估計,在樹庫中統計出任意兩個詞之間存在特定依存關系的概率。對于給定的兩個詞,存在和不存在依存關系的概率之和為1。Decode:尋找使得所有依存詞對的依存概率的乘積最大的依存樹,采用自底向上分析法,可采用Viterbi算法。依存生成概率模型(Eisnermodel)描述:給定一個帶詞性標記的輸入語句,對于一棵可能的依存樹,設該樹中任一節點P,它的左孩子由近及遠分別為LC1,LC2,……,LCm;右孩子分別為RC1,RC2,……,RCn。定義P生成其所有孩子的概率為:Train:對于每棵候選依存樹T,整棵樹的生成概率定義為樹中所有節點生成概率的乘積,即。Decode:尋找生成概率最大的依存樹,采用方法和詞匯依存概率模型的方法一樣。ii)判別式依存模型最大生成樹模型:將尋找依存樹的任務轉化為尋找概率最大的生成樹問題。狀態轉移模型:分析過程的任一時刻稱為一個狀態,依據該狀態下的特征做出某種決策,從而轉入新的狀態。iii)依存分析模型比較生成式依存模型通過簡單的極大似然估計即可完成訓練,且模型較小。缺點是分析準確率較低。最大生成樹模型和狀態轉移模型則需要在訓練語料上進行多輪迭代以調節參數,訓練耗時長且模型較大。優點是分析準確率高。目前流行的是最大生成樹模型和狀態轉移模型中的移進規約模型。其中,最大生成樹模型擅長于確定遠距離的依存關系,移進規約模型則對近距離依存關系識別準確率更高。未來發展額外知識6.1最大熵理論I)問題定義:用A表示條件集合,B表示結論集合。隨機事件現在有一批X的樣本假設我們已知,如何預測?Ii)用最大熵理論描述為:求解一個X的概率分布,使得:X的熵最大,可以表示為:。X的分布與已知的樣本分布一致,可以描述為:,其中p為樣本分布,為模型分布。其中,對于任何一個特征,模型和樣本應該具有相同的均值。為了方便起見,將特征取值定義為bool類型。那么,這個公式可以理解為:模型中任何一個特征為1的概率與樣本相同。Iii)最大熵模型的參數估計問題可以表示為一個在約束條件下的極值問題。即:在一下約束條件下:,求解。經推到,得到最大熵模型如下:其中,是一個歸一化參數,是個常量。是一組參數,其中每個參數對應于一個特征。Iv)最大熵模型應用于預測。給定條件,結論為的概率可以表示為:給定條件,最優的可以表示為:可以看出,一旦得到這組參數,那么對于給定的條件,只要將其所有值為1特征對應的加起來,取和最大的即可。更新記錄時間修改內容備注2014年12月17日初稿包括概述基礎知識詞法分析句法分析未來發展額外知識577100180309001209557903682285963308257710018030900123865761373997357606965771001803090013594578077579902515512577100180309001238757716498260181805157710018030900121385721311921589183265771001803090012359579036822361076053577100180309001235657613528614379174257710018030900123555750878697046932791708810034335527410122994432583337917088100343355275101866732938832008170881003433561071015811525015005221708810034335610810100018005987173217088100343354295101074194142687017170881003433561841018786608696288021

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論