人工智能導(dǎo)論課件第11章第4-5節(jié)_第1頁
人工智能導(dǎo)論課件第11章第4-5節(jié)_第2頁
人工智能導(dǎo)論課件第11章第4-5節(jié)_第3頁
人工智能導(dǎo)論課件第11章第4-5節(jié)_第4頁
人工智能導(dǎo)論課件第11章第4-5節(jié)_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1語法類型2語義分析和擴(kuò)展語法3IBM的機(jī)器翻譯系統(tǒng)第4節(jié)11.4語法類型與語義分析在自然語言處理中,我們可以在一些不同結(jié)構(gòu)層次上對(duì)語言進(jìn)行分析,如句法、詞法和語義等,所涉及到的一些關(guān)鍵術(shù)語簡(jiǎn)單介紹如下:詞法——對(duì)單詞的形式和結(jié)構(gòu)的研究,還研究詞與詞根以及詞的衍生形式之間的關(guān)系。句法——將單詞放在一起形成短語和句子的方式,通常關(guān)注句子結(jié)構(gòu)的形成。語義學(xué)——語言中對(duì)意義進(jìn)行研究的科學(xué)。解析——將句子分解成語言組成部分,并對(duì)每個(gè)部分的形式、功能和語法關(guān)系進(jìn)行解釋。語法規(guī)則決定了解析方式。11.4語法類型與語義分析詞匯——與語言的詞匯、單詞或語素(原子)有關(guān)。詞匯源自詞典。語用學(xué)——在語境中運(yùn)用語言的研究。省略——省略了在句法上所需的句子部分,但是,從上下文而言,句子在語義上是清晰的。11.4.1語法類型學(xué)習(xí)語法是學(xué)習(xí)語言和教授計(jì)算機(jī)語言的一種好方法。費(fèi)根鮑姆等人將語言的語法定義為“指定在語言中所允許語句的格式,指出將單詞組合成形式完整的短語和子句的句法規(guī)則”。11.4.1語法類型麻省理工學(xué)院的語言學(xué)家諾姆·喬姆斯基在對(duì)語言語法進(jìn)行數(shù)學(xué)式的系統(tǒng)研究中做出了開創(chuàng)性的工作,為計(jì)算語言學(xué)領(lǐng)域的誕生奠定了基礎(chǔ)。他將形式語言定義為一組由符號(hào)詞匯組成的字符串,這些字符串符合語法規(guī)則。字符串集對(duì)應(yīng)于所有可能句子的集合,其數(shù)量可能無限大。符號(hào)的詞匯表對(duì)應(yīng)于有限的字母或單詞詞典,他對(duì)4種語法規(guī)則的定義如下:(1)定義作為變量或非終端符號(hào)的句法類別。句法變量的例子包括<VERB>、<NOUN>、<ADJECTIVE>和<PREPOSITION>。11.4.1語法類型(2)詞匯表中的自然語言單詞被視為終端符號(hào),并根據(jù)重寫規(guī)則連接(串聯(lián)在一起)形成句子。11.4.1語法類型(3)終端和非終端符號(hào)組成的特定字符串之間的關(guān)系,由重寫規(guī)則或產(chǎn)生式規(guī)則指定。在這個(gè)討論的上下文中:<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE>→the<NOUN><NOUN>→student<NOUN>→expert<VERB>→reads<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE>→<NOUN><NOUN>→student<NOUN>→expert<VERB>→reads11.4.1語法類型(4)起始符號(hào)S或<SENTENCE>與產(chǎn)生式不同,并根據(jù)在上述(3)中指定的產(chǎn)生式開始生成所有可能的句子。這個(gè)句子集合稱為由語法生成的語言。以上定義的簡(jiǎn)單語法生成了下列的句子:Thestudentreads.Theexpertreads.11.4.1語法類型重寫規(guī)則通過替換句子中的詞語生成這些句子,應(yīng)用如下:<SENTENCE>→<NOUNPHRASE><VERBPHRASE>The<NOUNPHRASE><VERBPHRASE>Thestudent<VERBPHRASE>Thestudentreads.<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE><VERBPHRASE>Thestudent<VERBPHRASE>Thestudentreads.11.4.1語法類型可見,語法是如何作為“機(jī)器”“創(chuàng)造”出重寫規(guī)則允許的所有可能的句子的。11.4.2語義分析和擴(kuò)展語法Chomsky非常了解形式語法的局限性,提出語言必須在兩個(gè)層面上進(jìn)行分析:表面結(jié)構(gòu),進(jìn)行語法上的分析和解析;基礎(chǔ)結(jié)構(gòu)(深層結(jié)構(gòu)),保留句子的語義信息。關(guān)于復(fù)雜的計(jì)算機(jī)系統(tǒng),通過與醫(yī)學(xué)示例的類比,Michie教授總結(jié)了表面理解和深層理解之間的區(qū)別:“一位患者的臀部有一個(gè)膿腫,通過穿刺可以除去這個(gè)膿腫。但是,如果他患的是會(huì)迅速擴(kuò)散的癌癥(一個(gè)深層次的問題),那么任何次數(shù)的穿刺都不能解決這個(gè)問題?!?1.4.2語義分析和擴(kuò)展語法研究人員解決這個(gè)問題的方法是增加更多的知識(shí),如關(guān)于句子的更深層結(jié)構(gòu)的知識(shí)、關(guān)于句子目的的知識(shí)、關(guān)于詞語的知識(shí),甚至詳盡地列舉句子或短語的所有可能含義的知識(shí)。在過去幾十年中,隨著計(jì)算機(jī)速度和內(nèi)存的成倍增長,這種完全枚舉的可能性變得更如現(xiàn)實(shí)。11.4.3IBM的機(jī)器翻譯Candide系統(tǒng)在早些時(shí)候,機(jī)器翻譯主要是通過非統(tǒng)計(jì)學(xué)方法進(jìn)行的。翻譯的3種主要方法是:①直接翻譯,即對(duì)源文本的逐字翻譯。②使用結(jié)構(gòu)知識(shí)和句法解析的轉(zhuǎn)換法。③中間語言方法,即將源語句翻譯成一般

的意義表示,然后將這種表示翻譯成目標(biāo)

語言。這些方法都不是非常成功。圖11-6機(jī)器翻譯11.4.3IBM的機(jī)器翻譯Candide系統(tǒng)隨著IBMCandide系統(tǒng)的發(fā)展,20世紀(jì)90年代初,機(jī)器翻譯開始向統(tǒng)計(jì)方法過渡。這個(gè)項(xiàng)目對(duì)隨后的機(jī)器翻譯研究形成了巨大的影響,統(tǒng)計(jì)方法在接下來的幾年中開始占據(jù)主導(dǎo)地位。在語音識(shí)別的上下文中己經(jīng)開發(fā)了概率算法,IBM將此概率算法應(yīng)用于機(jī)器翻譯研究。概率統(tǒng)計(jì)方法是過去20多年中自然語言處理的準(zhǔn)則,NLP研究以統(tǒng)計(jì)作為主要方法,解決在這個(gè)領(lǐng)域中長期存在的問題,被稱之為“統(tǒng)計(jì)革命”。1統(tǒng)計(jì)NLP語言數(shù)據(jù)集2自然語言處理工具3自然語言處理技術(shù)難點(diǎn)第5節(jié)11.5處理數(shù)據(jù)與處理工具現(xiàn)代NLP算法是基于機(jī)器學(xué)習(xí),特別是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的,它不同于早期的嘗試語言處理,通常涉及大量的規(guī)則編碼。11.5.1統(tǒng)計(jì)NLP語言數(shù)據(jù)集統(tǒng)計(jì)方法需要大量數(shù)據(jù)才能訓(xùn)練概率模型。出于這個(gè)目的,在語言處理應(yīng)用中,使用了大量的文本和口語集。這些集由大量句子組成,人類注釋者對(duì)這些句子進(jìn)行了語法和語義信息的標(biāo)記。自然語言處理中的一些典型的自然語言處理數(shù)據(jù)集包括:tc-corpus-train(語料庫訓(xùn)練集)、面向文本分類研究的中英文新聞分類語料、以IG卡方等特征詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機(jī)抽取論文中文DBLP資源、用于非監(jiān)督中文分詞算法的中文分詞詞庫、UCI評(píng)價(jià)排序數(shù)據(jù)、帶有初始化說明的情感分析數(shù)據(jù)集等。11.5.2自然語言處理工具許多不同類型的機(jī)器學(xué)習(xí)算法已應(yīng)用于自然語言處理任務(wù)。這些算法的輸入是一大組從輸入數(shù)據(jù)生成的“特征”。一些最早使用的算法,如決策樹,產(chǎn)生硬的if-then規(guī)則類似于手寫的規(guī)則,是再普通的系統(tǒng)體系。然而,越來越多的研究集中于統(tǒng)計(jì)模型,這使得基于附加實(shí)數(shù)值的權(quán)重,每個(gè)輸入要素柔軟,概率的決策。此類模型具有能夠表達(dá)許多不同的可能的答案,而不是只有一個(gè)相對(duì)的確定性,產(chǎn)生更可靠的結(jié)果時(shí),這種模型被包括作為較大系統(tǒng)的一個(gè)組成部分的優(yōu)點(diǎn)。11.5.2自然語言處理工具(1)OpenNLP:是一個(gè)基于Java機(jī)器學(xué)習(xí)工具包,用于處理自然語言文本。支持大多數(shù)常用的NLP任務(wù),例如:標(biāo)識(shí)化、句子切分、部分詞性標(biāo)注、名稱抽取、組塊、解析等。11.5.2自然語言處理工具(2)FudanNLP:主要是為中文自然語言處理而開發(fā)的工具包,也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集。本工具包及其包含數(shù)據(jù)集使用LGPL3.0許可證,其開發(fā)語言為Java,主要功能是:文本分類:新聞聚類;中文分詞:詞性標(biāo)注、實(shí)體名識(shí)別、關(guān)鍵詞抽取、依存句法分析、時(shí)間短語識(shí)別;結(jié)構(gòu)化學(xué)習(xí):在線學(xué)習(xí)、層次分類、聚類、精確推理。11.5.2自然語言處理工具(3)語言技術(shù)平臺(tái)(LanguageTechnologyPlatform,LTP):是哈工大社會(huì)計(jì)算與信息檢索研究中心歷時(shí)十年開發(fā)的一整套中文語言處理系統(tǒng)。LTP制定了基于XML的語言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項(xiàng)中文處理核心技術(shù)),以及基于動(dòng)態(tài)鏈接庫(DynamicLinkLibrary,DLL)的應(yīng)用程序接口,可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)(WebService)的形式進(jìn)行使用。11.5.3自然語言處理技術(shù)難點(diǎn)自然語言處理的技術(shù)難點(diǎn)一般有:(1)單詞的邊界界定。在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。(2)詞義的消歧。許多字詞不單只有一個(gè)意思,因而我們必須選出使句意最為通順的解釋。(3)句法的模糊性。自然語言的文法通常是模棱兩可的,針對(duì)一個(gè)句子通常可能會(huì)剖析(Parse)出多棵剖析樹(ParseTree),而我們必須要仰賴語意及前后文的信息才能在其中選擇一棵最為適合的剖析樹。11.5.3自然語言處理技術(shù)難點(diǎn)(4)有瑕疵的或不規(guī)范的輸入。例如語音處理時(shí)遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學(xué)字符識(shí)別(OCR)的錯(cuò)誤。(5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論