基于SVM的初等數學問題自動分類的研究與應用_第1頁
基于SVM的初等數學問題自動分類的研究與應用_第2頁
基于SVM的初等數學問題自動分類的研究與應用_第3頁
基于SVM的初等數學問題自動分類的研究與應用_第4頁
基于SVM的初等數學問題自動分類的研究與應用_第5頁
已閱讀5頁,還剩71頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、3啊放女哲UNIVERSITY OF ELECTRONIC SC I ENCE AND TECHNOLOGY OF CHINA碩士學位論文MASTER THESIS、泓、 論文題目基于SVM的初懿學問題自動分類的研究與應用學科專業學 號作者姓名計算機應用技術201421060235指導教師張智慧張景中 院士獨創性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研究工 作及取得的研充成果。據我所知,除了文中特別加以標注和致謝的地 方外,論文中不包含其他人已經發表或撰寫過的研究成果,也不包含 為獲得電子科技大學或其它教育機構的學位或證書而使用過的材料。 與我一同工作的同志對本研究所做的任何貢獻

2、均己在論文中作了明 確的說明并表示謝意0論文使用授權本學位論文作者完全了解電子科技大學有關保留、使用學位論文 的規定,有權保留并向國家有關部門或機構送交論文的復印件和磁盤, 允許論文被查閱和借閱。本人授權電子科技大學可以將學位論文的全 部或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或掃描 等復制手段保存、匯編學位論文。(保密的學位論文在解密后應遵守此規定)分類號密級UDC 注學位論文基于SVM的初等數學問題自動分類的研究與應用張智慧指導教師電子科技大學成都申請學位級別 碩士 學科專業 計算機軟件與理論提交論文日期2017.3.28論文答辯日期2017.5.12學位授予單位和日期電子科技

3、大學 2017年6月答辯委員會主席評閱人Research and Application of The AutomaticClassification of Elementary Mathematical ProblemsBased on SVMA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor:Computer Software and TheoryAuthor: Zhang ZhihuiSupervisor:NA.Zhang JingzhongSchool: Sc

4、hool of Computer Science & Engineering摘要眾所周知,隨著計算機信息技術的迅速發展,信息技術已經在我們生活的方 方面面有所應用。在教育領域,人們的目光也逐漸從線下老師輔導以及手工批閱 試卷,解題轉向了基于人工智能的互聯網智能教育。這種新型的數學教育理念實 現的一個重要前提就是對文本自然語言進行轉換,通俗的講就是把人類理解的數 學語句轉化為事先定義好的計算機存儲知識,來供計算機進行下一步的處理。這 些處理主要有解題,以及全流程判卷等等。這一前提也可以稱為自然語言處理過 程。而分類問題又是自然語言處理的過程中的主要問題。本文主要分為兩個部分,第一部分是對初等數學

5、問題文本進行分詞,以及詞性 標注和命名實體識別。第二部分是基于SVM對初等數學問題文本進行題型分類, 進而根據不同的類別轉換成計算機推理所需的表現形式。在英文表達中,每個單詞之間都是有空格的,但是中文則不同,所有的字符 都是連接在一起的,所以需要對中文的文本進行分詞。但是數學表述中包含了較 多的有特定含義的符號,所以通用的分詞方法行不通。因此需要針對數學表述構 造專門的分詞器。同樣,數學語言表達中的實體和普通語言表達的實體不同,普 通語言的實體更多是時間,地點,姓名等。而在數學表達中,包含重要信息的實 體往往是數學名詞,比如三角形,以及各方程等等。因此需要針對初等數學方向 定義專門的命名實體,

6、然后進行提取。本論文采用條件隨機場來進行命名實體標 注。初等數學問題中涉及的類型有很多,想要對初等數學問題進行自動求解,首 先要做的是把問題進行分類,然后根據不同的類別調用相應的求解方法。對經過 命名實體模型標注的初等數學問題文本進行文本預處理,包括去停用詞,建立詞 袋模型。在本論文中,通過卡方統計量來實現文本特征向量的選擇。這樣使用特 征向量通過選擇降維技術能很好的減少計算量,還能維持分類的精度。最后,根據本文提出的方法,使用支持向量機實現了一套對初等數學問題進 行命名實體提取并且對題目進行分類的系統。該系統可以準確標注命名實體,為 后面解題等處理提供知識表示,同時有效的題目分類可以為后面解

7、題或者判卷做 推理剪枝。關鍵詞:初等數學,支持向量機,題意理解,自然語言處理ABSTRACTIn the field of education, peoples eyes gradually from offline teacher counseling, manual marking the examination paper and problem-solving turned to artificial intelligence based on the Internet intelligence education. An important prerequisite for the

8、realization of this new type of mathematical education idea is to convert the text language. The popular talk is about converting the mathematical statement of human understanding into a pre-defined computer storage knowledge for the next step . These processes include problem solving, paper marking

9、 automatically and so on. This premise can also be called natural language processing. The classification problem is the main problem in the process of natural language processing.This paper is divided into two parts, the first pait is on the primary mathematics problem tokenization as well as Part-

10、of-Speech tagging, the second part is based on SVM on the primary mathematical problem text classification, and then according to different classification methods, the computer can be converted its presentation to solve the problem.In English, each word has a space between them, but the Chinese is d

11、ifferent, all the characters are connected together, so the first step is tokenization. But the mathematical expression contains more symbols with specific meaning, so the general segmentation method does not work. Therefore, we need to construct a special word segmenter for mathematical representat

12、ion. Similarly, the entities in the expression of mathematical language are different from ordinary language, and the entities of ordinary language are usually describe time, place and name. In mathematical expressions, entities that contain important information are belong to mathematical terms, su

13、ch as triangles, and equations. So it is necessary to define a specific named entity for the primary mathematical direction and then extract it. In this paper, the conditional random field is used to the named entity.In the elementary mathematics, automatic question solving involves many different c

14、ategory. Before we solve a question ,the question need to be classified. Then we excute a corresponding solution method according to its category. To classify the question, firstly we preprocess the Named Entity labeled text , the preprocessing includes removing stop words and establishing the bag-o

15、f-words model. Secondly, In this paper, we use the measure of Chi square statistic to choose eigenvectors. So that there is a good reduction in the amount of calculation in using the eigenvectors to reduce the dimension, meanwhile the accuracy of classification can be maintained.Finally, according t

16、o the method proposed in this paper, we have construct a system to classify the initial mathematical problems and classify them with SVM. The system can accurately mark the named entity, for the latter to solve the problem and other processing to provide knowledge, while the effective classification

17、 of the text can be used to solve the problem or make a reasoning pruning.Keywords: Elementary Mathematics, SVM, Problem understanding, Natural Language Processing目錄 TOC o 1-5 h z HYPERLINK l bookmark19 o Current Document 目錄IV HYPERLINK l bookmark27 o Current Document 第一章緒論1 HYPERLINK l bookmark30 o

18、 Current Document 1.1研究工作的背景和意義1 HYPERLINK l bookmark33 o Current Document 1.2國內外研究現狀2 HYPERLINK l bookmark36 o Current Document 1.2.1自然語言處理的國內外研究現狀2 HYPERLINK l bookmark39 o Current Document 1.2.2智能教輔系統的國內外研究現狀3 HYPERLINK l bookmark42 o Current Document 13論文組織結構4 HYPERLINK l bookmark48 o Current Do

19、cument 第二章相關理論與技術6 HYPERLINK l bookmark51 o Current Document 2.1自然語言理解概述6 HYPERLINK l bookmark54 o Current Document 2.1.1自然語言處理處理的基本方法6 HYPERLINK l bookmark60 o Current Document Apache Thiift7 HYPERLINK l bookmark64 o Current Document 2.13中文自然語言處理工具8 HYPERLINK l bookmark74 o Current Document 2.2語言模型

20、10 HYPERLINK l bookmark77 o Current Document 2.2.1隱馬爾可夫模型10 HYPERLINK l bookmark80 o Current Document 2.2.2最大炳模型11 HYPERLINK l bookmark87 o Current Document 2.2.3條件隨機場模型11 HYPERLINK l bookmark90 o Current Document 2.3支持向量機13 HYPERLINK l bookmark93 o Current Document 2.3.1線性分類13 HYPERLINK l bookmark9

21、6 o Current Document 23.2軟間隔最大化15 HYPERLINK l bookmark101 o Current Document 2.3.3核函數16 HYPERLINK l bookmark104 o Current Document 2.4本章小結18 HYPERLINK l bookmark107 o Current Document 第三章 初等數學問題分類預處理模型的構建19 HYPERLINK l bookmark110 o Current Document 3.1初等數學問題文本的特點19 HYPERLINK l bookmark116 o Current

22、 Document 3.2基于最大炳模型的初等數學文本的分詞19 HYPERLINK l bookmark119 o Current Document 3.2.1初等數學語言分詞方法20 HYPERLINK l bookmark126 o Current Document 3.2.2基于最大嫡模型的中文分詞21 HYPERLINK l bookmark132 o Current Document 3.3初等數學文本的詞性標注24 HYPERLINK l bookmark135 o Current Document 3.4初等數學文本的命名實體標注25 HYPERLINK l bookmark1

23、38 o Current Document 3.4.1初等數學命名實體類型25 HYPERLINK l bookmark141 o Current Document 3.4.2特征選擇26 HYPERLINK l bookmark159 o Current Document 3.5基于實體屬性改進的指代消解方法30 HYPERLINK l bookmark162 o Current Document 3.5.1指代的類型30 HYPERLINK l bookmark168 o Current Document 3.5.2數學實體模型的構建31 HYPERLINK l bookmark171 o

24、 Current Document 3.5.3指代消解32 HYPERLINK l bookmark174 o Current Document 3.6本章小節33 HYPERLINK l bookmark184 o Current Document 第四章基于SVM的初等數學問題的分類35 HYPERLINK l bookmark187 o Current Document 4.1初等數學問題的分類方式35 HYPERLINK l bookmark190 o Current Document 4.1.1基于提問方式的分類35 HYPERLINK l bookmark193 o Current

25、 Document 4.1.2基于知識點的分類36 HYPERLINK l bookmark196 o Current Document 種新型詞袋模型的構建36 HYPERLINK l bookmark200 o Current Document 4.2.1命名實體替換36 HYPERLINK l bookmark203 o Current Document 4.2.2過濾停用詞建模37 HYPERLINK l bookmark206 o Current Document 4.2.3同義詞替換建模37 HYPERLINK l bookmark209 o Current Document 43

26、特征選擇38 HYPERLINK l bookmark216 o Current Document 43.1基于卡方檢驗的特征提取38 HYPERLINK l bookmark219 o Current Document 43.2詞頻逆文檔頻率統計40 HYPERLINK l bookmark222 o Current Document 4.3.3文本向量化41 HYPERLINK l bookmark228 o Current Document 4.4基于SVM的初等初等數學問題分類算法42 HYPERLINK l bookmark233 o Current Document 一對多題型分類

27、器的構建43 HYPERLINK l bookmark236 o Current Document 一對一題型分類器的構建43 HYPERLINK l bookmark240 o Current Document SVM 參數選擇44 HYPERLINK l bookmark246 o Current Document 4.5本章小節45 HYPERLINK l bookmark249 o Current Document 第五章初等數學問題自動分類系統的實現47 HYPERLINK l bookmark252 o Current Document 5.1初等數學問題分類預處理系統的設計與實現

28、47 HYPERLINK l bookmark255 o Current Document 5.1.1預處理模塊的總體功能設計47 HYPERLINK l bookmark258 o Current Document 5.1.2預處理模塊中各模塊詳細設計47 HYPERLINK l bookmark280 o Current Document 5.2初等數學問題的分類53 HYPERLINK l bookmark283 o Current Document 5.2.1分類模塊的總體功能設計53 HYPERLINK l bookmark286 o Current Document 5.2.2分類

29、模塊中各模塊詳細設計54 HYPERLINK l bookmark289 o Current Document 5.3初等數學問題分類測試56 HYPERLINK l bookmark303 o Current Document 5.4本章小節58 HYPERLINK l bookmark306 o Current Document 第六章總結與展望59 HYPERLINK l bookmark309 o Current Document 6.1總結59 HYPERLINK l bookmark316 o Current Document 6.2研究的不足和展望59 HYPERLINK l b

30、ookmark326 o Current Document 致謝61 HYPERLINK l bookmark329 o Current Document 參考文獻62 HYPERLINK l bookmark378 o Current Document 攻讀碩士學位期間取得的成果65第一章緒論1.1研究工作的背景和意義數學作為人類現代科技文明的基礎,重要性不言而喻,對中小學生數學能力 的培養因此也成了國民教育的重要組成部分。在美國,數學問題的解決能力早在 80年代末就成為了學生成績考核的重要標準;在日本,學生數學能力的培養也在 千禧之年成為初等教育的工作重點。學生在學習過程中常會遇到一些共性

31、的問題, 這些問題會給學生帶來很大挫折,特別是在學生沒有得力的人在旁輔導的情況下。當前,中國中小學教育仍是使用一名教師對多名學生的教育模式。學生在課 堂遇到的個例性問題很難得到針對性解答,因此除了國家主導的義務教育,在學 生和家長對高質量教育需求的刺激下,課外輔導班這種教育形式應需而生。但是 這種輔導班費用較高,輔導水平良莠不齊,對很多家庭來說都是比不小的開銷。 在我國往往好的師資及其相關教育資源都在城市,而其他地方則相對落后。當今 時代,互聯網發展迅速,作為互聯網發展下的新產物,“互聯網+”概念自從被提出 以后同,在教育行業也可以看到互聯網正在不斷滲透改造傳統的教育模式,相關的 教學輔助軟件

32、得到了師生的廣泛使用。我們從上述對我國教育行業存在的問題的分析可以看出,教學輔導軟件至少 需要具備以下三個功能:(1)能使每個學生得到針對性和自動化幫助;(2)無地 域限制性;(3)費用成本較低,是絕大多數家庭能夠接受的費用。目前,已問世 的教育輔助軟件很少能有滿足上述所有條件的,比如一些教輔系統僅僅是提供了 一些教學中的視頻資源,這種方式只是將內容呈現給了學生,無法針對學生進行 有效的個性化的學習;部分系統也僅僅是能做到對學生的客觀題如選擇題等進行 判卷,但這類型的題目都是已事先存儲的,對于主觀題的判斷尚無法實現全自動 化囹,特別是那些使用自然語言描述的試題。對于這些試題,若想讓計算機自動解

33、 題5,首要突破的難關就是讓計算機讀懂題目6。自然語言處理是一個由多方向綜合而來的人工智能領域。隨著近些年來計算 機處理的速度增加,自然語言處理已經在一些領域取得了很大的成果圓,比如搜索 引擎、語音輸入等四。在初等數學領域中,自然語言處理也可以依據其數學文本的 描述特點進行處理。理解初數學描述語言的第一步是如何定義計算機的“理解”。從計算機的角度來 說,數學題意的理解著重于理解的數學表達形式是否能夠讓計算機進行演繹推理。 而不是通常語言文本中所要求的詞法語法分析。其次要考慮的是如何去理解數學 題意。目前,對數學自動解題的體型主要集中在代數和應用題上。已知的一些解 題系統的解題能力十分有限,原因

34、如下:(1)初等教育涵蓋的范圍比較大,大體 分為代數、幾何、函數。因此,解決小學的四則運算的方法并不適用于初等數學 的邏輯推理題;(2)初等數學語言更加復雜:相比小學數學,初等數學知識點更 多,另外,隨著學生綜合素質的提高,問題描述上,相應的語法也變得復雜。初 等數學題意理解的核心就是如何處理上述各問題。初等數學問題求解還設計到一 個關鍵步驟,那就是問題分類。初等數學解題涉及的知識體系復雜,對于不同題 型,構建不同的推理模型。所以,對于初等數學問題的自動分類在整個系統中 至關重要。1.2國內外研究現狀初等數學的智能輔導系統問題大體上可以分解成兩大模塊,包括自然語言 處理,以及自動輔導解題系統。

35、自然語言處理是前提,知識表示是樞紐,自動輔 助解題是核心。1.2.1自然語言處理的國內外研究現狀人工智能最初為了讓機器能更好的為人民工作而提出來的。在它被提出之后, 其中一個重要的工程應用是讓人與計算機的溝通更加智能和高效。隨著各個領域 功能的逐漸細化,專門處理人類語言到計算機語言的研究領域越來越受到關注。 自然語言處理的早期,主要的處理技術是規則遍歷,這種方法處理起來比較機械, 但是對于簡單的業務也有一定的作用。近年,隨著計算機計算能力的不斷提升, 基于數理統計的機器學習方法成為主流。基于規則的自然語言處理方法,主要包括遞歸轉移網絡、有限狀態轉移網絡Ml、 一階謂詞演算、短語結構語法、語義網

36、絡等相關技術1習。該方法的優點是表達明 楚,但缺點也很明顯,需要研究者針對每個語言進行大量相應語言的學習研究, 效果往往還沒統計的經驗主義好。在上世紀50年代,基于統計的經驗主義在自然語言處理問題上不斷取得突破, 該方法主要使用數理統計的數學方法來處理自然語言處理16。特別是隨著計算機 性能的不斷提升和機器學習研究成果的涌現,該方法的應用范圍和效果都取得了 不錯的進展。該方法同樣存在問題,主要是效果主要取決與語料庫的大小質量。 而語料的質量標準卻還很難量化切。如果定義的標簽種類過于多,則會造成信息 爆炸,嚴重影響效率,得到的模型泛化效果較差。如果標簽定義種類過少,則可 能漏掉有用的信息。自然語

37、言處理需要解決的還有理解自然語言語義問題。在上述兩種語義解析 方法中,基于規則的語義分析無法包涵所有事件,也沒有很好的處理會引起歧義 的文本周。而且當規則集合越來越大時,規則之間常會發生互溶性問題。基于統 計的方法需要大規模語料的支持,如何建立一個大規模有效的語料庫成為該方法 的重點。目前,國外的主要的自然語言處理平臺有GATE、Stanford NLP NLTKoGATE 全稱是 General Architecture for Text Engineering,在業界廣受歡迎,它 有個信息提取框架,被很多研究和教學自然語言處理的機構所采用。該框架支持 自然語言處理的各個步驟,開發者只要按照

38、其規范完成相應功能即可。Stanford NLP是美國斯坦福大學一個教授開發的自然語言處理技術集合平臺。在平臺上集 合了很多自然語言處理需要的工具,比如詞性分析,命名實體識別,共指消解系 統,情感分析,自舉模式學習等。NLTK是一套NLP工具集,提供用于擴展的接 口,并且能將輸入的樣本數據進行可視化展示。在國內,比較出名的自然語言處理系統主要有ICTCLAS, LTP等。ICTCLAS 主要是使用層疊型馬爾科夫模型進行中文分詞。LTP是由哈工大發布的另一個中 文分詞框架,包括語法分析,句法分析,語義分析。已經成為國內很受歡迎的處 理平臺。1.2.2智能教輔系統的國內外研究現狀早在上世紀60年代

39、,就出現了能夠讀懂題意并解答問題的智能輔導軟件 STUDENTo該軟件可以理解使用英語描述的代數問題。它是使用謂詞關系模型來 表示自然語言文本,然后通過對關系模型的解析來求解問題。該軟件的主要流程 如下:(1)預先在電腦中定義一些常用的句式以及將復雜的句子變成簡單句子的 方法。(2)根據自定義的字典提取出關鍵詞(3)將所有的單句轉換為各自的關系 模型。由于該軟件存儲定義的句式比較少,所以很難覆蓋復雜的句式。盡管如此, 該軟件還是開創了智能輔導數學問題軟件的先河。進入20世紀后,隨著人工智能的發展,各類機器人開始斬頭露角,具體到智 能教輔領域,各個國家紛紛從解題入手。只有解題,才能獲取智能輔導學

40、生的高 地。因此智能教輔技術的核心也就是解題。但是從題目角度來講,類別,難度等 因素使得對系統無法有統一的衡量標準。想要對比智能解題技術能力的高低,必 須要有共同的參照。現在國際上比較認同的就是各自國家的高考題目。也就是用 高考題來衡量機器人的解題水平,進而側面反映智能教輔的能力。日本東京大學于2011年開始研發他們的高考機器人Torobo,該機器人的設計 目的是考入東京大學。但是這個機器人在數學這一科目上就遇到了瓶頸。通過每 一次的測試發現,其成績增長十分緩慢。究其原因,發現Torobo更多依賴的是對 現有題庫的學習,也就是說題庫中的題目越多,Torobo的解題能力可能會越高。 而對于系統未

41、見過的題目,顯得毫無辦法。最新的預測顯示,Torobo要想考上之 前所訂立的東京大學的目標,需要學習的題目是百萬級的。這無論是費用上還是 從數據上都是非常不現實的。在解題中,尤其是數學的解題中,主流研究方向都從傳統的規則方法轉向了 基于機器學習的方法上面。但是目前的研究結果表明因為題目的特征維度復雜, 很難訓練出泛化能力好的模型。本系統作為將要參加高考數學的機器人,創新性的引入了推理思維,通過構 建解題所需的知識圖譜,然后使用推理引擎在知識圖譜上面進行推理計算US。 只有這樣,才能是系統面對新出現的題目依然有較高的解題能力。因為題目無論 如何變化,所涉及到的知識點都在知識圖譜上存在。1.3論文

42、組織結構當前,現有的初等數學題意理解技術更多是針對簡單代數題和計算題I。對 于數學文本中描述的其它問題的理解效果十分有限。同時,對于初等數學問題進 行分類的各式效果也差強人意。本文主要是圍繞初等數學問題建立實體抽取模型, 獲得數學實體。然后在命名實體模型的基礎上,對數學問題進行分類。本文主要是利用現有的自然語言處理方法來對初等數學問題進行題意的理解 以及進一步的分類。首先從初等數學問題出發,分析了初等數學語言的描述特點。 構建了一套基于數學信息的實體模型,討論了基于實體模型的初等數學指代的可 行性,并且基于實體模型構建了初等數學指代體系。其次介紹了基于支持向量機 對初等數學問題分類的重點應用。

43、在對初等數學問題的分類研究中,使用高考題 為重點研究對象,提出了一套基于初等數學問題的特征提取方法。然后在現有特 征的基礎上,對初等數學題進行特征向量化。最后將向量化的初等數學訓練集進 行模型訓練,最后得到初等數學問題分類模型。本論文共分為六個部分:第1章,緒論。介紹了本課題的研究背景及意義。對自然語言處理以及智能 教輔系統二者的國內外研究現狀做了簡要分析介紹;第2章,相關理論與技術。重點對本文所涉及的自然語言處理理論進行了分 析,還介紹了自然語言處理的常用方法。對一些統計學所涉及的常用模型也進行 了重點分析,同時介紹了支持向量機的相關理論。第3章,初等數學問題分類預處理模型的構建。重點介紹了

44、初等數學語言與 普通語言的不同,然后針對性的提出數學實體表示方法,最后通過自然語言處理 方法對其進行分詞,詞性標注,命名實體標注。第4章,基于SVM的初等數學問題的分類。通過對命名實體標注過后的初等 數學問題進行特征提取,進而進行文本向量化。通過對向量化的文本進行支持向 量機的訓練,得到分類模型。第5章,初等數學問題自動分類系統的實現。分析了該系統的整體架構,對 其中的各模塊的關鍵步驟進行說明。然后通過兩套高考題目進行測試命名實體的 標注,以及題型分類。第6章,總結與展望。分析和總結本論文的不足,對研究過程中所遇到的問 題進行深入剖析,并對后續的研究做出進一步的規劃。第二章相關理論與技術2.1

45、自然語言理解概述自然語言理解是人工智能與計算機科學與技術在處理語言問題中的一個重要 應用方向A】,目的在于使計算機能夠理解人類語言中所包含的某些重要信息。在 最近的幾十年里,由于自然語言理解的相關理論和技術的飛速發展,其廣泛應用 在語音識別、信息檢索、機器翻譯文本挖掘等多個領域2324。自然語言理解和處 理不僅是一門社會需求十分巨大的應用性技術,也是一門具有非常具有科學研究 意義的自然科學。2.1.1自然語言處理處理的基本方法在初等數學問題解題系統中,無論解什么類型的題目,對于題意的理解是第 一步,題意理解的就是把人類理解的數學題目轉換成計算機系統能夠識別的知識 表示。自然語言處理的一些基本步

46、驟主要有分詞,詞性標注和命名實體識別。分詞。處理中文自然語言問題的首要任務是分詞,一個好的分詞系統很大程 度上影響了語義理解的正確性2習。詞是能夠獨立使用的最小語言單位,而很多孤 立語和黏著語言(如漢語,日語,藏語等)與西方屈折語存在較大的不同,西方 屈折語中每個詞語之間存在空格,天然的將詞語分割開來,而中文文本中沒有類 似的標識符。因此,分詞問題是計算機在處理孤立語及其黏著語文本時首要面臨 的基礎工作。近幾年,由早期的基于規則的分詞系統已經逐漸演變為基于統計學 分詞方式,并且分詞的準確性更高Ml。分詞的效果也在不斷的提高。在通用語言 中的分詞已經達到了相當高的水平,但是在細化的各專業學科領域

47、還有待加強, 依然存在很多的挑戰27。詞性標注。自然語言中每個詞都有其相對應的詞性,而詞性標注則是給文本 中的每個詞語標上其對應詞語的屬性2引,例如:“中國”在經過詞性標注則會標識 為名詞。詞性標注是詞的一種泛化,在處理絕大部分自語語言問題的時候都需要 進行詞性標注,因此詞性標注是處理自然語言問題一項必不可少的關鍵步驟。但 是漢語的詞性標注同樣面臨一些棘手的問題,比如常用詞兼類現象嚴重,詞性的 歸類本身帶有主觀性。命名實體識別。命名實體識別是預先將中文表達中的每個詞語定義為多個不 同的類別2刃,如景點名,人名,電子產品名等等。命名實體識別是自然語言進行 承載信息的重要單位,是對文本進行信息處理

48、一項基礎性研究PS。命名實體識別 是機器翻譯、問答系統、句法分析、信息提取、等應用領域中一項關鍵的技術, 它極大的推動了自然語言處理由理論走向工程的進程。一般來說,命名實體識別 的主要是識別文本中的預先定義的實體類。和早期的分詞系統一樣早期的命名實 體識別同樣也是基于規則實現的,這種方法實現代價比較高,同時可移植性也受 到了限制。現階段,由于大規模語料庫的日漸完善,基于語料庫的統計方法正日 益成為自然語言處理的主要方式。Apache ThriftThrift采用的服務端和客戶端模式,其采用接口描述語言定義并且來創建服務, 具有自己內部定義的傳輸數據標準和和相應的傳輸協議規范o Thrift通過

49、IDL腳本 對傳輸數據的業務邏輯和傳輸數據的數據結構根據不同的運行環境來構建出其對 應的代碼,圖2-1顯示了 Thiift的整體架構,可以看到,Thrift其中包含一個完整 的棧結構主要用于服務端和客戶端的構建。Thrift的傳輸協議主要有兩種,分別是 文本(text)和二進制(binary)的傳輸協議。而一般情況下采用的是二進制的傳輸協議, 相比文本傳輸協議而言,其傳輸效率更高,要求的帶寬更低。但是有時候為了項 目中某些特殊的需求也會使用文本類型的協議。從服務模型方面看,它支持單線 程服務模型以及多線程的服務模型。從數據傳輸方式的角度看,Thrift支持阻塞式 數據傳輸和非阻塞式數據傳輸的兩

50、種數據方式。圖2-1 Thrift的整體架構2.1.3中文自然語言處理工具自然語言處理工具有很多,比如NLTK WordNet還有HanLP, LTP等,NLTK 是用來構建處理人類各種語言的Python程序包。WordNet重點在英語的詞匯處理 上面能力強大。這里重點介紹的是LTP,它是由哈工大社會計算與信息檢索研究 中心所開發的,在國內外自然語言處理方面有極高的影響力。LTP平臺的總體結 構如圖2-2所示。DLL APIWeb Service分析結果可視化詞法分析句法分析語義分析依存句法 分析語義角色基于XML的應用程序接口基于XML的語言學知識資源和語料庫資源數據操作傳輸與共享圖2-2語

51、言技術平臺架構LTP支持處理的基礎技術有:詞性標注。LTP采用的是基于最大嫡馬爾科夫模型進行詞性標注,這里支 持的詞性類別是名詞、動詞、形容詞、副詞等。依存句法分析。通過分辨語言組成單位之間的相互依賴存在關系來表明其 相對應的句法結構。簡單的說,依存句法分析就是識別句子中的“主謂賓”、“定狀 補”等語法結構,并且對句式中的各成分之間的關系進行分析。解碼方法采用的是 基于柱狀搜索。語義角色標注。語義角色標注是一種輕量級的語義法分析技術,多用于標 注句子中某些短語為給定謂詞的論元(語義角色),如主動發起、被動接受、事件 時間和發生地點等。推動了機器人答疑系統、重要信息提取和機器翻譯等相關應 用的發

52、展。除此之外,ETP在自然語言處理方面還具有下述優勢:LTP提供非常全面的自然語言處理工具包。常規的處理方法全部涵蓋。ETP能夠返回比較直觀的結果,方便分析,也方便后續的系統對其進一步 的解析。LTP在處理“國內專家學者40余人參加研討會”的文本的輸出結果如圖2-3 所示。解析結果可使用XML的語言表示XML是一種簡單的可擴展的標記性語 言,多用存儲數據,且與平臺無關,方便跨平臺調用。如圖2-4所示為LTP對 “國內專家學者40余人參加研討會”進行處理的結果顯示。在數據獲取上可以基于HTTP協議進行傳輸。這樣的優點是支持跨平臺、跨語言編程并且不需要配置高性能的機器。*國內專宗字者RootnlA

53、0QuanFeat .珊寸會專冢學者-Root圖2-3語言技術平臺可視化結果圖 word id=r* cont=專pos=nr, ne=rOH parent=,2H relate=r,ATT semparent=,2n semrelate=nFeat7 word id=H2 cont=學者pos=n ne-0r, parent=5 relateATT semparent=,6H semrelate=nAgtr7 word id* cont二”研討會” pos二”n” ne二”0” parent二”6” relate=,VOBu semparent=,6, semrelate=,Cont,7 圖

54、2-4語言技術平臺處理后的XML結構2.2語言模型2.2.1隱馬爾可夫模型在隱馬爾科夫模型(HMM)中,模型的每個時態的狀態是不可見的,只能得 到模型的觀察序列。狀態的轉移概率以及由每個狀態到可觀察結果的概率,我 們可以根據觀察序列和這些轉移概率得到概率最大的狀態序列Hl。HMM可記為一個五元組:2= (S, K, A, B,勿)(2-1)其中,S為狀態的有限集合,K是輸出符號的有限集合,兀,A和8分別是 初始狀態的概率,狀態轉移概率和符號發射概率。NP(X,Y)=RP(y,l 扁).P(x,ly,)(2-2)t=它的模型流程表示如圖2-5所示。圖2-5隱馬爾可夫概率圖模型隱馬爾科夫模型在自然

55、語言處理領域中巳經被反復驗證是一種成功的統計學 概率模型El。其訓練速率快,效率高等眾多優點在進行序列處理的時候,優勢非 常明顯,比如說建模簡單,模型參數意義明確等,并且相關的應用實現算法也已 非常的成熟。屬于一種在準確地匹配時候變數據的技術,除了在上述中的各優勢 外,HMM在生物信息學信號分析、語音模式(如人臉、步態、表情等)識別、系 統故障診斷排查等的研究中運用廣泛,并且取得了豐碩的成果。隱馬爾可夫模型同樣有它的局限性,比如說隱馬爾可夫模型研究的前提是建 立在各個元素間是互相條件獨立的,但是從工程角度講,這種情況幾乎不可能出 現。2.2.2最大炳模型關于最大嫡模型,一種最直觀理解就是,當我

56、們需要對一個未知分布的隨機 事件的概率預測時,對未知的部分不做任何主觀性的假設W,同時我們的預測結 果必須滿足全部已知的條件。從另一角度講,在給定一組事實的條件下,選擇符 合所有事實,且在其他方面盡可能均勻的模型35。在這種情況下,要想使預測的 風險降到最低,就必須使未知信息的概率分布最均勻WE。因為此時整個概率的 分布的信息嫡為最大,這就是最大嫡模型的由來。關于條件分布p(v I X )的炳為:H(P)= 一旗 P(y, x) logP(y I x) =P(x)P(y I x) log P(y I x)( 2_3)x,y首先對定義的全部約束條件,必須滿足,然后在此基礎上讓信息嫡最大即可, 最

57、大嫡模型P*為:*八*p =arg 吁芝 H(尸)或尸 =argmin-Z/(P) (2_4)綜上,可以得出形式化后的最大嫡模型定義:在給定數據集的條件下,定義函數特征fi(x, y), i = l,2.,n ,根據經 驗分布得到滿足約束集的模型集合C :min P(x)P(y I x) log P(y I x)S.r. Ep(Q = E(Q(2-5)p(貝x) = ly2.2.3條件隨機場模型條件隨機場的基本定義是,已知在給定隨機變量X條件下,隨機變量丫的馬 爾科夫隨機場/I。條件隨機場更多用于對序列進行標注等問題I。這時,在條件 概率模型P(yix)中,丫是輸出變量,表示這是個已知的標記序

58、列,x是輸入變 量,表示是系統需要標注的觀察序列4。在模型訓練學習時,使用訓練數據集并 利用極大似然估計或者正則化的極大似然估計來得到所要的條件概率模P(VIX)。 在最后的預測解碼時,對于一組給定的輸入序列X來預測求出條件概率p(ylx)最 大的輸出序列(上標)Jo定義:設G = (V,E)是一個概率無向圖,公式中的U表示圖中所有的點的集合, 代表無向圖中全部的無向邊的集合。在給定的X的條件下,如果每個隨機變量匕 都服從馬爾科夫特性,艮F(匕 IX,匕,林)=F(匕 IX,匕,u)(2-6)對任意節點u成立,其中,w v表本的是和u兩結點在圖G =(V,E)中是相 鄰的兩結點的邊,uv表示節

59、點以外的所有節點集。那么(x,y)就構成一個條 件隨機場。條件隨機場與隱馬爾可夫模型不同,隱馬爾可夫模型是在給定的當前狀態的 條件下,來對下一個狀態進行定義。通常最常使用的是線性條件隨機場(Linear-chain CRFs),它是鏈結構的條件 隨機場模型,其狀態轉換圖如下圖2-6表示:X=X.,Xi.1,Xi圖2-6線性條件隨機場的概率圖模型令X = 玉,工2,.,氣表示輸入的觀察序列,Y = 外2,.,乂表示對應的輸出 有限狀態的集合,則該序列的概率定義為:P(riX,2)ccexp 旗i,*,X,0 + De(m,X,0 (2-7)k Jk其中,。一i,y,X,,)一一對應的觀察序列的標

60、記位i-l與標記位i間的轉移特 征函數,sy,X,i)觀察序列本身的i位置狀態特征函數,也就是說f和s都是 表示不同類型特征的函數。將設有Y個轉移特征,同時,設有K2個狀態特征,記為:JiE,)-(,*),k = Ki+l;l = l,2,.,K2(2-8)并且記n寫(K,X)=NOtJ,XJ)(2-9)i=l則可得(丫成況)=無fxp(;.(匕 X)(2-10)其中Z(X)=#p0F,(匕X)(5)j條件隨機場作為一種常規的概率圖模型,有很多顯著的特點,比如它能夠表 達遠距離的特性依賴等,而且能夠得到全局的最優結果。條件隨機場相比于隱馬 爾科夫模型,不要求各個元素間互相條件獨立,經實驗測試,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論