




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、電子科技大學UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA碩士學位論文MASTER THESIS論文題 目初等數學問題矢口識圖譜的半自動構建技術研究及實現學科專業學 號201621060136作者姓名段帥陽指導教師張景中教授分類號密UDC 注學位論文初等數學問題知識圖譜的 半自動構建技術研究及實現(題名和副題名)段帥陽(作者姓名)指導教師張景中 教授電子科技大學成都(姓名、職稱、單位名稱)申請學位級別碩士學科專業計算機科學與技術提交論文日期2019.3.22論文答辯日期2019524學位授予單位和日期電子科技大學 2019 年
2、6月答辯委員會主席評閱人 注1:注明國際十進分類法UDC的類號Research and Implementation of Semi-automatic Construction Technology of Knowledge Graph in Elementary Mathematics ProblemsAMaster Thesis Submitted toUniversity of Electronic Science and Technology of ChinaDiscipline:Computer Science and TechnologyAuthor:ShuaiyangDuanS
3、upervisor:Puof. JingzhongZhangSchool:School of Computer Science And Engineering(School of Cybersecurity)獨創性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研兗工作 及取得的研究成果。據我所知,除了文中特別加以標注和致謝的地方 外,論文中不包含其他人巳經發表或撰寫過的研究成果,也不包含為 獲得電子科技大學或其它教育機構的學位或證”而使用誼的材r|., 1 我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的 說明并表示謝意。作者簽名:帥如H期:年日論文使用授權本學位論文作者完全
4、了解電子科技大學有關保留、使用學位論文 的規定,有權保留并向國家有關部門或機構送交論文的復印件和磁盤, 允許論文被查閱和借閱。本人授權電子科技大學可以將學位論文的全L或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或掃描 等復制手段保存、匯編學位論文。(保密的學位論文在解密后應遵守此規定)作者簽名:飽 哺 抻導師簽名: 森日期:XI,年DjrjJ日摘要隨著互聯網進入一個高速發展期,人們的衣、食、住、行等各個方面都發生 了日新月異的變化,教育行業也逐步從傳統的機械化教育方式到現代的智能化教 育方式轉變。知識圖譜是大數據時代的產物,不僅可以方便的查看學科知識點的 結構關系,而且可以為自然語言理
5、解提供可視化的概念一一關系表示及深度語義 推理。因此,構建初等數學知識圖譜,引導學生自主學習、充分發揮主觀能動性 具有重要的理論意義和實際應用價值。本文在研究分析初等數學學科知識特點的基礎上,提出了一種基于核心概念 和關系的初等數學知識圖譜半自動構建方法,主要研究內容如下:通過對通用領域自然語言處理和知識表示方法的分析和研究,提出了面向數 學領域的自然語言處理模型和知識表示方法。按照數學知識使用場景的不同,把 數學學科知識分為幾何、代數、概率統計和文字題四大類,使用支持向量機實現 初等數學問題的場景分類,降低了關系抽取任務的復雜度,便于知識點的模塊化 管理。使用模式匹配、句法分析和深度學習方法
6、進行關系抽取,同時融合依存句 法分析和TextRank算法,提出了一種基于關鍵詞定位的初等數學文本關系自動抽 取方法,實現了基于核心概念和關系的初等數學知識圖譜構建。手工構建的初等 數學核心概念和關系663個,通過本文的方法自動抽取出856個實體和22578個 三元組關系,豐富和完善了初等數學知識圖譜。最后使用構建的數學知識圖譜輔助進行初等數學題意理解,通過對題意理解 結果的分析表明,建立的知識圖譜可以提高數學題意理解的通過率,具有較好的 使用價值。關鍵詞:初等數學,自然語言處理,知識表示,信息抽取,知識圖譜ABSTRACTAs the Internet enters a period of
7、rapid development, peoples clothing, food, housing, travel and other aspects have undergone rapid changes, and the education industry has gradually changed from traditional mechanized education methods to modern intelligent education methods. Knowledge Graph is the product of the era of big data. It
8、 not only can conveniently view the structural relationship of subject knowledge points, but also provide a visual concept for natural language understanding - relational representation and deep semantic reasoning. Therefore, it is of great theoretical significance and practical application value to
9、 construct the elementary mathematics Knowledge Graph and guide students to learn independently and give full play to subjective initiative.Based on the analysis of the characteristics of the knowledge of elementary mathematics, this thesis proposes a semi-automatic construction method of elementary
10、 mathematics Knowledge Graph based on core concepts and relationships. The main research contents are as follows:Through the analysis and research of natural language processing and knowledge representation methods in the general domain, the natural language processing model and knowledge representa
11、tion method oriented to mathematics are proposed. According to the different use scenarios of mathematics, the mathematics subject knowledge is divided into four categories: geometry, algebra, probability statistics and text questions. The support vector machine is used to realize the classification
12、 of the scenes of the elementary mathematics, which reduces the complexity of the relationship extraction task and facilitates the modular management of knowledge points. Using pattern matching, syntactic analysis and deep learning methods for relation extraction, and fusion dependent syntax analysi
13、s and TextRank algorithm, an automatic extraction method of elementary mathematical text relations based on keyword localization is proposed, which realizes the construction of elementary mathematics knowledge graph based on core concepts and relationships. The core concepts and relationships of ele
14、mentary mathematics constructed by hand are 663. The method of this thesis automatically extracts 856 entities and 22578 triad relations, which enriches and perfects the elementary mathematics Knowledge Graph.Finally, using the constructed mathematical Knowledge Graph to assist the understanding of
15、elementary mathematics, through the analysis of the results of the meaning of the problem, the established mathematical Knowledge Graph can improve the pass rate of the understanding of mathematical meaning, and has a good use value.Keywords: Elementary Mathematics, Natural Language Processing, Know
16、ledge Representation, Information Extraction, Knowledge Graph目錄 TOC o 1-5 h z HYPERLINK l bookmark46 o Current Document 第一章緒論1 HYPERLINK l bookmark49 o Current Document 1.1課題研究背景和意義1 HYPERLINK l bookmark52 o Current Document 1.2國內外研究現狀1 HYPERLINK l bookmark55 o Current Document 1.2.1自然語言處理國內外研究現狀1 H
17、YPERLINK l bookmark58 o Current Document 1.2.2知識圖譜國內外研究現狀3 HYPERLINK l bookmark61 o Current Document 1.3論文內容和結構安排5 HYPERLINK l bookmark64 o Current Document 第二章相關理論與技術7 HYPERLINK l bookmark67 o Current Document 2.1自然語言處理7 HYPERLINK l bookmark70 o Current Document 2.1.1中文分詞7 HYPERLINK l bookmark73 o
18、Current Document 2.1.2詞性標注7 HYPERLINK l bookmark76 o Current Document 2.1.3命名實體識別7 HYPERLINK l bookmark79 o Current Document 2.1.4指代消解7 HYPERLINK l bookmark82 o Current Document 2.2無向圖模型和神經網絡8 HYPERLINK l bookmark85 o Current Document 2.2.1條件隨機場8 HYPERLINK l bookmark88 o Current Document 2.2.2循環神經網絡
19、8 HYPERLINK l bookmark94 o Current Document 2.2.3神經張量網絡10 HYPERLINK l bookmark97 o Current Document 2.3詞嵌入11 HYPERLINK l bookmark100 o Current Document One-Hot11 HYPERLINK l bookmark104 o Current Document Word2vec11 HYPERLINK l bookmark110 o Current Document Glove13 HYPERLINK l bookmark114 o Current
20、 Document 2.4相似度計算13 HYPERLINK l bookmark117 o Current Document 2.4.1句子相似度13 HYPERLINK l bookmark124 o Current Document 2.4.2實體相似度15 HYPERLINK l bookmark127 o Current Document 2.5知識表示15 HYPERLINK l bookmark130 o Current Document 2.5.1謂詞邏輯表示15 HYPERLINK l bookmark133 o Current Document 2.5.2產生式表示15 H
21、YPERLINK l bookmark136 o Current Document 2.5.3語義網絡表示16 HYPERLINK l bookmark139 o Current Document 2.6知識圖譜16 HYPERLINK l bookmark142 o Current Document 2.6.1知識圖譜概述16 HYPERLINK l bookmark149 o Current Document 2.6.2知識圖譜架構16 HYPERLINK l bookmark152 o Current Document 2.6.3知識圖譜存儲17 HYPERLINK l bookmark
22、155 o Current Document 2.7推理引擎18 HYPERLINK l bookmark158 o Current Document 2.8初等數學學科知識特點18 HYPERLINK l bookmark165 o Current Document 2.9本章小結19 HYPERLINK l bookmark168 o Current Document 第三章領域知識圖譜構建方法20 HYPERLINK l bookmark171 o Current Document 3.1領域數據源獲取20 HYPERLINK l bookmark174 o Current Docume
23、nt 3.1.1結構化數據20 HYPERLINK l bookmark177 o Current Document 3.1.2半結構化數據20 HYPERLINK l bookmark180 o Current Document 3.1.3非結構化數據21 HYPERLINK l bookmark183 o Current Document 3.2信息抽取21 HYPERLINK l bookmark189 o Current Document 3.3知識融合22 HYPERLINK l bookmark192 o Current Document 3.3.1實體對齊22 HYPERLINK
24、 l bookmark198 o Current Document 3.3.2屬性對齊22 HYPERLINK l bookmark201 o Current Document 3.3.3質量評估23 HYPERLINK l bookmark204 o Current Document 3.4知識推理和更新23 HYPERLINK l bookmark207 o Current Document 3.4.1知識推理23 HYPERLINK l bookmark213 o Current Document 3.4.2知識更新24 HYPERLINK l bookmark216 o Current
25、 Document 3.5本章小結24第四章初等數學問題知識圖譜構建方法研究254.1數學領域知識獲取25 HYPERLINK l bookmark223 o Current Document 4.2數學領域自然語言處理27 HYPERLINK l bookmark226 o Current Document 4.2.1中文分詞和詞性標注27 HYPERLINK l bookmark233 o Current Document 4.2.2命名實體識別29 HYPERLINK l bookmark236 o Current Document 4.2.3指代消解32 HYPERLINK l boo
26、kmark248 o Current Document 4.2.4實體引入33 HYPERLINK l bookmark251 o Current Document 4.3數學知識表示和場景分類33 HYPERLINK l bookmark254 o Current Document 4.3.1知識表示33 HYPERLINK l bookmark259 o Current Document 4.3.2場景分類算法研究34 HYPERLINK l bookmark262 o Current Document 4.4信息抽取37 HYPERLINK l bookmark265 o Current
27、 Document 4.4.1基于模式匹配的關系抽取38 HYPERLINK l bookmark274 o Current Document 4.4.2基于依存句法分析的關系抽取40 HYPERLINK l bookmark281 o Current Document 4.4.3基于深度學習的關系抽取42 HYPERLINK l bookmark284 o Current Document 4.4.4基于關鍵詞定位的關系抽取44 HYPERLINK l bookmark287 o Current Document 4.5本章小結45 HYPERLINK l bookmark290 o Cur
28、rent Document 第五章知識圖譜構建系統的實現和應用46 HYPERLINK l bookmark293 o Current Document 5.1系統架構46 HYPERLINK l bookmark296 o Current Document 5.2系統功能模塊47 HYPERLINK l bookmark299 o Current Document 5.2.1 爬蟲47 HYPERLINK l bookmark302 o Current Document 5.2.2場景分類48 HYPERLINK l bookmark305 o Current Document 5.2.3預
29、處理模塊50 HYPERLINK l bookmark312 o Current Document 5.2.4信息抽取54 HYPERLINK l bookmark319 o Current Document 5.2.5知識融合57 HYPERLINK l bookmark324 o Current Document 5.2.6知識推理58 HYPERLINK l bookmark327 o Current Document 5.3知識圖譜可視化59 HYPERLINK l bookmark330 o Current Document 5.4知識圖譜應用61 HYPERLINK l bookm
30、ark333 o Current Document 5.4.1系統設計61 HYPERLINK l bookmark337 o Current Document 5.4.2系統實現62 HYPERLINK l bookmark340 o Current Document 5.5本章小結63 HYPERLINK l bookmark343 o Current Document 第六章系統測試與分析64 HYPERLINK l bookmark346 o Current Document 6.1系統測試646.1.1語料庫構建64 HYPERLINK l bookmark354 o Current
31、 Document 6.1.2測試方法64 HYPERLINK l bookmark359 o Current Document 6.1.3測試結果65 HYPERLINK l bookmark362 o Current Document 6.2系統分析66 HYPERLINK l bookmark365 o Current Document 第七章工作總結與展望67 HYPERLINK l bookmark368 o Current Document 7.1工作總結67 HYPERLINK l bookmark376 o Current Document 7.2研究的不足和未來工作展望67
32、HYPERLINK l bookmark383 o Current Document 致謝69 HYPERLINK l bookmark386 o Current Document 參考文獻70攻讀碩士期間參與獲獎情況75第一章緒論1.1課題研究背景和意義隨著移動互聯網進入一個高速發展期,人們的服裝、飲食、住房、出行等各 個方面都發生了日新月異的變化,不僅如此,教育行業也逐步從傳統的機械化教 育方式到現代的智能化教育方式轉變。中共中央國務院在1995年頒布了關于加 速科學技術進步的決定,該決定首次提出“科教興國”戰略,把加強國民教育、 提升國民文化素質作為社會主義經濟發展的首要任務和目標。無論
33、是國家層面, 還是社會層面,教育都有著舉足輕重的地位。近幾年各種各樣的智能化教育軟件和平臺如雨后春筍般層出不窮,使用移動互 聯網和人工智能技術自動的批改學生作業,精確的定位薄弱環節,不僅可以減輕 老師的負擔,而且,更為重要的是可以提升學生的學習效率,真正的實現教育現 代化。但是,目前大多數的智能教育平臺依賴于大量的人工勞動,不僅耗費精力, 而且存在人為主觀因素的影響。因此如何教會計算機去閱讀并理解知識,實現教 育資源的自動化整合和管理不僅可以避免重復性的工作,而且可以解放人力資源, 提高工作效率。知識圖譜作為人工智能領域的一個重要分支,它是大數據時代發展的必然結 果。初等數學作為數學領域一個基
34、礎而又重要的組成部分,是人類打開知識大門, 探索宇宙奧秘的一把“金鑰匙”。因此,構建初等數學問題知識圖譜,不僅可以 方便的查看學科知識點之間的結構關系,有助于形成嚴密的數學邏輯思維;而且 更重要的是可以提高學習者的學習效率,它是真正實現教育現代化的基石,具有 重要的理論意義和實際使用價值。1.2國內外研究現狀1.2.1自然語言處理國內外研究現狀自然語言處理(Nature Language Process, NLP)作為人工智能研究方向的一 個重要分支,它主要研究人與計算機進行交互通信的基礎方法和理論。自然語言 處理是跨多個領域的混合學科I,包括了計算機科學(Computer Science)、
35、語言 學(Linguistics)和數學(Mathematics)等。自然語言處理的主要研究內容包括兩個基本類別:基礎技術研究和應用創新 研究。基礎技術研究的主要內容有命名實體識別、詞性標注、指代消解、依存句 法分析等。基礎技術的研究逐步從詞語到句子,再從句子到語義的方向發展,自 然語言基礎技術發展方向如圖1-1所示。應用創新研究主要涉及自然語言處理在日 常生活中的應用,例如機器翻譯、聊天機器人、語音助手和信息檢索等。詞法分析J句法分析J語義理解4智能化應用圖1-1自然語言處理基礎技術發展方向Markov (馬爾科夫)在1913年提出了一種基于統計方法的馬爾科夫隨機過程 和馬爾科夫模型3o 1
36、948年Shannon首次把基于概率統計的馬爾科夫模型應用于 形式語言自動機。1956年Chomsky (喬姆斯基)用符號序列來表示語言模型囹, 建立了一套關于語法的有限狀態自動機模型,這是人類史上第一次用統一的數學 模型來表示自然語言和形式語言。深度學習最開始是在圖像識別和語音識別領域進行應用,直到2008年NLP 研究者開始把深度學習應用到自然語言處理領域。隨著計算能力和軟硬件綜合性 能的提升,深度學習技術也是不斷推陳出新,神經網絡愈發成為“一把利器”, 自然語言處理的研究也取得了許多突破性的進展。情感分析、機器翻譯、問答機 器人等領域都取得了快速發展。圖1-2為自然語言處理研究方法的發展
37、歷程。圖1-2自然語言處理研究方法發展歷程百度是國內最先布局人工智能領域的科技公司之一,同時自然語言處理也是 百度最先進行研究的一個方向,它的研究內容主要包括智能對話、機器閱讀、智 能寫作、機器翻譯、語義分析、自動駕駛等。百度翻譯目前在全球范圍內支持28種 語言,涵蓋756種翻譯方向,同時支持文本、語音、圖像等翻譯功能,并提供了 精準的人工翻譯服務,可以滿足不同場景下的不同客戶的翻譯需求。機器閱讀通 過對文章的篇章結構分析、句法語義分析、內容抽取、情感分析等技術手段實現 了文本內容的理解。利用百度搜索引擎的天然優勢,百度可以獲取大量的語料數 據,這使得百度的自然語言處理技術得到很大的提升,機器
38、閱讀技術巳經在百度 搜索、百度糯米、資訊流等產品中實現應用。阿里巴巴的自然語言處理研究主要是為其自身的產品服務,通過構建電子商 務領域的知識圖譜實現用戶興趣挖掘和智能導購,通過打造智能客服機器人可以 很大程度上減輕人工客服的工作量,在需要人工介入的時候才使用人力資源。2017 年初,阿里巴巴正式推出自己的神經網絡翻譯(Neural Machine Translation, NMT) 系統,可以提供常用的商品信息翻譯,人名、地名翻譯和即時通訊翻譯等功能, 同時支持中文、英文、荷蘭語等多種語種,為阿里巴巴的貿易全球化打下了良好 的基礎。騰訊人工智能實驗室(AILab)是騰訊的最強大的大腦,它的主要
39、研究內容包 括自然語言處理、語音識別、計算機視覺等。它自主研發的中文自然語言處理平 臺支持分布式和并行計算,同時提供提供爬蟲、信息抽取、智能推薦、數據挖據 等功能。2017年11月騰訊的實時對話翻譯軟件翻譯君上線同聲傳譯功能, 真正實現了用戶邊說邊翻譯的需求,支持中文、英文等多種語言。Google作為一個以搜索為核心的公司,自然語言處理對于Google的重要性就 不言而喻,所以Google也是全球最早開始進行自然語言處理技術研究的公司之一。 Google對自然語言處理的研究主要包括知識圖譜、機器翻譯等方面,其研究成果 已經在搜索引擎、廣告投放等領域大放異彩。文獻5提出一種專門針對特定領域的自然
40、語言處理研究方法,可以在特定的 語境下使用自己定義好的領域詞典和規則來實現特定領域的自然語言文本的分析, 從而實現特定領域的文本處理和理解。文獻6把自然語言處理技術和WEB數據挖 掘結合起來,可以根絕用戶的特殊輸入進行特定的搜索。文獻7指出通用的自然 語言處理技術不是很成熟,所以從特定領域的自然語言處理和機器閱讀技術角度 出發,把自然語言處理和語音合成技術結合提出了一種新的用于特定領域的自然 語言處理技術,可以在很大程度上提升人機交互的效果。1.2.2知識圖譜國內外研究現狀早期的知識圖譜一般是指Google為了增強其搜索能力所建立的知識庫,現在 的知識圖譜普泛指各種各樣的知識庫。廣義上來說,知
41、識圖譜是用來描述現實世 界中存在的各種物體以及物體之間的關系,這些種類繁多的物體以及物體之間的 關系構成了 一個大型的網狀結構。知識圖譜是大數據人工智能時代發展的必然趨勢,但是知識圖譜的發展不僅 僅是依賴于計算機和人工智能領域的發展,同時在很大程度上又依賴于其他的研 究領域,比如語言學、信息抽取、語義網和專家系統等,知識圖譜不是一門單一 的學科,它是一門涵蓋范圍非常廣泛的跨領域交叉學科。知識圖譜作為人工智能領域的重要研究方向之一,它和自然語言處理是相輔 相成的。知識圖譜技術涉及到了自然語言處理中的各項技術,同時,知識圖譜的 研究也促進了自然語言處理技術的發展,尤其是基于知識圖譜的指代消解和依存
42、 句法關系分析等技術也得以長遠發展。1984年Douglas Lenat (道格拉斯 勒納特)領導的項目組收集了生活中常見的 50萬條概念的500萬條常識知識,并將其編碼集成到一個全面的本體知識庫Cyc 8o 1985年,普林斯頓大學認識科學實驗室建立了英語字典WordNet9,目的是 為現代計算提供可讀性較強的詞匯數據庫。1998年,萬維網聯盟的Tim Berners-Lee 首次提出語義網u的概念,它是一個可以根據句子語義進行相似性判斷的智能網 絡,就像是一臺超級巨型計算機,存儲了大量的數據。語義網絡上連接的每一臺 電腦不僅能夠理解每一個實體的概念和意義,而且重要的是可以理解實體對之間 的
43、相互關系,具有很強的溝通協調能力,可以很好的實現計算機和人之間的無縫 對接,使人類從繁重勞動中解放出來,造福于人們。2007年柏林自由大學和萊比 錫大學的研究人員共同發起了 DBpdia項目El,目的就是為了解決長期以來的語 義網不完善問題。考慮到非結構化數據使用時的麻煩和不便,維基媒體基金會在 2012年推出了 Wikidata項目,采用一種全新的方式和方法管理百科中的知識和 數據。自從美國谷歌(Google)公司于2012年5月推出自己的第一版知識圖譜 (Knowledge Graph)以來,工業界和學術界也相繼掀起了一股知識圖譜研究的熱 潮。各大互聯網公司、知名高校和研究企業都紛紛加入了
44、知識圖譜研究的行列, 它們先后推出了自己的知識圖譜產品。例如,百度發布了自己的知識圖譜“知 心”;搜狗在2012年11月推出了自己的知識圖譜“知立方”;2015年12 月,復旦大學的Knowledge Factory Laboratory發布了通用領域知識圖譜 CN-DBpedia14o隨著大數據時代的到來,尤其是人工智能的發展,知識圖譜 的研究也取得了長足的進步和發展,現在已經在個性化推薦、智能搜索、聊天機 器人等多個領域凸顯出自己的優勢。垂直行業知識圖譜的構建一般需要借助垂直領域的知識背景和特定的知識表 示方法。萬維網聯盟的醫療保健和生命科學利益集團研究構建了轉化醫學本體 (Transla
45、tional Medicine Ontology, TMO)15, TMO 是一個先進的、設身處地為患者 考慮的醫療知識圖譜,它為關聯全部患者的數據提供了一個通用的框架。National Library of Medicine 研發了 統一的醫學語言系統(Unified Medical Language System, UMLS),它的初衷是建立一套統一的生物醫學資源詞匯表,然后為種類繁多的生 物醫學資源整合提供服務。2000年基因本體聯盟啟動了 GO項目,該項目主要定 義了一套統一的生物基因詞匯集合,這些專業詞匯集合涵蓋了有機生物中的所有 基因和產物,極大的方便了對于生物基因方向的研究。王通
46、16等人使用有監督的 深度學習方法構建了威脅情報知識圖譜,可以快速準確的獲取威脅情報,為減少 網絡威脅提供了強有力的保障。王仁武17等使用深度置信網絡實現了商業領域中 關系的自動提取,并使用圖數據庫進行商業知識圖譜的存儲,便于查看知識單元 中的關系。王曉云18等參考領域知識圖譜構建方法,結合科技文獻的特點,提出 了一種實體概念抽取和關系抽取算法,建立了國防科技知識圖譜,可以很大程度 上提高科技文獻的使用率和便捷性。在垂直行業知識圖譜中,實體的數據模式與實體之間的關系通常都是多樣化 的,并且實體的屬性一般都具有行業意義。國內對于知識圖譜的研究起步較晚, 目前大多集中在開放域通用知識圖譜,對于特定
47、領域的行業知識圖譜的研究不多, 一般集中到企業風險評估、輔助信貸審核和反欺詐等領域。1.3論文內容和結構安排本文研究初等數學問題知識圖譜的半自動構建技術,基于通用領域的自然語 言處理技術和知識圖譜構建方法,結合初等數學學科知識特點,提出并實現了初 等數學問題知識圖譜構建系統。論文內容共分為七個章節:第一章,緒論。簡明扼要的闡述了本課題的研究背景及意義,對自然語言處 理和知識圖譜的國內外研究現狀做了簡要分析介紹。第二章,相關理論和技術。將本文所用到的相關理論和技術進行了較為全面 的介紹,主要包括通用領域自然語言處理技術、無向圖模型和神經網絡、詞嵌入、 相似度計算、知識表示和知識圖譜的相關理論。第
48、三章,領域知識圖譜構建方法。首先對比分析了領域知識圖譜和通用知識 圖譜的區別,然后介紹了領域知識圖譜構建方法。第四章,初等數學問題知識圖譜半自動化構建方法研究。本章結合初等數學 學科知識特點,改進了現有的自然語言處理模型,引入初等初學領域的自然語言處理模型,同時研究了數學知識表示方法、領域知識挖掘算法、文本信息抽取。第五章,系統實現和應用。本章詳細介紹了知識圖譜構建系統的架構和功能 模塊,并使用圖數據庫Neo4j進行數據可視化,最后把知識圖譜用于初等數學題 意理解,設計實現了基于知識圖譜的初等數學題意理解系統。第六章,系統測試和分析。通過實驗結果分析,論證了文中方法的可行性和 有效性。第七章,
49、工作總結和展望??偨Y了本文的主要工作,并提出研究過程中的不 足之處,同時對后續的進一步研究工作做出展望。第二章相關理論與技術2.1自然語言處理2.1.1中文分詞中文與英文不同,中文詞語和詞語之間沒有專門的分隔符號。中文分詞是指 把一段連續的中文文本分割成具有語言學意義的獨立詞匯。最早的分詞方法是采 用字典匹配的方式包括最大正向匹配、最大反向匹配、最大雙向匹配等RS, 直到2003年才開始采用標注序列的方法進行中文分詞?,F在深度學習成為主流, 基于深度學習的中文分詞方法也逐漸為人們所熟知。歷經30多年的發展,中文分 詞技術已經越來越成熟,分詞的結果也越來越準確。2.1.2詞性標注無論是中文還是英
50、文,每一個詞語都是有其詞性的。詞性標注,顧名思義就 是給待處理文本中的詞語標注上其對應的詞性QI。詞性標注在句法分析中具有很 重要的地位,同時詞性可以作為一個特征進行其它任務的處理。詞性標注是中文 自然語言處理中一個基礎而又重要的研究方向囚。2.1.3命名實體識別命名實體識別(Named Entity Recognition, NER)是自然語言處理中的一項基 礎技術研究,它是指從文本中識別出有某些實際含義的詞語,目前通用領域的命 名實體識別可以分為人名、地名、機構名24三大類。命名實體識別任務目前有三種主流的處理方法:基于字典和規則的方法,基 于數理統計的方法和基于深度學習的方法/?;谝巹t
51、和字典的方法進行命名實 體識別具有較高的準確率,但同時也有較大的局限性,現如今基于大規模數據的 深度學習方法日趨成為時代主流。2.1.4指代消解指代是人類語言學中常用的一種手法,它廣泛的出現在人類的日常生活中26, 比如對話、寫作等等。指代消解一般是指使用一個代詞來表示前面已經提及到的 元素,被指代的元素以名詞或者是主語居多。指代消解作為中文自然語言處理中 的一項基礎技術研究27,它是進行其它自然語言處理任務的根基,只有解決了指代問題,才可以完整的提取文中的信息,進行后續任務的處理。2.2無向圖模型和神經網絡2.2.1條件隨機場條件隨機場(Conditional Random Fields,
52、CRF)是一個無向圖條件概率模型, 它表示在給定的輸入條件下對應的輸出結果的馬爾科夫隨機場28】。條件隨機場可 以用于處理大多數的序列標注問題四,最為常見的Word Segmentation Part of Speech Tagging和NER任務都是使用線性的序列標注結構,在句法分析等少數任 務中使用的是樹狀的標注序列3,其中線性序列標注任務使用的最多的是鏈式條 件隨機場如圖2-1所示。記觀測到的輸入序列X=XVX2,X3, , XnT , Xn ,觀測 序列對應的標注序列Y=YV 丫2, 丫3,, Yn_v Yn),則條件概率模型P(y|x) 的定義見式(2-1) oP(y|x)=里e%
53、*2 ajtj+k*i 6kSk公式(2-1)Z(X)其中tj是轉移特征函數,Sk是狀態特征函數,向、6k是特征函數的權重,Z(x)是 規范化因子31, z(x)的定義見式(2-2) oZ(x)= e*=iWkFk(y,x)公式(2-2)Fk(y,x)是k個時刻的特征函數的和。X=xl, x2, x3,xn圖2-1鏈式條件隨機場2.2.2循環神經網絡RNN循環神經網絡(Recurrent Neural Network, RNN)是一種具有短期1己憶能力的 神經網絡,RNN的輸出值不僅和當前時刻t的輸入,而且還與t-1時刻的輸出有關, 循環神經網絡的工作原理和生物神經網絡更加的相似。由于可以記憶
54、上一時刻的信息,對于序列標注類的任務RNN比傳統的全連接神經網絡具有更好的效果。圖2-2 RNN網絡結構圖在如圖2-2所示的循環神經網絡中,U表示輸入層(Input Layer)和隱藏層 (Hidden Layer)之間的權重矩陣,W表示Hidden Layer與Hidden Layer之間的權 重矩陣,V表示Hidden Layer和輸出層(Output Layer)之間的權重矩陣。函數f(x) 表示Hidden Layer的激活函數,函數g(x)表示0utput Layer的激活函數。邛寸刻的 輸出值不僅與t時刻的輸入Xt有關,而且還和t-1時刻的隱藏層的值Si有關。t時 刻的隱藏層值和輸
55、出值分別見式(2-3)、(2-4)所示。St = f(U Xt + W St_i)公式(2-3)Ot = g(VSt)公式(2-4)LSTM雖然RNN具有一定的記憶能力,但是隨著傳播層數的增長,會存在“梯度消 失”或者是“梯度爆炸”的現象,導致RNN的“記憶能力”下降。為了彌補RNN 的這一不足,Hochreater和Schmidhuber在1997年提出了長短時記憶網絡(Long short-term memory, LSTM) , LSTM是一種特殊的RNN網絡,它引入了存儲單 元可以記憶更多的信息,從而可以更好的處理長序列標注任務,很大程度上避免 了 Gradient Disappear
56、s 和 Gradient Explosion 情況的發生。如圖 2-3 所示為 LSTM 的 網絡結構圖,由圖可知t時刻的輸入包含了三部分的內容:t時刻的外部輸入值畚; t-1時刻的網絡輸出值Hi;t-1時刻的記憶單元的值確_1。其中的遺忘門f(t)、 輸入門i(t)、輸出門o(t)是三個獨立的神經網絡。記t時刻的輸入毒可以輸入到網絡 中的有效信息為布,貝It時刻的網絡輸出值見式(2-6) o公式(2-5)以=ft * Ct_! + it * 看圖2-3 LSTM網絡結構圖Bi-LSTM雙向 LSTM (Bi-directional Long Short-Term Memory, Bi-LST
57、M)有一個前向 的LSTM和一個后向的LSTM組成,這樣不僅可以提取到從前到后的編碼信息, 而且可以提取到從后向前的編碼信息,然后把前向的信息和后向的信息進行拼接得到一個包含雙向信息的向量做為最終的輸出結果。.輸出.拼接.反向 LSTM.正向 LSTM.輸入圖2-4雙向LSTM2.2.3神經張量網絡張量是一個數學概念,不僅可以用在數學領域,而且是物力力學和計算機研 究中的關鍵一環。張量是矢量的推廣,矢量可以看做一維張量,矩陣可以看做二 維的張量,矩陣數組可以看做是一個三維張量。神經張量網絡(Neural Tensor Network , NTN)就是用張量來存儲層與層之 間的權值矩陣的神經網絡
58、,進行張量分解就可以進行張量的壓縮,從而實現節 省計算機儲存空間、提高計算速度,更為重要的是可以建立層與層之間的多維度 的聯系,充分使用輸入的信息。文章36使用神經張量網絡進行實體之間關系置信度的評分,該模型的輸入 是三元組關系(實體一一關系一一實體,實體一一屬性一一屬性值),輸出的是 神經張量網絡對于輸入三元組的可信度評分。2.3詞嵌入使用計算機解決自然語言任務的首要問題就是解決詞語在計算機中的輸入問 題,一般有離散表示和分布式表示兩種方式。One-Hot獨熱編碼又叫一位有效編碼,首先建立一個文本詞典用來表示集合中的所有 元素,然后采用集合中詞語的順序給每一個詞匯編碼,如果當前位置詞語存在用
59、 “1”表示,不存在則用“0”表示,這樣每個詞可以用一個N維向量表示,N表 示詞匯集合中的元素個數。表 2-1 one-hot 編碼原始文字你我他位置編碼012One-Hot 編碼1,0,00,1,00,0,1Word2vec2013年,谷歌公司開源了一款基礎自然語言處理工具Word2vec37,它可以把 每一個詞語映射成為固定維度的向量,近義關系詞語的詞向量之間具有很高的相 似性,有效的解決了詞語之間的語義鴻溝問題。Word2vec中實現了 CBOW和 Skip-Gram兩種模型,分別介紹如下:CBOW 模型連續詞袋模型(Continuous Bag-of-Words Model, CBOW
60、)是根據詞語的上下 文信息預測當前位置詞語出現概率的語言模型,映射層把輸入層的上下文信息向量求和印,其中上下文信息包含詞語的數目取決于模型滑動窗口的大小,輸出層 輸出的是當前位置各個詞出現的概率,CBOW模型如圖2-5所示。輸入層映射層輸出層圖2-5 CBOW模型Skip-Gram 模型Skip-Gram模型的設計思想可以看做CBOW模型的一個逆過程,Skip-Gram是 已知當前位置的詞語,然后預測上下文位置詞語出現概率的語言模型3,模型結 構如圖2-6所示。映射層輸出層輸入層圖 2-6 Skip-Gram 模型無論是CBOW模型,還是Skip-Gram模型,都是語言模型的產物。在訓練語言模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 強制免疫經費管理辦法
- 車間工人考核管理辦法
- 移動終端支付管理辦法
- 肩脫位的護理課件
- 自主游戲教師培訓課件
- 高職經濟數學試卷
- 風華書院招生數學試卷
- 高三三二零數學試卷
- 肛腸病護理課件
- 2025至2030橙產品行業發展趨勢分析與未來投資戰略咨詢研究報告
- GB/T 27772-2025病媒生物密度控制水平蠅類
- 【MOOC】《算法設計與分析》(東北大學) 中國大學慕課答案
- 2025年部門預算支出經濟分類科目說明表
- 《陸上風電場工程概算定額》NBT 31010-2019
- 診所備案申請表格(衛健委備案)
- 行百里者半九十期末沖刺主題班會.ppt課件
- 建筑施工新入職員工安全教育培訓
- 基于T68鏜床電氣控制系統的PLC改造設計[1]
- 膨脹機培訓資料-cryostar[1]資料
- 醫院標識牌設計方案 2
- C7000服務器維護文檔
評論
0/150
提交評論