基于模式的語義信息抽取及應用研究(共92頁)_第1頁
基于模式的語義信息抽取及應用研究(共92頁)_第2頁
基于模式的語義信息抽取及應用研究(共92頁)_第3頁
基于模式的語義信息抽取及應用研究(共92頁)_第4頁
基于模式的語義信息抽取及應用研究(共92頁)_第5頁
已閱讀5頁,還剩87頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于規則的信息抽取技術的研究及其在中醫醫案文獻中的應用- PAGE 42 -基于模式的語義信息抽取及應用研究王雙北京科技大學MACROBUTTON NoMacro 公開 密級:_論文(lnwn)題目:基于(jy)模式的語義信息(xnx)抽取及應用研究G20118233王雙學 號:_軟件工程作 者:_專 業 名 稱:_2013年11月10日基于(jy)模式的語義信息(xnx)抽取及應用研究Semantic information extraction technology and application based on patterns研究生姓名(xngmng):王雙指導教師姓名:孫義北京科技

2、大學計算機與通信工程學院北京100083,中國Master Degree Candidate: Wang ShuangSupervisor: Sun YiSchool of Computer &Comunication EngineeringUniversity of Science and Technology Beijing30 Xueyuan Road,Haidian DistrictBeijing 100083,P.R.CHINAMACROBUTTON NoMacro 公開 MACROBUTTON NoMacro 單擊此處鍵入UDC號TP3910008分類號:_密級:_:_單位(dnw

3、i)代碼:_北京科技大學碩士學位論文(lnwn)基于模式的語義信息抽取及應用研究論文(lnwn)題目: 王雙作者:_北京科技大學 孫義指 導 教 師: 單位: 指導小組成員: 單位: 單位: 論文提交日期:2013年 11月1 0日學位授予單位:北 京 科 技 大 學北京科技大學碩士學位論文- PAGE XIII -致 謝本課題能夠順利完成,與我所得到(d do)的多方面的無私而熱情的幫助是分不開的。我首先要感謝(gnxi)我的導師孫義教授(jioshu)。在本人讀研期間,孫老師無論在學習還是在生活上,都給予了無微不至的關心。在整個畢業論文完成過程中,孫老師定期了解課題進展,積極提出寶貴意見,

4、在老師嚴謹治學、精益求精的工作作風中體會到了老師崇高的人格魅力。另外我還要感謝實驗室的另外兩位老師張德政老師和劉宏嵐老師,感謝張老師和劉老師對我的鼓勵和肯定。張老師積極的人生態度和拼搏精神,對我們產生深遠影響,同時感謝張老師為我們提供的良好的工作和學習環境。我還要感謝幫助和鼓勵過我的每一位同學,他們是韋仕偉、于留寶、付彬、華鎮。感謝在這近三年時間里給予我知識的老師們,正是由于他們的辛勤施教,使我學到了許多寶貴的知識,能夠順利完成學業。真誠感謝我的父母、姐姐和朋友們。在他們的鼓勵下,我勇敢前進,克服很多困難。他們的關心與幫助是我學習和生活最大力量來源。最后,感謝所有在百忙之中參加我論文答辯的老師

5、們,在此致以我崇高的敬意和衷心的感謝。摘 要中醫學作為中國特色的傳統醫學具有(jyu)重要的社會價值,但是由于中醫學理論體系的復雜性和特殊性,對中醫理論和技術的全面把握需要(xyo)較長的時間。特別是經過多年臨床實踐,而且擁有(yngyu)多年中醫實踐經驗的專家,很好的反映出了中醫學的特色。從而可以通過研究這些醫案,進而了解中醫學的方法和理論,從而快速、全面地了解中醫理論和技術。面對海量文本形式的醫案,目前普遍采用手工填寫結構化采集模板的方法結構化病案信息,不僅耗費大量人力物力,而且不能反應各個專家的特點。因此,本文主要研究如何通過計算機技術自動結構化文本形式的病案信息,從而為挖掘名老中醫的臨

6、床經驗和診療思路打下基礎。本文針對中醫病案文本信息的特點,從多個方面、不同角度對基于中醫病案信息的自動抽取進行了深入研究,實現了一個基于模式匹配的醫案信息自動抽取系統。本文的主要工作包括以下幾個方面:1、綜述信息抽取及相關技術方法,主要內容包括相關概念的介紹,技術專有名詞的解釋說明,還包括對各種技術的分析。2、重點研究了基于聚類的模式獲取問題,以及基于模式的中醫醫案的信息抽取問題。實現了利用機器學習方法自動獲取模式,利用模式識別文本中的人名、地名、時間以及實體間關系信息。3、設計并實現了一個基于中醫醫案的信息抽取原型系統。該系統提供了一個方法以供用戶使用,能夠很好的實現對中醫醫案信息的抽取。關

7、鍵詞:自然語言處理,信息抽取,模式生成,模式匹配Semantic information extraction technology and application based on patternsAbstractTraditional Chinese medicine as a Chinese traditional medicine has important social value .Medical records as the doctor clinical thinking and treatment based on syndrome differentiation proce

8、ss records, is a concrete reflection of comprehensive application forms of traditional Chinese medicine. Pattern matching is a commonly used method in information extraction system, how to generate the model is the key problem in the field of information extraction. This paper presents a method of c

9、lustering based machine learning, the system can automatic pattern acquisition from text. The application of this method in traditional Chinese medical experiments in the literature, has achieved a good result. According to the characteristicsof text informationofmedical records, Study is conducted

10、for theautomatic extraction ofChinese medical recordinformation based onmany aspects,from different angles, amedical informationautomatic extraction system ofpattern matching.The main work of this paperinclude the following aspects:1. Summary of informationextractionand relatedtechniques, The main c

11、ontentsinclude therelated concepts introduced, Technicalterminologyexplanation, also includes theanalysis of all kinds oftechnology. 2. Focus on the information extractionproblembased on the pattern oftraditional Chinese Medicine, Construction of patternlibrary.3. The design and implementation of ap

12、rototype systembased oninformation extractionoftraditional Chinese medicine.The system provides amethodfor the user touse,can be achieved on thetraditional Chinese medicineinformation extractionis verygood.Key Words:Natural Language Processing , Information Extraction,Pattern Acquisition,Pattern Mat

13、ching(用英文逗號(duho)“,”分隔(fng))目 錄 TOC o 1-3 h z u HYPERLINK l _Toc371872020 致 謝 PAGEREF _Toc371872020 h I HYPERLINK l _Toc371872021 摘 要 PAGEREF _Toc371872021 h III HYPERLINK l _Toc371872022 Abstract PAGEREF _Toc371872022 h V HYPERLINK l _Toc371872023 插圖(cht)和附表清單 PAGEREF _Toc371872023 h XI HYPERLINK l

14、 _Toc371872024 1 緒論(xln) PAGEREF _Toc371872024 h 1 HYPERLINK l _Toc371872025 1.1 課題(kt)背景 PAGEREF _Toc371872025 h 1 HYPERLINK l _Toc371872026 1.1.1 課題的來源,目的和意義 PAGEREF _Toc371872026 h 1 HYPERLINK l _Toc371872027 1.1.2 課題的研究內容 PAGEREF _Toc371872027 h 1 HYPERLINK l _Toc371872028 1.2 論文的主要工作 PAGEREF _T

15、oc371872028 h 2 HYPERLINK l _Toc371872029 1.3 本文的組織結構 PAGEREF _Toc371872029 h 2 HYPERLINK l _Toc371872030 2 信息抽取模式學習系統綜述 PAGEREF _Toc371872030 h 3 HYPERLINK l _Toc371872031 2.1 信息抽取模式學習系統分類 PAGEREF _Toc371872031 h 3 HYPERLINK l _Toc371872032 2.2 基于人工語料標注的IE模式學習系統 PAGEREF _Toc371872032 h 3 HYPERLINK

16、l _Toc371872033 2.2.1 基于人工語料標注的IE模式學習系統的原理 PAGEREF _Toc371872033 h 3 HYPERLINK l _Toc371872034 2.3 基于人工語料分類的IE模式學習系統 PAGEREF _Toc371872034 h 6 HYPERLINK l _Toc371872035 2.4 基于自舉的IE模式學習系統 PAGEREF _Toc371872035 h 7 HYPERLINK l _Toc371872036 2.5 基于WordNet和語料標注的IE模式學習系統 PAGEREF _Toc371872036 h 9 HYPERLI

17、NK l _Toc371872037 2.6 本章小結 PAGEREF _Toc371872037 h 11 HYPERLINK l _Toc371872038 3 中醫醫案特征分析 PAGEREF _Toc371872038 h 13 HYPERLINK l _Toc371872039 3.1 中醫醫案特征分析 PAGEREF _Toc371872039 h 13 HYPERLINK l _Toc371872040 3.1.1 中醫醫案結構特征分析 PAGEREF _Toc371872040 h 13 HYPERLINK l _Toc371872041 3.1.2 中醫醫案內容特征分析 PA

18、GEREF _Toc371872041 h 15 HYPERLINK l _Toc371872042 3.1.3 中醫領域本身的特點 PAGEREF _Toc371872042 h 15 HYPERLINK l _Toc371872043 3.2 中醫醫案語義信息抽取的研究基礎及存在的問題 PAGEREF _Toc371872043 h 16 HYPERLINK l _Toc371872044 3.3 本章小結 PAGEREF _Toc371872044 h 17 HYPERLINK l _Toc371872045 4 一種基于聚類的信息抽取模式自動生成方法 PAGEREF _Toc37187

19、2045 h 18 HYPERLINK l _Toc371872046 4.1 基于聚類的模式生成方法的比較與選擇 PAGEREF _Toc371872046 h 18 HYPERLINK l _Toc371872047 4.2 單鏈法聚類的基本思想 PAGEREF _Toc371872047 h 18 HYPERLINK l _Toc371872048 4.3 相關(xinggun)概念 PAGEREF _Toc371872048 h 18 HYPERLINK l _Toc371872049 4.4 模式生成(shn chn)流程 PAGEREF _Toc371872049 h 20 HYP

20、ERLINK l _Toc371872050 4.4.1 文本處理與聚類 PAGEREF _Toc371872050 h 21 HYPERLINK l _Toc371872051 4.4.2 同類(tngli)之間的模式合并 PAGEREF _Toc371872051 h 24 HYPERLINK l _Toc371872052 4.5 實驗結果和分析 PAGEREF _Toc371872052 h 26 HYPERLINK l _Toc371872053 4.6 本章小結 PAGEREF _Toc371872053 h 29 HYPERLINK l _Toc371872054 5 基于模式匹

21、配的信息抽取方法 PAGEREF _Toc371872054 h 30 HYPERLINK l _Toc371872055 5.1 國內外研究進展 PAGEREF _Toc371872055 h 30 HYPERLINK l _Toc371872056 5.1.1 本課題國外研究進展 PAGEREF _Toc371872056 h 30 HYPERLINK l _Toc371872057 5.1.2 本課題國內研究進展 PAGEREF _Toc371872057 h 30 HYPERLINK l _Toc371872058 5.2 中醫醫案信息抽取過程中模式的表示方式 PAGEREF _Toc

22、371872058 h 31 HYPERLINK l _Toc371872059 5.3 信息抽取程序的實現過程 PAGEREF _Toc371872059 h 33 HYPERLINK l _Toc371872060 5.3.1 自動分詞的實現 PAGEREF _Toc371872060 h 34 HYPERLINK l _Toc371872061 5.3.2 加載模式庫 PAGEREF _Toc371872061 h 38 HYPERLINK l _Toc371872062 5.3.3 讀取醫案文件 PAGEREF _Toc371872062 h 39 HYPERLINK l _Toc37

23、1872063 5.3.4 確定醫案文件的段落主題 PAGEREF _Toc371872063 h 41 HYPERLINK l _Toc371872064 5.2.5逐句遍歷 PAGEREF _Toc371872064 h 41 HYPERLINK l _Toc371872065 5.2.6正則匹配算法 PAGEREF _Toc371872065 h 42 HYPERLINK l _Toc371872066 5.2.7存儲提取結果 PAGEREF _Toc371872066 h 43 HYPERLINK l _Toc371872067 5.4 本章小節 PAGEREF _Toc3718720

24、67 h 44 HYPERLINK l _Toc371872068 6 基于模式匹配的中醫醫案信息抽取系統的設計與實現 PAGEREF _Toc371872068 h 45 HYPERLINK l _Toc371872069 6.1 信息抽取系統的通用體系結構 PAGEREF _Toc371872069 h 45 HYPERLINK l _Toc371872070 6.2 需求分析 PAGEREF _Toc371872070 h 45 HYPERLINK l _Toc371872071 6.2.1 用戶登錄 PAGEREF _Toc371872071 h 45 HYPERLINK l _Toc

25、371872072 6.2.2 中醫醫案管理 PAGEREF _Toc371872072 h 45 HYPERLINK l _Toc371872073 6.2.3 用戶詞典管理 PAGEREF _Toc371872073 h 46 HYPERLINK l _Toc371872074 6.2.4 模板匹配 PAGEREF _Toc371872074 h 46 HYPERLINK l _Toc371872075 6.3 系統設計 PAGEREF _Toc371872075 h 46 HYPERLINK l _Toc371872076 6.3.1 系統功能結構 PAGEREF _Toc3718720

26、76 h 46 HYPERLINK l _Toc371872077 6.3.2 定義抽取任務 PAGEREF _Toc371872077 h 47 HYPERLINK l _Toc371872078 6.3.3 構建(u jin)開發程序 PAGEREF _Toc371872078 h 48 HYPERLINK l _Toc371872079 6.3.4 數據庫設計(shj) PAGEREF _Toc371872079 h 49 HYPERLINK l _Toc371872080 6.4 詳細(xingx)設計 PAGEREF _Toc371872080 h 50 HYPERLINK l _T

27、oc371872081 6.4.1 用戶登錄模塊 PAGEREF _Toc371872081 h 50 HYPERLINK l _Toc371872082 6.4.2 系統主界面 PAGEREF _Toc371872082 h 51 HYPERLINK l _Toc371872083 6.4.3 用戶詞典模塊 PAGEREF _Toc371872083 h 52 HYPERLINK l _Toc371872084 6.4.4 中醫醫案管理模塊 PAGEREF _Toc371872084 h 53 HYPERLINK l _Toc371872085 6.4.5 基于模板匹配的抽取模塊 PAGER

28、EF _Toc371872085 h 53 HYPERLINK l _Toc371872086 6.5 軟件測試 PAGEREF _Toc371872086 h 54 HYPERLINK l _Toc371872087 6.5.1 軟件測試的步驟 PAGEREF _Toc371872087 h 54 HYPERLINK l _Toc371872088 6.5.2 本系統的測試方案 PAGEREF _Toc371872088 h 55 HYPERLINK l _Toc371872089 6.6 本章小結 PAGEREF _Toc371872089 h 56 HYPERLINK l _Toc371

29、872090 7 結論 PAGEREF _Toc371872090 h 57 HYPERLINK l _Toc371872091 7.1 總結 PAGEREF _Toc371872091 h 57 HYPERLINK l _Toc371872092 7.2 進一步的工作 PAGEREF _Toc371872092 h 57 HYPERLINK l _Toc371872093 參考文獻 PAGEREF _Toc371872093 h 59 HYPERLINK l _Toc371872094 附錄 人工提取的語言模式 PAGEREF _Toc371872094 h 63 HYPERLINK l _

30、Toc371872095 作者簡歷及在學研究成果 PAGEREF _Toc371872095 h 69 HYPERLINK l _Toc371872096 獨創性說明 PAGEREF _Toc371872096 h 71 HYPERLINK l _Toc371872097 關于論文使用授權的說明 PAGEREF _Toc371872097 h 72 HYPERLINK l _Toc371872098 學位論文數據集 PAGEREF _Toc371872098 h 73插圖(cht)清單(qngdn) TOC h z c 圖2. HYPERLINK l _Toc372218579 圖2. 1 A

31、utoSlog采用(ciyng)的語言表達模式及IE模式 PAGEREF _Toc372218579 h 4 HYPERLINK l _Toc372218580 圖2. 2一個標注后的語句及AutoSolg從中學出的一個概念節點 PAGEREF _Toc372218580 h 5 HYPERLINK l _Toc372218581 圖2. 3 PALKA的一個FP-structure的例子 PAGEREF _Toc372218581 h 6 HYPERLINK l _Toc372218582 圖2. 4 AutoSlog-TS學習IE模式的流程 PAGEREF _Toc372218582 h

32、7 HYPERLINK l _Toc372218583 圖2. 5 ExDisco中用到的”管理職位繼任”IE領域的兩個種子IE模式 PAGEREF _Toc372218583 h 8 HYPERLINK l _Toc372218584 圖2. 6 Exdisco的IE模式學習流程 PAGEREF _Toc372218584 h 9 HYPERLINK l _Toc372218585 圖2. 7TIMES中的模式例子 PAGEREF _Toc372218585 h 10 HYPERLINK l _Toc372218586 圖2. 8 TIMES的IE模式學習流程 PAGEREF _Toc372

33、218586 h 10 HYPERLINK l _Toc372218587 圖2. 9一個語句經過相應的NLP步驟處理后所得到的內部結構 PAGEREF _Toc372218587 h 11 HYPERLINK l _Toc372218588 圖2. 10 TIMES形成的特例模式 PAGEREF _Toc372218588 h 11 TOC h z c 圖3. HYPERLINK l _Toc372218589 圖3. 1 一份典型的中醫肝病病案 PAGEREF _Toc372218589 h 14 TOC h z c 圖4. HYPERLINK l _Toc372294495 圖4. 1信

34、息抽取模式生成流程 PAGEREF _Toc372294495 h 21 HYPERLINK l _Toc372294496 圖4. 2相關文檔集 PAGEREF _Toc372294496 h 21 HYPERLINK l _Toc372294497 圖4. 3相關文檔集經過預處理后的結果 PAGEREF _Toc372294497 h 22 HYPERLINK l _Toc372294498 圖4. 4分詞后的文本劃分為不同的類別 PAGEREF _Toc372294498 h 23 HYPERLINK l _Toc372294499 圖4. 5相關文檔集的聚類結果 PAGEREF _To

35、c372294499 h 24 HYPERLINK l _Toc372294500 圖4. 6模式合并結果 PAGEREF _Toc372294500 h 26 HYPERLINK l _Toc372294501 圖4. 7泛化后的模式結果 PAGEREF _Toc372294501 h 26 HYPERLINK l _Toc372294502 圖4. 8中醫醫案文本 PAGEREF _Toc372294502 h 27 HYPERLINK l _Toc372294503 圖4. 9測試語料劃分為不同的類別 PAGEREF _Toc372294503 h 27 HYPERLINK l _Toc

36、372294504 圖4. 10實驗得到的信息抽取模式 PAGEREF _Toc372294504 h 28 HYPERLINK l _Toc372294505 圖4. 11信息抽取模式 PAGEREF _Toc372294505 h 28 HYPERLINK l _Toc372294506 圖4. 12不適宜全部合并的實例 PAGEREF _Toc372294506 h 29 TOC h z c 圖5. HYPERLINK l _Toc372294512 圖5. 1中醫信息抽取流程圖 PAGEREF _Toc372294512 h 33 HYPERLINK l _Toc372294513 圖

37、5. 2典型中醫肝病醫案 PAGEREF _Toc372294513 h 35 HYPERLINK l _Toc372294514 圖5. 3典型中醫肝病醫案分詞標注結果 PAGEREF _Toc372294514 h 36 HYPERLINK l _Toc372294515 圖5. 4MapRules的數據結構 PAGEREF _Toc372294515 h 39 HYPERLINK l _Toc372294516 圖5. 5典型中醫(zhngy)肝病醫案信息抽取結果 PAGEREF _Toc372294516 h 44 TOC h z c 圖6. HYPERLINK l _Toc37229

38、4629 圖6. 1基于模式匹配的中醫(zhngy)醫案信息抽取系統結構圖 PAGEREF _Toc372294629 h 47 HYPERLINK l _Toc372294630 圖6. 2信息抽取(chu q)模塊流程圖 PAGEREF _Toc372294630 h 49 HYPERLINK l _Toc372294631 圖6. 3用戶登錄界面設計 PAGEREF _Toc372294631 h 50 HYPERLINK l _Toc372294632 圖6. 4用戶管理界面設計 PAGEREF _Toc372294632 h 51 HYPERLINK l _Toc372294633

39、圖6. 5系統主界面設計 PAGEREF _Toc372294633 h 51 HYPERLINK l _Toc372294634 圖6. 6用戶詞典管理界面 PAGEREF _Toc372294634 h 52 HYPERLINK l _Toc372294635 圖6. 7基于模版匹配的抽取界面 PAGEREF _Toc372294635 h 53附表清單 TOC h z c 表5. HYPERLINK l _Toc372219170 表5. 1模式(msh)庫-系統(xtng)用到的16個模式(msh) PAGEREF _Toc372219170 h 31 HYPERLINK l _Toc

40、372219171 表5. 2模式中數字的含義 PAGEREF _Toc372219171 h 32 HYPERLINK l _Toc372219172 表5. 3模式中字母的含義 PAGEREF _Toc372219172 h 32 HYPERLINK l _Toc372219173 表5. 4中醫醫案的用戶詞典 PAGEREF _Toc372219173 h 34 HYPERLINK l _Toc372219174 表5. 5 VecWordCate數據結構圖 PAGEREF _Toc372219174 h 39 HYPERLINK l _Toc372219175 表5. 6基本信息部分實

41、例 PAGEREF _Toc372219175 h 40 HYPERLINK l _Toc372219176 表5. 7主訴部分存儲實例 PAGEREF _Toc372219176 h 40 HYPERLINK l _Toc372219177 表5. 8治則部分存儲實例 PAGEREF _Toc372219177 h 41 HYPERLINK l _Toc372219178 表5. 9 VecWordCate數據結構圖 PAGEREF _Toc372219178 h 41 TOC h z c 表6. HYPERLINK l _Toc372219185 表6. 1用戶信息表 PAGEREF _T

42、oc372219185 h 49 HYPERLINK l _Toc372219186 表6. 2案例信息表 PAGEREF _Toc372219186 h 50- PAGE 67 -緒論(xln)課題(kt)背景課題的來源,目的(md)和意義該研究課題來源于“十二五”國家科技支撐計劃“名老中醫臨床經驗、學術思想傳承研究(一)”項目。本課題研究目標是從中醫傳承的臨床需求出發,匯聚中醫學、認知科學、信息技術,研發中醫醫案信息抽取系統,即臨床醫案收集、儲存、分析、管理為一體的系統,實現臨床患者病案采集、數據存儲、結構化處理等功能。研發模式庫生成系統,實現自動化地從文本中獲取模式,生成模式庫,用于支持

43、信息抽取的過程。研發信息抽取系統,實現系統自動識別出醫案文本中特定語義信息。隨著近幾年來中醫學研究的深入進行,對中醫醫案的信息分析需求越來越迫切,經歷了中國五千年的文化變遷,中醫歷史積累了海量的中醫醫案,收錄散雜,在內容和文字上不免也存在著訛、漏、誤、衍等錯誤現象15,采用人工手段進行查找與分析已經不能滿足快節奏需求。利用信息抽取的辦法,將形式多樣、內容豐富繁雜的中醫醫案以統一、完整結構化的形式提取出來,有效而搶救性地整理和保留了臨床經驗,將無形的經驗變成有形的可供大家共享的知識,這對我國中醫藥領域的傳承意義重大。課題的研究內容本文研究基于模式的信息抽取技術及應用,課題解決的主要技術難點及技術

44、方案:(1)模式匹配是信息抽取普遍采用的方法,如何生成模式是課題研究的難點和重點。本文根據中文自身的特點,考慮到模式即為在文本中經常出現的句法結構, 同時借鑒英文文本的模式獲取方法, 提出一種基于聚類的模式獲取方法,實現了從中醫醫案中自動獲取模式。首先對文本進行預處理,然后對分詞后的文本聚類,將分詞后的短語劃分為不同的類別, 則每個類別為一個模式集。將同一模式集中的模式實例進行合并, 就可以得到最終的信息抽取模式。(2)研究信息抽取技術在中醫醫案領域的應用,實現機器自動識別中醫醫案里包含的“病”、“證”、“癥候”等相關屬性及病人基本信息形成最小數據冗余的數據。本文嘗試采用基于模式匹配的正則匹配

45、算法。第一步對文本進行分詞、詞性標注處理,第二步在模式庫的支持下,采用模式匹配算法,最終實現了機器對醫案的“人名”、“出診時間”、“癥候”信息的識別,以及實體間關系識別。論文的主要(zhyo)工作本文的主要工作包括(boku)以下幾個方面:1)綜述信息(xnx)抽取及相關技術方法,主要內容包括相關概念的介紹,技術專有名詞的解釋說明,還包括對各種技術的分析。2)重點研究了基于模式的中醫醫案的信息抽取問題。構建動詞庫、模式庫。3)設計并實現了一個基于中醫醫案的信息抽取原型系統。該系統提供了一個方法以供用戶使用,能夠很好的實現對中醫醫案信息的抽取。本文的組織結構本文共分7章,每部分的組織如下:第一章

46、首先介紹了本課題的課題背景,闡述了課題的來源,目的及意義,說明了課題的研究內容。第二章給出了模式自動生成的學習方法以及它們的優缺點。第三章介紹了中醫領域中文文本的特點,提出了信息抽取的任務。第四章介紹了模式自動生成方法的思想和具體步驟,并給出了實驗結果。第五章介紹了基于模式匹配的信息抽取方法第六章完成基于模式匹配的中醫醫案信息抽取系統,實現了其中的命名實體識別(人名、地名、時間等名詞性短語)的工作第七章總結與展望最后是本文的參考文獻,及本文作者對導師和實驗室同學的衷心感謝!信息(xnx)抽取模式學習系統(xtng)綜述(zngsh)信息抽取模式學習系統分類為了進行IE(Information

47、Extraction)模式的學習,人們先后設計過各種IE模式獲取系統,例如AutoSlog、PALKA、CRYSTAL、LIEP、AutoSlog-TS、ExDisco、TIMES等。根據IE模式獲取系統需要用戶輔助工作方式的不同,可以把這些系統分為四個類別:它們為基于人工語料標注的IE模式學習系統,如AutoSlog、PALKA、CRYSTAL、LIEP等;基于人工語料分類的IE模式學習系統,如AutoSlog-TS等;基于種子模式的自舉IE模式學習系統,如ExDisco等;基于WordNet和語料標注的IE模式學習系統,如TIMES等。下面分別介紹這四類系統的工作原理。基于人工語料標注的I

48、E模式學習系統基于人工語料標注的IE模式學習系統的原理基于人工語料標注的IE模式獲取系統的基本原理是:使用一種IE模式表示方式,人工預先標注訓練語料,接著利用機器學習的方法從訓練語料中學出IE模式。例如AutoSlog、PALAK、CRYSTAL、LIEP。本節詳細介紹AutoSlog和PALKA的工作原理。AutoSlog是世界上第一個成功實現利用機器學習的方法獲取信息抽取模式的系統,由Univ.of Massachusetts開發。AutoSlog的核心就是一個模式學習算法。對于一個特定的IE任務,系統的輸入是人工標注的訓練語料,一套語言模式集(領域無關)和一個相關領域的語義詞典。系統的輸

49、出是對應案例語句的IE模式。另外,整個統的實現需要CIRCUS句法分析器的輔助支持,CIRCUS句法分析器的功能是自動識別句子中的主語、謂語和賓語等。最后需要人工對學出的模式進行審定和篩選。語言模式集(領域無關)由人工設計而成。對于不同領域的信息抽取任務,語言模式集并不需要做較大改動。圖2.1列出了針對恐怖活動事件用到的語言模式,以及與它們對應的一條IE模式。 Linguistic Pattern Example passive-verb was murdered active-verb bombed verb infinitive attempted to kill auxiliary no

50、un attempted to killactive-verb bombed infinitive to kill verb infinitive threatened to attack gerund killing noun auxiliary fatality was noun prep bomb against active-verb prep ki11ed with passive-verb prep was aimed at 圖2. SEQ 圖2. * ARABIC 1 AutoSlog采用(ciyng)的語言表達模式(msh)及IE模式(msh)這里的語言模式集和IE模式的不同之

51、處在于:語言模式是領域無關的,是由人工預先給定的。而IE模式是由該系統自動生成的,是給出的語言模式實例化的結果。IE模式用于對一個事件進行信息抽取。語言模式“ active-verb”的含義是:一個充當主語的語法成分后面緊跟著一個主動形式的動詞短語。該種形式的句法結構在英語文本中經常出現,因而將此句型抽象出來作為一條語言模式。對應于該語言模式的一個IE模式“was murdered”的含義是:句子經過CIRCUS句法分析器處理后,“was murdered”充當動詞短語,動詞短語的左側是主語語法成份,則此主語作為bombing事件的victim角色。若一個含有動詞短語“was murdered

52、”的語句經過句法分析后,在該動詞短語的左側有一個充當主語的語法成分,則該語法成分充當bombing事件的victim角色。上圖中列出的其它語言模式和與每條語言模式相對應的IE模式案例可按類似的方法解釋。可以使用此方法一次對上述語言模式和IE模式解釋。AutoSlog13和PALKA13等是最早向知識獲取自動化邁進的系統之一。隨后實現的CRYSTAL和LIEP,也旨在實現知識獲取的自動化。但這些系統仍較多的依賴于手工的參與,可認為這些系統僅是一種半自動化的知識獲取系統。如AutoSlog需要用手工標注訓練數據,并設置啟發式搜索規則以獲取錨點(可認為是觸發詞);CRYSTAL除了要有手工標注數據,

53、還要有語義層次和相關的詞典;PALKA需要手工定義的框架(含觸發詞)、語義層次和相關的詞典;LIEP則使用預先定義的關鍵詞和對象識別器,依賴與用戶的交互,給相關的語句分配事件類型。這些系統的特點是依賴手工標記過的數據或通過與用戶的交互過程,利用加工過的語料,學習語言的模式規則,是一種典型的機器輔助式知識獲取。盡管如此,通過知識的半自動獲取,系統仍然可以(ky)很大程度上減少手工的參與。如AutoSlog,其輸入可描述為“標注實例+啟發(qf)規則”,雖然該系統仍在一定程度上依賴于領域專業和語言學知識,但已大大減少了手工的參與,原先需1500人小時構建的概念節點,AutoSlog只要5人小時進行

54、(jnxng)監督即可完成。CRYSTAL則向自動化更靠近了一步,它的輸入可描述為“標注實例+語義層次詞典”,無須人工監督過程即可完成學習過程。Sentence: In La Oroya,Junin department,in the central Peruvian mountain range , public buildings (bombing,TARGET) were bombed and a car was detonated.CONCEPT NODEName: target-subject-passive-verb-bombedTrigger: bombedVariable Sl

55、ots: (target(SUBJECT*l)Constraints: (class PHYS一TARGET *SUBJECT*)Constant Slots: (type bombing)Enabling Conditions: ( passive) 圖2. SEQ 圖2. * ARABIC 2一個標注后的語句及AutoSolg從中學出的一個概念節點FP-structure = Meaning Frame+Phrasal PatternMeaning Frame:(BOMBINGis-a:(TERRORIST-ACTION)keywords:(explode,hurl, throw, exp

56、losion, bomb,explosive, dynamite, grenade.)agent:(ANIMATE) ;optionalpatient:(PHYSICAL-OBJECT) ;optionaltarget:(PHYSICAL-OBJECT) ;optionalinstrument:(PHYSICAL-OBJECT) ;optionaleffect:(STATE) ;optionalPhrasal Pattern:(BOMB) BE HUTL AT (PHYSICAL-OBJ)FP-structure:(BOMBINGtarget:PHYSICAL OBi nstrument:BO

57、MBpattern:(i nstrument)BE HURL AT(target)圖2. SEQ 圖2. * ARABIC 3 PALKA的一個(y )FP-structure的例子基于人工(rngng)語料分類的IE模式學習(xux)系統該類系統的典型代表是AutoSlog-TS,它是有Riloff于 1996年發明的。AutoSlog-TS是AutoSlog的 后繼產品,相比AutoSlog,AutoSlog-TS對用戶的工作量與技能要求大大降低。該類系統的工作原理是:由人工將語料分為領域相關和領域不相關兩類,系統根據這種分類方式學習出IE模式。圖2.4顯示了AutoSlog-TS學習出I

58、E模式的過程。AutoSlog-TS系統的輸入是用戶給出的領域相關和不相關文檔集及AutoSlog中用到的語言模式。AutoSlog-TS系統的輸出是學習出的語言模式。整個過程可以分為兩個階段。第一階段,用戶提供出領域相關的和領域非相關的語料,使用CIRCUS句法分析器對語料進行句法分析,然后根據(gnj)AutoSlog中用到的語言模式學習出相應的Concept Node。例如(lr)句子“World trade center was bombed by terrorists”,經過(jnggu)CIRCUS句法分析器處理的結果為:“World trade center”充當句子的主語,“w

59、as bombed”充是句子的動詞短語,“by terrorists”是介詞短語。根據AutoSlog中用到的語言模式“passive-verb”和“passive-verb prep (np)”,生成兩個Concept Node“ was bombed”和“bombed by ”。第二階段,對于第一階段學習出來的多個Concept Node,利用CIRCUS句法分析器對這些Concept Node進行領域相關性打分。如果Concept Node的領域相關性較低,則去除這個Concept Node。例如圖2.4列出了計算出的領域相關性值,由于Concept Nodesaw 的領域相關性為49%

60、,小于50%,表示相關性較差,因此去除這個Concept Node。RRSentenceAnalyzerS:world trade centerV:was bombedPP:by terroristssAutoSlogHeuristicsConcept Nodeswas bombedbombed by RRConcept Node Dictionary:was killedwas bombedbombed by sawSentenceAnalyzerConcept Nodes REL%was bombed 87%bombed by 84%was killed 63%saw 49%圖2. SEQ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論