中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)中的語(yǔ)義關(guān)系挖掘,信息管理論文_第1頁(yè)
中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)中的語(yǔ)義關(guān)系挖掘,信息管理論文_第2頁(yè)
中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)中的語(yǔ)義關(guān)系挖掘,信息管理論文_第3頁(yè)
中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)中的語(yǔ)義關(guān)系挖掘,信息管理論文_第4頁(yè)
中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)中的語(yǔ)義關(guān)系挖掘,信息管理論文_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)中的語(yǔ)義關(guān)系挖掘,信息管理論文當(dāng)前,中醫(yī)藥領(lǐng)域?qū)嵱玫闹R(shí)庫(kù)系統(tǒng)顯現(xiàn)出大型化的趨勢(shì),往往包含百萬(wàn)條語(yǔ)義關(guān)系。例如,中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)〔TraditionalChineseMedicineLanguageSystem,TCMLS〕已收錄概念12萬(wàn)余條,術(shù)語(yǔ)30萬(wàn)余條,語(yǔ)義關(guān)系127萬(wàn)多條。由人工編輯如此大量的語(yǔ)義關(guān)系,是一個(gè)耗時(shí)費(fèi)力的大工程。若能實(shí)現(xiàn)從文獻(xiàn)中自動(dòng)抽取語(yǔ)義關(guān)系,則可大幅提升知識(shí)獲取效率。因而,語(yǔ)義關(guān)系發(fā)現(xiàn)方式方法對(duì)領(lǐng)域知識(shí)庫(kù)的構(gòu)建具有很大意義。本文介紹了一項(xiàng)基于TCMLS從文本中發(fā)現(xiàn)語(yǔ)義關(guān)系的初步嘗試。該研究試圖將文本中蘊(yùn)含的語(yǔ)義關(guān)系挖掘出來(lái),與TCMLS現(xiàn)有的語(yǔ)義關(guān)系結(jié)合,得到更為全面、準(zhǔn)確的語(yǔ)義關(guān)系,并明確系統(tǒng)中語(yǔ)義關(guān)系的文獻(xiàn)來(lái)源,進(jìn)而擴(kuò)大TCMLS的數(shù)據(jù)規(guī)模,提升TCMLS中語(yǔ)義關(guān)系的準(zhǔn)確性和可靠性。1研究背景和相關(guān)工作中醫(yī)藥學(xué)是經(jīng)過(guò)幾千年的發(fā)展而構(gòu)成的,文獻(xiàn)記載是其重要的知識(shí)流傳的方式之一。近年來(lái),中醫(yī)團(tuán)體開(kāi)展了大量的知識(shí)工程工作,采用各種文獻(xiàn)中的知識(shí)來(lái)構(gòu)建中醫(yī)藥領(lǐng)域知識(shí)庫(kù),提供知識(shí)檢索服務(wù)。以TCMLS為例,因缺乏實(shí)用的中醫(yī)藥文本挖掘方式方法,在語(yǔ)義關(guān)系抽取方面,主要依靠于加工人員的個(gè)人知識(shí)和手工操作。這種方式方法與加工人員個(gè)人的知識(shí)、素養(yǎng)和責(zé)任心有很大關(guān)系,造成數(shù)據(jù)準(zhǔn)確性良莠不齊,難以對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效管理。隨著系統(tǒng)規(guī)模的不斷擴(kuò)大,人工編輯的復(fù)雜性也不斷增大,制約著TCMLS的進(jìn)一步發(fā)展。鑒于此,擬對(duì)中醫(yī)藥文獻(xiàn)內(nèi)容進(jìn)行語(yǔ)義關(guān)系提取,得到詳細(xì)概念之間的語(yǔ)義關(guān)系,與TCMLS的語(yǔ)義關(guān)系進(jìn)行比擬,并對(duì)TCMLS進(jìn)行進(jìn)一步擴(kuò)大。從自由文本中挖掘語(yǔ)義關(guān)系是一個(gè)非常困難的問(wèn)題,由于同一種關(guān)系在文本中會(huì)有多種表示出方式。常見(jiàn)的語(yǔ)義關(guān)系發(fā)現(xiàn)方式方法,主要包括如下2大類(lèi)。1.1基于語(yǔ)法分析的語(yǔ)義關(guān)系發(fā)現(xiàn)此類(lèi)方式方法的主要思路是:基于自然語(yǔ)言處理〔NLP〕技術(shù),通過(guò)對(duì)文本進(jìn)行語(yǔ)法分析,構(gòu)建出語(yǔ)法樹(shù),再通過(guò)語(yǔ)法和詞性的分析得到華而不實(shí)的語(yǔ)義關(guān)系。這類(lèi)方式方法的優(yōu)點(diǎn)是對(duì)語(yǔ)義關(guān)系定位比擬準(zhǔn)確,并能夠通過(guò)語(yǔ)法特征得到文本中的隱含信息。但其缺點(diǎn)在于:此類(lèi)方式方法的效果嚴(yán)重依靠于語(yǔ)法分析的結(jié)果,對(duì)于一些特殊的領(lǐng)域,現(xiàn)有的語(yǔ)法分析方式方法往往無(wú)法獲得令人滿意的結(jié)果。因而,基于語(yǔ)法分析的語(yǔ)義關(guān)系抽取算法其應(yīng)用范圍遭到了很大的限制,十分是在一些有著獨(dú)特語(yǔ)法規(guī)則的領(lǐng)域中更是如此,本文中提到的中醫(yī)藥領(lǐng)域就是一個(gè)例子。1.2基于形式匹配的語(yǔ)義關(guān)系發(fā)現(xiàn)這種方式方法是用某種形式對(duì)文本進(jìn)行匹配,根據(jù)匹配的情況得到相應(yīng)的語(yǔ)義關(guān)系。根據(jù)匹配形式的不同來(lái)源,能夠分為兩類(lèi):基于領(lǐng)域知識(shí)的形式匹配和基于學(xué)習(xí)的形式匹配?;陬I(lǐng)域知識(shí)的形式是由領(lǐng)域?qū)<覍⑵漕I(lǐng)域知識(shí)總結(jié)、升華得到的通用知識(shí)形式,然后再使用這些形式作為模板,從文獻(xiàn)中找到相應(yīng)的關(guān)系?;趯W(xué)習(xí)的形式匹配方式方法,是指使用機(jī)器學(xué)習(xí)方式方法,通過(guò)對(duì)文獻(xiàn)特征的分析得到有用的形式。這類(lèi)方式方法的目的一般限定為僅挖掘某些特定類(lèi)別的實(shí)體的幾種特定關(guān)系,無(wú)法勝任中醫(yī)藥領(lǐng)域中語(yǔ)義關(guān)系種類(lèi)很多的情況。綜上所述,這兩類(lèi)方式方法都不合適中醫(yī)藥領(lǐng)域的需求。本研究提出基于TCMLS的文本語(yǔ)義關(guān)系發(fā)現(xiàn)方式方法,該方式方法以TCMLS中的詞匯為基礎(chǔ),發(fā)現(xiàn)語(yǔ)義關(guān)系中的主體和客體;以TCMLS中已有的語(yǔ)義關(guān)系為根據(jù),揣測(cè)從文本中挖出的語(yǔ)義關(guān)系的類(lèi)型。本研究的基本策略,是基于TCMLS從文本中發(fā)現(xiàn)更多的關(guān)系,經(jīng)用戶(hù)驗(yàn)證后參加TCMLS之中,進(jìn)而豐富TCMLS的語(yǔ)義關(guān)系;再用豐富后的TCMLS進(jìn)行新一輪的文本挖掘,進(jìn)一步豐富TCMLS;以此類(lèi)推,進(jìn)而構(gòu)成一套基于文本語(yǔ)義關(guān)系發(fā)現(xiàn)來(lái)驅(qū)動(dòng)TCMLS加工的技術(shù)方案。下面詳細(xì)介紹基于TCMLS的語(yǔ)義關(guān)系發(fā)現(xiàn)方式方法。2文本語(yǔ)義關(guān)系發(fā)現(xiàn)方式方法如此圖1所示,文本語(yǔ)義關(guān)系發(fā)現(xiàn),是指從人參有補(bǔ)五臟、安精神、定魂魄、止驚悸、除邪氣、明目開(kāi)心益智的成效的文本中,發(fā)現(xiàn)人參補(bǔ)五臟、人參安精神、人參止驚悸、人參除邪氣這樣的關(guān)系。該方式方法會(huì)統(tǒng)計(jì)每條關(guān)系出現(xiàn)的頻數(shù):假如在文檔D1,D2Dn中都出現(xiàn)了某條關(guān)系R,則R出現(xiàn)的頻數(shù)即為n。該方式方法的基本策略是:以TCMLS作為領(lǐng)域詞庫(kù),從文獻(xiàn)庫(kù)中找出在同一文檔中出現(xiàn)的兩個(gè)領(lǐng)域術(shù)語(yǔ)〔如人參、邪氣、人參、五臟等〕,構(gòu)成候選的文本語(yǔ)義關(guān)系,并統(tǒng)計(jì)每條關(guān)系的頻數(shù),以供語(yǔ)言學(xué)家進(jìn)行檢閱和處理。由機(jī)器判定語(yǔ)義關(guān)系的謂詞〔如人參與邪氣之間的謂詞為除〕還是一個(gè)技術(shù)難題。本方式方法會(huì)在這兩個(gè)詞附近找出一些候選性謂詞〔如補(bǔ)、除等〕推薦給用戶(hù);并提供TCMLS中的相關(guān)用法,供用戶(hù)參考〔例如,針對(duì)人參和腎陽(yáng)虛證,系統(tǒng)會(huì)根據(jù)TCMLS中的用法向用戶(hù)推薦治療這一謂詞〕。為實(shí)現(xiàn)該策略,首先需要將中醫(yī)藥文本分解成一系列獨(dú)立的語(yǔ)義單元。中醫(yī)藥文獻(xiàn)資源包括書(shū)籍、期刊、會(huì)議論文集、病歷、報(bào)告等,語(yǔ)義單元?jiǎng)澐忠槍?duì)不同類(lèi)型的文獻(xiàn)進(jìn)行詳細(xì)分析。本研究主要考慮書(shū)籍、期刊和會(huì)議論文集。這些文獻(xiàn)都可被分為一系列文章〔在書(shū)籍中對(duì)應(yīng)一章或一節(jié),在期刊和會(huì)議論文集中對(duì)應(yīng)一篇論文〕,可對(duì)文章進(jìn)一步細(xì)分,將文章分為小節(jié),將小節(jié)分為段落,將段落分為句子。理論上,在一篇文章中出現(xiàn)的任意兩個(gè)詞匯之間都可能存在或強(qiáng)或弱、或直接或間接的語(yǔ)義關(guān)系。因而可以將文章作為語(yǔ)義單元進(jìn)行語(yǔ)義關(guān)系發(fā)現(xiàn)。但在語(yǔ)義關(guān)系辨別階段,本文關(guān)鍵詞語(yǔ)組過(guò)長(zhǎng)會(huì)極大增加算法復(fù)雜性。為保證算法效率,本文關(guān)鍵詞語(yǔ)組內(nèi)詞匯數(shù)量不宜太多,因而本研究未將整篇文章作為語(yǔ)義單元進(jìn)行挖掘。與全文相比,句子是一個(gè)相對(duì)較小、且有完好語(yǔ)義的單元。句子通常描繪敘述一個(gè)完好的意思,且華而不實(shí)的詞匯之間通常有某種聯(lián)絡(luò),因而句子為中文分詞及后續(xù)處理提供了天然的單元。但語(yǔ)義關(guān)系的主體和客體也有可能分散在不同的句子中,僅以句子作為語(yǔ)義單元會(huì)遺失掉很多的關(guān)系。鑒于此,本項(xiàng)目分別以句子和小節(jié)作為基本的語(yǔ)義單元,進(jìn)行語(yǔ)義關(guān)系發(fā)現(xiàn),下面介紹其核心思想和設(shè)計(jì)原則。文獻(xiàn),系統(tǒng)都給出了題名和內(nèi)容摘要。用戶(hù)單擊選擇某篇文獻(xiàn)的題名時(shí),系統(tǒng)會(huì)跳轉(zhuǎn)到該文獻(xiàn)的題錄信息頁(yè)面。用戶(hù)能夠點(diǎn)擊百度搜索,查看該語(yǔ)義關(guān)系相關(guān)的百度搜索結(jié)果,可以以點(diǎn)擊相關(guān)陳述,查看該語(yǔ)義關(guān)系在TCMLS中的相關(guān)陳述,以供語(yǔ)言學(xué)家參考。用戶(hù)還可通過(guò)系統(tǒng)提供的表單,將這條語(yǔ)義關(guān)系參加語(yǔ)言系統(tǒng)中。系統(tǒng)會(huì)根據(jù)TCMLS中的相關(guān)用法,列出一些相關(guān)屬性以供用戶(hù)選擇。用戶(hù)可以以輸入新的屬性,例如,為添加人參除邪氣這條關(guān)系,用戶(hù)可輸入除這一新屬性。用戶(hù)可以以添加一些注釋信息。另外,當(dāng)關(guān)系被錄入TCMLS后,系統(tǒng)會(huì)記錄這條關(guān)系的文獻(xiàn)來(lái)源。4小結(jié)數(shù)字化文獻(xiàn)是中醫(yī)藥知識(shí)密集型數(shù)據(jù)的基礎(chǔ)。中醫(yī)藥語(yǔ)義網(wǎng)若與文獻(xiàn)資源相脫節(jié),則必成為無(wú)源之水、無(wú)本之木。從文獻(xiàn)中提取語(yǔ)義關(guān)系的方式方法,能有效豐富中醫(yī)藥語(yǔ)義網(wǎng)的內(nèi)容,建立中醫(yī)藥語(yǔ)義網(wǎng)和文獻(xiàn)資源的有機(jī)聯(lián)絡(luò),改良中醫(yī)藥文獻(xiàn)檢索的效果。本研究開(kāi)展了中醫(yī)藥文獻(xiàn)語(yǔ)義關(guān)系發(fā)現(xiàn)方式方法的初步探尋求索:基于TCMLS,搜集中醫(yī)藥文獻(xiàn),對(duì)文獻(xiàn)進(jìn)行分詞處理,從中找出在一起頻繁出現(xiàn)的詞對(duì),判定語(yǔ)義關(guān)系的性質(zhì),交由領(lǐng)域?qū)<疫M(jìn)行檢驗(yàn)。本研究所開(kāi)發(fā)的文本語(yǔ)義關(guān)系發(fā)現(xiàn)和檢閱系統(tǒng),向術(shù)語(yǔ)專(zhuān)家提供從文本中發(fā)現(xiàn)新穎語(yǔ)義關(guān)系的技術(shù)能力。這項(xiàng)工作尚存在一些局限性。例如,我們尚缺乏判定文本語(yǔ)義關(guān)系準(zhǔn)確類(lèi)型的有效手段,也尚未實(shí)現(xiàn)發(fā)現(xiàn)新詞的方式方法。另外,有些中醫(yī)藥領(lǐng)域的詞匯尚未收入TCMLS之中,這影響了語(yǔ)義關(guān)系發(fā)現(xiàn)的效果。在進(jìn)一步研究中,擬對(duì)從文本中獲得的語(yǔ)義關(guān)系與TCMLS現(xiàn)有的語(yǔ)義關(guān)系進(jìn)行比擬,補(bǔ)充完善TCMLS現(xiàn)有的語(yǔ)義關(guān)系網(wǎng)絡(luò)。擬對(duì)從文本中獲得的語(yǔ)義關(guān)系按概念的語(yǔ)義類(lèi)型進(jìn)行歸納,得到語(yǔ)義類(lèi)型間的語(yǔ)義

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論