基于知識的自動分詞專家系統(tǒng)的實(shí)現(xiàn)_第1頁
基于知識的自動分詞專家系統(tǒng)的實(shí)現(xiàn)_第2頁
基于知識的自動分詞專家系統(tǒng)的實(shí)現(xiàn)_第3頁
基于知識的自動分詞專家系統(tǒng)的實(shí)現(xiàn)_第4頁
基于知識的自動分詞專家系統(tǒng)的實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于知識的自動分詞專家系統(tǒng)的實(shí)現(xiàn)

分離分詞過程和實(shí)現(xiàn)知識強(qiáng)化該系統(tǒng)從自動語言專家系統(tǒng)的設(shè)計(jì)理念出發(fā),從結(jié)構(gòu)和功能上分離語言劃分過程,并試圖實(shí)現(xiàn)與語言劃分相關(guān)的漢語詞匯、語法知識和意義知識。由于系統(tǒng)的這兩方面的內(nèi)容相互獨(dú)立、互不影響,使系統(tǒng)結(jié)構(gòu)清晰,知識庫便于維護(hù)和管理。一、系統(tǒng)結(jié)構(gòu)1.結(jié)構(gòu)框架圖整個自動分詞專家系統(tǒng)的結(jié)構(gòu)如圖1所示。2.基于互聯(lián)網(wǎng)的分詞存儲(1)句子分解模塊:該模塊以標(biāo)點(diǎn)符號、空格或任意半角字符為分隔符,從輸入語料中分解出一個個預(yù)切分的字符串,送入分詞推理機(jī)模塊。(2)知識庫內(nèi)存映象模塊:由于系統(tǒng)有較大的內(nèi)存空間,為了充分利用機(jī)器資源,提高分詞速度,在分詞之前,把知識庫調(diào)入內(nèi)存。(3)知識庫維護(hù)模塊:該模塊使用戶可以經(jīng)過交互的方式,隨時對知識庫實(shí)行增、刪、改操作。(4)句子合成文章模塊:該模塊的功能是使分詞輸出的文本形式與輸入的文本形式相一致。一個詞的首字位于原文中的第幾段第幾行,則在輸出文本中也位于第幾段第幾行。為將來建立語料的詞索引提供了方便。(5)結(jié)果檢測模塊:該模塊對已分詞的句子進(jìn)行檢測。把可能存在的新的歧義現(xiàn)象反饋給用戶,為用戶提取新的切分知識提供素材。(6)詞頻統(tǒng)計(jì)模塊該模塊給出輸入語料中的詞頻、字頻的統(tǒng)計(jì)結(jié)果。(7)推理解釋模塊向用戶解釋系統(tǒng)是如何消除歧義切分的。二、文檔的組織和實(shí)現(xiàn)1.分詞知識的分類從不同的角度觀察知識,可以對分詞知識實(shí)行不同的分類。首先,從語言學(xué)的角度觀察,與分詞有關(guān)的知識可以分為詞法知識、句法知識、語義知識和語用知識。其次,從自動分詞的需要出發(fā),與分詞有關(guān)的知識又可劃分為常識性知識和啟發(fā)性知識兩大類。這里的常識性知識是指非歧義切分所需要的一般詞法知識;這里的啟發(fā)性知識則是指消除歧義切分所需要的、從實(shí)際經(jīng)驗(yàn)中總結(jié)出來的詞法、句法知識,甚至包括部分語義知識。2.以衍生詞為原料的漢字解釋由于本系統(tǒng)的自動分詞過程即是知識推理過程,因此為了便于推理機(jī)調(diào)用,本系統(tǒng)中的知識庫按常識性知識與啟發(fā)性知識分別進(jìn)行組織。對于常識性分詞知識采用的知識表示方式是“語義網(wǎng)絡(luò)”;對于啟發(fā)性分詞知識采用的表示方式則是“產(chǎn)生式規(guī)則”。關(guān)于自動分詞專家系統(tǒng)中的分詞知識模型及分詞知識表示問題,另有專文論述,這里只著重介紹有關(guān)知識庫的組織及具體實(shí)現(xiàn)方面的問題。(1)常識性知識庫本系統(tǒng)中的常識性、知識庫主要包括以下三方面的知識:

現(xiàn)代漢語詞匯體系中的詞類知識(根據(jù)分詞的需要,目前標(biāo)注出的詞類有24種);

為可能產(chǎn)生歧義切分的歧義詞所加的歧義標(biāo)志及歧義類型編號;

為消除語義歧義切分字段所需的部分語義知識。其中有關(guān)詞類知識的部分也稱“詞法知識庫”。按照“有窮多層列舉”分詞理論,我們將詞法知識庫劃分為四級:第一級由“有窮類三字詞”組成,它包括了文獻(xiàn)中附表1到附表15的所有三字詞;第二級由“有窮類二字詞”組成,它包括了文獻(xiàn)中附表1到附表15的所有二字詞;第三級由“有窮類單字詞”組成,它包括了文獻(xiàn)中附表1到附表15的所有單字詞;第四級則由“開放類單字詞”組成,開放類單字詞是指除第三級中的有窮類單字詞以外的所有單字詞。雖然有窮類三字詞、二字詞和單字詞三者加起來只有600多個,但由于有窮類單字詞中包含近4000條衍生詞(所謂衍生詞是指可以由該單字詞組成雙字、三字、或三字以上的多字詞),另外開放類單字詞本身就有2000多條,再加上它們的衍生詞就更多。這樣,雖然四級詞法知識庫中的基本詞條數(shù)只有2600多條,但是通過與其鏈接的衍生詞卻可以覆蓋整個現(xiàn)代漢語的詞匯體系。實(shí)踐證明,用這種方式組織詞法知識庫具有結(jié)構(gòu)清晰、便于推理機(jī)調(diào)用、便于發(fā)現(xiàn)歧義字段甚至可能發(fā)現(xiàn)部分新詞等優(yōu)點(diǎn)。和詞法知識庫的四級劃分相對應(yīng),常識性分詞知識庫也相應(yīng)分為四級。每級中的基本元素是語義網(wǎng)絡(luò)中的一個葉節(jié)點(diǎn),每個葉節(jié)點(diǎn)均描述與分詞有關(guān)的一條知識即:

某個詞條的詞類知識,若該詞條可能有歧義切分則還包括以下兩種知識:

歧義切分標(biāo)志和歧義類型編號(此編號即是啟發(fā)性分詞知識庫中各種歧義切分規(guī)則的編號);※為消除“語義歧義切分字段”所需的部分語義知識。這些葉節(jié)點(diǎn)又分兩類:一類與基本詞條相對應(yīng)稱為“關(guān)鍵字索引節(jié)點(diǎn)”,用“KWD-IDX”表示;另一類與例外詞詞條相對應(yīng)稱為“鏈接項(xiàng)節(jié)點(diǎn)”,用“ITEM”表示。(2)啟發(fā)性知識庫如上所述,啟發(fā)性分詞知識用產(chǎn)生式規(guī)則表示,這類規(guī)則專用于解決各類歧義字段的切分問題。關(guān)于某一詞條(相當(dāng)于常識性分詞知識語義網(wǎng)絡(luò)中的一個節(jié)點(diǎn))的歧義切分規(guī)則,由于受到推理過程所產(chǎn)生的中間假設(shè)詞語樹中位置的約束而分為三類不同的形式,啟發(fā)性分詞知識即按照這三種不同形式將詞法歧義切分規(guī)則、句法歧義切分規(guī)則以及語義歧義切分規(guī)則組織成統(tǒng)一的歧義切分規(guī)則庫。下面是關(guān)于這三類不同形式規(guī)則的說明。第一類:消除某一節(jié)點(diǎn)的歧義知識與未分詞的直接前趨(后繼)節(jié)點(diǎn)有關(guān)。(以下所說的前趨或后繼是對先序遍歷而言)。以例句“他在世界各地比賽”的詞語樹為例:“在世”的歧義性與其直接后繼“界各地比賽”有關(guān)。消除“在世”的歧義切分規(guī)則如下:例1:“ifsk-cross-wd[f,**,*]thentail-unio”第二類:消除某一節(jié)點(diǎn)的歧義知識與其已分詞的(直接)前趨節(jié)點(diǎn)有關(guān)。如:例2:“if(sk-bf-tree[s,**];sk-bf-tree[p,**])thenhead2-cut”即若“個人”的直接前趨節(jié)點(diǎn)的詞性為“數(shù)詞”或“代詞”,則“個人”切開。第三類:消除某一節(jié)點(diǎn)的歧義知識與其已分詞(直接)后繼節(jié)點(diǎn)有關(guān)。消除“要點(diǎn)”的歧義切分規(guī)則為:例3:“ifsk-fd-tree[T,**]thenhead3-cut”即若“要點(diǎn)”的直接后繼節(jié)點(diǎn)的詞性為“具體名詞”則“要點(diǎn)”應(yīng)切開。對于這三類規(guī)則推理機(jī)是在不同的推理層次上消除歧義的。3.知識庫的數(shù)據(jù)結(jié)構(gòu)啟發(fā)性分詞知識由于是用產(chǎn)生式規(guī)則表示,所以相應(yīng)的數(shù)據(jù)結(jié)構(gòu)具有線性表形式,如:“if(sk-bf-tree[S,**]|sk-bf-tree[p,**])常識性分詞知識由于是用語義網(wǎng)絡(luò)表示(在這種網(wǎng)絡(luò)中不同類型的知識可以相互作用),因此要用比較復(fù)雜的數(shù)據(jù)結(jié)構(gòu)—“叢結(jié)構(gòu)”來描述。“叢”的概念與“網(wǎng)絡(luò)”相似(但術(shù)語“網(wǎng)絡(luò)”一般用于數(shù)據(jù)通信系統(tǒng)或計(jì)算機(jī)系統(tǒng),而“叢”這一術(shù)語則專用于數(shù)據(jù)結(jié)構(gòu)),本系統(tǒng)中關(guān)于常識性分詞知識庫的數(shù)據(jù)結(jié)構(gòu)屬于“關(guān)聯(lián)叢”或稱之為關(guān)聯(lián)網(wǎng)。常識性分詞知識作為重要的編織材料,形成這張網(wǎng)的主要節(jié)點(diǎn)以及節(jié)點(diǎn)之間的橫、縱向聯(lián)系。當(dāng)常識性分詞知識不與啟發(fā)性分詞知識(即歧義切分規(guī)則)發(fā)生關(guān)聯(lián)時,相應(yīng)的數(shù)據(jù)結(jié)構(gòu)就由網(wǎng)退化為較簡單的“樹”。這時各節(jié)點(diǎn)是以橫、縱兩個方向進(jìn)行鏈接,縱向指針指向下一個KWD-IDX節(jié)點(diǎn),橫向指針則指向ITEM節(jié)點(diǎn)。當(dāng)兩個ITEM節(jié)點(diǎn)的歧義特性皆不為零,且數(shù)值相等時,它們都關(guān)聯(lián)到同一條啟發(fā)性分詞知識即歧義類型編號(也就是歧義切分規(guī)則編號)。正是由于啟發(fā)性知識使網(wǎng)上的任意兩個ITEM節(jié)點(diǎn)之間可以發(fā)生聯(lián)系,從而使常識性分詞知識庫成為真正的關(guān)聯(lián)網(wǎng)。二、推理機(jī)制與自動語篇分離過程1.指向詞語二叉樹某一節(jié)點(diǎn)的針本概念本系統(tǒng)采用數(shù)據(jù)驅(qū)動的搜索策略。在由事實(shí)出發(fā)推理得出目標(biāo)的過程中,設(shè)置了一個黑板,記錄專家系統(tǒng)所產(chǎn)生的中間假設(shè)和決策。中間決策表達(dá)式的數(shù)據(jù)結(jié)構(gòu)不同于知識的數(shù)據(jù)結(jié)構(gòu),它是一棵二叉樹。詳見下式。DEP-UNIT假定A是指向詞語二叉樹某一節(jié)點(diǎn)的指針,則:A-->c-str:一個漢字字符串。A-->abg:該字符串的歧義特性。若該字符串不是詞,或者是詞但無歧義,則其值為零。當(dāng)A-->abg<>0時,表示消除該詞條歧義特性的規(guī)則號。A-->flag:A->flag=0,表示該字符串不是詞,A-->flag<>0,表示該字符串是詞,且該詞是在第A-->flag級詞法知識庫中檢索到的。A-->father:指向詞語樹中A的父親節(jié)點(diǎn)的指針。A-->lciled:指向A的左孩子節(jié)點(diǎn)的指針。A-->rchild:指向A的右孩子節(jié)點(diǎn)的指針。A-->att:A-->att=0無意義,A-->att<>0,表示A的詞性。2.詞匯樹算法及過程目前以語義網(wǎng)絡(luò)作為知識表示方式的知識推理系統(tǒng),其推理機(jī)制絕大多數(shù)都是以網(wǎng)絡(luò)結(jié)構(gòu)的匹配為基礎(chǔ),即在每一步的推理過程中均按已知事實(shí)先構(gòu)造一個網(wǎng)絡(luò)片斷(或一個節(jié)點(diǎn))去查找知識庫,看是否匹配。如果不匹配則需修改搜索途徑;如果匹配則得到本次推理結(jié)果,然后以此結(jié)果作為下一步推理的初始數(shù)據(jù),繼續(xù)往下推,直至達(dá)到目標(biāo)。下面我們就按照這種推理機(jī)制并采用數(shù)據(jù)驅(qū)動策略介紹本系統(tǒng)的知識推理過程也就是自動分詞過程。推理機(jī)根據(jù)原始數(shù)據(jù),以知識為動力,逐步形成一系列的中間假設(shè)和決策(即一棵棵詞語二叉樹)。每次推理得到的一棵二叉樹,都作為下一次推理的初始數(shù)據(jù),隨著推理的深入,詞語二叉樹越來越接近目標(biāo),當(dāng)詞語二叉樹的每個節(jié)點(diǎn)都是推理機(jī)可識別的事實(shí)時,推理成功,推理機(jī)自動停止。推理機(jī)在每進(jìn)行一步推理的過程中,既啟動常識性知識庫又啟動啟發(fā)性知識庫。運(yùn)行推理機(jī)的具體步驟是:推理機(jī)把待分詞或已分詞的字符串視為詞語樹中的節(jié)點(diǎn),利用常識性知識庫進(jìn)行順向搜索匹配。若匹配成功,則該詞把原字符串?dāng)酁樽笥覂啥?以該詞作為子樹的根,左邊一段為子樹的左孩子,右邊一段為子樹的右孩子,來代替原字符串在詞語樹中的節(jié)點(diǎn),形成一棵新的詞語樹。一旦子樹的根節(jié)點(diǎn)(假定為A)滿足條件A-->flag<>0且A--abg<>0,則推理機(jī)根據(jù)A-->abg的值啟動相應(yīng)的歧義切分規(guī)則,校正剛剛形成的這棵詞語樹,從而達(dá)到消除歧義的目的。生成詞語樹的算法采用中序遍歷的方法。推理機(jī)通過遞歸調(diào)用,使詞語樹的每個節(jié)點(diǎn)都滿足A-->flag=0且A-->abg=0。至此,推理機(jī)停止運(yùn)行。若按先序遍歷該樹的節(jié)點(diǎn),即得到分詞結(jié)果。(1)搜索常識性知識庫在常識性知識庫中搜索匹配時,首先從預(yù)切分的字符串中截取一定長字符串(查一級知識庫時,定長為3個漢字,查二級知識庫時,定長為2個漢字)。首先從優(yōu)先級最高的第一級常識性知識庫開始匹配,由TAB找到第一級常識性知識庫的第一個詞,若該索引KWB-IDX的KWD域能與該字符串匹配,則匹配成功,形成兩棵新子樹,否則,由索引KWD-IDX的n-kwd域指引找到本級常識性知識庫庫的第二個詞,重復(fù)上述步驟。若在第一級常識性知識庫中未匹配成功,則順向右移一個漢字,從預(yù)切分字符串中重新截取定長字符串,查遍第一級常識性知識庫之后,進(jìn)入第二級常識性知識庫。第二級常識性知識庫采用完全相同的查找策略,不再贅述。第一、二級常識性知識庫查完之后,開始查第三、四級常識性知識庫。第三級常識性知識庫的索引KWD-IDX的kwd域是一個單字詞。首先用kwd進(jìn)行順向匹配。第一,若匹配成功,再利用單字詞的n-item域遍歷由該單字詞所構(gòu)成的所有多字詞詞條。設(shè)匹配成功的詞條構(gòu)成集合A,若A非空,則選擇最長者;若A為空,則選擇該單字詞作為切分單位。第二,若用kwd匹配不成功,則利用索引的n-kwd域找到下一個單字詞,重復(fù)上述步驟,在這一級的常識性知識庫查詢中,沒有限定詞的長度,而是利用單字詞所構(gòu)成的多字詞來匹配預(yù)切分的字符中。換言之,無論知識庫中收的最長詞為多長,分詞推理機(jī)都能進(jìn)行匹配。因此,分詞推理機(jī)未對詞長加任何限制。第四級常識性知識庫與第三級常識性知識庫采用完全相同的搜索策略,不再贅述。(2)解釋啟發(fā)性知識庫啟發(fā)性知識庫以IF-THEN的形式表示。推理機(jī)必須經(jīng)過一個解釋器,把這種知識解釋成為推理機(jī)能認(rèn)識的形式,這樣推理機(jī)才能依據(jù)知識,進(jìn)行推理。解釋器首先計(jì)算“IF”后面的條件表達(dá)式,該條件表達(dá)式是把若干個模式以“與”“或”“非”以及括號等邏輯運(yùn)算符連接起來的式子。如模式sk-bf-tree[x,y]表示當(dāng)前節(jié)點(diǎn)的直接前趨節(jié)點(diǎn)詞性為x,直接前趨節(jié)點(diǎn)的字符串為y。“|”表示“或”,“&”表示“與”,“~”表示“非”。“if”后面的表達(dá)式中模式的個數(shù)不限。在運(yùn)算表達(dá)式時,運(yùn)用了運(yùn)算棧的方法。根據(jù)預(yù)先規(guī)定的運(yùn)算符的優(yōu)先級,實(shí)現(xiàn)操作符和操作數(shù)的進(jìn)出棧操作。從原則上講,運(yùn)算符的個數(shù)可以為任意個,這樣就能對模式進(jìn)行任意組配,能夠靈活地表達(dá)知識。表1,給出了系統(tǒng)中各運(yùn)算符的優(yōu)先級。3.“匹配”是篩選設(shè)置有助于匹配第三級常識性的詞語例1“盡快制定出適合中國國情的電影審查條例。”(1)在第一、二級常識性知識庫中都未匹配成功。(2)單字詞“盡”在第三級常識性知識庫索引中,由“盡”索引到數(shù)據(jù)“盡快”,則匹配成功,可切分出“盡快”。(3)對“制定出適合中國國情的電影審查條例”搜索匹配。在第三級常識性知識庫中,單字詞“出”匹配成功,(之所以先查到“出”是由詞法知識庫中該詞條的位置決定的),但由它構(gòu)成的多字詞未匹配成功,故切分出“出”。(4)對“制定”搜索匹配:在第四級常識性知識庫中,單字詞“制”匹配成功,由它構(gòu)成的雙字詞“制定”也匹配成功。“制定”不必再切分。(5)對“適合中國國情的電影審查條例”搜索匹配:在第三級常識性知識庫中,單字詞“中”匹配成功。并且由它構(gòu)成的雙字詞“中國”也匹配成功。(6)對“適合”搜索匹配。在第四級常識性知識庫中查到單字詞“合”,由“合”索引到數(shù)據(jù)“適合”,匹配成功.“適合”不再切分。(7)對“國情的電影審查條例”搜索匹配。在第三級常識性知識庫中,匹配到“的”,由“的”索引的數(shù)據(jù)未匹配成功,因此要把“的”單切出來。(8)對“國情”搜索匹配。在第四級常識性知識庫中,查到“國”,由“國”索引到數(shù)據(jù)“國情”,匹配成功,“國情”不必再切分。(9)對“電影審查條例”搜索匹配。在第三級常識性知識庫中,查到“條”。由“條”索引到數(shù)據(jù)“條例”,匹配成功。(10)對“電影審查”搜索匹配。在第四級常識性知識庫中,查到“電”,由“電”索引到數(shù)據(jù)“電影”,匹配成功。(11)對“審查”搜索匹配。在第四級常識性知識庫中,查到“查”,由“查”索引到“審查”,匹配成功。最后生成的詞語樹如下:例2有一個人參加(1)對“有一個人參加”搜索匹配。在第一、二級常識性知識庫均中不能匹配。在第三級常識性知識庫中,匹配到單字詞“一”,但由“一”構(gòu)成的多字詞,未匹配成功。(2)對“有”搜索匹配。在第四級常識性知識庫中,匹配到單字詞“有”,這里的“有”無需再切分。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論