基于層次分類體系的知識地圖自動構建方法研究_第1頁
基于層次分類體系的知識地圖自動構建方法研究_第2頁
基于層次分類體系的知識地圖自動構建方法研究_第3頁
基于層次分類體系的知識地圖自動構建方法研究_第4頁
基于層次分類體系的知識地圖自動構建方法研究_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于層次分類體系的知識地圖自動構建方法研究

1引言知識地圖是組織實施知識管理的有效工具。目前,國內對知識地圖的研究大多數只是將知識地圖作為知識管理體系和知識管理技術中的一部分來進行簡單的介紹,主要圍繞知識地圖的內容、形態和作用等偏重于理論方面的內容進行研究,而沒有多少關于知識地圖的構建和實施方面的研究文獻。國外關于知識地圖的研究開展得較早,研究比較深入,已提出了很多知識地圖的類型。比如早期的概念地圖(ConceptMap)和思維導圖(MindMap)[1],這兩種知識地圖都是用于更好地組織、理解和記憶知識;Gordon[2]提出通過學習過程中各知識點的依賴關系來建立知識地圖,這種知識地圖可以用來進行員工培訓、課程編制以及個人學習。上述幾種知識地圖都是手工制作的,而當知識資源的規模過于龐大時,手工編制知識地圖顯然是非常低效的,因而出現了一些自動生成的知識地圖,如Newsmap[1]、TreeviewSOM[3]和TaxGen框架[4]等,這幾種知識地圖通過聚類的方法將從Web上收集的大量新聞文檔歸并到一個自動生成的層次分類體系中。類似的工作還有,Hsin-ChangYang和Chung-HongLee[5]提出的基于SOM的Web目錄和層次體系自動構建方法;潘星等[6]提出了一種基于概念聚類的知識地圖模型,在該模型中,知識按其屬性自動聚類成知識節點,它描述了知識及其屬性和關系,并將知識節點以偏序關系排列起來。由于組織對自身的知識資產一般都有自己的分類體系,如按照業務流程為主線進行分類組織,因此一般通過文本自動分類技術來建立知識地圖;而聚類技術更適合于Web知識地圖的建立。本文的研究內容主要針對組織中以文本形式大量存在的顯性知識資源。上面的一些應用實例顯示出層次分類體系是知識地圖中十分有效的知識組織方式,但是在處理大容量文本集合時也會顯現出一些不足之處,對此,本文在第2節提出了相應的解決方案,并以此構造了一種層次型知識地圖;在第3節中提出一種層次分類方法來自動建立知識地圖,并對其中的關鍵技術進行深入分析,在第4節通過實驗驗證該方法的有效性。最后在第5節中總結全文。2層次型知識地圖結構及一般建立步驟知識地圖是對組織知識資源總體分布情況的可視化描述,不但描述了組織知識的存在情況及其載體,而且描述了組織知識資源間可能存在的千絲萬縷的聯系[7]。其中的知識資源既包括顯性知識資源也包括隱性知識資源,因此知識地圖本質上是利用現代信息技術制作的組織知識目錄及其關系的綜合體和組織領域專家的導航系統。本文只討論其中顯性知識地圖的部分。2.1層次型知識地圖結構知識地圖一般都是通過分類來組織知識,這種分類的類別也稱為主題。各知識資源被映射到相應的主題,可以是一個,即每個知識資源屬于唯一一個類別;也可以是多個,每個知識資源可以同時屬于多個類別。本文只考慮第一種情況。根據各主題之間的關系,知識地圖一般可分為網狀結構和層次結構。在網狀結構的知識地圖中,一個主題節點可能同時跟多個主題節點有聯系,具體的知識資源則通過其所屬的主題建立間接的聯系,如主題地圖(TopicMaps)。對于大規模的文本知識資源的組織,使用層次結構更加有效。通過逐層細分、逐步縮小搜索范圍,層次結構可以使用戶更容易查找到所需的知識,典型的應用實例如Yahoo!()和OpenDirectoryProject()。但是層次結構也有自身的不足之處:(1)如果層次分類體系本身很龐大,會給用戶的瀏覽查找過程增加難度。因此,在設計層次分類模型的時候,應注意保持體系的簡潔性,不能太過龐大,如限制層次的深度以及同一層次上類別的數量。(2)對于包含大規模文本知識資源的知識地圖,即便在最底層的分類,可能也會有相當多的文檔,從這些文檔中查找所需知識也是一個不小的問題。這里可以通過引入檢索功能來解決這個問題,即在指定類別中進行檢索。(3)不能很好地揭示出同一層次各類別間的聯系。對此有兩種解決方案。第一種,通過借鑒TopicMaps,在同一層次的主題間直接建立聯系。但是不同主題間的關聯顯然不會很強,一般只是兩個主題內小部分的文檔具有較強的關聯,而大部分文檔間的關聯都很弱。這種思想引出了第二種解決方案:通過兩個主題內具有較強關聯的文檔建立主題間的聯系。在實際實現中,可以通過文檔相似性來近似判斷。綜上所述,可以得出本文提出的層次型知識地圖結構,如圖1所示。圖1層次型知識地圖結構2.2一般建立步驟GartnerGroup提出了構建知識地圖的四個主要活動[8]:(1)知識審查(KnowledgeAudit):主要是審查組織內部的知識資產及其來源,并確定組織的關鍵知識。(2)知識制圖(KnowledgeMapping):通常根據社會及業務背景來進行知識資產的分類,配合組織的專業術語,將知識分門別類地歸類在不同的范疇內,并標示其間的關系。(3)建立索引(IndexingKnowledgeAssets):這是建立知識地圖最為關鍵的一環,主要工作是建立知識資產的索引連結。由于知識地圖的動態概念性,其索引源不僅僅只有信息內容這些顯性知識,還包括了人員、程序等隱性知識的聯結。(4)知識輪廓與個人化(KnowledgeProfilingandPersonalization):主要是描述使用者與其他事物的關系,包括其他員工、信息資產、社群、媒介、或是自動化流程等,并據此提供相關的信息給予使用者。文獻[9]認為,知識地圖的構建過程應遵循CPPL程序(Collect,Process,Profile,Link),即知識收集、知識處理、知識輪廓和知識連接。可見,在制定知識地圖時,關鍵是識別組織知識,然后從主題和分類兩個途徑對知識加以整理。隨后提取元知識,建立知識資源與人之間、人與人之間、知識與知識之間的聯系,最后用可視化的方式顯示出來。借鑒前述知識地圖的構建流程,將自動構建技術引入流程,并根據本文提出的層次型知識地圖結構,將其構建流程歸納如圖2所示。圖2知識地圖構建流程(1)定義所需知識:首先要確定組織中存在的知識及其存取方式;然后根據知識地圖的構建需要確定所需知識。實際上,在知識地圖構建之初,并不是組織中所有的知識都被包含進去,其中可能只包含根據組織業務流程確定的核心知識,以及解決組織面臨的問題所需要的關鍵知識,這樣更容易取得成效。隨著知識地圖的不斷發展成熟,其覆蓋范圍可逐步擴展到整個組織。這時可以將組織戰略規劃中所需的知識,以及有價值的外部知識逐步加入進來,使整個知識地圖趨于完善。(2)建立領域知識層次分類模型:這項工作需要領域專家的參與。對知識的分類一般按照業務流程來進行劃分,可將業務流程的各主要環節作為大類,然后對每個大類進行逐層細分,同時要注意層次分類模型不能過于龐大,而不便于用戶定位所需知識。(3)提取元知識,對知識進行歸類:元知識就是“有關知識的知識”。由于很多顯性知識資源不直接提供這些元知識,而是隱含于其文本內容之中,這就需要一些新技術來完成元知識的自動提取,如主題發現與跟蹤、信息提取、自動摘要等。提取元知識之后,利用層次分類方法將文本自動映射到已經建立好的層次分類體系中,同時在相關的文檔間建立起聯系。(4)建立知識與員工的連接:這包括三個步驟:①設定用戶對各種知識的存取權限;②建立用戶興趣模型,基于此可為用戶提供自動推送以及信息過濾服務;③很多顯性知識的作者本身是組織內的員工,可以利用元知識中的作者信息將顯性知識與員工聯系起來,從而建立組織內顯性知識與隱性知識的聯系,有利于更好地進行知識共享。(5)知識地圖的可視化:可視化方案的好壞將直接影響知識地圖的使用效果。(6)更新、維護及評估:知識地圖的構建過程應該看作是一個動態的循環過程。由于知識具有時效性,知識可能會過時,而且新的知識會不斷加入,這就需要對知識地圖進行持續的更新和維護;對知識地圖的評估可以發現其不足之處,或某些知識的空白,從而進行改進和完善,因此具有重要意義。目前還沒有多少關于知識地圖評估方面的研究工作。可以看出,知識地圖的自動構建技術主要應用于元知識的提取和自動分類階段。其中層次分類方法可以說是知識地圖自動構建的核心。3層次分類方法現有的大部分文本分類方法所處理的類別都處在同一個層次,即處于同一個平面類空間上。常用分類方法有類中心向量距離法[10]、NaveBayes(NB)[11]、k-近鄰(KNN)法[12]、線性最小二乘擬合法(LISF)[13]、支持向量機(SVM)[14]和基于神經網絡(NN)的方法[15]等。對于文本類別數量龐大的情況,平面分類的性能會受到很大制約。層次型分類把分類系統構造為層次結構,各類按照一定的層次關系組織成樹狀結構。圖3所示的是一棵簡單的分類樹,其中,根節點表示所有文檔,其他節點各自代表一個類別,上下層節點之間的連線表示父類與子類的關系,葉子節點代表的類別稱為基類,其他的類別節點稱為父類或超類。圖3層次型分類結構如果要求待分類文檔最終歸入到葉子節點所代表的類別中,則稱為基類層次分類;反之則稱為通用層次分類。這里只考慮基類層次分類的情況。基類層次分類可以簡化為一般的平面分類問題,即將所有葉子節點看成一個平面分類集合,使用平面分類方法直接將待分類文檔歸入到葉子節點代表的類別中。這種分類方法在基類數量龐大的時候性能會受到很大制約。因此本文采用逐層分類的方式。在分類時先用最頂層的分類器將文檔分入某一大類(即父節點為根節點的類)中,再用該類的分類器對文檔繼續進行分類,直至將文檔分到某一基類中。這些分類器可以使用不同的分類方法進行構造。該方法主要由兩個算法構成,即層次訓練算法和層次分類算法。頂層的分類器將文檔分到某一大類中。顯然這些大類間的區分度是比較高的。因此,頂層的分類器可以采用比較簡單高效的分類方法如類中心向量距離法。對于下層屬于同一父類的各類別,其間的關聯度會逐漸增加,需要使用分類精度較高的分類方法如KNN法。本文選擇KNN方法還有一個目的:在分類的同時建立起相關文檔間的關聯。此外,下層分類使用的特征項也需要重新選取,因為隨著類別間關聯度的增加,需要選擇更專業的詞語作為特征項,而且所需特征項也會逐漸減少。具體的層次訓練算法可歸納如下:(1)對所有訓練文檔進行分詞、去停用詞的預處理,統計詞頻,建立倒排文檔索引,用于全文檢索。(2)利用TF-IDF公式計算特征詞的權重,利用信息增益(InformationGain,IG)法進行特征選擇,計算各大類的類中心向量。(3)訓練各大類的KNN分類器。分別對每個大類下的所有子類中的訓練文檔,計算特征詞的權重,利用IG重新選擇特征項,將訓練文檔向量化,得到KNN分類模型。(4)繼續進入下層,重復第(3)步操作,直至所有非葉子節點的分類器訓練完畢。其中,TF-IDF[16]是權重計算的常用公式:分類器訓練完畢后就可以對新文檔進行分類了,層次分類算法歸納如下:(1)對文檔進行分詞、去停用詞預處理,統計詞頻,建立倒排索引,將文檔向量化,計算與各個大類的類中心向量間的相似度,將文檔分到相似度最高的類別中。(2)進入該類別,利用該類的特征集合將文檔重新向量化,計算文檔與該類別下所有訓練文檔的相似度,得到相似度最高的k個訓練文檔,根據這些訓練文檔所屬類別來判斷待分類文檔的類別。同時記錄下與新文檔相似度最高的訓練文檔及相似度。(3)進入下層類別,使用該類別的KNN分類器繼續進行分類,直到將文檔分到基類中。上述步驟(2)記錄了與待分類的新文檔相似度最高的訓練文檔。當所有文檔最終分類完成后,通過訓練文檔為中介建立起了相關新文檔間的關聯,使用戶在查看某一知識資源時,可以方便地獲得相關資源。當然,這種關聯是通過訓練文檔為中介間接建立起來的,如下表所示。可以近似認為這些文檔之間也是相似的。如果要直接比較各新文檔間的關聯度,需要將已分類的新文檔也作為訓練文檔與其余待分類的文檔計算相似度,訓練文檔逐漸增多,每次分類的計算量也隨之增大,這在大文本容量下顯然是不可行的,因此本文使用這種間接的方式來計算各相似文檔。4實驗分析中文文本分類至今仍沒有一個公開的、相對標準的語料庫,而層次分類語料庫更是鳳毛麟角。為驗證前文提出的用于自動構建知識地圖的層次分類方法,本實驗使用了兩個層次分類語料庫進行對比實驗。第一個是由復旦大學計算機信息與技術系國際數據庫中心自然語言處理小組整理的語料庫。該語料庫是單層語料庫,共有9833篇訓練文檔,9804篇測試文檔,分為20個類別。本文從中選擇9個類別作為基類構造了如圖4所示的分類樹。圖4分類樹實驗中每個基類使用400篇訓練文檔,共3600篇訓練文檔;每個基類使用100篇測試文檔,共900篇測試文檔。第二個語料庫TanCorpV1.0[18,19]是由中科院譚松波博士收集整理的,分為兩個層次,收集文檔14150篇。第一層為12個類別;第二層為60個類別。去除少數無內容的文檔后,剩余文檔14138篇,從中隨機選擇了9455篇文檔作為訓練文檔,其余4683篇作為測試文檔。各類文檔分布極為不均,最少的類別只有13篇訓練文檔,而最多的類別有875篇訓練文檔。由于該層次分類方法屬于基類層次分類,即所有輸入文檔都被歸入到分類樹中葉子節點所表示的類別中,分類問題可轉化為平面分類問題,即利用平面分類方法直接將輸入文檔分到各基類中。因此實驗分別使用上面兩個語料庫,對平面分類與層次分類效果進行了比較。平面分類方法選擇了KNN和SVM兩種常用的分類方法。實驗設置特征空間維數為1000,特征選擇方法使用信息增益(IG)法,KNN分類時選擇k為35,SVM使用線性核函數,One-vs-One多類分類方法。兩個語料庫的實驗結果分別如表2所示。其中,r表示查全率(recall)、p表示查準率(precision),F1值綜合了查全率和查準率:F1=2*r*p/(r+p)。從實驗結果可以看出,兩種常用的平面分類方法中,SVM的性能要優于KNN方法,其宏平均F1值達到了92.3%,具有良好的查全率和查準率。層次分類方法的表現與SVM不相上下,宏平均F1值達到91.6%。可見,在基類數目較少,且訓練樣本均衡分布的情況下,使用平面分類方法和層次分類方法都可以取得很好的效果。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論