




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 基于內容管理系統中內容分類實現方法的研究 孫劍摘要:隨著信息量以爆炸般的速度在急劇增長,當前在信息管理方面所面臨的最嚴峻的挑戰不再是信息匾乏,而是缺少時間和精力來對如此眾多的信息進行分析、歸類與操作。本文探討了在內容管理系統中內容分類的實現方法。關鍵詞:內容管理系統 內容分類 方法0 引言隨著信息量以爆炸般的速度在急劇增長,當前在信息管理方面所面臨的最嚴峻的挑戰不再是信息匾乏,而是缺少時間和精力來對如此眾多的信息進行分析、歸類與操作。因此內容的分類不僅有利于更快捷地實現內容的查詢,而且有效的分類方法同樣有助于對紛雜的信息進行組織與歸類,有助
2、于人們縮小查詢的范圍,節省時間和精力。可見內容管理對內容分類的要求是十分必要的。現在分類的方法大體上分為人工分類、自動化分類以及人機結合的混和方法三種。顯而易見,人工分類是最容易被想到的。但是這種方法顯而易見的過多的依賴于個人,且成本太高。并且當內容量過大的時候,單單依靠手工方法進行分類也不太現實,很容易成為系統的瓶頸。因此,人們更加關注于自動化分類方法。現在主要應用的自動化分類方法主要有以下幾種方法。1 自動化分類方法1.1 基于規則的分類方法:這種方法需要由對相關內容極為了解的專家創建與維護一套規則用于將某篇文檔劃分到某個類中。專家使用if-then的規則形式組織歸類的相關概念。規則能夠支
3、持復雜的操作,而且建立在規則之上的決策樹也相當準確。規則衡量了一個給定的文檔是否符合某個主題的判斷標準。顯然,建立這樣一種規則并不容易,并且專家對相關內容知識的了解程度也相當重要。1.2 基于自然語言的學習算法:該方法利用神經網絡的方法,通過分析文檔的內容區分文檔并將文檔進行分類。由于這種方法具有較高的容錯能力及語言獨立的操作性等特點,正在成為一種相對穩定的分類方法。這種方法通過選擇文檔的表示方式或可能的格式,利用神經網絡實現對內容的分類,可以被應用到文本文檔或文本片斷的分類中去。1.3 語義分析:這是以從文檔中提取關鍵的概念作為分類與檢索的基礎。語義分析過程共分為兩個階段,第一個階段的工作主
4、要集中于一系列的語言算法以及語言獨立的統計技術的實現。當用戶對系統中收集的信息進行查詢時則觸發該過程的第二階段,系統可以根據用戶的查詢需求以及可視化的分類結構呈現給用戶個性化的、相關的查詢結果。1.4 模式匹配:這種方法是指尋找經常聚在一起的一組詞或詞組的過程。一個主題可能通過語義分析進行處理。其他的識別模式還包括詞在文檔當中的出現頻率、詞的位置、詞與詞之間的親近程度以及相關詞的聚類。模式匹配方法具有語言獨立的特點。1.5 聚類分析:這是通過識別內容中的共性元素將內容劃分為相似內容子集。每篇文檔可以看作一些內容的合集,聚類本質上就是將每一袋中的相似內容聚為一組。以上每一種分類方法都有其自身的優
5、點與不足,沒有哪一種單一的分類方法是十全十的。每種方法都有其適用的方面。所以,現在人們往往采用混合的分類方法。下面我們著重分析一種基于神經網絡的分類方法。2 基于聚類分析的分類方法聚類分析是一種解決分類問題的探測性的數據分析方法。它的目標是把人、事務、事件等聚為組或類,每一類描述它的對象所屬的類。該方法是通過建立一個對象間的相似性度量,使得類間的相似性盡量小,而類內的相似性盡量大,從而得到在某種判別準則之下的最佳分類,這種分類的結果未必使用簡單的概念就可以描述的。換言之,其分類的標準并不是顯而易見的。假設特征向量由n個特征參數x,x,x組成聚類分析按照一定的準則,將這些特征向量點劃分為若干個群
6、。聚類也用于將一個內容的集合劃分為子集,也就是類。每一類內的對象之間都比該類對象與屬于其它類的對象之間具有更大的相似性。芬蘭學者t.kohonen提出一種可以使得輸入信號映射到低維空間,且保持相同特征的輸入信號在空間上對應鄰近區域的學習方式,稱為kohonen自組織特征映射(self-organizing feature maps, sofm)也稱kohonen自組織神經網絡。kohonen自組織神經網絡是一種前饋型網絡。在這種類型的神經網絡中各神經元接受前一層的輸入,并輸出給下一層,沒有反饋。節點分為兩類,即輸入單元和計算單元,每一計算單元可有任意多個輸入,但只有一個輸出。前饋網絡可分為不同
7、的層,第i層的輸入只與第i-1層的輸出相連,輸入和輸出節點與外界相連,而其它中間層則稱為隱層。前饋型網絡,由于kohonen自組織特征映射網絡除了具備以下主要性能,因此采用kohonen自組織神經網絡來實現內容的聚類。對輸入數據有聚類作用,并可用聚類中心代表原輸入,起到數據壓縮作用。保持拓撲有序性,輸入中特性相似的點映射后在空間上是鄰近的。分布密度匹配,原數據中分布密的區域在映射圖上對應較大的區域,分布稀的則對應的區域也較小。自組織網絡采用沒有指導的學習過程,不必給定應有的輸出,訓練數據只有輸入而沒有輸出,網絡只靠輸入模式本身的特征,根據一定的判斷標準自行修改單元連接的強度,使權矢量在輸入向量
8、空間中的分布近似于樣本的分布。這也就是為什么采用自組織神經網絡來解決內容的分類問題的原因和依據,因為在對內容進行聚類前,可以分成什么樣的類以及不同的內容歸屬的類別本來就是未知的。3 實現的步驟及方法在此研究一種利用智能技術得到內容的分類結構的方法。該方法通過人或統計工具對文本內容進行預處理,將文本內容以標準化的特征向量表示,然后利用kohonen自組織特征映射網絡實現內容的自動聚類。現將對文本內容進行聚類的方法與步驟簡單描述如下:3.1 用標準的矢量形式表示文本內容。要實現內容的自動聚類,首先要把待聚類的內容集用標準的矢量形式表示出來。由于給不同的文本內容建立關鍵字是可行的,而且關鍵字又是最易
9、于代表文本內容語義的,因此可以通過文本內容的關鍵字作為中間橋梁將內容表示成標準的矢量形式。用標準的矢量形式表示文本內容,這是利用神經網絡實現內容的自動聚類的基礎。3.2 選擇樣本文檔。kohonen網絡采用的是無監督學習算法,因此在通過該網絡對內容進行聚類前需要選擇樣本內容作為訓練集,使自組織網絡學習如何對內容進行聚類。樣本的選擇應當具有代表性與廣泛性。3.3 初始化網絡的輸入節點、輸出節點以及連接權值。將以n個關鍵字或文本特征表示文本內容的n維矢量作為輸入向量,同時生成含有m個輸出節點的二維映射。3.4 將代表文本內容的特征向量輸入到網絡中。3.5 在輸出節點中選擇最佳匹配節點。計算輸入節點與所有的輸出節點權值的接近程度,選擇距離最小,即輸出節 點權值與輸入值最接近的節點作為獲勝節點。3.6 調整權值。調整獲勝節點及其鄰域的節點的權值,從而使這些輸出節點的權值與輸入值更接近。3.7 標注代表不同類的輸出節點。不斷重復以上過程,學習算法結束后,各輸出節點的權值顯示了聚類中心,將不同的類加以標注,以示區分。經過訓練的網絡可以用上述同樣的方法對新的文本內容進行聚類。3.8 對分類結果中包含大量輸入樣本的類別,遞歸應用以上步驟,繼續在大類下劃分更小的類。經過以上過程便可以得到文本內容的分類結構,該分類結構可能是類與類之間相互獨立的結構,也可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司猜燈謎抽獎活動方案
- 公司粽子定做活動方案
- 公司紅色培訓活動方案
- 2025年現代物流管理師職業資格考試試題及答案
- 2025年思想政治理論與教育考試試卷及答案
- 2025年商品經濟學考試試卷及答案
- 高危人群自檢策略-洞察及研究
- 2025年科技創新創業導師職業資格考試卷及答案
- 2025年旅游管理專業考試試卷及答案
- 2025年會計職業資格考試試卷及答案
- 2023年甘肅蘭州大學網絡與繼續教育學院人員招聘2人高頻考點題庫(共500題含答案解析)模擬練習試卷
- 肝內膽管結石詳解
- 發電機勵磁系統檢修與維護
- 2023-2024學年福建省泉州市小學語文六年級期末自測模擬試卷
- GB 29541-2013熱泵熱水機(器)能效限定值及能效等級
- 控規用地代碼
- 2023年上杭縣社區工作者招聘考試筆試題庫及答案解析
- 2021年曹楊二中自招數學試卷
- 新能源汽車底盤檢修全套課件
- 幼兒園大班數學口算練習題可打印
- 江蘇特種作業人員體檢表
評論
0/150
提交評論