2020年文本聚類的開題報告_第1頁
2020年文本聚類的開題報告_第2頁
2020年文本聚類的開題報告_第3頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、文本聚類的開題報告文檔聚類可以作為多文檔自動文摘等自然語言處理應用的預處理步驟,可以將重要新聞文本進行聚類處理, 是一種處理文本信息的重要手段。基于 KMean文本聚類的研究摘要文本聚類能夠把相似性大的文本聚到同一類中。 K-Means 常用來聚類文本, 但是由于聚類中心的選取對聚類結果有影響, 導致聚類不穩定,因此采用一種基于聚類中心的改進算法分析文本, 通過實驗,驗證算法的有效性。中國論文網 s:/.xzbu./9/view-6244858.htm 關鍵詞文本聚類 ;k-means; 相似性 ; 度量準則: TP391:B: 1671-489X(xx)18-0050-03 Research

2、forTextClusteringbasedonK-Mean/ZHANGYue ,LIBaoqing ,HULingfang,MENGLiAbstractTextclusteringcanmakethetextsimilaritylargeclusteredintothesameclass,K-Meansusuallyisusedintextclustering,becauseofimpactingontheclustercenter,whichresultsintheclusteringinstability.Therefore,thispaperusesatextanalysisofimp

3、rovedalgorithmbasedontheclusteringcenter,throughtheexperiment,itverifiestheeffectivenessoftheimprovedalgorithm.Keywordstextclustering;k-means;similarity;measurecriterion文本聚類是把不同的文本分別聚在不同的類別中,是文本挖掘的重要技術,它是一種無監督的學習技術,每個類中包含的文本之間具有較大的相似性, 不同類間的文本相似性比較小。文本聚類是數據挖掘的重要分支,它應用神經網絡、機器學習等技術,能夠自動地對不同文本進行分類。在文本聚

4、類分析中,文本特征表示一般采用向量空間模型1 ,這種模型能更好表現文本。在對文本聚類的研究中,Steinbach 等人研究了基于劃分的方法和基于層次的方法在文本聚類中的適用程度2-3 ,得出結論:采用 K-Means算法進行聚類,不僅聚類結果較好,而且適用于數據量比較大的聚類場合。在文章中根據研究者對K-Means的發現,結合實際研究,采用一種基于K-Means的改進算法來聚類。 Dhillod等人對文本聚類進行研究發現,采用余弦夾角作為相似性度量比采用歐氏距離度量的結果好很多4 。1 文本聚類文本聚類的方法很多,主要分為基于層次的方法、基于劃分的方法、基于密度的方法、基于模型的方法、基于網格

5、的方法5 。在這些聚類方法中,基于劃分的K-Mean是最常用也是很多改進方法的基礎,文章中采取的改進方法也是基于K-Mean的。K-Mean首先由 MacQueent6 提出。它能在大數據集中廣泛被使用,因為算法效率較高、算法執行過程理解容易。當前進行的很多研究都是以 K-Mean為基礎開展進行的,它的計算復雜度低,具有與文檔數量成線性關系的特性,計算效率不僅高,而且伸縮性較強,適應大數據集的能力也很強。K-Mean以 k 為初始聚類數,然后把n 個文本分到 k 個聚類中,這樣類內的文本具有較高的相似度,不同類間的相似度較小。K-Mean具體的算法過程如下:1)首先給定 n 個數據文本,從其中

6、任選文本初始地代表了k 個類的數據中心 ;k 個文本,這k 個數據2) 對剩余的每個文本計算其到每個中心的距離,并把它歸到最近的中心類中 ;3) 重新計算已經得到的各個類的中心,通常計算中心的準則函數采用平方誤差準則, 這個準則能夠使生成的結果類盡可能地獨立和緊湊 ;4) 迭代執行第二步和第三步的動作直至新的中心與原中心相等或小于指定閾值,直到算法結束。具體的算法流程如圖 1 所示。2 改進的聚類算法雖然使用 K-Mean算法進行文本聚類時, 具有計算復雜度低, 計算效率不僅高,而且伸縮性較強,適應大數據集的能力也很強的優點,但是實驗發現, 不僅初始聚類中心的選取對聚類結果有影響,孤立點的存在

7、對文本的相似性的判斷也有很大的影響,這就導致聚類判斷不穩定。基于此, 文章采用一種改進的方法來進行文本聚類,改進關鍵點在于聚類中心的計算, 用與原聚類中心相似的文本數據來計算平均值作為該聚類中心。改進的 K-Means算法描述如下所示:1)首先給定 n 個數據文本,從其中任選k 個文本,這 k 個數據文本初始地代表了k 個類的數據中心 ;2) 對剩余的每個文本計算其到每個中心的距離,并把它歸到最近的中心類中,記作 means;3) 選擇類中與類中心大于等于 (1+a)*means 的文本集合 D1,D2,.,Dk ,其中 a-0.31 ,0.31 ,重新計算新文本集中的類中心 ;4) 迭代執行

8、第 2 步和第 3 步的動作直至新的中心與原中心相等或小于指定閾值,直到算法結束。3 相似度計算文本聚類中涉及文本的相似性計算,只有相似性大的文本才能聚到同一類中,因此,相似性的度量對文本的聚類很關鍵。在文本聚類中,相似度度量方式一般有曼哈頓距離、Cosine 距離、歐式距離,其中 Cosine 距離更能體現文本的相似性。 本文主要采用 Cosine 距離,當兩個文本之間的文本相似度越大,它們之間的相關性越強。 文本集用向量空間模型表示后,文本的相似度采用向量之間距離表示:(1) 4評價標準文本聚類的有效性需要進行驗證,文章中主要采用F 度量、平均純度來對聚類結果進行評價。1)F度量。 F 度

9、量把召回率和評價標準準確率結合在一起。準確率: P(i ,r)=nir/nr(2)召回率: R(i ,r)=nir/ni(3)其中 nir 是類別 r 中包含類別 i 中的文本的個數, nr 是類別 r 中實際文本的數目, ni 是原本類別 i 中應有的文本數, F 值的計算公式:(4)由公式 (4) 最后得到評價函數為:(5)其中 n 為文本的總數。從公式看出F 值越高,聚類效果越好。2) 平均純度。除了用 F 度量來評價聚類,文章中還使用平均純度來度量文本聚類質量好壞 7 。設類 ci 的大小為 ni ,則該類的純度為:(6)其中 nj 表示類 ci 與第 j 類的交集大小,則平均純度公式

10、為:(7)其中 k 為最終的聚類數目。一般說來純度越高聚類效果越好。5 聚類實驗結果分析文章中采用的實驗數據主要是搜狗語料庫。搜狗語料庫主要包括 10 種文本類別:軍事、招聘、 IT 、文化、健康、汽車、體育、旅游、財經、教育。搜狗語料庫包含了每一類的文件夾,在文件夾中都是 txt 文本。為了驗證改進后的算法比原算法更有效, 進行了多次實驗,最終選取了其中一次實驗結果為例子, 對兩種算法的 F 度量和純度進行比較,分別如表 1 和表 2 所示。從表 1 可以看出,改進聚類中心的 K-Means算法在純度方面相對有一些提高 ; 從表 2 可以看到 F 值提高明顯 ; 從兩個表中的實驗結果可以看到

11、改進的算法是有效的。6 結論基于文本的聚類分析能夠對大量的文本進行聚類,分析中采用的聚類算法的改進能在很大程度上提高聚類的準確性。 實驗證明達到設計的效果,同時也為后期的各種數據挖掘工作打下基礎。參考文獻1SaltonG,WongA,YangCS.AvectorspacemodelforautomaticindexingJ.Comm.ACM,1975,18(11) :613-620.2SteinbachM,KaryPisG,KumarV.AparisonofdocumentclusteringtechniquesC.ProceedingsofKDD2000WorkshoponTextMinin

12、g.2000:1-20.3YingZhao,KaryPisG.HierarchicalClusteringAlgorithmsforDocumentDatasetsJ.ProceedingsofDataMiningandKnowledgeDiscovery,xx,10(2) :141-168.4DhillonIS,ModhaDS.ConceptdepositionsforlargesparsetextdatausingclusteringJ.MachineLearning,xx,42(1):143-175.5 邵峰晶,于忠清 . 數據挖掘原理與算法 M. 北京:中國水利水電出版社, xx.6MacQueenJ.Somemethodsforclassificationandanalysisofmultivariateobs

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論