判別大作業(yè)-一種基于向量空間模型和類別特征提取的Web新聞自動(dòng)分類方法_第1頁
判別大作業(yè)-一種基于向量空間模型和類別特征提取的Web新聞自動(dòng)分類方法_第2頁
判別大作業(yè)-一種基于向量空間模型和類別特征提取的Web新聞自動(dòng)分類方法_第3頁
判別大作業(yè)-一種基于向量空間模型和類別特征提取的Web新聞自動(dòng)分類方法_第4頁
判別大作業(yè)-一種基于向量空間模型和類別特征提取的Web新聞自動(dòng)分類方法_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一種基于向量空間模型和類別特征提取的Web新聞自動(dòng)分類方法王某某(北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院 北京 100191)作者簡(jiǎn)介:王某某,北京航空航天大學(xué)研究生 郵箱:bnuwjx。摘 要:互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)信息呈幾何級(jí)數(shù)激增,對(duì)Web新聞的分類提出了更高的要求,即要求能夠快速、準(zhǔn)確地對(duì)Web新聞進(jìn)行分類。本文通過改進(jìn)tf-idf算法,提出了一種基于向量空間模型和類別特征提取的文本分類方法,并對(duì)Web新聞進(jìn)行了兩級(jí)類目(5個(gè)一級(jí)類目,36個(gè)二級(jí)類目)分類;通過多次測(cè)試,確定了類別特征提取的最佳維度,通過降低新聞關(guān)鍵詞向量的維度,一定程度上改善了交叉類別的分類效果,從而實(shí)現(xiàn)Web新聞的高效自動(dòng)分類;最

2、后,通過交叉驗(yàn)證法對(duì)分類的效果進(jìn)行了評(píng)價(jià),結(jié)果表明本方法在一級(jí)類目的分類上有較高的準(zhǔn)確率(平均準(zhǔn)確率為86.92%),而在二級(jí)類目的分類上效果不夠理想(平均準(zhǔn)確率為58.58%)。關(guān)鍵詞:文本分類 向量空間模型 特征提取 中文分詞 余弦相似度一、研究背景隨著國(guó)際互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)信息呈幾何級(jí)數(shù)激增,CNNIC在其2015年1月發(fā)布的第35次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告中顯示:截至2014年12月,中國(guó)網(wǎng)站數(shù)量已達(dá)到335萬個(gè),年增長(zhǎng)率為4.6%;中國(guó)網(wǎng)頁已達(dá)到1899 億個(gè),年增長(zhǎng)率為 26.6%1。如何將海量的網(wǎng)頁信息進(jìn)行合理的組織,從而幫助網(wǎng)絡(luò)用戶更好的利用互聯(lián)網(wǎng)資源,是一個(gè)亟待解決的

3、問題。在網(wǎng)頁信息中,有一類非常重要的信息,那就是Web新聞。隨著信息存儲(chǔ)技術(shù)和網(wǎng)絡(luò)通信技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們獲取新聞信息的重要渠道2,同時(shí)也已成為最為方便的渠道。當(dāng)今社會(huì)的每時(shí)每刻都會(huì)出現(xiàn)大量的新聞,這對(duì)用戶選擇自己喜歡的或有價(jià)值的新聞造成了困難,因此必須對(duì)新聞進(jìn)行合理的分類。但基于網(wǎng)絡(luò)新聞信息量大,雜亂無章的特點(diǎn)2,傳統(tǒng)的人工分類方式,不僅耗費(fèi)大量的人力和金錢,同時(shí)也需要大量的時(shí)間。因此有必要借助技術(shù)手段來解決新聞分類的問題,以提高工作效率3,文本分類技術(shù)應(yīng)運(yùn)而生。所謂文本分類技術(shù),就是機(jī)器學(xué)習(xí)人工事先制定的規(guī)則,再根據(jù)規(guī)則對(duì)給定的文本進(jìn)行自動(dòng)的歸類。目前已有的文本分類方法基本都

4、是采用基于詞語為特征項(xiàng)的向量空間模型4。向量空間模型就是通過選擇若干帶有權(quán)重的關(guān)鍵詞構(gòu)成的向量來表示一篇文章的主要內(nèi)容,但是它有一個(gè)最大的缺陷,就是向量的維度難以控制,有的文章可能需要用成百上千的關(guān)鍵詞表示,有的文章可能只需要幾十個(gè)甚至幾個(gè)關(guān)鍵詞就能被概括。文本向量的高維度容易導(dǎo)致數(shù)據(jù)稀疏、數(shù)據(jù)噪音等問題,致使文本分類效果較差。因此,在文本分類前,有必要對(duì)文本的原始特征進(jìn)行降維處理4。關(guān)于向量降維的方法,潘正高等人4在他們的論文中運(yùn)行了一些常用的算法,并在此基礎(chǔ)上提出了基于命名實(shí)體的降維方法。下文由如下幾部分構(gòu)成:第二部分介紹了本次研究的數(shù)據(jù)集,包括新聞來源、新聞特征項(xiàng)以及訓(xùn)練集和測(cè)試集的選取

5、方法;第三部分介紹了新聞文本向量化的過程,主要包括中文分詞、設(shè)置詞權(quán)重、選擇關(guān)鍵詞構(gòu)成新聞關(guān)鍵詞向量;第四部分詳細(xì)介紹了類別特征提取的方法:在改進(jìn)的tf-idf算法的基礎(chǔ)上,不斷修改類別特征的維度,結(jié)合測(cè)試結(jié)果確定最佳維度;第五部分介紹了一級(jí)類目和二級(jí)類目的分類方法及測(cè)試結(jié)果,并通過降低文本關(guān)鍵詞的維度改善了交叉類別的分類效果;第六部分介紹了本次研究的創(chuàng)新及不足之處;最后在第七部分對(duì)未來的研究加以展望。二、數(shù)據(jù)集1 數(shù)據(jù)來源本次研究選定了中新網(wǎng)5 IT、財(cái)經(jīng)、教育、軍事、娛樂等5個(gè)一級(jí)類目以及這5個(gè)一級(jí)類目下總計(jì)36個(gè)二級(jí)類目(各個(gè)一級(jí)類目以及二級(jí)類目的信息見表1),通過編寫java網(wǎng)頁爬蟲抓

6、取新聞,在每個(gè)二級(jí)類目下最多各抓取500條,抓取新聞的數(shù)據(jù)項(xiàng)包括新聞標(biāo)題、新聞內(nèi)容、新聞發(fā)布時(shí)間、一級(jí)類目、二級(jí)類目、編輯、網(wǎng)址,最終共抓取到新聞15951條。(抓取部分結(jié)果見表2,每類新聞數(shù)量統(tǒng)計(jì)見表1)。表 1 中新網(wǎng)一、二級(jí)類目下樣本抓取數(shù)量表表 2 IT類樣本抓取部分結(jié)果示例2 訓(xùn)練集和測(cè)試集的選取本研究通過交叉驗(yàn)證法來評(píng)價(jià)分類結(jié)果,為此現(xiàn)將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。訓(xùn)練集是用來訓(xùn)練(構(gòu)建)模型的數(shù)據(jù)集,測(cè)試集則是在模型構(gòu)建結(jié)束后用來測(cè)試模型性能的數(shù)據(jù)集。訓(xùn)練集和測(cè)試集共同構(gòu)成了數(shù)據(jù)集。本次研究在每個(gè)二級(jí)類目下隨機(jī)選取80%的新聞作為測(cè)試集,剩余20%的新聞作為測(cè)試集。在完成新聞自動(dòng)分

7、類之后,通過交叉驗(yàn)證方法對(duì)分類效果進(jìn)行評(píng)價(jià)。 三、新聞文本向量化文本額分類不同于簡(jiǎn)單的數(shù)字分類,需要先對(duì)文本進(jìn)行預(yù)處理,將文本轉(zhuǎn)化為數(shù)字向量。為了能夠完成類別特征提取以及后期的新聞自動(dòng)分類,首要的工作就是將新聞文本轉(zhuǎn)化為由帶有權(quán)重的關(guān)鍵詞構(gòu)成的向量,也就是文本處理領(lǐng)域常用的向量空間模型。文本向量化一般包含如下三個(gè)步驟:1、中文分詞(包括文本分詞、去除停用詞、替換同義詞等);2、設(shè)置詞權(quán)重,合并關(guān)鍵詞;3、選擇帶權(quán)重的關(guān)鍵詞,構(gòu)成文本向量。1 中文分詞本次研究采用國(guó)內(nèi)最好的中文分詞系統(tǒng)ICTCLAS,ICTCLAS 是中國(guó)科學(xué)院計(jì)算技術(shù)研究所經(jīng)過多年探索研究后所開發(fā)的一個(gè)漢語詞法分析系統(tǒng),分詞精

8、度達(dá)到98.45%2;該系統(tǒng)還允許用戶導(dǎo)入外部詞典,以進(jìn)一步提高分詞的準(zhǔn)確性。我們?cè)趈ava程序中導(dǎo)入官方的ICTCLAS包,并導(dǎo)入自己建立的詞典、同義詞表和停用詞表,對(duì)新聞的標(biāo)題和正文進(jìn)行了分詞,部分標(biāo)題最終分詞結(jié)果如表3所示: 表 3 樣本標(biāo)題分詞結(jié)果示例2 設(shè)置詞權(quán)重并合并關(guān)鍵詞對(duì)于新聞來講,能夠表達(dá)新聞內(nèi)容的關(guān)鍵詞來自新聞標(biāo)題和正文,但是來自標(biāo)題和正文的詞的重要程度是不同的。標(biāo)題是一篇新聞的眼睛,是決定讀者是否閱讀一條新聞的重要依據(jù),很明顯標(biāo)題中的詞語更為重要,因此需要對(duì)標(biāo)題中的詞語和正文中的詞語設(shè)置不同的權(quán)重。本次研究將標(biāo)題中詞語的權(quán)重設(shè)為1.0,將正文中詞語的權(quán)重設(shè)為0.1,這樣的

9、設(shè)置方法或許不一定合理,但是可以通過多次更改權(quán)值,對(duì)比每次更改權(quán)值后的測(cè)試結(jié)果確定一個(gè)較優(yōu)的分配方式。在對(duì)詞語設(shè)置不同的權(quán)值后,需要合并來自標(biāo)題和來自正文的關(guān)鍵詞,合并的方法就是將同一關(guān)鍵詞的各個(gè)權(quán)值相加,例如關(guān)鍵詞“手機(jī)”在標(biāo)題出現(xiàn)2次,在正文出現(xiàn)10次,那么手機(jī)的最終權(quán)重就是2*1.0+10*0.1=3.0。3 選擇關(guān)鍵詞,構(gòu)成文本向量有關(guān)研究表明,30%的關(guān)鍵詞就足以有效地代表文本6,在文本關(guān)鍵詞很多的情況下,可以采用這樣的方法有效地降低向量的維度數(shù)。在新聞文本中,關(guān)鍵詞的數(shù)量不是很多,為此我們保留所有關(guān)鍵詞,按照關(guān)鍵詞權(quán)重進(jìn)行降序排序,最終每篇新聞可以用如下形式表示:ITemi=k1,

10、w1,k2,w2,kj,wj,(km,wm)其中,ITemi表示第i篇新聞,kj,wj中kj表示該新聞的第j個(gè)關(guān)鍵詞,wj表示第j個(gè)關(guān)鍵詞的權(quán)重,部分新聞向量化結(jié)果如下(對(duì)于關(guān)鍵詞較多的樣本,只列舉出了比重前九位的部分):表 4 部分樣本新聞向量化結(jié)果四、類別特征提取 目前常用的分類算法有支持向量機(jī)、貝葉斯算法和KNN算法等,其中KNN算法以其簡(jiǎn)單、有效的特性被廣泛使用4。KNN算法的主要思想就是計(jì)算訓(xùn)練集中每篇文本與待分類文本的相似度,選取與待分類文本最為相似的前K篇文本,根據(jù)這K篇文本的類別判斷待分類文本所屬的類別。這里可以看出KNN算法的一個(gè)不足之處:每一篇待分類的文本都需要與訓(xùn)練集中的

11、每篇文本進(jìn)行相似度計(jì)算,這樣的做法計(jì)算量大,增加了時(shí)間成本,為此本文提出一種提取類別特征的方法,能夠有效地將時(shí)間成本轉(zhuǎn)移到線下,從而保證分類的性能。總體來說,這種類別特征提取方法操作過程如下:首先根據(jù)類別下已有文本的特點(diǎn),抽取出部分能夠用來代表該類別文本的帶有權(quán)重的關(guān)鍵詞,構(gòu)成特定類別新聞的類別特征向量。對(duì)于一篇待分類的新聞,只需要將新聞文本向量與每個(gè)類別的類別特征向量進(jìn)行相似度計(jì)算即可,類別特征提取的過程雖然耗時(shí),但是可以離線進(jìn)行,因此既保證了新聞分類的效率,又保證了新聞分類的性能。在選取能夠表示類別特征的關(guān)鍵詞的時(shí)候,我們采用了在信息檢索領(lǐng)域非常有效的tf-idf算法,這里首先簡(jiǎn)要介紹tf

12、-idf算法。tf-idf算法是一種統(tǒng)計(jì)方法,用來評(píng)估某個(gè)詞匯對(duì)于一篇文本的表達(dá)能力。其中tf值=(該詞匯在該文本中出現(xiàn)的次數(shù))/(該文本詞匯總數(shù)),用以表示該詞匯在文本中出現(xiàn)的頻率,tf值越高說明該詞對(duì)這篇文本重要性越大;idf值表示逆文本頻率,代表了詞匯區(qū)分文本的能力,之所以引入idf值,是因?yàn)閱螁尾捎胻f值并不能用來表示一篇文本,例如在所有的文本中,“的”字出現(xiàn)的頻率最高,但是虛詞“的”在多數(shù)語境下卻是沒有意義的。idf值=(出現(xiàn)該詞匯的文本數(shù)/文本總數(shù))。最終的idf值就是tf值與idf值的乘積,我們可以看出,tf-idf值具有去掉一般詞匯,保留特定文本重要詞匯的能力。1 改進(jìn)tf-i

13、df算法傳統(tǒng)的tf-idf算法用于表示詞匯對(duì)于某特定文本的重要程度,我們可以將這樣的概念借鑒到詞匯對(duì)特定類別的重要程度中,改進(jìn)的tf-idf算法就是用來選出那些對(duì)于特定類別比較重要的關(guān)鍵詞。在詞匯對(duì)特定類別重要程度中,tf值我們用c_tf表示,idf值我們用c_idf表示。對(duì)于c_tf值,我們定義如下計(jì)算公式:c_tfi=wiw其中,c_tfi表示某類中關(guān)鍵詞ki的tf值,wi表示該類中每篇文章中關(guān)鍵詞ki的權(quán)重wi之和,w表示該類中所有關(guān)鍵詞的權(quán)重之和。對(duì)于c_tf值,我們定義如下計(jì)算公式:c_idfi=c_tfic_tf其中,c_idfi表示某類中關(guān)鍵詞ki的idf值,c_tf表示每個(gè)類中

14、關(guān)鍵詞ki的tf值之和。相比傳統(tǒng)的tf-idf值,這里的c_tfi的定義沒有太大變化,只不過把詞數(shù)之比換成了詞權(quán)重之和的比,加入了詞權(quán)重的影響。而tf-idf值相比傳統(tǒng)計(jì)算公式有較大改動(dòng)。試想這樣一種情況:A詞和B詞在文章1中出現(xiàn)的頻率相同且較大;A詞在其它文章中出現(xiàn)的頻率很大,B詞在其他文章中都只出現(xiàn)1次。按照原有的方法,在文章1中,A詞和B詞的tf-idf值將會(huì)是一樣的,而顯然A詞表達(dá)文章1的重要程度不及B詞。而通過我們重新定義的方法,這種問題則可以得到有效改善。部分關(guān)鍵詞在所有一級(jí)類目中的tf-idf值如下:表 5 部分關(guān)鍵詞在五個(gè)一級(jí)類目中的tf-idf值 對(duì)于某個(gè)一級(jí)類目下的關(guān)鍵詞在

15、每個(gè)二級(jí)類目中tf-idf的值可以用同樣的方法算出,這里不再贅述。2 選擇類別特征關(guān)鍵詞由于每個(gè)類別下都有幾千個(gè)關(guān)鍵詞,類別特征向量維度較高,容易造成數(shù)據(jù)噪音等問題,因此降低關(guān)鍵詞向量的維度迫在眉睫。一個(gè)最直接的方法就是根據(jù)前面計(jì)算的tf-idf值進(jìn)行篩選。在實(shí)際操作中,我們分別測(cè)試了下列幾種情況得到的類別特征的分類效果,以此確定了類別特征提取的最佳維度:考慮所有的關(guān)鍵詞構(gòu)成類別特征向量;考慮以tf-idf值大于0.0001的關(guān)鍵詞構(gòu)成的類別特征向量;考慮以tf-idf值大于0.001的關(guān)鍵詞構(gòu)成的類別特征向量;考慮以tf-idf值大于0.01的關(guān)鍵詞構(gòu)成的類別特征向量;考慮以tf-idf值大

16、于0.05的關(guān)鍵詞構(gòu)成的類別特征向量。五、距離判別及分類結(jié)果本文采用距離判別法對(duì)新聞進(jìn)行自動(dòng)分類。在實(shí)際分類的時(shí)候,需要計(jì)算待分類項(xiàng)與各個(gè)類別之間的距離,常用的距離有歐氏距離,馬氏距離等7。在計(jì)算新聞文本向量與類別特征向量的相似度時(shí),我們采用在文本領(lǐng)域廣泛運(yùn)用、且被證明是有效的余弦相似度方法。具體來說,就是將待分類的新聞文本向量與每個(gè)類別特征向量進(jìn)行相似度的計(jì)算,把新聞分給與之相似度最大的類別。通過比較待分類新聞原始類別和模型預(yù)測(cè)的類別來評(píng)價(jià)分類效果。例如兩篇文本U和V,其中U的關(guān)鍵詞向量為:U=ku1,wu1,ku2,wu2,kuj,wuj,(kum,wum)而V 的關(guān)鍵詞向量為:V=kv1

17、,wv1,kv2,wv2,kvj,wvj,(kvm,wvm)那么U和V的余弦相似度可以由如下公式計(jì)算:Sim(U,V)=kuKVwui*wvi|UW|*|VW|其中,Sim(U,V)表示U和V的余弦相似度,分子表示U和V共有的那部分關(guān)鍵詞的權(quán)重的乘積之和,分母表示U和V各自權(quán)重的模的乘積。由于各個(gè)關(guān)鍵詞的權(quán)重非負(fù),因此余弦相似度一定在0,1之間,Sim(U,V)值越大表示二者越相似,值越小表示二者越不相似。1 一級(jí)類目自動(dòng)分類在一級(jí)類目分類中,我們將測(cè)試集中的每一條新聞向量與5個(gè)一級(jí)類目的特征向量進(jìn)行余弦相似度計(jì)算,把新聞分至與之余弦相似度最大(也就是距離最小)的一級(jí)類目,分類結(jié)果及準(zhǔn)確率如下

18、表所示:表 6 新聞分類結(jié)果及準(zhǔn)確率(一級(jí)類目)上表中,第1列和第1行表示待分類的大類,第2列表示對(duì)應(yīng)大類中待分類新聞的數(shù)量,中間的數(shù)字表示該行對(duì)應(yīng)大類下的新聞?dòng)卸嗌俦环值皆摿袑?duì)應(yīng)的大類,最后一列則表示分類的正確率。例如第2行表示IT類有新聞415條,其中307條分到了IT類,92條分到了財(cái)經(jīng)類,IT類新聞的分類正確率為73.98%。由表中可以看出,娛樂類新聞的正確率最高,達(dá)到了96.12%。此外我們分別測(cè)試了前面介紹的5種不同關(guān)鍵詞閾值的類別特征提取方法,得到了各個(gè)情況下一級(jí)類目分類的平均正確率,測(cè)試結(jié)果如下: 圖 1不同類別特征提取閾值下的分類平均準(zhǔn)確率可以看出,整體分類準(zhǔn)確率達(dá)到87%,

19、而且類別特征提取的閾值可以設(shè)定為0.0001,這樣大大降低了類別特征關(guān)鍵詞向量的維度(大約減少了60%的關(guān)鍵詞),并且分類正確率也沒有明顯變化。具體從每個(gè)大類的分類效果看,IT類的分類正確率最差,只有74%左右。究其原因,我們發(fā)現(xiàn)原本屬于IT類的文本中,有一小部分分給了財(cái)經(jīng)類,出現(xiàn)這樣的結(jié)果是因?yàn)镮T類和財(cái)經(jīng)類有部分內(nèi)容交叉。在IT事業(yè)中,部分內(nèi)容會(huì)與財(cái)經(jīng)事業(yè)緊密聯(lián)系,這樣的類別我們稱為交叉類別,交叉類別嚴(yán)重影響了分類準(zhǔn)確率。通過不斷測(cè)試,我們發(fā)現(xiàn)這樣的問題可以通過降低待分類新聞文本向量的維度加以改善。我們分別按照100%,30%,20%,10%,5%,4%,3%,2%的比例從原始關(guān)鍵詞向量中

20、選取關(guān)鍵詞作為新聞文本向量的關(guān)鍵詞,計(jì)算了每種情況下的IT大類下分類的正確率,各種情況下分類正確率變化的折線圖如下:圖 2 各新聞向量維度下IT類分類正確率可以發(fā)現(xiàn),隨著關(guān)鍵詞維度數(shù)量的降低,分類正確率不斷提高,在相對(duì)于原始3%的關(guān)鍵詞時(shí)分類正確率最高,達(dá)到83.13%;而后分類正確率又隨著關(guān)鍵詞數(shù)量減少而降低。因此,當(dāng)某類別的分類效果不是很好的時(shí)候,可以適當(dāng)降低新聞關(guān)鍵詞向量的維度,以降低數(shù)據(jù)噪音對(duì)分類效果的影響。2 二級(jí)類目自動(dòng)分類在對(duì)一級(jí)類目進(jìn)行分類測(cè)試后,我們認(rèn)為類別關(guān)鍵詞的最佳閾值可以設(shè)為0.0001,因此在二級(jí)類目分類中,我們首先用在類別特征中關(guān)鍵詞權(quán)重超過0.0001的關(guān)鍵詞構(gòu)成

21、類別特征向量,并且只測(cè)試了在此類別特征向量的情況下各個(gè)二級(jí)類目的推薦效果,測(cè)試結(jié)果如下圖所示:圖 3 各一級(jí)類目下二級(jí)類目分類正確率可以看出,二級(jí)類目分類的正確率不足一級(jí)類目,評(píng)價(jià)只有58.57%。這主要是因?yàn)橄鄬?duì)于一級(jí)類目來說,同一個(gè)一級(jí)類目下的二級(jí)類目間相似度比較高,不易區(qū)分,尤其是財(cái)經(jīng)類下的二級(jí)類目之間相似度很大,給機(jī)器的自動(dòng)分類造成了困難。同樣我們減少新聞文本向量的維度,發(fā)現(xiàn)在關(guān)鍵詞比例為10%的時(shí)候分類的正確率最高,不過也僅僅提高了1-2%。可能的解決方法是提高idf值的權(quán)重,因?yàn)閕df值能夠反映詞區(qū)分類別的能力。在前面的研究中,我們得到idf值直接使用tf值*idf值,那么是不是增

22、加idf值在tf-idf中的權(quán)重可以改善這種在類別相似度較高的情況下分類效果呢?由于本次研究使用的計(jì)算機(jī)性能不足,每更改一次tf-idf值所帶來的時(shí)間成本較大,鑒于時(shí)間因素,這種猜想只能留到以后加以驗(yàn)證。六、創(chuàng)新與不足1 創(chuàng)新本項(xiàng)研究的創(chuàng)新之處如下:在前人研究的基礎(chǔ)上,提出了一種不同于KNN分類算法的、基于類別特征提取的分類方法,該方法的優(yōu)點(diǎn)就是將傳統(tǒng)KNN算法的時(shí)間成本轉(zhuǎn)移到線下,大大提高了新聞分類的效率;通過降低新聞關(guān)鍵詞向量的維度,一定程度上提高了交叉類別的分類正確率;自行抓取中新網(wǎng)上已有分類體系下最新的新聞作為數(shù)據(jù)集,保證了數(shù)據(jù)的可靠性與新穎性;相比已有的研究,增加了對(duì)二級(jí)類目的分類測(cè)

23、試。2 不足考慮到時(shí)間的限制,未能夠?qū)π侣剺?biāo)題和正文的權(quán)重進(jìn)行多次設(shè)置;同時(shí)也未能夠?qū)f值和idf值進(jìn)行不同權(quán)重的分配。因此大類分類正確率以及交叉類別的分類效果都還有一定的改進(jìn)空間。由于和已有研究在數(shù)據(jù)集上不一致,加之時(shí)間的限制,未能夠?qū)⒈敬窝芯克岢龅姆诸惙椒ㄅc已有方法進(jìn)行比較,從而難以衡量本次研究是否提高新聞自動(dòng)分類的效果。七、結(jié)束語本文在文本分類領(lǐng)域經(jīng)典的向量空間模型的基礎(chǔ)上,改進(jìn)了tf-idf算法,提出了類別關(guān)鍵詞提取的方法,將傳統(tǒng)分類方法的時(shí)間成本轉(zhuǎn)移到線下,保證了分類的性能。最后通過降低新聞文本向量維度的方法,一定程度上改善了交叉類別的分類效果。我們將來的研究將主要集中在以下幾點(diǎn)

24、:進(jìn)一步改善本文研究的不足之處;除了考慮新聞的標(biāo)題和正文,我們將結(jié)合新聞的時(shí)間、人物以及詞位置等特征加以深入研究。希望能為Web新聞自動(dòng)分類乃至更為復(fù)雜的網(wǎng)頁信息自動(dòng)分類做出自己應(yīng)有的貢獻(xiàn)。參考文獻(xiàn)1 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心. 中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告 EB/OL. 2015-3-18. 2 沈加. 基于SVM模型的新聞分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)D.電子科技大學(xué),20133 周遠(yuǎn)陽. 基于樸素貝葉斯方法的新聞分類系統(tǒng)的實(shí)現(xiàn)D.暨南大學(xué),20124 潘正高,侯傳宇,談成訪. 基于命名實(shí)體的Web新聞文本分類方法J. 合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,08:1178-11825 中國(guó)新聞社. 中國(guó)新聞網(wǎng) EB/OL. 2015-3-18. http:/www.chinA6 魏程,劉魯,翟銘. 一種四維向量空間模型的Web新聞文本分類方法J. 微計(jì)算機(jī)應(yīng)用,2010,03:58-627 孫海燕, 周夢(mèng), 李衛(wèi)國(guó), 馮偉. 數(shù)理統(tǒng)計(jì)M. 北京航空航天大學(xué)出版社, 2016An automatic classification for Web-News based on Vector Space Model and Categ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論