文本分類(lèi)綜述_第1頁(yè)
文本分類(lèi)綜述_第2頁(yè)
文本分類(lèi)綜述_第3頁(yè)
文本分類(lèi)綜述_第4頁(yè)
文本分類(lèi)綜述_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)算機(jī)與信息技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)自然語(yǔ)言處理技術(shù)文本分類(lèi)綜述王素格(教授)劉杰飛2014級(jí)201422403003山西大學(xué)研究生學(xué)位課程論文(2014-2015學(xué)年第2學(xué)期)學(xué)院(中心、所):專(zhuān)業(yè)名稱(chēng):課程名稱(chēng):論文題目:授課教師(職稱(chēng))研究生姓名:年級(jí):學(xué)號(hào):成績(jī):評(píng)閱日期:山西大學(xué)研究生學(xué)院2015年6月2日文本分類(lèi)綜述摘要文本分類(lèi)就是在給定的分類(lèi)體系下,讓計(jì)算機(jī)根據(jù)給定文本的內(nèi)容,將其判別為事先確定的若干個(gè)文本類(lèi)別中的某一類(lèi)或某幾類(lèi)的過(guò)程。文本分類(lèi)在冗余過(guò)濾、組織管理、智能檢索、信息過(guò)濾、元數(shù)據(jù)提取、構(gòu)建索引、歧義消解、文本過(guò)濾等方面有很重要的應(yīng)用。本文主要介紹文本分類(lèi)的研究背景,跟蹤

2、國(guó)內(nèi)外文本分類(lèi)技術(shù)研究動(dòng)態(tài)。介紹目前文本分類(lèi)過(guò)程中的一些關(guān)鍵技術(shù),以及流形學(xué)習(xí)在文本分類(lèi)中降維的一些應(yīng)用。并且討論目前文本分類(lèi)研究面臨的一些問(wèn)題,及對(duì)未來(lái)發(fā)展方向的一些展望。關(guān)鍵詞文本分類(lèi);特征選擇;分類(lèi)器;中文信息處理1 .引言上世紀(jì)九十年代以來(lái),因特網(wǎng)以驚人的速度發(fā)展起來(lái),到現(xiàn)在我們進(jìn)入大數(shù)據(jù)時(shí)代互聯(lián)網(wǎng)容納了海量的各種類(lèi)型的數(shù)據(jù)和信息,包括文本、聲音、圖像等。這里所指的文本可以是媒體新聞、科技、報(bào)告、電子郵件、技術(shù)專(zhuān)利、網(wǎng)頁(yè)、書(shū)籍或其中的一部分。文本數(shù)據(jù)與聲音和圖像數(shù)據(jù)相比,占用網(wǎng)絡(luò)資源少,更容易上傳和下載,這使得網(wǎng)絡(luò)資源中的大部分是以文本(超文本)形式出現(xiàn)的。如何有效地組織和管理這些信息

3、,并快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是當(dāng)前信息科學(xué)和技術(shù)領(lǐng)域面臨的一大挑戰(zhàn)。基于機(jī)器學(xué)習(xí)的文本分類(lèi)系統(tǒng)作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在給定的分類(lèi)模型下,根據(jù)文本的內(nèi)容自動(dòng)對(duì)文本分門(mén)別類(lèi),從而更好地幫助人們組織文本、挖掘文本信息,方便用戶準(zhǔn)確地定位所需的信息和分流信息。利用文本分類(lèi)技術(shù)可以把數(shù)量巨大但缺乏結(jié)構(gòu)的文本數(shù)據(jù)組織成規(guī)范的文本數(shù)據(jù),幫助人們提高信息檢索的效率。通過(guò)對(duì)文本信息進(jìn)行基于內(nèi)容的分類(lèi),自動(dòng)生成便于用戶使用的文本分類(lèi)系統(tǒng),從而可以大大降低組織整理文檔耗費(fèi)的人力資源,幫助用戶快速找到所需信息。因此文本分類(lèi)技術(shù)得到日益廣泛的關(guān)注,成為信息處理領(lǐng)域最重要的研究方向之

4、一。2 .文本分類(lèi)技術(shù)的發(fā)展歷史及現(xiàn)狀2.1 文本分類(lèi)技術(shù)發(fā)展歷史國(guó)外自動(dòng)分類(lèi)研究始于1950年代末,早期文本分類(lèi)主要是基于知識(shí)工程,通過(guò)手工定義一些規(guī)則來(lái)對(duì)文本進(jìn)行分類(lèi),這種方法費(fèi)時(shí)費(fèi)力,還需要對(duì)某一領(lǐng)域有足夠的了解,才能提煉出合適的規(guī)則。H.P.Luhn在這一領(lǐng)域進(jìn)行了開(kāi)創(chuàng)性的研究,他將詞頻統(tǒng)計(jì)的思想用于文本分類(lèi)中。這一時(shí)期,主要是分類(lèi)理論的研究,并將文本分類(lèi)應(yīng)用用于信息檢索。在這一段時(shí)期,提出了很多經(jīng)典文本分類(lèi)的數(shù)學(xué)模型。比如1960年Maron在JournalofASMk發(fā)表了有關(guān)自動(dòng)分類(lèi)的第篇論文“OnrelevanceProbabiliticindexingandinformari

5、onretriral:這是Maron和Kuhns提出概的率標(biāo)引(Probabiliticindexing)模型在信息檢索上的應(yīng)用。還有Salton提出利用向量空間模型(VectorSpaceModel,VSM)對(duì)文本進(jìn)行描述等等。20世紀(jì)80年代,這一階段主要采用傳統(tǒng)的知識(shí)工程技術(shù),根據(jù)專(zhuān)家提供的知識(shí)形成規(guī)則,手工建立分類(lèi)器。這一段時(shí)期,信息檢索技術(shù)逐漸成熟,為文本分類(lèi)提供了許多技術(shù)支持,比如1962年H.Borko等人提出了利用因子分析法進(jìn)行文獻(xiàn)的自動(dòng)分類(lèi)。Rocchio在1972年提出了再用戶查詢中不斷通過(guò)用戶反饋來(lái)修正類(lèi)權(quán)重向量,來(lái)構(gòu)成簡(jiǎn)單的線性分類(lèi)器,還有VanRiJsbergen提出

6、了信息檢索的評(píng)估標(biāo)準(zhǔn)如準(zhǔn)確率,查全率等。20世紀(jì)90年代后進(jìn)入第三階段,隨著網(wǎng)上在線文本的大量涌現(xiàn)和機(jī)器學(xué)習(xí)的興起,大規(guī)模的文本(包括網(wǎng)頁(yè))分類(lèi)和檢索重新引起研究者的興趣。文本分類(lèi)系統(tǒng)首先通過(guò)在預(yù)先分類(lèi)好的文本集上訓(xùn)練,建立一個(gè)判別規(guī)則或分類(lèi)器,從而對(duì)未知類(lèi)別的新樣本進(jìn)行自動(dòng)歸類(lèi)。大量的結(jié)果表明它的分類(lèi)精度比得上專(zhuān)家手工分類(lèi)的結(jié)果,并且它的學(xué)習(xí)不需要專(zhuān)家干預(yù),能適用于任何領(lǐng)域的學(xué)習(xí),使得它成為目前文本分類(lèi)的主流方法。比如1992年,Lewis在他的博士論文«RepresentationandLearninginInformationRetrieval»中系統(tǒng)的介紹了文本分類(lèi)

7、系統(tǒng)實(shí)現(xiàn)方法的各個(gè)細(xì)節(jié),并且在自己建立的數(shù)據(jù)集上進(jìn)行了測(cè)試。這篇博士論文是文本分類(lèi)領(lǐng)域的經(jīng)典之作。后來(lái)的研究者在特征的降維和分類(lèi)器的設(shè)計(jì)方面做了大量的工作。YangYiming對(duì)各種特征選擇算法進(jìn)行了分析比較,討論了文檔頻率(DocumentFrequency,DF)、信息增益(InformatiobGain,IG)、互信息(Multi-information,MI)和CHI等方法,結(jié)合KNN分類(lèi)器,得出IG和CHI方法分類(lèi)效果相對(duì)較好的結(jié)論,對(duì)后來(lái)的研究起到了重要的參考作用。新加坡的HweeTouNG等人研究了用PerceptronLearning的方法進(jìn)行文本分類(lèi),使用了一直樹(shù)狀的分類(lèi)結(jié)構(gòu)

8、,大大提高了準(zhǔn)確率。1995年,Vipink基于統(tǒng)計(jì)理論提出了支持向量機(jī)SVM(SupportVectorMachine)方法,基本思想是想找到最優(yōu)的高維分類(lèi)超平面。后來(lái)有人將線性核函數(shù)的支持向量機(jī)應(yīng)用與文本分類(lèi),與傳統(tǒng)的算法比較在性能上得到了很大的提高,后來(lái)也提出了AdaBoost算法框架,比較有代表性的有RealAdaBoost,GentleBoost,LogitBoost等。這些Boosting算法均己被應(yīng)用到文本分類(lèi)的研究中,并且取得和支持矢量機(jī)一樣好的效果。2.2 文本分類(lèi)國(guó)內(nèi)外發(fā)展現(xiàn)狀國(guó)外在自動(dòng)文本分類(lèi)以及相關(guān)的信息檢索、信息抽取領(lǐng)域進(jìn)行了較為深入的研究。八十年代,自動(dòng)文本分類(lèi)以知

9、識(shí)工程的方法為主,根據(jù)領(lǐng)域?qū)<覍?duì)給定文本集合的分類(lèi)經(jīng)驗(yàn),人工提取出一組邏輯規(guī)則,作為計(jì)算機(jī)自動(dòng)文本分類(lèi)的依據(jù)。進(jìn)入九十年代,基于統(tǒng)計(jì)的自動(dòng)文本分類(lèi)方法日益受到重視,它在準(zhǔn)確率和穩(wěn)定性方面具有明顯的優(yōu)勢(shì)。到目前為止,國(guó)外的文本自動(dòng)分類(lèi)研究已經(jīng)從最初的可行性基礎(chǔ)研究經(jīng)歷了實(shí)驗(yàn)性研究進(jìn)入實(shí)用的階段,并在郵件分類(lèi)、電子會(huì)議、信息過(guò)濾等方面取得了較為廣泛的應(yīng)用。國(guó)外當(dāng)前流行的文本分類(lèi)算法有Rocchio法及其變異算法、k近鄰法(KNN、決策樹(shù)、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)(SVM等方法,這些方法在英文以及歐美語(yǔ)種的文本分類(lèi)上有廣泛的研究,并且KN明口SVm確實(shí)是英文分類(lèi)的最好方法。國(guó)外對(duì)英文文本分

10、類(lèi)領(lǐng)域的各個(gè)問(wèn)題都有相當(dāng)深入的研究,對(duì)幾種流行的方法進(jìn)行了大量的對(duì)比研究。國(guó)內(nèi)對(duì)文本分類(lèi)研究比較晚,1981年,侯漢清教授首先探討和介紹了國(guó)外文本分類(lèi)的研究情況。隨后,國(guó)內(nèi)很多學(xué)者在這方面進(jìn)行了比較深入的研究。1995年,清華大學(xué)電子工程系的吳軍研制的漢語(yǔ)語(yǔ)料自動(dòng)分類(lèi)系統(tǒng),以語(yǔ)料相關(guān)系數(shù)作為分類(lèi)依據(jù),以字頻、詞頻及常用搭配為補(bǔ)充,采用停用詞表排除非特征詞,進(jìn)行人工指導(dǎo)分類(lèi)。1998年,東北大學(xué)的計(jì)算機(jī)系的張?jiān)陆堋⒁μ祉樠兄频男侣務(wù)Z料漢語(yǔ)文本自動(dòng)分類(lèi)模型,通過(guò)計(jì)算預(yù)定義類(lèi)別和文本特征項(xiàng)之間相關(guān)性來(lái)進(jìn)行自動(dòng)分類(lèi)。1999年,鄒濤、王繼成等開(kāi)發(fā)的中文技術(shù)文本分類(lèi)系統(tǒng)CTDS(ChineseTechn

11、icalDocumentClassificationSystem)采用了向量空間模型和基于統(tǒng)計(jì)的特征詞提取技術(shù),能夠根據(jù)文本的具體內(nèi)容將其分配到一個(gè)或多個(gè)類(lèi)別。此外,國(guó)內(nèi)很多學(xué)者對(duì)中文文本分類(lèi)算法也進(jìn)行了深入的研究,黃萱箸等提出一種基于機(jī)器學(xué)習(xí)的、獨(dú)立于語(yǔ)種的文本分類(lèi)模型。周水庚等在論述隱含語(yǔ)義索引的理論基礎(chǔ),研究了隱含語(yǔ)義索引在中文文本處理中的應(yīng)用。李榮陸等使用最大嫡模型對(duì)中文文本分類(lèi)進(jìn)行了研究。張劍等提出一種以WordNet語(yǔ)言本體庫(kù)為基礎(chǔ),建立文本的概念向量空間模型作為文本特征向量的特征提取方法。朱靖波等將領(lǐng)域知識(shí)引入文本分類(lèi),利用領(lǐng)域知識(shí)作為文本特征,提出一種基于知識(shí)的文本分類(lèi)方法。相

12、比于英文文本分類(lèi),中文文本分類(lèi)的一個(gè)重要差別在與預(yù)處理階段,中文文本的讀取首先需要分詞,不同于英文文本的空格區(qū)分,從簡(jiǎn)單的查詞典的方法到后來(lái)的基于統(tǒng)計(jì)語(yǔ)言模型的分詞方法,中文分詞技術(shù)經(jīng)過(guò)多年的發(fā)展已經(jīng)趨于成熟。比較有影響力的有中國(guó)科學(xué)院計(jì)算所開(kāi)發(fā)的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS很長(zhǎng)一段時(shí)間由于中文文本分類(lèi)的研究沒(méi)有公開(kāi)的數(shù)據(jù)集,使得分類(lèi)算法難以比較,現(xiàn)在一般采用北京大學(xué)建立的人民日?qǐng)?bào)語(yǔ)料庫(kù)和清華大學(xué)建立的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)等。一旦經(jīng)過(guò)預(yù)處理將中文文本變成了樣本矢量的數(shù)據(jù)矩陣,那么隨后的文本分類(lèi)過(guò)程就可以參考英文文本分類(lèi)的方法,因此當(dāng)前的中文文本分類(lèi)主要集中在如何利用中文文本本身的一些特征來(lái)更好的表

13、示文本樣本,國(guó)內(nèi)外很多學(xué)者在基于知識(shí)和統(tǒng)計(jì)的兩種方法上對(duì)中文文本分類(lèi)進(jìn)行了大量的研究,主要有基于詞典的自動(dòng)分類(lèi)系統(tǒng)和基于專(zhuān)家系統(tǒng)的分類(lèi)系統(tǒng)。這其中上海交通大學(xué),清華大學(xué),北京大學(xué),東北大學(xué),山西大學(xué),新加坡香港的一些大學(xué)都有顯著的研究成果。3 .文本分類(lèi)關(guān)鍵技術(shù)一個(gè)完整的文本分類(lèi)過(guò)程主要包括以下幾部分首先是預(yù)處理,根據(jù)采用的分類(lèi)模型將文檔集表示成易于計(jì)算機(jī)處理的形式;對(duì)文本類(lèi)別進(jìn)行人工標(biāo)注;對(duì)文本進(jìn)行特征提取;再次是根據(jù)預(yù)處理的訓(xùn)練集(已預(yù)知類(lèi)別的文檔)學(xué)習(xí)建模,構(gòu)建出分類(lèi)器;最后利用測(cè)試集文檔按一定的測(cè)試方法測(cè)試建立好的分類(lèi)器的性能,并不斷反饋、學(xué)習(xí)提高該分類(lèi)器性能直至達(dá)到預(yù)定的目標(biāo)。具體流

14、程圖如下:圖1文本分類(lèi)流程圖3.1 文本預(yù)處理文本預(yù)處理包括字符編碼轉(zhuǎn)換,去掉網(wǎng)頁(yè)中導(dǎo)航信息、tag標(biāo)記等,去掉一些低頻詞和停止詞比如“的”“啊”“the”“a”等,另外要去掉單詞前后綴,還有就是詞性標(biāo)注,短語(yǔ)識(shí)別,去除停用詞,數(shù)據(jù)清洗也就是去除噪聲文檔或者垃圾數(shù)據(jù)還有詞頻的統(tǒng)計(jì),這里重點(diǎn)介紹自然語(yǔ)言處理技術(shù)范疇的中文分詞和文本表示。3.1.1 中文分詞介紹由于中文語(yǔ)言的的特點(diǎn),同一句話可能有不同的分詞方式導(dǎo)致不同的意思,所以對(duì)文本分類(lèi)首先要進(jìn)行分詞。目前比較成功的分詞系統(tǒng)有北京航空航天大學(xué)的CDWS山西大學(xué)的ABWS采用聯(lián)想回溯來(lái)解決引起組合切分歧義,正確率達(dá)到了98.6%,還有哈工大統(tǒng)計(jì)分

15、詞系統(tǒng),北大計(jì)算語(yǔ)言所分詞系統(tǒng),復(fù)旦分詞系統(tǒng)等等,根據(jù)有無(wú)詞典切分,基于規(guī)則統(tǒng)計(jì)切分,現(xiàn)有的分詞算法主要有三類(lèi)分別是基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。(1)基于字符串匹配的分詞方法這種機(jī)械分詞方法是按照一定策略將待分析的漢字串與一個(gè)充分大的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功。根據(jù)掃描方式分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,分為最大和最小匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。目前常用的有正向最大匹配算法(FMM)、逆向最大匹配算法(BMM)、還有結(jié)合前兩種方法優(yōu)點(diǎn)的雙向最大

16、匹配算法(Bi-directionalMM),還有最少分詞法也叫最短路徑法,這是屬于貪心算法的一種思想。還有一種是改進(jìn)掃描方式,稱(chēng)為特征掃描或者標(biāo)志切分,優(yōu)先把一些帶有明顯特征的詞作為斷電,將原來(lái)的字符串分為較小的串再進(jìn)行機(jī)械切分,從而提高準(zhǔn)確率,還有就是將分詞和詞性標(biāo)注結(jié)合起來(lái),利用豐富的詞類(lèi)信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,極大的提高切分準(zhǔn)確率。(2)基于理解的分詞方法基于理解的分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,從而達(dá)到分詞的效果,也就是在分詞的同時(shí)進(jìn)行句法,語(yǔ)義分析,利用局發(fā)信息和語(yǔ)義信息來(lái)進(jìn)行歧義消解。這種分詞方法需要大量的語(yǔ)言知識(shí)和信息,由于漢

17、語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng),復(fù)雜性,很難將各種語(yǔ)言信息組織成機(jī)器可以直接讀取的形式,所以目前還處于研究階段。(3)基于統(tǒng)計(jì)的分詞方法基于統(tǒng)計(jì)的分詞思想在于利用字與字之間和詞與詞之間共同出現(xiàn)的概率作為分詞的依據(jù)。這種方法屬于無(wú)詞典分詞,只需要對(duì)語(yǔ)料庫(kù)中的字組頻度進(jìn)行統(tǒng)計(jì),定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字的相鄰共現(xiàn)概率,這種互現(xiàn)信息反映了漢字之間的結(jié)合關(guān)系的緊密程度,當(dāng)緊密程度高于某一個(gè)閾值,我們可以認(rèn)為這個(gè)字組可能構(gòu)成了一個(gè)詞。但是這種方法的弊端在于對(duì)“這一”“我的”這些詞的辨識(shí)度不高,所以實(shí)際應(yīng)用中結(jié)合基本的分詞詞典進(jìn)行分詞。還有一些別的分詞方法比如我校劉開(kāi)瑛老師提出的串頻統(tǒng)計(jì)和詞形匹配結(jié)合的分詞方法

18、,還有許多好的分詞方法,在對(duì)中文進(jìn)行分詞時(shí),面臨兩個(gè)難題,一是進(jìn)行歧義消解,還有就是對(duì)未登錄詞的識(shí)別。對(duì)于歧義消解目前的研究工作室基于統(tǒng)計(jì)方法、詞性方法還有就是利用漢字獨(dú)有的二元關(guān)系來(lái)處理。對(duì)于未登錄詞主要是進(jìn)行詞性標(biāo)注,這方面北京大學(xué)和山西大學(xué)都做了很多工作。3.1.2 文本表示介紹不同于數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),文本使用自然語(yǔ)言,通常是非結(jié)構(gòu)化的,計(jì)算機(jī)很難直接對(duì)其進(jìn)行處理,因而在分類(lèi)之前要對(duì)文本做一定的預(yù)處理,抽取代表其本質(zhì)特征的元數(shù)據(jù)以結(jié)構(gòu)化形式保存,將非結(jié)構(gòu)化的文檔轉(zhuǎn)換為適合于學(xué)習(xí)算法以及分類(lèi)任務(wù)的表示形式,這詞,句還是其他所以詞性,標(biāo)點(diǎn)就是文本表示。對(duì)文本表示時(shí)首先要解決的是特征粒度的

19、選擇,是選擇字,來(lái)分類(lèi),研究表明基于此的分類(lèi)方法優(yōu)于字和基于二元同現(xiàn)串的分類(lèi)方法,符號(hào),語(yǔ)義模式作為了文檔特征。同學(xué)的文本表示方法有布爾模型(BooleanModel),向量空間模型(VectorSpaceModel),聚類(lèi)模型(ClusterModel),概率模型(ProbabilisticModel)和基于知識(shí)模型(Knowledge-BasedModel)等。(1)VSM1型G.Salton提出的向量空間模型有較好的計(jì)算性和可操作性,在信息檢索領(lǐng)域和文本分類(lèi)領(lǐng)域都得到了廣泛的應(yīng)用。VSM模型假設(shè)一份文本所屬分類(lèi)至于一些特定的詞在改文本中出現(xiàn)的頻率有關(guān),而與他出現(xiàn)在文本中位置或順序無(wú)關(guān),也

20、就是通過(guò)對(duì)構(gòu)成文本的詞項(xiàng)以及詞項(xiàng)出現(xiàn)的詞頻,來(lái)進(jìn)行分類(lèi)。對(duì)給定文檔D(T1,W1;T2,W2;Tn,Wn抽象為向量空間中,由于在文檔中Tk既可以重復(fù)出現(xiàn)又應(yīng)該有先后次序的關(guān)系,分析起來(lái)仍有一定的難度。為了簡(jiǎn)化分析,可以暫不考慮Tk在文檔中的先后順序,并要求文檔無(wú)異(即沒(méi)有重復(fù))這時(shí)可以把T1.Tn看成一個(gè)n維的坐標(biāo)系,而W1Wn為相應(yīng)坐標(biāo)值,這樣以%,匕一/乙)就可以看成n維空間的一個(gè)向量。Wi為第i個(gè)特征的權(quán)重,也就刻畫(huà)了詞項(xiàng)在表示文本內(nèi)容時(shí)的重要程度。(2)權(quán)值計(jì)算公式在一個(gè)給定的文本中,根據(jù)文本的長(zhǎng)度和詞項(xiàng)出現(xiàn)的頻率不同,詞的重要性也有所不同,在向量空間模型中這種重要性被稱(chēng)為權(quán)值;權(quán)值白

21、:計(jì)算主要依據(jù)下面兩個(gè)經(jīng)驗(yàn)性的結(jié)論:(1) 一個(gè)項(xiàng)在某文檔中出現(xiàn)的次數(shù)越多,它和該文檔的主題就越相關(guān)。(2) 一個(gè)項(xiàng)在選取的文檔集中出現(xiàn)的次數(shù)越多,它刻畫(huà)某個(gè)特定文檔特征的能力就越弱.最初特征權(quán)值計(jì)算采用布爾權(quán)值,也就是出現(xiàn)為1,不出現(xiàn)為0,這樣午飯?bào)w現(xiàn)其在文本中的中重要程度,目前普遍采用統(tǒng)計(jì)詞頻來(lái)賦權(quán)值,主要的計(jì)算方法有TFIDF公式。3xlog(/V/i0.01)'/A.十門(mén)。1)產(chǎn)共:中,郎(九1)為詞t在牙的權(quán)市.九之)為詞t在彳的詞頻,N為訓(xùn)練文本的總數(shù),叫為訓(xùn)練文本集中出現(xiàn)1的文本數(shù),分母為歸一化因子(3)相似度計(jì)算文本表示成向量以后,文本之間語(yǔ)義相似度可以通過(guò)空間中這兩個(gè)

22、向量間的幾何關(guān)系來(lái)度量,通常采用內(nèi)積,夾角余弦和相關(guān)系數(shù)來(lái)刻畫(huà)相似度。內(nèi)積函數(shù)是一種簡(jiǎn)單但常有的相似度計(jì)算函數(shù),在支持向量的分類(lèi)算法中經(jīng)常用到,而且效果也很好,公式如下:中叫。夾角余弦采用空間中兩個(gè)向量的夾角余弦值來(lái)度量語(yǔ)義相似度。兩個(gè)向量空間夾角越小,余弦值越大,語(yǔ)義相似度越大,反之亦然。計(jì)算公式如下:±2%*憶SURn)=GOS口=::J文卬巨仔3.2特征降維文本分類(lèi)的一個(gè)核心難題就是特征空間的高維性和文本表示向量的稀疏性。一個(gè)文檔集中的特征項(xiàng)動(dòng)輒就是上萬(wàn)維,這么高的維數(shù)特征不僅帶來(lái)極高的計(jì)算復(fù)雜度,產(chǎn)生維度災(zāi)難,也給分類(lèi)過(guò)程帶來(lái)了大量的噪音,且容易產(chǎn)生過(guò)度擬合的問(wèn)題,因而有必要

23、簡(jiǎn)化原始的特征集提高分類(lèi)的效率和精度,這種簡(jiǎn)化技術(shù)就是降維技術(shù)。降維技術(shù)主要分成兩大類(lèi);特征選擇和特征提取。特征選擇又稱(chēng)獨(dú)立評(píng)估法,其目的是濾除攜帶信息量較少的詞,只保留對(duì)分類(lèi)貢獻(xiàn)較大的詞。在特征選擇時(shí)一般都是利用某種評(píng)價(jià)函數(shù),獨(dú)立地對(duì)每個(gè)原始特征項(xiàng)進(jìn)行評(píng)分,然后按分值的高低將它們排序,從中選取若干個(gè)分彳1最高的特征項(xiàng),以達(dá)到減少總特征數(shù)的目的。因此,評(píng)價(jià)函數(shù)的好壞是影響特征選擇的關(guān)鍵問(wèn)題。常見(jiàn)的特征選擇方法有文檔頻率(DF)、信息增益(IG)、互信息(MI)、片"統(tǒng)計(jì)量(CHI-2)等。(1)文檔頻率詞條的文檔頻率(DocumentFrequency)是指在訓(xùn)練語(yǔ)料中出現(xiàn)該詞條的文

24、檔數(shù)。文檔頻率方法提取文檔頻率較高的特征,它的目的是去掉在訓(xùn)練集上出現(xiàn)次數(shù)過(guò)少和過(guò)多的特征,由于過(guò)少?zèng)]有代表性過(guò)多沒(méi)有區(qū)分度,保留具有一定影響力的特征。在各個(gè)特征提取方法中,DF方是最簡(jiǎn)單的。(2)信息增益對(duì)于特征詞條t和文檔類(lèi)別c,IG考察c中出現(xiàn)和不出現(xiàn)t的文檔頻數(shù)來(lái)衡量t對(duì)于c的信息增益,定義如下:一匯二尸©)呼仁)+尸匯:F©吐依+|T)lgP©|f)其中表示類(lèi)文檔在語(yǔ)料中出現(xiàn)的概率,P(t)表示語(yǔ)料中包含特征詞條t的文檔的概率,出表示文檔包含特征詞條t時(shí)屬于類(lèi)的條件概率,尸(手)表示語(yǔ)料中不包含特征詞條t的文檔的概率,尸皿1門(mén)表示文檔不包含特征詞條t時(shí)屬

25、于類(lèi)的條件概率,m表示文檔類(lèi)別數(shù)。信息增益的優(yōu)點(diǎn)在于,它考慮了詞條未發(fā)生的情況,即雖然某個(gè)單詞不出現(xiàn)也可能對(duì)判斷文本類(lèi)別有貢獻(xiàn)。但在類(lèi)分布和特征值分布是高度不平衡的情況下其效果就會(huì)大大降低了。(3)互信息互信息(MutualInformation)在統(tǒng)計(jì)語(yǔ)言模型中被廣泛使用。它是通過(guò)計(jì)算特征詞條類(lèi)別c之間的相關(guān)性來(lái)完成提取的。如果用A表示包含特征詞條t且屬于類(lèi)別c的文檔頻數(shù),B為包含t但是不屬于c的文檔頻數(shù),C表示屬于c但不包含t的文檔頻數(shù),N表示語(yǔ)料中文檔的總數(shù),t和c的互信息可由下式計(jì)算:W8”也QtKtK而(4)/統(tǒng)計(jì)量%工統(tǒng)計(jì)量度量特征詞條t和文檔類(lèi)別c之間的相關(guān)程度,并假設(shè)t和c之間

26、符合具有一階自由度的分布。特征詞條對(duì)于某類(lèi)的統(tǒng)計(jì)值越高,它與該類(lèi)之間的相關(guān)性越大,攜帶的類(lèi)別信息也越多。反之,統(tǒng)計(jì)量也是反映屬性t和類(lèi)別c之間的獨(dú)立程度。當(dāng)?shù)闹禐?時(shí),屬性t與類(lèi)別c完全獨(dú)立。比如對(duì)于兩類(lèi)分類(lèi)情況:令N表示訓(xùn)練語(yǔ)料中的文檔總數(shù),c為某一特定類(lèi)別,t表示特定白詞條。A表示屬于c類(lèi)且包含t的文檔頻數(shù),B表示不屬于c但是包含t的文檔頻數(shù)。C表示屬于c類(lèi)但是不包含t的文檔頻數(shù),D是既不屬于c也不包含t的文檔頻數(shù).其定義為:2z、N(AD-CB)2才F/,仁)=(A+CXB+D)且N=A+B">D統(tǒng)計(jì)量和互信息的差別在于它是一個(gè)歸一化的統(tǒng)計(jì)量,但它對(duì)低頻特征項(xiàng)的區(qū)分效果不

27、好(5)流形學(xué)習(xí)在降維中的應(yīng)用除了以上的降維方法還有文本證據(jù)權(quán),期望交叉嫡幾率比等,此處結(jié)合我的研究方向討論流形學(xué)習(xí)在降維過(guò)程中的應(yīng)用。流形學(xué)習(xí)放到是一種非線性降維方法,比如ISOMAPLLE、LE3。其中ISOMAPW法是建立在多維標(biāo)度變換算法的基礎(chǔ)上,考慮全局優(yōu)化的算法。通過(guò)構(gòu)造領(lǐng)域圖,測(cè)地線距離用歐氏距離直接近似,對(duì)非領(lǐng)域點(diǎn),則采用領(lǐng)域圖上兩個(gè)點(diǎn)的最短路勁近似,最后用多維標(biāo)度變換算法(MDS構(gòu)造低維嵌入。LLE則是將數(shù)據(jù)中全局非線性轉(zhuǎn)化成局部線性來(lái)討論,在構(gòu)造領(lǐng)域圖后計(jì)算重構(gòu)權(quán)值矩陣。利用樣本間的領(lǐng)域關(guān)系來(lái)重構(gòu)權(quán)值矩陣,對(duì)每個(gè)樣本,利用他的k個(gè)最近鄰的線性組合進(jìn)行重構(gòu),最后利用權(quán)值矩陣尋

28、找低維嵌入。3.3文本分類(lèi)算法及分類(lèi)器文本分類(lèi)算法是設(shè)計(jì)實(shí)現(xiàn)分類(lèi)器的理論基礎(chǔ),由于屬于機(jī)器學(xué)習(xí)的一個(gè)分支,許多經(jīng)典的機(jī)器學(xué)習(xí)算法都被應(yīng)用在文本分類(lèi)中來(lái),文本分類(lèi)的方法大部分來(lái)自于模式分類(lèi),基本上可以分為三大類(lèi):一種是基于統(tǒng)計(jì)的方法,如Na?veBayes,KNN類(lèi)中心向量、Rocchio算法及其變異方法、回歸模型、支持向量機(jī)、最大嫡模型等方法;另一種是基于連接的方法,即人工神經(jīng)網(wǎng)絡(luò);還有一種是基于規(guī)則的方法,如決策樹(shù)、關(guān)聯(lián)規(guī)則、粗糙集等,這些方法的主要區(qū)別在于規(guī)則獲取方法的不同。(1)Rocchio方法Rocchio方法是一種基于相似度的計(jì)算方法。基本思想是在訓(xùn)練階段為每個(gè)類(lèi)別ci建立一個(gè)代表

29、向量,其中|T|表示訓(xùn)練集中的特征總數(shù)。每類(lèi)文本集生成一個(gè)代表該類(lèi)的中(相似心向量,然后在新文本到來(lái)時(shí),確定新文本向量,計(jì)算該向量與每類(lèi)中心向量的距離度),從而判定文本屬于與文本距離最近的類(lèi)。其中類(lèi)別ci的代表向量的第k維彳twki由公式計(jì)算:Zw產(chǎn)鼻2L產(chǎn),嗎匕1丫N-mj其中,3為訓(xùn)練樣本中正例的控制參數(shù),丫為訓(xùn)練樣本中反例的控制參數(shù),|ci|表示訓(xùn)練樣本中正例的數(shù)目,N表示訓(xùn)練樣本的文檔總數(shù),正例指屬于類(lèi)別ci的文本,反例指不屬于類(lèi)別ci的文本。3和丫是兩個(gè)控制參數(shù),可以通過(guò)提高3降低丫來(lái)削弱反例的影響。具體執(zhí)行步驟是通過(guò)所有訓(xùn)練文本向量采用簡(jiǎn)單的算術(shù)平均計(jì)算每類(lèi)文本集的中心向量;(丫=

30、0),當(dāng)新文本到達(dá)后,分詞處理,將文本表示為特征向量;計(jì)算新文本特征向量和每類(lèi)中心向量間的相似度,公式為:一一一,-"F-',具"-一,i"S下產(chǎn)J(這X多2J)(2)樸素貝葉斯方法Na?veBayes是基吁二概率理論的學(xué)習(xí)和分類(lèi)方法,是一種常見(jiàn)的簡(jiǎn)單的線性分類(lèi)器。貝葉斯分類(lèi)是根據(jù)給定樣本描述的可能的類(lèi)別基礎(chǔ)上產(chǎn)生的后驗(yàn)概率分布。為了簡(jiǎn)化計(jì)算量,樸素貝葉斯是基于假定樣本特征項(xiàng)是相互獨(dú)立這一假設(shè)的,但是同時(shí)這也導(dǎo)致貝葉斯分類(lèi)器分類(lèi)效果不太理想。具體思路設(shè)各個(gè)類(lèi)別的集合為c1,c2,cn,設(shè)E為實(shí)例的描述,確定E的類(lèi)別。±P(c,|E)=¥

31、喘=1?6閨=?喘同尸二工尸尸出則根據(jù)先驗(yàn)概率:P(ci),條件概率:P(E|ci)就可以知道p(E),最終對(duì)其進(jìn)行分類(lèi)。(3) KNN分類(lèi)k近鄰分類(lèi)模型,是最著名的模式識(shí)別統(tǒng)計(jì)學(xué)方法之一,它在很早就被用于文本分類(lèi)研究,而且是取得最好結(jié)果的文本分類(lèi)算法之一,是一種穩(wěn)定而有效的文本分類(lèi)方法。采用KNN方法進(jìn)行文檔分類(lèi)的過(guò)程如下:對(duì)于某一給定待分類(lèi)的測(cè)試文本,考察和待分類(lèi)文本最相似的k篇文本,通過(guò)相似度找到與之最相似的k個(gè)訓(xùn)練文本。在此基礎(chǔ)上,給每個(gè)文本類(lèi)打分,分值為k個(gè)訓(xùn)練文本中屬于該類(lèi)的文本與測(cè)試文本之間的相似度之和。也就是說(shuō),如果在這k個(gè)文本中,有多個(gè)文本屬于一個(gè)類(lèi),則該類(lèi)的分值為這些文本與

32、測(cè)試文本之間的相似度之和。對(duì)這k個(gè)文本所屬類(lèi)的分值統(tǒng)計(jì)完畢后,即按分值進(jìn)行排序。另外還應(yīng)當(dāng)選定一個(gè)閾值,只有分值超過(guò)閾值的類(lèi)才予以考慮。最后根據(jù)分值對(duì)待分類(lèi)文本進(jìn)行分類(lèi)。具體操作如下首先根據(jù)特征項(xiàng)集合重新描述訓(xùn)練文本向量,在新文本到達(dá)后,根據(jù)特征詞,確定新文本的向量表示,在訓(xùn)練文本集中選出與新文本最相似的K個(gè)文本,計(jì)算公式為;在新文本的k個(gè)鄰居中,依次計(jì)算每類(lèi)的權(quán)重,計(jì)算公式:rffxr-VyA其札M為第文栩特征向量.獨(dú)30)為嬤計(jì)就也與上隊(duì)'»一乙1必"1”-螂的計(jì)算盤(pán)帆而疵i)為翅麟戰(zhàn)即颼耦于張心類(lèi)守聰函髓為1,否則為。:(4) SVM分類(lèi)支持向量機(jī)(Suppo

33、rtVectorMachine,SVM)是有貝爾實(shí)驗(yàn)室的小組一起開(kāi)發(fā)出來(lái)的,目前在文本分類(lèi)領(lǐng)域取得了很好的分類(lèi)質(zhì)量,它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,將原始數(shù)據(jù)壓縮到支持向量集合,學(xué)習(xí)得到分類(lèi)決策函數(shù),基本思想是做一個(gè)超平面作為決策平面,是正負(fù)模式之間的空白最大,也就是使得分類(lèi)錯(cuò)誤率最小,它通過(guò)非線性變換,將輸入向量映射到一個(gè)高維空間H,在H中構(gòu)造最優(yōu)分類(lèi)超平面,從而達(dá)到最好的泛化能力。在解決小樣本,非線性及高維模式識(shí)別問(wèn)題中有許多優(yōu)勢(shì)。其最有分類(lèi)超平面和支持向量如圖2:|圖2其中H1是支持向量,H是最優(yōu)分類(lèi)面。(5)決策樹(shù)方法DecisionTree方法著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)

34、表示形式的分類(lèi)規(guī)則。它采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論。所以從根到葉節(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則,整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。具體操作分為以下五步:1,對(duì)訓(xùn)練文本預(yù)處理和特征選擇,把文本表示為特征向量:2,生成樹(shù)(growthphase),用遞歸算法實(shí)現(xiàn)3,修剪生成樹(shù)(prunephase),利用向后剪枝法或向前剪枝法對(duì)前面生成的決策樹(shù)實(shí)行剪枝處理,去除那些對(duì)分類(lèi)影響不大的分支。4,依據(jù)最終形成的樹(shù),生成規(guī)則集;5,將待分類(lèi)的文本表示為文本向量,匹配規(guī)則集,得到所屬類(lèi)別。(6)其他分類(lèi)方法除了上面介紹的分類(lèi)方法之外還有基于神經(jīng)網(wǎng)絡(luò)(NN)的方法,基于投票的方法Bagging方法和Boosting方法,其中Bagging方法是訓(xùn)練R個(gè)分類(lèi)器fi,分類(lèi)器之間其他相同就是參數(shù)不同。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論