



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、虛點(diǎn):一種減少特征值鴻溝的方法林游龍1,2,余智華1,程學(xué)旗1,劉悅11中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京,100802中國(guó)科學(xué)院研究生院,北京,100190E-mail: linyoulong摘 要:基于向量空間模型的分類方法是目前各種分類方法廣泛使用的文檔結(jié)構(gòu)表示方法,在對(duì)基于向量空間模型的分類方法的研究發(fā)現(xiàn),基于向量空間模型的分類方法存在不合理之處,即特征值之間的“鴻溝”,這種鴻溝會(huì)導(dǎo)致向量空間模型中兩點(diǎn)之間的距離的計(jì)算出現(xiàn)偏差,本文介紹了一種使用虛點(diǎn)的方法,這種方法消除了特征值之間的鴻溝,使得分類的效果得到了提高。該方法是通過(guò)重新定義特征權(quán)重,調(diào)整向量空間模型中點(diǎn)的特征值,即相當(dāng)于重新定義
2、向量空間中的點(diǎn),這樣的點(diǎn)是相對(duì)于原來(lái)向量空間模型中的點(diǎn)的矯正映射,即就好像是虛擬點(diǎn)一樣,最后問(wèn)題歸結(jié)為計(jì)算向量空間模型中的點(diǎn)與虛擬點(diǎn)的映射函數(shù)。理論分析表明虛點(diǎn)方法能提高基于向量空間模型的分類方法的效果,在SVM中運(yùn)用虛點(diǎn)方法的實(shí)驗(yàn)結(jié)果表明,運(yùn)用虛點(diǎn)方法的SVM的精確度得到了提高,這種結(jié)果驗(yàn)證了本文提出的虛點(diǎn)方法的有效性。關(guān)鍵詞:虛點(diǎn);分類算法;特征權(quán)重;向量空間模型VPM: A Method to Bridge the Gap between FeaturesYoulong Lin1,2 , Zhihua Yu1, Xueqi Cheng1, Yue Liu11Institute of Co
3、mputing Technology, Chinese Academy of Sciences, Beijing, 100802Graduate University of Chinese Academy of Sciences, Beijing, 100190E-mail: linyoulongAbstract: Vector space model (VSM) is the widely used model in the representation of the document structure in a variety of classification methods. The
4、 research on the vector space model based classification method shows that there is unreasonable point, that is, the gap between the features, this gap will lead to the deviation in the calculation of the distance between the two points in vector space model. This paper proposes a method of the virt
5、ual point to eliminate the gap between two features which improve the performance of the text categorization. The method is to adjust the feature value of point in the vector space model by redefining the weight of feature which is equivalent to the redefinition of the point in the vector space. Com
6、pared with the point in the original vector space model, the point is assumed to be the correctly mapping, that is, like a virtual point. Finally the problem boils down to the calculating of the mapping function between the vector space model and of virtual vector space model. Theoretical analysis s
7、howed that the virtual-point method can improve the performance of text categorization based on the vector space model. The experimental results of the support vector machine categorization method using virtual-point show that the performance has been improved, which verify that the virtual-point me
8、thod is effective.Keywords: Virtual point, text categorization, feature weight, vector space model1 引言隨著信息時(shí)代的高速發(fā)展,如何對(duì)自然語(yǔ)言文本進(jìn)行挖掘,特別是對(duì)其按照設(shè)定的語(yǔ)義進(jìn)行正確的歸類,已經(jīng)成為組織大量文本信息的一個(gè)關(guān)鍵問(wèn)題,這就是文本挖掘中很重要的一類任務(wù)一文本分類1。自動(dòng)文本分類(Automatic Text Categorization)或者簡(jiǎn)稱為文本分類,是指計(jì)算機(jī)將一篇文章歸于預(yù)先給定的某一類或某幾類的過(guò)程2。隨著文本信息量的快速增長(zhǎng),文本分類已成為信息檢索、知識(shí)挖掘和管理等
9、領(lǐng)域的關(guān)鍵技術(shù)34。文本分類的精確程度取決于特征提取5和分類算法6。人們提出了很多文本分類方法,例如k-最近鄰分類法,貝葉斯分類,決策樹(shù)和神經(jīng)網(wǎng)絡(luò)7。最廣泛使用以及效果最好的文本分類方法是支持向量機(jī)與knn方法89。支持向量機(jī)是由Vapnik等人提出的一種學(xué)習(xí)技術(shù),是借助于最優(yōu)化方法解決機(jī)器學(xué)習(xí)問(wèn)題的新工具。它集成了最大間隔超平面、Mercer核、凸二次規(guī)劃、稀疏解和松弛變量等多項(xiàng)技術(shù)10。由于其具有全局最優(yōu)、結(jié)構(gòu)簡(jiǎn)單、推廣能力強(qiáng)等優(yōu)點(diǎn),近幾年得到了廣泛地研究并應(yīng)用于文本分類、模式識(shí)別等領(lǐng)域11。k-最近鄰居分類(KNN)方法基于類比學(xué)習(xí)12,采用SVM(向量空間模型)13表示文檔,是一種非參
10、數(shù)的分類技術(shù),在基于統(tǒng)計(jì)的模式識(shí)別中非常有效,對(duì)于未知和非正態(tài)分布可以取得較高的分類準(zhǔn)確率,具有魯棒性、概念清晰等諸多優(yōu)點(diǎn)14。本文在對(duì)基于向量空間模型的分類方法(如SVM 1516)的研究發(fā)現(xiàn),基于向量空間模型的分類方法存在不合理之處,即特征值之間的“鴻溝”,這種鴻溝會(huì)導(dǎo)致向量空間模型中兩點(diǎn)之間距離的計(jì)算出現(xiàn)偏差,由于目前基于向量空間模型的分類方法都沒(méi)有考慮到這種鴻溝,因此分類效果受到了一定的限制,因此要想進(jìn)一步提高分類效果,就必須解決這種偏差。本文介紹了一種使用虛點(diǎn)的方法,這種方法消除了特征值之間的鴻溝,使得分類的效果得到了提高。該方法是通過(guò)重新定義特征權(quán)重,調(diào)整向量空間模型中點(diǎn)的特征值,
11、即相當(dāng)于重新定義向量空間中的點(diǎn),這樣的點(diǎn)是相對(duì)于原來(lái)向量空間模型中的點(diǎn)的矯正映射,即就好像是虛擬點(diǎn)一樣,最后問(wèn)題歸結(jié)為計(jì)算向量空間模型中的點(diǎn)與虛擬點(diǎn)的映射函數(shù)。理論分析表明虛點(diǎn)方法能提高基于向量空間模型的分類方法的效果,在SVM中運(yùn)用虛點(diǎn)方法的實(shí)驗(yàn)結(jié)果表明,運(yùn)用虛點(diǎn)方法的SVM的精確度得到了提高,這種結(jié)果驗(yàn)證了本文提出的虛點(diǎn)方法的有效性。2 向量空間模型向量空間模型(Vector Space Model, VSM)8是康奈爾大學(xué)Salton等人上世紀(jì)70年代提出并倡導(dǎo)的,文檔可以轉(zhuǎn)化為標(biāo)引項(xiàng)(term)及其權(quán)重組成的向量表示,都可以看成空間中的點(diǎn)。向量之間通過(guò)距離計(jì)算得到向量的相似度。VSM中
12、有三個(gè)關(guān)鍵問(wèn)題:(1)標(biāo)引項(xiàng)(term)的選擇(2)權(quán)重的計(jì)算,即計(jì)算每篇文檔中每個(gè)Term的權(quán)重(3)空間中文檔之間距離的計(jì)算。Term可以是能代表文檔內(nèi)容的特征如:字、詞、短語(yǔ)或者某種語(yǔ)義單元(比如:所有同義詞作為1維)。對(duì)于權(quán)重計(jì)算,目前廣泛使用的方法是TF*IDF方法,其中TF代表Term在文檔中出現(xiàn)的次數(shù)。IDF代表Term的文檔頻率DF的倒數(shù)。兩者相乘然后做線性編號(hào)就是此方法。計(jì)算完Term的特征權(quán)重后就可以在向量空間模型中用特征向量表示一個(gè)文檔,即一個(gè)文檔可以表示為一個(gè)向量空間模型中的一點(diǎn)。文檔之間距離的通常有歐式距離、向量夾角余弦、向量夾角正弦和馬氏距離等9。3 虛點(diǎn)原理3.1
13、虛點(diǎn)方法產(chǎn)生的背景-特征值鴻溝(GBF)如圖1所示,假設(shè)一個(gè)類的構(gòu)成只有2個(gè)Term,其中Term權(quán)重用TF*IDF表示,則每個(gè)類都可以表示為一個(gè)帶權(quán)重的Term的特征向量,假設(shè)類別1的分類中心為(1,1)。類別2的分類中心為(3,2),可知兩者的對(duì)角點(diǎn)為(3,1),對(duì)角點(diǎn)相對(duì)于其它的點(diǎn)來(lái)說(shuō),特殊之處在于它對(duì)類別1的分類中心的距離只跟Feature1相關(guān),而跟類別2的分類中心的距離只跟Feature2相關(guān)。那么問(wèn)題就歸結(jié)為對(duì)角點(diǎn)的分類問(wèn)題,按照原來(lái)的向量空間模型,對(duì)角點(diǎn)有兩個(gè)(1,2),(3,1)。其中(3,1)跟分類中心1(1,1)的Feature1的距離為特征Feature1的差值2.跟分
14、類中心2(3,2)的Feature2的距離為特征Feature2的差值1??梢灾缿?yīng)該將對(duì)角點(diǎn)分到類別2(3,2)那一組,但從理論上可知,屬于同一特征的值,可以用量來(lái)表示,但是屬于不同特征的值無(wú)法用量來(lái)表示,因?yàn)閮烧叩呐卸ǖ臉?biāo)準(zhǔn)不一樣。Feature2的差值為2的數(shù)不一定大于Feature1的差值為1的數(shù)。因此僅僅從此對(duì)角點(diǎn)的分類問(wèn)題應(yīng)該無(wú)法判斷到底屬于哪一類。也就是Feature2的差值為2的數(shù)應(yīng)該與Feature1的差值為1的數(shù)相等。此時(shí)對(duì)角點(diǎn)到兩類的距離相等,符合無(wú)法判斷類型的情況。因此原向量空間模型沒(méi)考慮到這個(gè)問(wèn)題,這就是特征值的鴻溝問(wèn)題(GBF)的產(chǎn)生。如圖1所示鴻溝為q1。圖1.虛
15、點(diǎn)原理示意圖Fig. 1. Theory of Virtual Point Method為了消除特征值之間的鴻溝。可以認(rèn)為存在原分類點(diǎn)的虛點(diǎn),這些點(diǎn)是由調(diào)整特征權(quán)重的分配來(lái)得到的。它們必須滿足兩個(gè)條件:1、歸一化條件。2、調(diào)整后的兩個(gè)類別虛點(diǎn)到虛對(duì)角點(diǎn)的距離必須相等。 如圖所示,vp1和vp2分別對(duì)應(yīng)分類點(diǎn)1和分類點(diǎn)2的虛點(diǎn)?,F(xiàn)在的問(wèn)題歸結(jié)為本文提出的特征鴻溝理論到底存不存在,用即特征鴻溝的的消除能不能帶來(lái)分類效果的提高,從如圖2所示,就是要證明在虛點(diǎn)空間中用vp1和vp2分類比原向量空間中分類的效果更好。3.2虛點(diǎn)方法介紹變量定義:假設(shè)向量空間模型中的分類點(diǎn)為類別1的分類中心a和類別2的分類
16、中心b,必然存在一個(gè)點(diǎn)a,它跟a的距離只跟Feature(1)相關(guān),即特征距離,假設(shè)其為l(1),跟b的距離只跟Feature(2),設(shè)為l(2)相關(guān),這個(gè)點(diǎn)稱為a和b的對(duì)角點(diǎn)。易知a和b的對(duì)角點(diǎn)有兩個(gè),任選其中的一個(gè)Feature(1)與Feature(2)之間的距離鴻溝d(12)定義為:d(12)=|l(1)l(2)|。虛點(diǎn)方法:存在特征權(quán)重l(1),l(2)滿足歸一化條件,并且使得分配權(quán)重后的向量空間中的點(diǎn),即原空間中的a和b在虛點(diǎn)空間中的分別對(duì)應(yīng)的點(diǎn)的虛點(diǎn)a和b的2個(gè)特征距離相等,即a和b到它們虛點(diǎn)空間中的對(duì)角點(diǎn)的離相等:l(1) = l(2)。這樣在虛擬空間中特征之間的距離鴻溝就為零
17、了。關(guān)于對(duì)角點(diǎn)的說(shuō)明:虛點(diǎn)空間與原空間的對(duì)角點(diǎn)不是獨(dú)立存在的,他是針對(duì)分類點(diǎn),以及虛點(diǎn)空間中分類點(diǎn)的虛點(diǎn)而提出的一個(gè)抽象的概念,它在現(xiàn)實(shí)中可能不存在。 到目前為止就只有一個(gè)問(wèn)題了,即特征值鴻溝的觀點(diǎn)是否存在?3.3 虛點(diǎn)方法的例子為了形象的說(shuō)明整個(gè)流程,舉個(gè)例子:比如判斷一列火車屬于快車與慢車的標(biāo)準(zhǔn)為:快車為,平均車廂的數(shù)量為10節(jié),速度平均為180公里/小時(shí)。而慢車的為:平均車廂30節(jié),速度平均為80公里/小時(shí)。如果此時(shí),有一列特殊的列車,車廂為10節(jié),速度為80公里/小時(shí)。那么根據(jù)向量空間模型的公式,可以算出這種列車對(duì)快車的差異為速度相差100公里/小時(shí),車廂沒(méi)差異。對(duì)慢車的差異為車廂相差
18、20節(jié),速度沒(méi)差異,進(jìn)行標(biāo)準(zhǔn)化以后(假設(shè)速度的標(biāo)準(zhǔn)化為原值除以180,車廂的標(biāo)準(zhǔn)化為原值除以30),差異分別為100/180,20/30。從而知道此列車屬于快車。但是理論上可知此列出應(yīng)該不能判斷歸屬,因?yàn)?0節(jié)車廂跟100公里/小時(shí)這兩個(gè)數(shù)無(wú)法比較。此時(shí)鴻溝為差異值的差值即|100/180-20/30|=0.11。而這列車可能現(xiàn)實(shí)中不存在,它只是針對(duì)快車和慢車而提出的一個(gè)概念。因此本文設(shè)特征權(quán)重l(1),l(2)來(lái)分別調(diào)整火車車廂跟火車速度的權(quán)重,設(shè)歸一化條件l(1)×l(2)1。此時(shí)l(1)×(20/30) = l(2)×(100/180)。可以得出l(1)
19、187;0.9129,l(2)»1.0954。此時(shí)虛擬分類點(diǎn)為快車平均節(jié)數(shù)為:9.129節(jié),速度為197.172公里/小時(shí):慢車平均節(jié)數(shù)為。27.387節(jié),速度為:87.632公里/小時(shí)。此時(shí)就能用虛擬點(diǎn)分類了??梢杂?jì)算特殊列車在虛點(diǎn)空間中的映射點(diǎn)為9.129節(jié)與 87.632公里/小時(shí),從而計(jì)算得到鴻溝為0,此值小于<0.11。說(shuō)明使用快車,與慢車的虛點(diǎn)用來(lái)分類比使用原點(diǎn)分類來(lái)得更接近實(shí)際。3.4 虛點(diǎn)方法的另一種解讀假設(shè)原空間中存在分類點(diǎn)a(0,0)點(diǎn)和b(a,b)點(diǎn)。根據(jù)虛點(diǎn)方法可知,它們?cè)谔擖c(diǎn)空間中分別對(duì)應(yīng)虛點(diǎn)a(0,0)和b(al1,bl2),其中,l1l2=1設(shè)a和
20、b的距離為c,則根據(jù)直角三角形公式,已及直角三角形不等式可知: (1)其中當(dāng)al1=bl2,時(shí)c有最小值。而al1=bl2是虛點(diǎn)空間中的虛點(diǎn)滿足的條件。因此虛點(diǎn)方法就轉(zhuǎn)化為求虛點(diǎn)空間中虛點(diǎn)之間最小距離。即3.1節(jié)提出的虛點(diǎn)滿足的兩個(gè)條件變?yōu)椋?、歸一化條件。2、調(diào)整后的兩個(gè)類別之間的距離最小。35虛點(diǎn)方法的求解輸入變量定義:假設(shè)向量空間模型由n維特征向量構(gòu)成,類別1的分類中心為a(a1,a2,.an),類別2的分類中心為b(b1,b2,.bn)。輸出變量:特征權(quán)重l1,l2,ln。求解原理: (2)限制條件為: (2)根據(jù)以上可知,這是最優(yōu)化問(wèn)題,因此本文使用拉格朗日乘數(shù)來(lái)解決此問(wèn)題。得到如下
21、函數(shù): (3)其中l(wèi)為拉格朗日乘數(shù)。為了求l1, l2, ln。將函數(shù)(3)分別對(duì)l1, l2, ln求偏微分得: (4)即式子 (5)解得: (6)因此第i個(gè)特征權(quán)重為: (7)從以上式子可以看出,跟a和b的第i個(gè)特征的差值成反比。此結(jié)果證實(shí)了給人的感覺(jué),即為了縮小特征鴻溝,特征值差異越大的,應(yīng)該將它們分配的權(quán)重越低。4 SVM與使用虛點(diǎn)原理的SVM支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的17,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(Ge
22、neralizatin Ability)。支持向量機(jī)方法的幾個(gè)主要優(yōu)點(diǎn)是1、可以解決小樣本情況下的機(jī)器學(xué)習(xí)問(wèn)題2、可以提高泛化性能3、可以解決高維問(wèn)題4、可以解決非線性問(wèn)題5、可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問(wèn)題18。根據(jù)虛點(diǎn)方法可知,在SVM中使用虛點(diǎn)方法的步驟如下:1、在訓(xùn)練集中,根據(jù)虛點(diǎn)算法調(diào)整特征權(quán)重,映射到虛點(diǎn)空間。其中權(quán)重應(yīng)滿足歸一化條件以及虛點(diǎn)空間中虛點(diǎn)之間的距離最小。2、在虛點(diǎn)空間運(yùn)用SVM方法,即找出最優(yōu)分類超平面,此時(shí)的最優(yōu)超平面是虛點(diǎn)空間的最優(yōu)分類超平面。3、用虛點(diǎn)空間的最優(yōu)分類超平面來(lái)分類,即使用虛點(diǎn)空間建立的模型。圖2.原SVM分類方法與使用了虛點(diǎn)方法的SVM分類
23、方法Fig. 2. SVM and Virtual Point Method based SVM如圖所示2對(duì)于步驟1,首先分別求訓(xùn)練集中類別1和類別2的分類中心,可以用分別求類別1和類別2中向量的平均值的方法。然后使用3.6節(jié)中介紹的求解虛點(diǎn)的方法,求出特征權(quán)重。根據(jù)特征權(quán)重重新計(jì)算特征向量,相當(dāng)于將原點(diǎn)映射到虛點(diǎn)空間,此時(shí)產(chǎn)生的新的訓(xùn)練集即虛點(diǎn)空間中的訓(xùn)練集。對(duì)于步驟2,跟運(yùn)用SVM方法的差別僅僅是訓(xùn)練集的不同,即虛點(diǎn)空間運(yùn)用的是步驟1產(chǎn)生的訓(xùn)練集。對(duì)于步驟3,跟運(yùn)用SVM方法的差別僅僅是模型的不同,即,虛點(diǎn)空間用于的是步驟2產(chǎn)生的模型來(lái)分類。5 實(shí)驗(yàn)LIBSVM 是臺(tái)灣大學(xué)林智仁(Chih
24、-Jen Lin)博士等開(kāi)發(fā)設(shè)計(jì)的一個(gè)操作簡(jiǎn)單、易于使用、快速有效的通用SVM 軟件包,可以解決分類問(wèn)題、回歸問(wèn)題以及分布估計(jì)等問(wèn)題,提供了線性、多項(xiàng)式、徑向基和S形函數(shù)四種常用的核函數(shù)供選擇,可以有效地解決多類問(wèn)題、交叉驗(yàn)證選擇參數(shù)、對(duì)不平衡樣本加權(quán)、多類問(wèn)題的概率估計(jì)等。本文使用libsvm附帶的包含47,236個(gè)特征值的數(shù)據(jù)集rcv1.binary,其中數(shù)據(jù)量為20,242,本文將此數(shù)據(jù)集分為10份做交叉測(cè)試即,每份2,024個(gè)數(shù)據(jù),最后一份是2,206個(gè)數(shù)據(jù)。然后依次選取10份中的一份做測(cè)試集,其它9份合并為一個(gè)訓(xùn)練集。核函數(shù)選取徑向基函數(shù)19。因?yàn)槠鋵?duì)應(yīng)的特征空間是無(wú)窮維Hilber
25、t空間。而Hilbert空間推廣了高斯空間的概念,這點(diǎn)跟虛點(diǎn)方法(VPM)很相似。數(shù)據(jù)集都是經(jīng)過(guò)了歸一化的了。虛點(diǎn)方法參數(shù)l=2, 測(cè)試的是分類精度。實(shí)驗(yàn)結(jié)果如表1所示:表1 交叉測(cè)試結(jié)果Tab.1 Result of Cross TestNo.12345SVM56.92%54.35%58.25%47.04%43.43%SVM using VPM61.81%58.35%62.30%52.37%46.74%No.678910SVM50.64%55.19%50.15%59.14%43.19%SVM using VPM55.48%60.47%56.08%64.33%48.27%由實(shí)驗(yàn)結(jié)果可知,使用了
26、虛點(diǎn)方法調(diào)整的權(quán)重后分類的精度得到了一定的提高,這種結(jié)果驗(yàn)證了本文提出的虛點(diǎn)方法的有效性。6 總結(jié)本文提出了特征值之間存在鴻溝的問(wèn)題,并介紹了一種使用虛點(diǎn)的方法,這種方法降低了特征值之間的鴻溝,使得分類的效果得到了進(jìn)一步的提高。該方法是通過(guò)重新定義特征權(quán)重,調(diào)整向量空間模型中點(diǎn)的特征值,即相當(dāng)于重新定義向量空間中的點(diǎn),這樣的點(diǎn)是相對(duì)于原來(lái)向量空間模型中的點(diǎn)的矯正映射,即就好像是虛擬點(diǎn)一樣,最后問(wèn)題歸結(jié)為計(jì)算向量空間模型中的點(diǎn)與虛擬點(diǎn)的映射函數(shù)。理論分析和實(shí)驗(yàn)結(jié)果表明運(yùn)用了虛點(diǎn)方法的基于向量空間模型的SVM的分類方法的精確度都得到了提高,這種結(jié)果驗(yàn)證了虛點(diǎn)方法的合理性。本文的主要貢獻(xiàn)是:1、本文
27、提出了特征值之間存在鴻溝的問(wèn)題,2、介紹了一種使用虛點(diǎn)的方法來(lái)降低特征值之間的鴻溝。本文介紹的使用虛點(diǎn)的方法,證明了分類中存在特征鴻溝的問(wèn)題,提高分類的效果,本文使用的是用平均值求特征值鴻溝的方法,這種方法具有一定的局限性,因此研究求特征值鴻溝的方法以及使用訓(xùn)練集的啟發(fā)式知識(shí)來(lái)定義特征值鴻溝與權(quán)重分配將是下一步要做的工作。參 考 文 獻(xiàn)1 Ruch P. Query translation by text categorizationA. Proceedings of the 20th international conference on Computational Linguistics.
28、 2004.2 Bose I, Mahapatra RK. Business data mining-a machine learning perspectiveJ. J. Information & Management. 2001, 39(3):211-225.3 Núñez H, Angulo C, Català A. Rule-Based Learning Systems for Support Vector MachinesJ. J. Neural Process. Lett. 2006, 24(1):1-18.4 Liu Y, Loh HT,
29、Kama YT, et.al. A hierarchical text classification system for manufacturing knowledge management and retrievalJ. J. Int. Knowledge Management Studies. 2008, 2(4):406-425.5 Pechenizkiy M, Puuronen S, Tsymbal A. Feature Extraction for Classification in Knowledge Discovery SystemsJ. J. Knowledge-B
30、ased Intelligent Information and Engineering Systems . 2003, 2773: 526-5326 Antonie ML, Zaiane OR, Holte RC. Learning to Use a Learned Model: A Two-Stage Approach to ClassificationA. Proc. Int. Conf. Data Mining. 2006, 33-427 Yang Y, Pedersen JO. A Comparative Study on Feature Selection in Text Cate
31、gorizationA. Proc. Int. Conf. Machine Learning. 1997, 412-420.8 Salton G, Wong A, Yang CS. A vector space model for automatic indexingJ. J. Commun. ACM, 1975, 18(11):613-6209 Qu S, Wang S, Zou Y. Improvement of Text Feature Selection Method Based on TFIDFA. Proc. Int. Seminar on Future Information T
32、echnology and Management Engineering. 2008, 79-8110 Yang Y, Liu X, A re-examination of text categorization methodsA. Proc. Int. ACM SIGIR Conf. Research and Development in information Retrieval. 1999, 42-4911 Vapnik VN, The Nature of Statistical Learning TheoryM. Berlin: Springer-Verlag, 1995.12 Has
33、tie T, Tibshirani R. Discriminant Adaptive Nearest Neighbor ClassificationJ. IEEE Trans. Pattern Analysis and Machine Intelligence. 1996, 8(6):607-61613 Shakhnarovich G, Darrell T, Indyk P. Nearest-Neighbor Methods in Learning and Vision: Theory and Practice (Neural Information Processing)M. The MIT Press, 2006.14 Dasarathy BV. Nearest neighbor (NN) norms: NN pattern classification techniqueM. Los Alamitos:IEEE Computer Society Press, 199015 Cristianini N, Taylor JS. An Introduction to Support Vector Machin
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程運(yùn)輸分包合同范本
- 改造陽(yáng)臺(tái)施工合同范本
- 機(jī)構(gòu)合作伙伴合同范本
- 單位幫員工買社保協(xié)議書(shū)
- 司機(jī)學(xué)生乘車安全協(xié)議書(shū)
- 房屋出租解除合同范本
- 土地租賃合同免責(zé)協(xié)議書(shū)
- 借用公司名義合作協(xié)議書(shū)
- 母子之間天價(jià)賠償協(xié)議書(shū)
- 公司加工業(yè)務(wù)轉(zhuǎn)讓協(xié)議書(shū)
- 沈陽(yáng)師范大學(xué)教學(xué)實(shí)驗(yàn)平臺(tái)建設(shè)規(guī)劃
- 巴西詳細(xì)教案
- 乙型肝炎病毒表面抗原膠體金法說(shuō)明書(shū)
- 基于PLC控制的物料分揀系統(tǒng)設(shè)計(jì)
- 人教部編版七年級(jí)歷史下冊(cè)教材插圖匯總
- 濟(jì)南市城鄉(xiāng)建設(shè)用地增減掛鉤試點(diǎn)項(xiàng)目管理辦法
- 建筑工程竣工驗(yàn)收?qǐng)?bào)告山西
- 啟閉機(jī)房腳手架工程施工專項(xiàng)方案
- 變更監(jiān)事模板
- 標(biāo)準(zhǔn)工程量清單細(xì)目編號(hào)公路工程
- 管道安裝工藝質(zhì)量培訓(xùn)(共39頁(yè)).ppt
評(píng)論
0/150
提交評(píng)論