N層向量空間模型在Web信息檢索中的實現(xiàn)-技術(shù)方案_第1頁
N層向量空間模型在Web信息檢索中的實現(xiàn)-技術(shù)方案_第2頁
N層向量空間模型在Web信息檢索中的實現(xiàn)-技術(shù)方案_第3頁
N層向量空間模型在Web信息檢索中的實現(xiàn)-技術(shù)方案_第4頁
N層向量空間模型在Web信息檢索中的實現(xiàn)-技術(shù)方案_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

VIP免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

精品文檔-下載后可編輯N層向量空間模型在Web信息檢索中的實現(xiàn)-技術(shù)方案

隨著互聯(lián)網(wǎng)和萬維網(wǎng)(WorldWideWeb)的快速繁榮發(fā)展,萬維網(wǎng)逐漸成為人們生活中不可或缺的一種信息獲取。萬維網(wǎng)給信息檢索技術(shù)帶來了極大的機遇和挑戰(zhàn)。經(jīng)過近十幾年的發(fā)展,信息檢索已經(jīng)由一個純粹的學(xué)術(shù)研究學(xué)科轉(zhuǎn)變成大多數(shù)人信息獲取的技術(shù)基礎(chǔ)。隨著Web2.0概念的普及和發(fā)展,萬維網(wǎng)不再僅僅是一個巨大的信息庫,更逐漸成為一個用戶參與和交流的平臺。Web2.0應(yīng)用網(wǎng)站的蓬勃發(fā)展將再次推動信息檢索技術(shù)的革新。在Web2.0時代,信息檢索技術(shù)主要有以下三方面的發(fā)展趨勢:1)更加靈活的個性化信息服務(wù)。隨著用戶的急劇增加,Web2.0網(wǎng)站迫切需要滿足用戶的個性化信息需求。然而,傳統(tǒng)的Web信息檢索技術(shù)并不擅長處理Web2.0應(yīng)用的復(fù)雜結(jié)構(gòu)數(shù)據(jù)。Web2.0需要更加靈活的個性化信息服務(wù),如信息推薦系統(tǒng)。2)更加有效的多媒體數(shù)據(jù)檢索技術(shù)。隨著Web2.0的普及,用戶可以很方便地上傳和分享多媒體信息。多媒體數(shù)據(jù)的迅速增多使得多媒體信息檢索技術(shù)成為人們關(guān)注的焦點。

本文在傳統(tǒng)向量空間模型的基礎(chǔ)上提出一種新的檢索方法,將N層向量空間模型應(yīng)用在Web信息檢索上,使之能較好地適應(yīng)文檔集合的動態(tài)擴充。理論分析和實驗結(jié)果表明,此方法能夠進一步提高向量空間模型的性能,節(jié)省存儲空間,加快檢索速度,具有較高的精度和召回率。

1向量空間模型

1.1傳統(tǒng)向量空間模型

向量空間或稱線性空間,是現(xiàn)代數(shù)學(xué)中的一個基本概念,是線性代數(shù)研究的基本對象。向量空間是線性代數(shù)的主體,它是數(shù)學(xué)中基本又重要的概念,其概念是:設(shè)V為n維向量的集合,如果集合V非空,且集合V對于加法及乘數(shù)兩種運算封閉,那么就稱集合V為向量空間。其理論和方法已應(yīng)用到自然科學(xué)、工程技術(shù)及社會科學(xué)的諸多領(lǐng)域。向量空間的一個直觀模型是向量幾何,幾何上的向量及相關(guān)的運算即向量加法,標量乘法,以及對運算的一些限制如封閉性,結(jié)合律,已大致地描述了"向量空間"這個數(shù)學(xué)概念的直觀形象。

向量空間模型的出發(fā)點是:每篇文檔和查詢都包含一些用概念詞表達的、揭示其內(nèi)容的獨立屬性,而每個屬性都可以看成是概念空間的一個維數(shù)。因此,文檔和查詢就可以表示為這些屬性的集合,從而忽略了文本結(jié)構(gòu)中段落、句子及詞語之間的復(fù)雜關(guān)系。這樣,文檔和查詢可以分別用空間的一個點表示,并且文檔矢量與查詢矢量之間就存在空間上的不同距離,而這種距離關(guān)系在信息檢索中的意義就是文檔與查詢之間的相似度。所以,文檔與查詢之間的相似度可以用矢量間的距離來衡量。相似度的計算方法有很多種,本文采用余弦系數(shù)法,即用二個矢量之間的夾角的余弦來表示文檔與查詢間的相關(guān)度。夾角越大,距離越遠,余弦越小,相關(guān)度越小,反之相關(guān)度越大。下面介紹向量空間模型的量化方法。

tfij為特征項tj在文檔di中出現(xiàn)的頻率;dfj為在整個文檔集中,包含特征項tj的文檔數(shù);idfj為反轉(zhuǎn)文檔頻數(shù),其值為:

可見,傳統(tǒng)的向量空間模型是以文本特征項的頻率tf和反轉(zhuǎn)文檔頻率idf作為其量化基礎(chǔ)的。其乘積作為特征項的權(quán)重,再通過計算文檔與查詢之間的相似度即可判斷文檔與查詢是否相關(guān)。權(quán)重值大的特征項是那些在文檔中出現(xiàn)頻率足夠高,但在整個文檔集的其他文檔中出現(xiàn)頻率足夠少的詞語,也是對區(qū)別文檔有意義的詞語。

1.2N層向量空間模型

將一篇文檔從組織結(jié)構(gòu)上劃分為N層,基于每層的文本內(nèi)容建立相應(yīng)的特征項向量和權(quán)值。其中特征項抽取和權(quán)重計算等同傳統(tǒng)向量空間模型相同。這樣,對于文檔進行N層劃分得到的向量空間模型就成為N層向量空間模型。

本文針對Web信息檢索進行考慮,由于Web頁面的特殊格式,要求一篇文檔少是由指向該文檔的鏈接、文檔標題和文檔正文三部分組成。而這三部分的內(nèi)容對于這篇文檔的表達能力是不同的。鏈接的文字是吸引別人點擊文檔進行閱讀的通道,所以鏈接的內(nèi)容表達文檔的能力強,其次是標題,正文的內(nèi)容表達文檔的能力弱。

因此,將N層向量空間模型應(yīng)用在Web信息檢索時,可將一篇Web文檔按照指向文檔的鏈接、標題和正文劃分成3層(若Web頁面中有metakeyword等標記的關(guān)鍵字部分,則可劃分為4層向量空間模型。)。

2應(yīng)用N層向量空間模型進行Web信息檢索

2.1文本向量表示形式的改進

向量空間模型在建完索引以后,要根據(jù)每一個特征項求其對于每一篇文檔和查詢的權(quán)重值。其計算量非常大,并且每一篇文檔和查詢的向量表示式為,其中大多數(shù)項都為零,所以導(dǎo)致了數(shù)據(jù)稀疏現(xiàn)象。另外由于Web頁面的超鏈性(hyperlink),頁面上顯示的信息有很多是和本頁內(nèi)容無關(guān)的,例如別的頁面的鏈接、版權(quán)信息、欄目導(dǎo)航等,在每個頁面上都有重復(fù)出現(xiàn),這干擾了相似度計算。為解決這些問題,首先引入停用詞表,例如文檔中很多不能說明文檔內(nèi)容的語法詞,還有虛詞、感嘆詞、連詞等或各個文檔共有的詞,所有這些詞作為描述文檔的向量效率是非常低的。因此可以考慮降維處理,把它們作為停用詞,不計算其權(quán)重;其次,采用壓縮矩陣的辦法來解決數(shù)據(jù)稀疏問題,定義文檔和查詢的向量表示形式為:……,(ti,ωdi),……,其中ti為第i個特征項,ωdi為其對應(yīng)的權(quán)重值且ωdi≠0.這樣既減少了計算量,又加快了計算速度,同時節(jié)省了存儲空間。

2.2特征項頻率統(tǒng)計的改進

在統(tǒng)計每個區(qū)域的特征項頻率得到tfij后,要乘以一個反映其重要程度的比例系數(shù)來加以修正和調(diào)整,則特征項tj在文檔di中出現(xiàn)的頻率為:

其中:tfiji為第i個區(qū)域的頻率(i為1、2、3時分別對應(yīng)鏈接區(qū)域、標題區(qū)域、正文區(qū)域),α>β>γ≥1為比例系數(shù)。同樣,在文檔同一區(qū)域中,不同的特征項所表達文檔內(nèi)容的能力也是有差別的。例如同在正文區(qū)域的不同的特征項所代表文檔的內(nèi)容就有可能不同。在計算特征項頻率tfij時再乘以一個比例因子log2(M/mi),其中M為該特征項在本文檔中共出現(xiàn)的次數(shù),mi為該特征項在文檔第i次出現(xiàn)的次數(shù)。這樣,特征項tj在文檔di中出現(xiàn)的頻率調(diào)整為:

2.3傳統(tǒng)向量空間模型與N層向量空間模型的算法復(fù)雜度比較

表1為傳統(tǒng)向量空間模型與N層向量空間模型的算法復(fù)雜度比較結(jié)果。

3實驗設(shè)置

(1)信息檢索實驗系統(tǒng)。信息檢索實驗系統(tǒng)選用了Smart系統(tǒng)。SMArt系統(tǒng)是基于向量空間檢索模型實現(xiàn)的信息檢索系統(tǒng)。在本實驗中,為便于實現(xiàn)對向量空間模型算法的修改,使用的是經(jīng)過修改的Smart信息檢索系統(tǒng)。

(2)測試集。測試集分為文檔和查詢(query)二部分:文檔部分采用新浪網(wǎng)站()的新聞部分Web版(32,145篇)。查詢部分使用新浪網(wǎng)站的新聞討論標題,共50個。

(3)評價方法。本系統(tǒng)使用精度和召回率來評價。精度是檢索出來的相關(guān)文檔數(shù)和檢索出來的總文檔數(shù)的比值;召回率是檢索出來的相關(guān)文檔數(shù)和總的相關(guān)文檔數(shù)的比值。通常,召回率越高,精度越低;反之精度越高,召回率越低。所以有說服力的是11個點的平均精度。世界上權(quán)威的文本檢索評測會議TREC(TextRetrievalConference)的評測依據(jù)就是這個值。本系統(tǒng)將只提供這個值。

4實驗結(jié)果

這里對傳統(tǒng)的向量空間模型算法和改進后的向量空間算法進行了比較,并統(tǒng)計了對應(yīng)于每一條查詢的11個點處的平均精度值。其結(jié)果如表2所示。

因為平均精度值僅僅是11個點處的精度值的平均值,為了進一步說明問題,圖1給出了這幾次檢索的精度-召回率曲線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論