分眾分類中的網絡資源分類的標簽過濾技術評價_第1頁
分眾分類中的網絡資源分類的標簽過濾技術評價_第2頁
分眾分類中的網絡資源分類的標簽過濾技術評價_第3頁
分眾分類中的網絡資源分類的標簽過濾技術評價_第4頁
分眾分類中的網絡資源分類的標簽過濾技術評價_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優質文檔-傾情為你奉上分眾分類中的網絡資源分類的標簽過濾技術評價摘 要社會化協作式標簽系統是基于人類共同知識的新出現的網絡分類方法。在Del.icio.us,Technorati或者Flickr這類站點中,用戶使用文本標簽注解了許多資源,其中包括:網頁、博客、圖片、視頻或者參考書目。潛在的協同式標簽系統是三元數據結構,即大眾分類法的相關資源和用標簽的用戶,這些信息有助于促進訪問和瀏覽大量網絡資源。人們以標簽形式提供的共同注解也可用來以一種更正式的分類法來組織網絡資源,比如層次結構和目錄,通常需要網絡目錄系統來減輕人工分類的任務。論文中,我們提供了一種決定資源分類的標簽價值的經驗研究方法。此

2、外,分析了若干過濾器的使用和預處理過程以減少標簽的模糊性和噪音,以確定這些標簽是否增加了資源分類的質量。關鍵詞:網絡資源分類 社會標簽系統 分眾分類法1. 引言社會化標簽系統是伴隨web2.0出現的最流行的內容分享應用之一。由于其簡明性,集體創建和管理標簽來標注和分類內容的實踐已經取得巨大成功。在Del.icio.us,Technorati或者Flickr這類站點中,用戶自由選擇一組關鍵詞或者開放式的標簽來標注各種異構的資源,例如:網頁、博客帖子、圖片或者視頻。潛在的協同標簽系統的三元數據結構就是眾所周知的分眾分類法,它將資源,標簽和用戶聯系了起來。分眾分類法提出的社會化分類體系與傳統的預定義

3、分類法或網絡中的目錄法形成了對比。然而,在人類專家的幫助下普遍建立和推廣的分類法提供了一個嚴格的層次分類框架,分眾分類法依賴于大量社區用戶使用的頻次最高的標簽來分類系統,這樣就能有效的組織和導航大型信息空間。盡管有各種不同的概念,各種分類框架并存于互聯網中。事實上,要將在線信息有效的組織到不同類別中,分眾分類法提供的分布式分類也許是最基本也是最有價值的方法。因此,社會化標簽能自動化 地完成將資源手動地分類到預定義的類別中費時費力的工作,并減少時間浪費。此外,社會化標簽能分類并不相關的文本內容,比如圖片或者視頻。Hammond,Hannay,Scott,Guy和Tonkin認為,標簽系統很好地補

4、充了其他一些正式的分類法(如層次分類法)。我們通過使用協作產生的開放式標簽(比如網頁)來分類資源的方法進行了一個經驗評價。實驗是基于一系列由專家分類的來源于網站目錄的網頁和非專家用戶給定的標簽(Noll & Meinel)。為了獲取有代表性的資源并與不同的分類器比較,我們采用了大量的元數據來對比。分眾分類法的一個主要問題在于完全沒有管理的標簽可能會導致一些問題,比如文本標簽模糊或者有噪音等問題。因此,語法變化就很常見,并常被歸因為如下原因:同義詞的使用,印刷拼寫錯誤和語法變化。標簽變化的存在不僅會引起學習時要考慮的特點個數的增加,而且會降低將其作為有差別的、獨立的標簽的分類器的性能。因此,本論

5、文的另一個目標就是,在提高資源分類質量的前提下,評價標簽預處理作用以減小標簽中的句法變化的影響。為了達到這個目的,本文用了一些過濾方法以評估標簽,比如:詞干、同義詞和拼錯矯正。論文的其他部分是這樣組織的:第二部分介紹了基于社會化標簽的網絡資源分類的背景及相關作品;第三部分介紹了評價基于社會化標簽的網絡資源的經驗分析;第四部分探索了用于標簽的不同的處理操作過程,以確定其在改善分類結果上的作用;最后,第五部分總結了本文的發現。2. 背景及相關作品分眾分類法是社會分類框架的基本結構,它依賴于大量社區用戶使用的頻次最高的標簽來分類系統,這樣就能有效的組織和導航大型信息空間。這個分類框架經常與預定義分類

6、法的使用相比較。實際上,folksonomy這個詞是由taxonomy和folk衍生而來,這代表了人們所創建的概念結構。從形式上看,一個分眾分類可以定義為一個數組:=(U,T,R,),其意思是:用戶U,資源R,以及標記其間的三元關系的用戶指定的標簽,例如,YU*T*R.在這個分眾分類法中,是個用戶指定的子標簽。一個用戶指定的標簽的集合就組成了一個個人信息云。在社會化標簽系統中,標簽常用來組織信息,同時也被分享在個人信息空間中。因此,其他用戶可以通過瀏覽和搜索整個可用標簽的層次分類法來訪問一個用戶的個人信息云。此外,為了促進在分眾分類中的搜索和瀏覽各種資源,標簽可以提供有價值的信息以完成其他諸如

7、分類,聚類和推薦資源等任務。特別是,我們將要解決用標簽來確定分類資源屬于哪個標準(平的或等級式的)分類框架的問題。近來很多著作都專注于一個問題:即封裝在社會化標簽里用來分類資源的公共知識轉化到一般目錄或分層分類加以利用的可能性到底如何。Noll和Meinel研究和比較了三種不同的注解,這三種注解是由讀者提供的網絡文檔、社會化注解、超鏈接錨文本和用戶力圖查找網頁的搜索查詢。著作中用到的CABS120k08數據集是專門用來研究來源于AOL500k,開源目錄工程,Del.icio.us和Google的資源的。研究結果表明,較之錨文本或者搜索關鍵字,標簽是最適合用來分類網絡文本文件的,然而,搜索關鍵字

8、是最適合做信息檢索的。在進一步研究中,作者分析了基于標簽的分類器在何種層次結構深度能夠預測使用了帶有源于ODP和Del.icio.us的DMOZ100k06數據集的類別。其結論是,標簽在廣義文本分類上表現的更好。因此,層次不清的網頁的分類還需要內容分析。Zubiaga,Martinez和Fresno探索了支持向量機在由Del.icio.us, StumbleUpon, ODP 和Web搜索得來的創建在Social-ODP-2k9數據集中的應用。在他的著作中,除了標簽,其他的資源元數據(比如筆記和評論)也得到了評價。標簽和評價在網站分類上取得了滿意效果。此外,如果考慮到標記的動機,有發現表明用戶

9、將被分為分類者和描述者(Krner,Kern, Grahsl, & Strohmaier, 2010),因為將標簽首次指定到某一類型的分類的用戶會得到更大的效用(Zubiaga, Krner, and Strohmaier (2011)提到)。在Godoy和Amandi里,文章分析了多個分類器和一些預處理技術對標簽的影響,在同一數據集上顯示了支持向量機的優越性。Aliakbary, Abolhassani,Rahmani和 Nobakht (2009)提出了一種方法,用于說明相關標簽的網頁和類別,然后分配資源給最相似的標簽空間來表示。一組計算機類的ODP網頁實驗表明,該方法比基于內容的分類表現

10、得更好。這些研究表明,標簽是一個重要的信息來源分類,其重要性超過了文本內容資源。其他作品解決了同樣的問題,但是就我個人而言,我寧愿使用社會化標簽來為個人用戶分類資源,而不是用一般的分類法或目錄來組織資源。Vatturi,Geyer,Dugan,Muller,和Brownholtz (2008年)為每個用戶創建了基于標簽的個性化推薦器,其中包括用于不同時間框架的兩個樸素貝葉斯分類器。一個分類器預測了用戶在一個短的時間間隔內用戶當前的興趣,另一個分類器根據書簽預測了用戶在較長時間間隔內的一般興趣。如果有任何分類器預測的書簽很有趣,它將被推薦。用戶研究結果表明,使用源于企業社會書簽系統的真實數據時,

11、該基于標簽的推薦系統運行良好。對于社會化標簽對于一個給定用戶在識別有趣資源的作用,Godoy (2010)也有研究,Godoy使用了一類支持向量機(因為在規定任務中,其性能優于其他分類器)。在上述所有文章中,基于標記的分類改善了基于內容分類的結果。3. 基于標簽對Web資源進行分類本節介紹了評估基于標簽分類資源的經驗研究。第3.1節描述了用于實驗的數據集,用來代表文本的不同信息資源的詳細資料在第3.2節,第3.3節是使用不同分類器和Web資源的結果總結。3.1數據集的描述CABS120k08 (Noll & Meinel, 2008b)是來源于web2.0的用于研究的數據集,其中包括從多個來源

12、收集而來的個相關元數據文本。元數據包括AOL搜索查詢日志語料庫AOL500k和開放式目錄管理系統(ODP),是世界上最大最全面的人工編輯目錄的Web自定義的交集。從不同元數據獲得的文件相關元數據有助于他們獲得更多的知識。尤其是,該數據集包括文件的若干意見:網站讀者提供的社會注釋,這些文件的作者所提供的超鏈接錨文本,以及用戶試圖在網絡上查找的搜索查詢。此外,文件已被分類在一個或多個類別的ODP,以提供在該目錄中的層次路徑。AOL500k語料庫是當今全球最大的公共搜索查詢集(Pass,Chowdhury,&Torgeson,2006)。它是于2006年由AOL搜索引擎的個用戶超過三個月的20萬個網

13、頁查詢組成。CABS120k08是AOL500k和開放式目錄的集合。因此,只有同時被檢索到并隨后訪問已經分類過的文件才被包括在內。表1總結了CABS120k08的統計特性。可以看出,表中的所有文檔都具有ODP類別,而在Del.icio.us中發現了50.3%的文檔,還有一些文檔沒有分配標簽。概括來說,本研究中使用的元數據是:l 標簽:包含一個社會化書簽的完整歷史,對于每個數據集中的文件,它的完整的書簽歷史都抓取自Del.icio.us的HTML網頁上。l 錨文本:定義為文本的范圍內出現一個HTML標記。在數據集中,每個文件有多達100個的提交頁面得到處理。l 查詢:指所有用于AOL500k語料

14、庫在一個特定網頁出現結果集的查詢。3.2.Web資源表示三種不同的信息源被作為評價方法:代表文件都單獨(標簽,查詢條件和錨文本),所有資源的組合(查詢條件+錨文本+標簽)和三種其他組合(查詢+錨文本,查詢+標簽,錨文本+標簽)。在結果數據集中,無用詞被600多個英語單詞所替換,詞干分析算法(Porter,1980)得以應用(詞干的應用將在第4部分討論),并將二進制權重分配給詞條。此外,此部分比較了兩個分類器分類的性能,樸素貝葉斯和Weka9庫的機器學習算法。SMO是一個序列最小優化算法,以用多項式內核(多核)或一個徑向基函數內核來訓練支持向量機分類器。為了評價分類器,我們使用了標準精度和回憶偏

15、差,總結了F-估計和精度(Baeza-Yates & Ribeiro-Neto, 1999)。精度估計了由分類器做出的正確決策的比例。精度是由正確分類例子的數量除以分類到所屬類的例子的數量。回憶偏差是由正確分類的例子除以屬于這一類的例子的數量。在所有的實驗中,交叉驗證的10倍的結果被記錄下來。3.3基于標簽的分類結果Figs.1和2顯示了使用上述web頁面的代表和分類器的各自的精度和F-估計值所能達到的結果。相對于用來表示web頁面的元數據,在兩個圖中可以觀察到,基于標記的表示獲得了更好的結果,而錨文本和查詢的效果最差。因此,這些因素也對包括查詢在內的組合的性能產生消極影響(查詢+錨文本,查詢

16、+標簽,查詢+錨文本+標簽)。在大多數情況下,錨文本和標簽的組合優于其他的。其中,樸素貝葉斯分類器的表現遜色于二元支持向量機,其多核達到最高的精度和F-估計值。Fig.3描繪了隨著訓練規模的增加SMO分類器精確性的變化。確認之前的結果,使用錨文本和標簽的是最好的結果,緊隨其后的就是使用單獨的標簽。我們以由錨文本+標簽代表的結果為基準來評價以下部分的標簽處理過程。4. 評價標簽處理方法在社會化分類體系中,由于標簽并沒有按照一個可控詞表引進,因此其是嘈雜和不一致的。標簽之前存在差異的原因是(Echarte,Astrain,Crdoba,&Villadangos,2008; Guy & Tonkin

17、, 2006):l 由兩個以上單詞組成的復合詞并不總是分類的很好。通常,用戶插入標點符號來分隔單詞,例如ancient-egypt,ancient_egypt和ancientgypt;l 一些符號比如#, , +, /,: _, & ,!經常頻繁用在標簽的前面來產生一些附帶的影響,比如促使界面在按字母順序排列的列表頂部列出一些標簽;l 語法形式的使用(單數或復數)和動詞的時態(動名詞,過去式和其他形式),例如:blog, blogs and blogging;l 在標簽處理過程中的印刷拼寫錯誤,例如semntic Web和semntic Web;l 注釋或標簽中用到的同義詞是用不同的詞來表達一

18、個相同的概念。這些語法標記差異的減少可能有助于提高分眾分類的質量,反過來促進了資源的分類。由于標簽是一個有價值的網頁分類的信息源,本文考慮并對比了一些過濾技術,以確定其是否有助于改善分類結果。實驗評價是從一個廣泛使用的分眾分類(如Del.icio.us)中抽取的數據集,這個實驗評價是用來確定對標簽的不同處理操作過程的影響,這種分類法可能使標簽統一化及避免上述問題的出現。首先,過濾掉標簽以除去之前列舉的符號,并加入復合詞。然后,考慮Fig.4.里描述的三種操作。改正拼寫錯誤以修正打印的錯誤,考慮表示相同涵義的同義詞,并且修正由語法單復數和時態形式引起的形態變化錯誤。這些用來改善網頁分類的操作的能

19、力是單獨評價的,以Fig3所示的錨文本+標簽表示的資源的結果作為基準。然后,用每個預處理操作和分類結果來與基準進行對比。以下分節說明了這些操作以及所取得的結果。4.1術語詞干在大多數語言中,相似語義解釋的詞有很多形態變化,這在信息檢索中被視為是相同的,這和語言應用正好相反。例如像computer, computers, compute, computes, computed, computational, computationally和computable這些詞都被縮減為單個詞干:comput。因此,通過將形態上相似的詞映射到其詞干,就可以減少特征空間的維數。這項工作是通過詞干和合并算法來完

20、成的,詞干和合并算法被定義為通過將詞的形態變化縮減為其詞干的語言規范化的過程((Porter, 1980))。盡管詞干提取算法有其好處,但詞干會導致一系列錯誤。將有不同意思的單詞合并到相同的詞干中的錯誤就是所謂的“過分詞干化”錯誤。此外,將有相似意思的單詞的分到兩個不同的詞干中就是所謂的“詞干分類不足”的錯誤。為了評估詞干是否改善了基于標簽的網頁分類的結果,讓使用詞干的分類與沒有使用詞干分類的相同數據做比較。上一節顯示的結果是使用詞干分類的結果,Fig.5是隨著訓練數據集的擴大不使用詞干分類的結果。顯然,詞干的使用顯著提高了web資源分類的結果。4.2.包含同義詞除了同一個單詞的句法變化,一些

21、詞的同義詞可被不同的用戶用來注釋一個資源。WordNet10 (Miller, 1995)是一個大型的英語詞法數據庫,它被用來獲取標簽的同義詞。在WordNet中,英文單詞被分組到名為同義詞集的同義詞集合中去,這些詞屬于不同的類別(名詞,動詞,形容詞和副詞),并記錄了這些同義詞集之間的各種語義關系。對于每個標簽,其同義詞抽取自WordNet,并添加至web網頁,這樣就保證了標簽的語義得到了豐富。Fig.6顯示了使用同義詞的web頁面分類結果與基準的對比結果。使用了同義詞的代表性例子將導致分類性能的退化。使用同義詞的分類器性能較差的原因在于缺乏語境以消除標簽歧義和由此納入噪音的標簽。其他基于標簽

22、的語義操作應該在收集到更豐富的語義資源的分類資源的環境下來分析。4.3.拼寫錯誤在這篇文章中,拼寫檢查使用三個基于不同算法和詞典的庫來進行:Tumba!,JaSpell!和 Hunspell.拼寫檢查器適用于每個標簽,那些錯別字將會被每個算法建議的拼寫正確的字所替換。如果沒有建議的單詞來替換拼寫錯誤的標簽,很可能是因為拼寫檢查字典中不存在該標簽,該標簽將被丟棄。Fig.7顯示了使用了拼寫檢查器的網頁分類結果。顯然,使用這三種算法中的任何一種都會改進分類的精度。較之其他兩個拼寫檢查程序,JaSpell在這一點上似乎有輕微的優勢。前面提到的處理拼寫錯誤的單詞的方法暗含著信息的丟失,因為當沒有建議單

23、詞來替換拼寫錯誤的標簽時,這些標簽將會被丟棄。然而,對這些標簽更好的處理辦法將會進一步改善分類結果。我們發現,大部分被丟棄的標簽對應于一種縮寫或者一些非英文的單詞。因此,這兩種情況都被認為是校正拼寫錯誤的好方法。Fig.8顯示了優化了的拼寫錯誤校正方法的結果。那些拼寫檢查器不提供任何建議的拼寫錯誤的標簽首先與一個縮寫表相對比,看其是否對應于某個縮寫。該實驗中使用牛津英語詞典的縮寫14表。對那些在縮寫表中沒有找到的詞,再去可用的翻譯中去找,谷歌的API Translate Java可以用來完成這個任務。翻譯的標簽以及擴展的縮寫是返回到前一步驟來刪除那些可能混入其中的字符和停用詞的。如果沒有找到相關翻譯,這個標簽將最終被丟棄。Fig.9顯示了使用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論