協同過濾中基于用戶的相似度計算方法研究_第1頁
協同過濾中基于用戶的相似度計算方法研究_第2頁
協同過濾中基于用戶的相似度計算方法研究_第3頁
協同過濾中基于用戶的相似度計算方法研究_第4頁
協同過濾中基于用戶的相似度計算方法研究_第5頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、    協同過濾中基于用戶的相似度計算方法研究    【摘要】協同過濾算法已經成為推薦系統中應用程度最為廣泛和有效的一種方法。評分預測推薦算法作為協同過濾的一個重要的分支研究方向,有著非常重要的地位和研究價值。評分預測推薦中基于用戶的協同過濾推薦算法最關鍵的一步就是用戶間相似度的計算。弄清基于用戶的不同相似度計算方法的特點、公式和優缺點,對提高協同過濾的評分預測準確度具有重要意義。【關鍵詞】協同過濾;評分預測;相似度推薦系統中最為重要的推薦算法就是協同過濾推薦算法,協同過濾在工業界和學術界已經得到了很深入的研究和發展,具有舉足輕重的商用價值和學術意義。基

2、于用戶的協同過濾推薦算法是協同過濾算法的一個重要研究分支,自 20 世紀 90 年代以來一直是領域內關注的焦點。基于用戶的協同過濾算法中最關鍵的步驟就是對用戶相似度的計算。不同的相似度計算方法具有不同的公式和優缺點,能適應不同的數據環境。一、基于用戶的協同過濾推薦算法基于用戶的協同過濾是一種基于存儲的協同過濾推薦算法。該算法認為一個用戶會喜歡和他有相似興趣愛好的用戶喜歡的產品。因此,要對一個用戶做推薦,首先得找到和他興趣愛好相似的用戶。在user cf 中,兩個用戶興趣愛好相似是因為他們喜歡相似的產品。這種相似性通過用戶相似度進行衡量。衡量兩個用戶的相似度主要有兩種思路:一種認為對于給定用戶u

3、、a,若他們對于任意產品i總是給出相似的評分,則認為這兩個用戶相似,這種方法被稱為 correlation相似度方法;另一種則認為如果用戶u、a總是對相同的產品進行瀏覽、評價等行為,則這兩個用戶相似,這種方法被稱為relevance相似度方法。利用計算所得的用戶相似度,user cf為待推薦用戶尋找近鄰,以便利用近鄰行為預測當前用戶的行為。近鄰搜索是user cf算法的核心內容之一,其效率和質量直接影響推薦算法的有效性。近鄰搜索往往需要為當前用戶尋找k個最相似的用戶,因此,亦被稱為 k近鄰方法(k-nearest neighbors,簡稱knn)。在確定了用戶u的近鄰集合后,user cf 利

4、用這些近鄰的評分信息,將其進行加權平均,預測用戶u對未評分產品的評分值。其計算方法如下面公式所示:其中,為用戶u和用戶a的相似度,n(u)為用戶u的近鄰集合。在top-n推薦忠,usercf通過預測用戶對產品的評分值信息,對用戶未評分產品進行排序,預測評分值較高的前n個產品推薦給用戶。二、四種典型的衡量用戶相似度的方法(一)余弦相似度(cosine)1是一種典型的 correlation 相似度方法。它將用戶的歷史評分信息看作是n維向量,即使用u、a分別表示用戶u和用戶a的歷史評分信息。其中向量的第i個元素是該用戶對第i個產品的評分值,未評分產品用0代替。用戶u和用戶a的余弦相似度可以用兩個向

5、量的夾角余弦表示,即:其中是用戶u對產品i的評分值,是用戶u和用戶a共同評分的產品集合。(二)皮爾遜相關性(pearson correlation, pc)1亦是一種典型的correlation 相似度方法。它是自然科學領域中廣泛用于度量兩個變量間線性相關程度的方法之一。在user cf中,它可以有效描述兩個用戶在若干個產品上評分變化趨勢的一致程度。其計算方法如公式所示:其中,是用戶u對產品的平均評分值。(三)歐幾里德距離相似度(euclidean distance similarity)3 最初用于計算歐幾里德空間中兩個點的距離,后引用到推薦領域,用來計算兩個用戶間的相似度,距離越小,相似度

6、越大,其計算方法如下:(四)jaccard 相似度4是一種典型的relevance相似度方法。它通過計算用戶u和用戶a評分的產品集合的相似程度衡量兩個用戶之間的相似度,兩個用戶共同評分的產品越多則他們越相似,其計算方法為:(五)對數似然相似度(log-likelihood)5亦是一種典型的relevance相似度方法。它通過計算用戶和用戶所評分產品集合的對數似然相似度衡量兩個用戶間的相似程度,其計算方法如以下三個公式所示:其中,的取值(項目次數)如下表所示:(六)斯皮爾曼等級關聯(spearman rank correlation, src)定義為物品i在用戶u所評分物品中的排位(并列評分用它

7、們的平均排名),則用戶u和v的相似度可以這樣計算:其中,是用戶所評價物品的平均排名。三、不同相似度計算方法的比較由于沒有考慮負關聯,歐幾里德距離求得的預測評分準確度是最低的。jaccard 相似度并沒有考慮評分的多少而是根據評價的排名確定相似度。同時,pc的準確度在一定范圍內準確度要比其他相似度計算方法要高,但隨著數據庫的變化,src逐漸高于pc。事實上,各種相似度計算方法之間的準確度在不同數據量條件和評分規則下,并非一成不變,是變化的。具體如何變化,還有待進一步研究。但是有實驗表明pc和src在數據庫環境發生變化時,其準確度是逐漸變化的。總之,根據數據庫中用戶數量、用戶評分數量、評分規則以及

8、評價物品數量等數據量的變化,協同過濾需要應用的相似度計算方法也應當有所不同,甚至需要進行動態的混合和組合。只有這樣才能使推薦系統的結果達到評分預測準確率最高,從而使用戶最滿意,獲得用戶與程序設計者雙贏的目的。參考文獻1 adomavicius,g.,&tuzhilin;,a.(2005).toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensionsj.ieee transactions on knowledge and data en

9、gineering, 2005-9-9,17(6),734-749.doi:10.1109/tkde.2manning, c.d., raghavan, p., & schütze, h. introduction to information retrievalj. new york, ny, usa: cambridge university press, 2008.3shang, m.s., l. lü, w. zeng, et al. relevance is more significant than correlation: information filtering on sparse dataj. epl (europhysics letters), 2009. 88(6): 68008.4herlocker, j. l. understanding and improving automated collaborative filtering systemsd. university of minnesota ph.d. thesis. 2000. a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論