推薦系統(tǒng)評價指標綜述_第1頁
推薦系統(tǒng)評價指標綜述_第2頁
推薦系統(tǒng)評價指標綜述_第3頁
推薦系統(tǒng)評價指標綜述_第4頁
推薦系統(tǒng)評價指標綜述_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、推薦系統(tǒng)評價指標綜述匯報人:李烽n 文獻來源:朱郁筱,呂琳媛. 推薦系統(tǒng)評價指標綜述J. 電子科技大學學報,2012,02:163-175.研究背景3信息過載多種推薦算法孰優(yōu)孰劣信息過載多種推薦算法孰優(yōu)孰劣研究背景4Web2.0時代,每個人既是信息接收者,也是信息創(chuàng)造者。信息數量龐大但質量參差不齊,造成信息過載。信息過載多種推薦算法信息過濾,為滿足用戶需求推薦個性化推薦。協(xié)同過濾算法、基于內容的推薦算法、混合推薦算法。孰優(yōu)孰劣如何有效、客觀評價推薦系統(tǒng)的效能,從實驗室到實際應用的轉換。研究背景很多學者對推薦評價指標認識不全面,局限于精確性,忽視多樣性、新穎性、覆蓋率等指標學術界尚未建立推薦算法

2、評估完整統(tǒng)一的指標群,部分學者寫論文時只選擇對自己有利的指標對各個指標的優(yōu)劣和適用性了解較少,在評價指標的選擇和結果解釋方面存在不足評價方法6在線評價n 設計在線用戶實驗,根據用戶在線實時反饋或事后問卷調查等結果來衡量推薦系統(tǒng)的表現n A/B測試n 高額成本離線評價n 根據待評價的推薦系統(tǒng)在實驗數據集上的表現來衡量推薦系統(tǒng)的質量n 方便、經濟n 數據集的劃分(常用隨機劃分)與評價指標的選擇評價指標7 準確度指標 基于排序加權的指標 覆蓋率 多樣性和新穎性預測評分的準確度預測評分關聯分類準確度排序準確度準確度指標準確度指標預測評分的準確度衡量算法預測的評分與用戶實際評分的貼近程度思路:計算預測評

3、分和用戶真實評分的差異局限:對MAE指標貢獻大的往往是那種很難預測準確的低分商品預測評分的準確度MSE和RMSE指標對每個絕對誤差首先做平方運算,所以這兩個指標對比較大的絕對誤差有了更重的懲罰預測評分的準確度預測評分關聯衡量算法預測的評分與用戶實際評分之間的相關性最常見的三種相關性指標:Pearson積距相關、Spearman相關、Kendalls Tau預測評分關聯預測評分關聯弱關系排序問題:在實際系統(tǒng)中可能有某用戶對兩個或者多個商品評分一致的情況。預測評分關聯某用戶對商品實際評分為:4.4,3.9, 3.8, 3.9, 1.0推薦系統(tǒng)預測評分為:3.3, 3.1, 3.0, 4.3, 3.

4、1那么此時,具有嚴格偏好差別的商品對有(1,2)、(1,3) 、(1,4)、(1,5)、(2,3) 、(2,5) 、(3,4)、(3,5) 、(4,5)排序相悖的商品對: (1,4)、 (3,5) 排序兼容的商品對: (2,5) 得 NDMP=(2*2+1)/2*9=0.278預測評分關聯NDMP指標不僅適用于弱關系排序問題還可以用來評價推薦算法在不同數據及上的表現。PS:這些預測評分關聯額性指標都是只關注于預測排序值而不關注于具體的預測評分值,所以它們不適用于那些旨在為用戶提供精確預測評分值的系統(tǒng)。分類準確度衡量推薦系統(tǒng)能正確預測用戶喜歡或者不喜歡某個商品的能力。適用于那些有明確二分喜好的用

5、戶系統(tǒng),對于非二分喜好系統(tǒng),需要設定一個閾值來區(qū)分用戶的喜好。并非衡量系統(tǒng)預測具體評分值的能力,只要是沒有影響商品分類的評分偏差都是被允許的。最常用的分類準確度指標:準確率(precision)、召回率(recall)、F1指標和AUC。分類準確度分類準確度分類準確度準確率與召回率容易受到推薦列表長度、評分稀疏性以及喜好閾值的等多方面因素的影響,很多學者不提倡用準確率與召回率來評價系統(tǒng),特別是只考慮一種指標時偏差極大。準確率和召回率指標往往是負相關的而且依賴于推薦列表長度。一般情況下,隨著推薦列表長度的增大,準確率指標會減小而召回率會增大。分類準確度對于一個沒有明確二分喜好的系統(tǒng)?推薦的閾值不

6、確定?往往采用AUC指標來衡量推薦效果的準確性。AUC指標表示ROC(receiver operator curve)曲線下的面積,它衡量一個推薦系統(tǒng)能夠在多大程度上將用戶喜歡的商品與不喜歡的商品區(qū)分開來。正如我們在這個ROC曲線的示例圖中看到的那樣,ROC曲線的橫坐標為false positive rate(FPR),縱坐標為true positive rate(TPR)分類準確度經過分析,ROC曲線越接近左上角,該分類器性能越好。AUC的取值范圍介于0.5和1之間。分類準確度假如我們已經得到了所有樣本的概率輸出(屬于正樣本的概率)。根據每個測試樣本屬于正樣本的概率值從大到小排序。圖中共有2

7、0個測試樣本,“Class”一欄表示每個測試樣本真正的標簽(p表示正樣本,n表示負樣本),“Score”表示每個測試樣本屬于正樣本的概率分類準確度從高到低依次將”Score”值作為閾值threshold,當測試樣本屬于正樣本的概率大于或等于這個threshold時,我們認為它為正樣本,否則為負樣本。AUC指標僅用一個數值就表征了推薦算法的整體表現,而且它涵蓋了所有不同推薦列表長度的表現。但是AUC指標沒有考慮具體排序位置的影響,導致在ROC曲線面積相同的情況下很難比較算法好壞,所以它的適用范圍也受到了一些限制排序準確度基于排序加權的指標基于排序加權的指標目前半衰期效用指標的使用仍然是有很大的局限性:首先參數的選取尚未有統(tǒng)一的標準。用戶的瀏覽概率與商品在推薦列表中的位置呈指數遞減這一假設并不是在所有系統(tǒng)中都適用。覆蓋率覆蓋率指算法向用戶推薦的商品能覆蓋全部商品的比例。多樣性和新穎性推薦系統(tǒng)中的多樣性體現在用戶間的多樣性和用戶內的多樣性。在信息論中,兩個字碼中不同位值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論