《推薦系統技術》_第1頁
《推薦系統技術》_第2頁
《推薦系統技術》_第3頁
《推薦系統技術》_第4頁
《推薦系統技術》_第5頁
已閱讀5頁,還剩28頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、推薦系統作者:苗原聯系方式:編輯ppt目標 推薦系統的意義 基于內容推薦 協同過濾推薦 頻繁模式挖掘 標簽系統 推薦結果評價編輯ppt推薦系統的意義 隨著信息技術的迅速發展和信息內容的日益增長,“信息過載”問題愈來愈嚴重,愈發帶來很大的信息負擔。 施拉姆施拉姆信息選擇公式信息選擇公式,人們對媒體的注意或選擇的可能性(然率)與它能夠提供的報償(價值)程度成正比,與人們獲得它的代價(費力)程度成反比。 人們愿意用最小的代價獲取價值最大的新聞信息。人們愿意用最小的代價獲取價值最大的新聞信息。編輯ppt推薦系統的意義 在互聯網時代由于網絡技術能以很低的成本讓人們去獲得更多的信息和選擇,事 實上,每一個

2、人的品味和偏好都并非和主流人群完全一致,當我們發現得越多,我們就越能體會到我們需要更多的選擇。如果說搜索引擎體現著馬 太效應的話,那么長尾理論則闡述了推薦系統發揮的價值。編輯ppt推薦系統的意義編輯ppt基于內容推薦信息來源: 物品基本信息 用戶的基本信息 用戶和物品之間的信息編輯ppt基于內容推薦(人口統計學的推薦)基于人口統計學的推薦思想:根據系統用戶的基本信息發現用戶的相關程度,然后將相似用戶喜愛的其他物品推薦給當前用戶編輯ppt基于內容推薦(人口統計學的推薦)A用戶基本信息:年齡25-30歲,性別:女年齡分:0-10 10-25 25-30 30-35 35-60 60-B用戶基本信息

3、:年齡30-35歲,性別:男C用戶基本信息:年齡25-30歲,性別:女性別:男 女a(3,1)b(4,0)c(3,1)編輯ppt基于內容推薦(人口統計學的推薦)余弦相似性編輯ppt基于內容推薦(人口統計學的推薦)優缺點:(1)由于不使用當前用戶對物品的喜好歷史數據,所以對于新用戶來講沒有“冷啟動”的問題;(2)可能涉及到一些與信息發現問題本身無關卻比較敏感的信息,比如用戶的年齡等,這些用戶信息不是很好獲取;編輯ppt基于內容推薦(物品內容推薦)系統首先對物品的屬性進行建模,圖中用類型作為屬性。通過 相似度計算,發現電影A和C相似度較高,因為他們都屬于愛情類。系統還會發現用戶A喜歡電影A,由此得

4、出結論,用戶A很可能對電影C也感興趣。于是將電影 C推薦給A。編輯ppt基于內容推薦(物品內容推薦)物品相似度計算方法物品相似度計算方法: 基于物品基本信息 基于語義特征編輯ppt基于內容推薦(物品內容推薦)TF-IDF算法:自動提取關鍵詞算法:自動提取關鍵詞如果如果某個詞比較少見,但是它在這篇文章中多次出現,那么它很可能就反映某個詞比較少見,但是它在這篇文章中多次出現,那么它很可能就反映了這篇文章的特性,正是我們所需要的關鍵詞。了這篇文章的特性,正是我們所需要的關鍵詞。編輯ppt基于內容推薦(物品內容推薦)優缺點優缺點:能能很好的建模用戶的口味,能提供更加精確的推薦很好的建模用戶的口味,能提

5、供更加精確的推薦;物品物品相似度的分析僅僅依賴于物品本身的特征,這里沒有考慮人對物品的態度相似度的分析僅僅依賴于物品本身的特征,這里沒有考慮人對物品的態度;因為因為需要基于用戶以往的喜好歷史做出推薦,所以對于新用戶有需要基于用戶以往的喜好歷史做出推薦,所以對于新用戶有“冷啟動冷啟動”的的問題;問題;編輯ppt基于協同過濾推薦 基于用戶的協同過濾(user-based CF) 基于商品的協同過濾(item-based CF)信息來源: 用戶和物品之間的信息編輯ppt基于協同過濾推薦( user-based CF ) 思想:根據所有用戶對物品或者信息的偏好,發現與當前用戶口味和偏好相似的“鄰居”用

6、戶群,為當前戶進行推薦;編輯ppt基于協同過濾推薦( item-based CF ) 思想:使用所有用戶對物品或者信息的偏好,發現物品和物品之間的相似度,然后根據用戶的歷史偏好信息,將類似的物品推薦給用戶;編輯ppt基于協同過濾推薦( item-based CF )考慮到大多數電商網站多人多熱門商品要遠少于人數,一般會選擇基于物品的協同過濾算法。編輯ppt基于協同過濾推薦編輯ppt基于協同過濾推薦優缺點優缺點: 不需要考慮物品內容和人口屬性,需要歷史記錄。 由于需要用戶的歷史偏好,所以存在新用戶的“冷啟動”問題;編輯ppt頻繁模式挖掘 關聯規則挖掘的典型案例: 購物籃問題 在商場中擁有大量的商

7、品(項目),如:牛奶、面包等,客戶將所購買的商品放入到自己的購物籃中。 編輯ppt頻繁模式挖掘(支持度與置信度支持度與置信度 )關聯關聯規則的規則的支持度支持度 如果交易數據庫D中s的交易包含AB,則稱規則A =B在事務集D上的支持度為s。Support(A=B)=P(AB) 關聯關聯規則的規則的置信度置信度 如果交易數據庫D中,包含A的交易中有c(%)的交易同時也包含B,稱規則的置信度為c。(條件概率)Confidence (A =B)=P(B|A) =support(A = B)/support(A)(注:這里的U是指在交易中同時出現A和B) 編輯ppt頻繁模式挖掘查找所有的規則 A=C

8、具有最小支持度和可信度 支持度 , s , 一次交易中包含 A 、 C 的可能性 置信度 , c, 包含 A 的交易中也包含 C 的條件概率 編輯ppt頻繁模式挖掘rule A=C : support = support( A C ) = 50% confidence = support( A C )/support( A ) = 66.7% rule C =A (50%, 100%) 編輯ppt頻繁模式挖掘(頻繁項集 )項集 (Itemset): a set of items 例如 acm=a, c, m , sup=3 頻繁項集(高頻項集) 如果項集滿足最小支持度,則稱之為頻繁項集 如果

9、min_sup = 3, 則 acm 是頻繁項集 如果頻繁項集中包含 K 個項,則稱為頻繁 K 項集 編輯ppt頻繁模式挖掘(Apriori算法 )尋找最大頻繁集逐層搜索的迭代方法。 用k-項集探求(k+1)-項集。 具體地: 首先找出頻繁1-項集,該集合記為L 用L找出頻繁2-項集的集合L 如此繼續下去,直到找到最大頻繁項集 該方法,主要有連接和剪枝兩步構成。 編輯ppt標簽系統編輯ppt標簽系統 表明物品是什么 比如是一只鳥,就會有“鳥”這個詞的標簽 表明物品的種類 比如在Delicious的書簽中,表示一個網頁類別的標簽包括 article(文章)、blog(博客)、 book(圖書)等。 表明誰擁有物品 比如很多博客的標簽中會包括博客的作者等信息。 表達用戶的觀點 比如用戶認為網頁很有趣,就會打上標簽funny(有趣),認為很無聊,就會打上標簽boring(無聊)。 用戶相關的標簽 比如 my favorite(我最喜歡的)、my comment(我的評論)等。 用戶的任務 比如 to read(即將閱讀)、job search(找工作)編輯ppt基于標簽系統的推薦編輯ppt標簽系統 KNN聚類算法編輯ppt標簽系統 主題模型算法編輯ppt標簽系統 用戶畫像用戶畫像的核心工作是為用戶打標簽,打標簽的重要目的之一是為了讓人能夠理解并且方便計算機處理。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論