




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 PAGE - 19 -評(píng)委一評(píng)分,簽名及備注隊(duì)號(hào):20038評(píng)委三評(píng)分,簽名及備注評(píng)委二評(píng)分,簽名及備注選題:B評(píng)委四評(píng)分,簽名及備注題目:基于協(xié)同過(guò)濾的智能書籍推薦系統(tǒng)摘 要隨著信息技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,人們逐漸從信息匱乏的時(shí)代走入了信息過(guò)載的時(shí)代,對(duì)于信息消費(fèi)者來(lái)說(shuō),從大量信息中找到自己感興趣的信息是非常困難的事情;而對(duì)于信息生產(chǎn)者來(lái)說(shuō),讓自己生產(chǎn)的信息脫穎而出,受到廣大用戶的關(guān)注,也是非常困難的事情。為了解決這一矛盾,建立了基于主成分分析的去相關(guān)模型、預(yù)測(cè)書籍評(píng)分模型、協(xié)同過(guò)濾推薦模型,解決了用戶從眾多書籍中找出優(yōu)質(zhì)圖書的難題。針對(duì)問(wèn)題一:依據(jù)相關(guān)性理論,建立了基于主成分分析的去相關(guān)
2、模型,得到了影響用戶對(duì)書籍評(píng)價(jià)的主要因素。首先對(duì)給出的數(shù)據(jù)進(jìn)行分析和篩選,找出可能會(huì)對(duì)書籍評(píng)分產(chǎn)生影響的因素。其次,建立主成分分析的去相關(guān)模型,研究所選因素是否能夠科學(xué)、準(zhǔn)確地影響對(duì)書籍的評(píng)價(jià)。最后,通過(guò)分析得出影響用戶對(duì)書籍評(píng)價(jià)的因素為書籍標(biāo)簽數(shù)和間接關(guān)注度(關(guān)注好友)。針對(duì)問(wèn)題二:依據(jù)線性回歸理論,建立了預(yù)測(cè)書籍評(píng)分模型,可預(yù)測(cè)出用戶對(duì)書籍的評(píng)分。首先建立預(yù)測(cè)用戶和已評(píng)用戶的評(píng)分矩陣,對(duì)每本書引入閱讀特征,對(duì)每一個(gè)用戶引入一個(gè)參數(shù),對(duì)評(píng)分矩陣逐列進(jìn)行線性回歸,得到的矩陣再由梯度下降法優(yōu)化,求得模型參數(shù)。其次,參數(shù)和兩個(gè)特征進(jìn)行內(nèi)積,建立最終的預(yù)測(cè)書籍評(píng)分模型,并用該模型預(yù)測(cè)附件中指定的六個(gè)
3、人對(duì)各自六種不同書籍的評(píng)分。最后,通過(guò)比較預(yù)測(cè)評(píng)分與所給評(píng)分,進(jìn)行誤差分析,得到模型預(yù)測(cè)值較精確。針對(duì)問(wèn)題三:依據(jù)協(xié)同過(guò)濾技術(shù),建立了協(xié)同過(guò)濾推薦模型,可給用戶推薦感興趣的書籍。首先根據(jù)問(wèn)題二得到用戶對(duì)書籍的評(píng)分,創(chuàng)建所有已有評(píng)分的系數(shù)矩陣。其次,通過(guò)比較改進(jìn)的余弦相似矩陣和皮爾遜相似矩陣的值,得到被推薦用戶相似性最大的若干用戶。最后根據(jù)相似性最大用戶所看過(guò)的書籍,給出被推薦用戶感興趣的書籍。最后,分析了模型的優(yōu)缺點(diǎn)。本文運(yùn)用協(xié)同過(guò)濾技術(shù)為對(duì)評(píng)分和書籍推薦系統(tǒng)進(jìn)行了研究,對(duì)用戶成功推薦了書籍。 另外,本文建立的數(shù)學(xué)模型具有較強(qiáng)的“可移植性”,可推廣到網(wǎng)絡(luò)、媒體、影視等領(lǐng)域。關(guān)鍵字:主成分分析,
4、回歸預(yù)測(cè),協(xié)同過(guò)濾,相似矩陣基于(jy)協(xié)同過(guò)濾的智能書籍推薦系統(tǒng)1. 問(wèn)題(wnt)重述與分析(fnx)隨著信息技術(shù)和互聯(lián)網(wǎng)的不斷發(fā)展,大量的信息涌現(xiàn)在我們面前。用戶面對(duì)這些信息很難找到自己真正感興趣的內(nèi)容,而信息提供商也很難把優(yōu)質(zhì)的信息準(zhǔn)確傳達(dá)給感興趣的用戶。因此,研究書籍評(píng)分的問(wèn)題對(duì)信息提供商為用戶推薦優(yōu)質(zhì)的圖書有著非常重要的應(yīng)用價(jià)值。問(wèn)題一要求找出影響用戶對(duì)書籍評(píng)分的因素。需要挖掘題目所給文字信息和數(shù)據(jù)庫(kù)信息,對(duì)給出的數(shù)據(jù)進(jìn)行合理的分析、篩選,找出可能會(huì)對(duì)書籍評(píng)分產(chǎn)生影響的因素,通過(guò)建立模型,研究所選因素是否能影響用戶對(duì)書籍的評(píng)價(jià)。問(wèn)題二要求預(yù)測(cè)predict.txt附件中的用戶對(duì)未看
5、過(guò)書籍的評(píng)分。依據(jù)第一問(wèn)找出的影響用戶對(duì)書籍評(píng)分的因素,作為參數(shù),建立基于項(xiàng)目的評(píng)分預(yù)測(cè)模型,并求出評(píng)分。問(wèn)題三要求給每個(gè)用戶推薦三本沒(méi)看過(guò)的書籍。從用戶的角度考慮,應(yīng)該關(guān)注與他興趣愛(ài)好相似的人所看過(guò)的書籍,從中間找出評(píng)分比較高的書籍作為用戶最終推薦的書籍。因此,要解決如何更好地找出與該用戶相似度高的其他用戶。2. 模型假設(shè)(1)通過(guò)數(shù)據(jù)挖掘,本文僅考慮標(biāo)簽數(shù)、關(guān)注度、書被翻閱次數(shù)三個(gè)可能的因素,不考慮其他的因素;(2)好友關(guān)系是單向的;(3)用戶沒(méi)有評(píng)分的項(xiàng)目均將評(píng)分假設(shè)為其所在行的平均值;(4)不考慮原始數(shù)據(jù)的缺失問(wèn)題。3. 符號(hào)說(shuō)明: 相關(guān)系數(shù): 表示書簽1,表示書簽2: 平均絕對(duì)偏差:
6、 用戶和項(xiàng)目之間的相似度: 目標(biāo)用戶對(duì)為未評(píng)分目標(biāo)的預(yù)測(cè)分?jǐn)?shù): 用戶的最近鄰居集合: 用戶和用戶對(duì)項(xiàng)目的平均評(píng)分4. 模型的建立與求解4.1 基于主成分分析的去相關(guān)模型 4.1.1 相關(guān)性理論主成分分析法【1】是一種通過(guò)降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分(即綜合變量)的統(tǒng)計(jì)分析方法。其中每個(gè)主成分都是原始變量的線性組合,各主成分之間互不相關(guān),從而這些主成分能夠反映原始變量的絕大部分信息,且所含的信息互不重疊。采用這種方法可以克服單一的理化指標(biāo)不能真實(shí)反映用戶對(duì)書籍評(píng)分的全面特征的缺點(diǎn),引進(jìn)多方面的理化指標(biāo),但又將復(fù)雜因素歸結(jié)為幾個(gè)主成分,使得復(fù)雜問(wèn)題得以簡(jiǎn)化,同時(shí)找出更為科學(xué)、準(zhǔn)確的影響書籍
7、評(píng)價(jià)的因素。首先(shuxin),根據(jù)(gnj)題目所給數(shù)據(jù),找出可能影響用戶對(duì)書籍評(píng)分的因素即:1、某本書被用戶翻閱過(guò)的次數(shù)(csh);2、間接關(guān)注度(用戶社交所體現(xiàn)的某本書的關(guān)系數(shù)據(jù));3、書籍的標(biāo)簽數(shù)。其次,對(duì)找出的三個(gè)因素進(jìn)行整體檢驗(yàn),即對(duì)整個(gè)評(píng)價(jià)體系中的每一個(gè)元素(即單項(xiàng)評(píng)價(jià)指標(biāo))進(jìn)行可行性、正確性、真實(shí)性三個(gè)方面進(jìn)行分析。(所謂可行性,是指該指標(biāo)的數(shù)值能否正確獲得,那些無(wú)法或很難取得準(zhǔn)確資料的指標(biāo),或者即使能取得但花費(fèi)很高,都是不可行的,)所謂正確性,則是指指標(biāo)的計(jì)算方法和計(jì)算范圍及計(jì)算內(nèi)容應(yīng)該科學(xué)。所謂真實(shí)性,主要是分析特定綜合評(píng)價(jià)數(shù)據(jù)資料的質(zhì)量高低,是否符合特定綜合評(píng)價(jià)方法的需
8、要。最后,將綜合評(píng)價(jià)指標(biāo)體系的度量對(duì)象劃分成若干個(gè)不同組成部分或不同側(cè)面(即子系統(tǒng)),并逐步細(xì)分,直到每一個(gè)部分和側(cè)面都可以用具體的統(tǒng)計(jì)指標(biāo)來(lái)描述和實(shí)現(xiàn)。針對(duì)如何排除無(wú)關(guān)信息的干擾問(wèn)題,本文采用主成分分析法中的去相關(guān)方法,排除相關(guān)性比較大且各指標(biāo)之間重疊度小的因子,從而最終得到影響用戶對(duì)書籍評(píng)分的因素。4.1.2 模型建立與求解根據(jù)題中給出的標(biāo)簽數(shù)據(jù)、關(guān)系數(shù)據(jù)和書籍?dāng)?shù)據(jù),運(yùn)用進(jìn)行數(shù)據(jù)挖掘,程序語(yǔ)句見(jiàn)附錄一。針對(duì)如何排除無(wú)關(guān)信息的干擾問(wèn)題,采用主成分分析法中的去相關(guān)排除相關(guān)性比較大的指標(biāo)來(lái)得到最終的評(píng)價(jià)指標(biāo)。首先計(jì)算相關(guān)系數(shù)矩陣: (1) 在公式(1)中,為原來(lái)變量與的相關(guān)系數(shù),其計(jì)算公式為:
9、(2)因?yàn)?yn wi)是實(shí)對(duì)稱(duchn)矩陣(即)所以只需計(jì)算其上三角(snjio)元素或下三角元素即可,結(jié)果如表1所示:表1:相關(guān)性系數(shù)矩陣相關(guān)性間接關(guān)注度被翻閱的次數(shù)書籍標(biāo)簽數(shù)間接關(guān)注度Pearson相關(guān)性1-.064-.110顯著性(雙側(cè)).195.255N191919被翻閱的次數(shù)Pearson相關(guān)性-.0641.559*顯著性(雙側(cè)).195.013N191919書籍標(biāo)簽數(shù)Pearson相關(guān)性-.110.559*1顯著性(雙側(cè)).255.013N1919 19*.Correlationissignificantatthe0.05level(2-tailed).然后根據(jù)表1中相關(guān)性
10、分析可知,書籍標(biāo)簽數(shù)和被翻閱的次數(shù)相關(guān)性比較大,被翻閱的次數(shù)被剔除。最后本文求得影響用戶對(duì)書籍評(píng)分的因素如圖1所示。書籍評(píng)分因素間接關(guān)注度書籍標(biāo)簽數(shù)圖1:最終確定(qudng)的指標(biāo)個(gè)數(shù)4.2 預(yù)測(cè)(yc)書籍評(píng)分模型(mxng)4.2.1 模型的建立對(duì)于每個(gè)、為其所屬標(biāo)簽,此標(biāo)簽可以理解讀者為對(duì)書籍類型的偏好,即讀者的閱讀特征。閱讀特征中包含讀者對(duì)書籍的隱式信息,進(jìn)行相關(guān)數(shù)據(jù)挖掘可以得到書籍評(píng)分和用戶之間的關(guān)系。關(guān)于數(shù)據(jù)挖掘的方法有很多種,例如,線性回歸、機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)、以及支持向量機(jī)等方法。所有文獻(xiàn)中所涉及到的機(jī)器學(xué)習(xí)的過(guò)程,都可以視為對(duì)數(shù)學(xué)模型參數(shù)進(jìn)行優(yōu)化求解過(guò)程,從廣義來(lái)看學(xué)習(xí)的過(guò)程
11、可以轉(zhuǎn)化為優(yōu)化問(wèn)題。機(jī)器學(xué)習(xí)過(guò)程中有三個(gè)要素影響著其學(xué)習(xí)的效率和效果。函數(shù)函數(shù)以及下降梯度函數(shù)。綜合各種方法的優(yōu)缺點(diǎn),本文采用優(yōu)化的多變量線性回歸【3】進(jìn)行書籍評(píng)分和讀者閱讀特征之間的關(guān)系。 經(jīng)過(guò)數(shù)據(jù)處理得到用戶書籍評(píng)分表,此表為二維向量,如表2所示:表2:待預(yù)測(cè)與已知數(shù)據(jù)列表用戶書籍7245481415665899771507625225(待預(yù)測(cè))473690400?929118400?235338445?424691445?916469404?793936440?對(duì)每個(gè)讀者引入?yún)?shù),構(gòu)造監(jiān)督方法,對(duì)評(píng)分矩陣逐列進(jìn)行線性回歸并對(duì)模型進(jìn)行優(yōu)化,得到模型參數(shù)。多變量假設(shè)輸出由多維決定,即輸入為多
12、維特征。多元線性回歸的模型:本文選取兩個(gè)特征進(jìn)行回歸預(yù)測(cè),為加強(qiáng)模型準(zhǔn)確度,對(duì)應(yīng)每一個(gè)讀者引入常數(shù)項(xiàng)特征和參數(shù)對(duì)每個(gè)用戶都訓(xùn)練一個(gè),優(yōu)化模型如下:梯度下降更新:參數(shù)的梯度遞減(djin)單變量學(xué)習(xí)方法: (3)4.2.2 模型(mxng)的求解MATLAB線性回歸處理(chl)和基于機(jī)械學(xué)習(xí)訓(xùn)練后的參數(shù)的優(yōu)化程序見(jiàn)附錄二, ID為7625225的用戶對(duì)六本書的求解過(guò)程及結(jié)果見(jiàn)表3和表4,其余五個(gè)人的預(yù)測(cè)分值見(jiàn)附錄三。表3:數(shù)據(jù)的初步處理用戶書籍7245481415665899771507625225(待預(yù)測(cè))47369040010.9092911840011.00.012353384453.2
13、0.9904246914453.20.011.091646940420.11.0793936440200.9表4:預(yù)測(cè)ID號(hào)為7625225用戶對(duì)六本書的評(píng)分用戶書籍724548141566589977150預(yù)測(cè)值(7625225)實(shí)際值(7625225)4736904004.1749291184004.1442353384454.2554246914454.3149164694044.2457939364404.2454.2.3 模型檢驗(yàn)ID號(hào)為7625225用戶對(duì)六本書的預(yù)測(cè)評(píng)分?jǐn)?shù)值與已知分?jǐn)?shù)值對(duì)比分析圖,如圖2所示:圖2 預(yù)測(cè)值與真實(shí)(zhnsh)值對(duì)比 由上圖可知,本文(bnwn)的預(yù)
14、測(cè)值在題目給出的實(shí)際值附近波動(dòng),并由SPSS計(jì)算(j sun)出絕對(duì)誤差為0.015,相對(duì)較小,因此該模型求得的預(yù)測(cè)的評(píng)分比較準(zhǔn)確。4.3 協(xié)同過(guò)濾推薦模型4.3.1 推薦原理為給每個(gè)用戶推薦3本沒(méi)看過(guò)的書籍,基于物品的的原理【2】【4】,只是在計(jì)算鄰居時(shí)采用物品本身,而不是從用戶的角度,即基于用戶對(duì)物品的偏好找到相似的物品,然后根據(jù)用戶的歷史偏好,推薦相似的物品給他。從計(jì)算的角度看,就是將所有用戶對(duì)某個(gè)物品的偏好作為一個(gè)向量來(lái)計(jì)算物品之間的相似度,得到物品的相似物品后,根據(jù)用戶歷史的偏好預(yù)測(cè)當(dāng)前用戶還沒(méi)有表示偏好的物品,計(jì)算得到一個(gè)排序的物品列表作為推薦。下圖給出了一個(gè)例子,對(duì)于物品,根據(jù)所
15、有用戶的歷史偏好,喜歡物品的用戶都喜歡物品,得出物品和物品比較相似,而用戶喜歡物品,那么可以推斷出用戶可能也喜歡物品。即圖3書籍推薦流程圖:書籍A書籍B書籍C書籍A書籍B書籍C推薦用戶/物品書籍A書籍B書籍C相似喜歡推薦圖3:書籍(shj)推薦流程圖由以上書籍推薦(tujin)的理論流程圖,可以得知物品的協(xié)同過(guò)濾推薦技術(shù)基于大部分用戶對(duì)一些項(xiàng)的評(píng)分比較相似,假設(shè)當(dāng)前用戶對(duì)這些項(xiàng)的評(píng)分也比較相似。那么找出兩個(gè)用戶之間的相似度對(duì)解決本文就尤其重要。如圖3給出協(xié)同過(guò)濾推薦算法的工作流程圖,給出由評(píng)分(png fn)矩陣得出用戶之間相似度關(guān)系,從而找出為用戶推薦的書籍。例如,用戶1,2,3對(duì)項(xiàng)目,評(píng)分
16、分別為3,4,5和3,4,5,用戶4對(duì)項(xiàng)目的評(píng)分為1,因?yàn)轫?xiàng)目,的評(píng)分很相似,說(shuō)明和B很相似,則我們可以認(rèn)為用戶4對(duì)項(xiàng)目的評(píng)分和對(duì)項(xiàng)目的評(píng)分差不多,也不高。因此采用協(xié)同過(guò)濾推薦的算法。 目標(biāo)用戶輸入評(píng)分矩陣相似度計(jì)算預(yù)測(cè)推薦推薦協(xié)同過(guò)濾推薦算法要預(yù)測(cè)的項(xiàng)目圖4:協(xié)同過(guò)濾推薦算法的工作流程圖4.3.2 模型的建立 通過(guò)以上協(xié)同過(guò)濾推薦算法5的工作流程圖,可知Item-based方法需要進(jìn)行的三個(gè)步驟:(1) 得到User-item的評(píng)分?jǐn)?shù)據(jù);(2) 目標(biāo)項(xiàng)的最近鄰搜索,即對(duì)項(xiàng)進(jìn)行相似度計(jì)算;(3) 產(chǎn)生推薦。首先評(píng)分?jǐn)?shù)據(jù)已經(jīng)由模型二已得出,接下來(lái)本文通過(guò)最近鄰的方法及皮爾森、余弦和改進(jìn)的余弦相似
17、性算法求出用戶之間的相似度。(I) 皮爾森相似性算法: (4)(II) 余弦相似性算法: 在評(píng)分矩陣中,每個(gè)項(xiàng)目的所有評(píng)分可以視為這個(gè)矩陣的一個(gè)列向量,計(jì)算兩個(gè)項(xiàng)目的相似度就可以通過(guò)計(jì)算兩個(gè)項(xiàng)目對(duì)應(yīng)的兩個(gè)列向量之間的余弦值,用這個(gè)余弦值來(lái)表示這兩個(gè)項(xiàng)目的相似度。表示用戶和項(xiàng)目之間的相似度,表示與共同評(píng)價(jià)過(guò)的項(xiàng)目集合,和分別表示對(duì)項(xiàng)目的評(píng)分和對(duì)項(xiàng)目的評(píng)分。(III) 修正(xizhng)的余弦相似性算法: (5)在余弦相似性度量方法(fngf)中沒(méi)有考慮不同用戶打分的尺度問(wèn)題,有些用戶傾向于評(píng)分低一些,有些用戶傾向于評(píng)分高一些,修正的余弦相似性度量方法通過(guò)減去用戶的平均評(píng)分來(lái)改善上述缺陷。表示用
18、戶和用戶之間的相似度,表示(biosh)的平均評(píng)分。運(yùn)用MATLAB對(duì)用戶項(xiàng)目評(píng)價(jià)矩陣的建立和改進(jìn)余弦值相似矩陣的計(jì)算的程序見(jiàn)附錄四。R RR RR RR-R圖5:基于項(xiàng)目的協(xié)同過(guò)濾算法相似度計(jì)算示意圖根據(jù)相似度的計(jì)算方法,找到用戶-物品的鄰居,采用基于相似度門檻的鄰居挑選的原則,通過(guò)matlab對(duì)數(shù)據(jù)篩選、計(jì)算【6】【8】【9】,將題目所給書籍標(biāo)簽,讀者評(píng)分,讀者歷史數(shù)據(jù)以及讀者之間的社會(huì)關(guān)系等數(shù)據(jù)進(jìn)行分割,以及數(shù)據(jù)挖掘,提取用戶因子矩陣和物品因子矩陣,從雜亂無(wú)章的海量數(shù)據(jù)中提取隱含信息,挖掘數(shù)據(jù)之間的關(guān)系,整理出書籍ID和書籍標(biāo)簽數(shù)對(duì)應(yīng)的關(guān)系,用戶書籍評(píng)分矩陣,用戶-用戶之間社交網(wǎng)絡(luò)關(guān)系,
19、以及用戶之間的相似度矩陣,并對(duì)書籍進(jìn)行分類處理,為后續(xù)的算法設(shè)計(jì)和數(shù)據(jù)后處理提供技術(shù)支持。得到了如圖6的二維平面空間上點(diǎn)集的示意圖。基于相似度門檻的鄰居計(jì)算是對(duì)鄰居的遠(yuǎn)近進(jìn)行最大值的限制,落在以當(dāng)前點(diǎn)為中心,距離為K的區(qū)域中的所有點(diǎn)都作為當(dāng)前點(diǎn)的鄰居,這種方法計(jì)算得到的鄰居個(gè)數(shù)不確定,但相似度不會(huì)出現(xiàn)較大的誤差。如圖6中的B,從點(diǎn)1出發(fā),計(jì)算相似度在K內(nèi)的鄰居,得到點(diǎn)2,點(diǎn)3,點(diǎn)4和點(diǎn)7,這種方法計(jì)算出的鄰居的相似度程度優(yōu)于固定數(shù)量的鄰居,尤其是對(duì)孤立點(diǎn)的處理。A:K-neighborhoodsB:Threshold-based neighborhoods8564321717243865K圖6
20、:相似(xin s)鄰居計(jì)算示意圖 通過(guò)提出(t ch)的相似性度量方法得到目標(biāo)用戶的最近鄰居,下一步需要產(chǎn)生相應(yīng)的推薦。設(shè)用戶(yngh)的最近鄰居集合用表示,則用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分可以通過(guò)用戶對(duì)最近鄰居集合中項(xiàng)目的評(píng)分得到,計(jì)算方法如下: (6)其中表示用戶與用戶之間的相似性,表示用戶對(duì)項(xiàng)目的評(píng)分,分別表示用戶和用戶對(duì)項(xiàng)目的平均評(píng)分。4.3.3 模型求解及檢驗(yàn)評(píng)價(jià)推薦系統(tǒng)推薦質(zhì)量的度量標(biāo)準(zhǔn)主要包括統(tǒng)計(jì)精度度量方法和決策支持精度度量方法兩類。統(tǒng)計(jì)精度度量方法中的平均絕對(duì)偏差(mean absolute error)易于理解,可以直觀地對(duì)推薦質(zhì)量進(jìn)行度量,是最常用的一種推薦質(zhì)量度量方法,本文采
21、用平均絕對(duì)偏差作為度量標(biāo)準(zhǔn).平均絕對(duì)偏差通過(guò)計(jì)算預(yù)測(cè)的用戶評(píng)分與實(shí)際的用戶評(píng)分之間的偏差度量預(yù)測(cè)的準(zhǔn)確性,越小,推薦質(zhì)量越高。設(shè)預(yù)測(cè)的用戶評(píng)分集合表示為,對(duì)應(yīng)的實(shí)際用戶評(píng)分集合為,則平均絕對(duì)偏差定義為 (7)計(jì)算推薦精度值,分析實(shí)驗(yàn)誤差情況。先求出所有新項(xiàng)目和其他項(xiàng)目的類別屬性相似度,通過(guò)類別相似度得到新項(xiàng)目的最近鄰,通過(guò)最近鄰預(yù)測(cè),求出值,畫出折線圖,如圖7、8所示: 圖7:改進(jìn)后的余弦和皮爾森預(yù)測(cè)(yc)公式對(duì)比(dub)折線圖 圖8:改進(jìn)(gijn)前、后的余弦預(yù)測(cè)公式對(duì)比折線圖分析圖7、8可知,根據(jù)三種相似度計(jì)算公式:余弦、調(diào)整的余弦和皮爾森公式,改進(jìn)后的預(yù)測(cè)公式計(jì)算得到的要比皮爾森的
22、和改進(jìn)前的預(yù)測(cè)公式得到的要低,證明了改進(jìn)的預(yù)測(cè)公式對(duì)系統(tǒng)的推薦精度改進(jìn)的有效性,從而證明了該改進(jìn)預(yù)測(cè)公式相比改進(jìn)前和皮爾森預(yù)測(cè)公式要更好,在一定程度上提高了系統(tǒng)在評(píng)分?jǐn)?shù)據(jù)比較稀疏的情況下的推薦精度。利用MATLAB軟件【7】進(jìn)行搜尋、查找匹配之后,最終給這六個(gè)人每人推薦了3本書,結(jié)果如下表5所示:表5:每個(gè)用戶推薦的3本書762522541566585997834921407872454812515537書1219560356405105810120925105962542175 書2345849144718156860156236129822976811 書35472534235771610
23、141721322032047997795. 模型的改進(jìn)根據(jù)題目給出的user_book_score.txt數(shù)據(jù),利用MATLAB處理項(xiàng)目與項(xiàng)目之間的相似度,形成了35577757的稀疏矩陣。由于評(píng)分矩陣的稀疏性,導(dǎo)致兩個(gè)項(xiàng)目評(píng)分的交集變得很小,甚至為空集,這樣計(jì)算得到的相似度就有可能很小,甚至為0,但是不能因?yàn)閮蓚€(gè)項(xiàng)目的共同評(píng)分集合為空就認(rèn)為這兩個(gè)項(xiàng)目是完全不相似的,這肯定是不正確的。雖然用戶數(shù)量很多,但是共同點(diǎn)評(píng)它們的用戶很少,因此少數(shù)用戶的觀點(diǎn)不能代表大家的觀點(diǎn)。然而在普通算法計(jì)算相似度中卻沒(méi)有單獨(dú)考慮這些共同評(píng)分集合很少的項(xiàng)目,實(shí)際上計(jì)算得到的它們的相似度是不準(zhǔn)確的,導(dǎo)致計(jì)算出的相似度
24、準(zhǔn)確度降低,最終影響了算法的推薦精度。從上面的探討來(lái)看,在計(jì)算兩個(gè)項(xiàng)目相似度的時(shí)候,我們基本上可以得出這樣(zhyng)的結(jié)論:兩個(gè)項(xiàng)目共同評(píng)分的用戶數(shù)目越多,說(shuō)明計(jì)算出的相似度越(d yu)可靠,共同評(píng)分的用戶數(shù)目越少計(jì)算出的相似度越值得懷疑,所以應(yīng)該對(duì)普通算法的相似度計(jì)算公式進(jìn)行改進(jìn)。我們應(yīng)該添加一個(gè)相似度的影響因子(項(xiàng)目評(píng)分(png fn)交集的個(gè)數(shù)),并利用這個(gè)因子來(lái)減小那些被放大的相似度的影響。我們可以初步得到一個(gè)大概的相似度計(jì)算公式: (8)表示改進(jìn)算法得到的項(xiàng)目和項(xiàng)目的相似度,表示項(xiàng)目和項(xiàng)目的共同評(píng)分用戶的數(shù)目,表示以作為參數(shù)的一個(gè)函數(shù),函數(shù)的輸出值就是項(xiàng)目交集個(gè)數(shù)對(duì)普通算法相似
25、度的影響程度,表示的是普通算法得到的相似度結(jié)果。其中的選取為: 是交集個(gè)數(shù)的一個(gè)分界線,當(dāng)兩個(gè)項(xiàng)目的交集評(píng)分個(gè)數(shù)超過(guò)的話,就認(rèn)為通過(guò)傳統(tǒng)相似度計(jì)算公式得到的相似度是可靠的;當(dāng)交集個(gè)數(shù)少于的話,就認(rèn)為通過(guò)傳統(tǒng)相似度計(jì)算公式得到的相似度是不可靠的,就要乘上一個(gè)權(quán)重因子。在求項(xiàng)目相似度的時(shí)候考慮類別屬性,通過(guò)類別屬性來(lái)緩解新項(xiàng)目問(wèn)題: (9)與傳統(tǒng)算法相比而言,改進(jìn)算法的優(yōu)勢(shì)之一在于不管推薦系統(tǒng)處于什么狀態(tài),項(xiàng)目之間的相似度都是可以計(jì)算得到,很多的新項(xiàng)目沒(méi)有評(píng)分?jǐn)?shù)據(jù),但是通過(guò)項(xiàng)目類別相似度就很有可能得到它的最近鄰,那么系統(tǒng)就可以通過(guò)新項(xiàng)目的最近鄰來(lái)進(jìn)行預(yù)測(cè)和推薦了,這樣新項(xiàng)目的問(wèn)題就得到一定程度上的
26、緩解。6. 模型的評(píng)價(jià)與推廣6.1模型優(yōu)點(diǎn)(1)所有的分析都是建立在所得數(shù)據(jù)的基礎(chǔ)上的,預(yù)測(cè)結(jié)果有說(shuō)服力。(2)主成分分析法對(duì)所選因素進(jìn)行整體檢驗(yàn),合理找出影響評(píng)分的因素。(3)優(yōu)化的線性回歸,提高了預(yù)測(cè)精度。6.2 模型缺點(diǎn)提出針對(duì)解決大量數(shù)據(jù)的稀疏性問(wèn)題。但是由于時(shí)間因素的限制,沒(méi)有對(duì)稀疏性問(wèn)題進(jìn)行模型求解。6.3 模型(mxng)推廣(tugung)在如今(rjn)信息暴漲的背景下,推薦系統(tǒng)顯得尤為重要,推薦系統(tǒng)也越來(lái)越受到學(xué)術(shù)界的關(guān)注。本文選取了運(yùn)用最為廣泛的推薦技術(shù):協(xié)同過(guò)濾推薦技術(shù)為模型對(duì)評(píng)分和書籍推薦進(jìn)行了研究,并得出了比較合理的結(jié)論。本文建立的數(shù)學(xué)模型具有較強(qiáng)的“可移植性”,可
27、以廣泛應(yīng)用于網(wǎng)絡(luò)、媒體、影視等領(lǐng)域。7.參考文獻(xiàn)【1】 高祥寶,董寒青. 數(shù)據(jù)分析與SPSS應(yīng)用. 北京:清華大學(xué)出版社,2007.【2】 鄧愛(ài)林,朱揚(yáng)勇,施伯樂(lè). 基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過(guò)濾推薦算法. 軟件學(xué)報(bào), 14(09)1621:1624-1626,2003.【3】 /lifeitengup/article/details/9174419#comments【4】 季昀. 基于協(xié)同過(guò)濾推薦算法電影網(wǎng)站的構(gòu)建. 哈爾濱大學(xué)工業(yè)大學(xué),2009.【5】 姚忠,魏佳,吳躍. 基于高維稀疏數(shù)據(jù)聚類的協(xié)同過(guò)濾推薦算法. 信息系統(tǒng)學(xué)報(bào),第2卷第2輯 (總第3輯):78-96, 2008.【6】 董霖.
28、 MATLAB實(shí)用詳解基礎(chǔ)、開(kāi)發(fā)及工程應(yīng)用. 北京:電子工業(yè)出版社, 2009.【7】 陳杰. MATLAB寶典. 北京 :電子工業(yè)出版社, 2011.【8】 lzqkean. 我愛(ài)機(jī)器學(xué)習(xí). HYPERLINK /content/14/0513/10/13256259_377162634.shtml /content/14/0513/10/13256259_377162634.shtml, 2014.5.25.【9】 HYPERLINK /LiFeitengup t _blank LiFeitengup. 推薦系統(tǒng)機(jī)器學(xué)習(xí), HYPERLINK /lifeitengup/article/de
29、tails/9174419#comments /lifeitengup/article/details/9174419#comments , 2014.5.25.附 錄附錄(fl)一、1.user_social中被關(guān)注(gunzh)的用戶 load(peoplebeviewdinuser_social.mat) x=peoplebeviewd(:);x=sort(x);d=diff(x;max(x)+1);count = diff(find(1;d) ;frenqency_of_people_be_viewd=x(find(d) count;2.標(biāo)簽(bioqin)統(tǒng)計(jì)load(booktag
30、.mat)load(booktable.mat)B=sort(booktabel(:);a=B(B=0);x=a(:);x=sort(x);d=diff(x;max(x)+1);count = diff(find(1;d) ;y =x(find(d) count;3.書籍被看過(guò)的次數(shù)(user_read_history)load(usersid of user_read_history.mat) load(books which are read of user_read_history.mat) user_read_history=VarName4 VarName5; sorted_user
31、_read_history_by_bookid= sortrows(user_read_history,2); B=sort(VarName5(:); x=B(:);x=sort(x);d=diff(x;max(x)+1);count = diff(find(1;d) ;frenqency_of_bookid=x(find(d) count;附錄二、參數(shù)的優(yōu)化b = regress(y,X)regras() B1X=zeros(row_a,row_a); for i=1:row_a for j=1:row_a if(j=i) B1X(i,i)=B1X(i,i)-B1X(i,j); end en
32、d end V1=zeros(row_a,row_a); for i=1:row_a for j=1:row_a if(i=j) V1(i,j)=-Wa(i,j); V1(i,i)=V1(i,i)+Wa(i,j); end end end V1a=inv(V1+ones(row_a)-1/(row_a2)*ones(row_a); a1=V1a*B1X*a; segma=0; for i=1:row_a for j=i+1:row_a Theta=segma+Wa(i,j)*Da(i,j)*Da(i,j); end end Theta=segma+trace(a*V1*a)-2*trace(a
33、*B1X*a);附錄(fl)三、predict.txt附件中的用戶對(duì)書籍評(píng)分(png fn)的預(yù)測(cè)結(jié)果用戶ID書籍ID預(yù)測(cè)分用戶ID書籍ID預(yù)測(cè)分72454817941714.0576252254736904.1772454813810604.2776252259291184.1472454817760024.3676252252353384.2572454819807054.1376252254246914.3172454813542924.1776252259164694.4572454817387354.2376252257939364.7341566581750314.03599783
34、43469354.2041566584227114.2659978341447184.3441566585857834.0159978348273054.1441566584129904.0159978342195604.2041566581340034.1459978342420574.3241566584439483.9859978348035084.1592140783104114.1925155379001974.1692140787276354.1125155376801584.1192140787249174.1225155377703094.3292140783257214.2225155374246914.3192140781059624.1925155375737324.0792140782353383.6
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- DB31/ 765.6-2015上海市重點(diǎn)行業(yè)反恐怖防范系統(tǒng)管理規(guī)范第6部分:電網(wǎng)
- DB31/ 199-2018污水綜合排放標(biāo)準(zhǔn)
- 2024年觸控產(chǎn)品資金申請(qǐng)報(bào)告代可行性研究報(bào)告
- 連鎖酒店品牌形象維護(hù)考核試卷
- 融合創(chuàng)新項(xiàng)目研發(fā)保密補(bǔ)充協(xié)議
- 2025年中國(guó)鋇氧化物行業(yè)市場(chǎng)前景預(yù)測(cè)及投資價(jià)值評(píng)估分析報(bào)告
- 網(wǎng)絡(luò)游戲版號(hào)申請(qǐng)合規(guī)代理服務(wù)全面協(xié)議
- 影視作品宣傳冊(cè)膠水租賃與印刷服務(wù)協(xié)議
- 童話改編電影劇本版權(quán)買斷及衍生品開(kāi)發(fā)合同
- 電商店鋪裝修設(shè)計(jì)及用戶增長(zhǎng)策略合同
- 2022年修改后的銀行業(yè)G32表填報(bào)說(shuō)明
- 巨量-信息流(初級(jí))認(rèn)證考試(重點(diǎn))題庫(kù)(含答案)
- 硫磺車間風(fēng)險(xiǎn)辨識(shí)表
- 鑄造行業(yè)的危險(xiǎn)因素辨識(shí)及預(yù)防措施
- 起重裝卸機(jī)械操作工(高級(jí)工)考試題庫(kù)(含答案)
- 六年級(jí)集體備課活動(dòng)記錄(北京的春節(jié))
- 三相照明配電干線的各相負(fù)荷平衡情況檢測(cè)記錄表2
- 五金銷售合同2023(含價(jià)格清單)
- 幼兒園小班科學(xué)教育《雨的好處和危害》教學(xué)課件(含完整內(nèi)容)
- 輸電線路基本知識(shí)
- 化工原理填料塔課程設(shè)計(jì)-清水吸收氨氣的填料塔裝置設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論