




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于社會化標(biāo)簽的推薦系摘要隨著現(xiàn)代互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)每天都以巨大的規(guī)模增長著。人們越來越困難的從這海量的數(shù)據(jù)中找到所需的資源,這里就需要各個給用戶推薦。而標(biāo)簽技術(shù)的出現(xiàn)給個性化推薦帶來了新的機(jī)遇。社會化標(biāo)簽是一種準(zhǔn)確、靈活、開放、有趣的分類方式,是由用戶為自己的文章、圖片、音頻、視頻等一系列文件所定義的一個或多個描述。通過對社會化標(biāo)簽的使用來給用戶提供優(yōu)質(zhì)的選項,以使用戶在海量的數(shù)據(jù)中找到心滿意足的信息。關(guān)鍵字:海量數(shù)據(jù),社會化標(biāo)簽AbstractWith the development of the Internet, the data in the internet every
2、day to grow a huge scale. People increasingly difficult to find required resources from the vast amounts of data, where each site is required to recommend to the user. The label appears to personalized recommendation technology brings new opportunities. Social tagging is an accurate, flexible, open,
3、 interesting classification, which defined description for their articles, images, audio, video and a series of documents. Through the use of social tagging ,we can provide the user with high-quality option to enable users to find information contentedly in vast amounts of data.Key:Huge amounts of d
4、ata, social tagging1緒論本章主要介紹的是關(guān)于社會化標(biāo)簽推薦系統(tǒng)研究的背景,國外研究的狀況和本文研究的方向。1.1研究背景和意義1.1.1研究背景近些年來,blog、wiki、spaces的興起導(dǎo)致互聯(lián)網(wǎng)容的提供方式出現(xiàn)轉(zhuǎn)變;用戶創(chuàng)造容的web2.0時代的到來,帶動著視頻應(yīng)用、網(wǎng)絡(luò)游戲、搜索引擎等互聯(lián)網(wǎng)衍生業(yè)務(wù)迅速發(fā)展。互聯(lián)網(wǎng)正處于一個信息爆炸的時代, 越來越多的信息被數(shù)據(jù)化。面對信息爆炸的互聯(lián)網(wǎng),如何對這些海量數(shù)據(jù)進(jìn)行分類存儲和處理,是對那些大規(guī)模互聯(lián)網(wǎng)企業(yè)提出了巨大的技術(shù)挑戰(zhàn)。標(biāo)簽系統(tǒng)在這種環(huán)境下應(yīng)運而生,在以用戶為中心的Web20環(huán)境中,標(biāo)簽系統(tǒng)允許任意用戶對感興趣的網(wǎng)
5、絡(luò)資源進(jìn)行無約束的標(biāo)注,所有用戶的標(biāo)注都互為可見,這種開放的、共享的模式體現(xiàn)了以人為本的Web20理念,同時也為新環(huán)境息資源組織、推薦和共享帶來了新的機(jī)遇。雖然用戶標(biāo)注這個過程的本身非常簡單,但是卻有著很重要的意義。首先,用戶標(biāo)注反映了他們對網(wǎng)絡(luò)資源的不同視角和理解,豐富了描述資源的多維角度;再次,標(biāo)簽系統(tǒng)能更好的為用戶組織資源、瀏覽資源提供幫助。相比較之前的系統(tǒng)大多是依靠少數(shù)領(lǐng)域?qū)<覍Y源進(jìn)行科學(xué)分類,這種方法雖然比較科學(xué)和權(quán)威,但是不能很好的表達(dá)用戶的個人想法和觀點。而標(biāo)簽系統(tǒng)利用標(biāo)簽將網(wǎng)絡(luò)資源按照用戶的視角進(jìn)行分類,能夠更好的為用戶組織資源、瀏覽資源提供幫助。最后,標(biāo)簽系統(tǒng)通過標(biāo)簽將用戶
6、和資源連接起來,通過三者的動態(tài)關(guān)系,可以分析出用戶的興趣偏好。例如,為同一項目資源標(biāo)注一樣標(biāo)簽的用戶,很有可能具有共同的興趣偏好,這對在標(biāo)簽系統(tǒng)中根據(jù)用戶興趣進(jìn)行推薦提供了很好的基礎(chǔ)。總之,標(biāo)簽系統(tǒng)充分發(fā)掘了用戶的積極性,使之參與到系統(tǒng)中來,發(fā)揮了廣大用戶所貢獻(xiàn)的智慧和由用戶聯(lián)系形成的群體智慧的影響,解放了用戶創(chuàng)作和貢獻(xiàn)的潛能。用戶在標(biāo)注網(wǎng)絡(luò)資源時,不但更加準(zhǔn)確客觀的反應(yīng)資源的相關(guān)特征,而且為個性化推薦服務(wù)帶來了至關(guān)重要的數(shù)據(jù)源。結(jié)合標(biāo)簽系統(tǒng)的標(biāo)簽推薦系統(tǒng),相比較傳統(tǒng)的個性化推薦系統(tǒng)可以更加準(zhǔn)確的獲取用戶的特征,為用戶獲取其“量身定做"的信息。從GoogleNews、Amazon、豆
7、瓣、MovieLens等看,越來越多的已經(jīng)慢慢開始在利用標(biāo)簽信息進(jìn)行個性化推薦系統(tǒng)的摸索與應(yīng)用,以此給用戶帶來更好的用戶體驗,從而提高流量與用戶忠誠度和依賴度。1.1.2研究意義20世紀(jì)90年代中期,個性化推薦研究作為一個獨立的概念被提出來,由于巨大的應(yīng)用需求,推薦系統(tǒng)自提出以來得到了學(xué)術(shù)界和企業(yè)界的廣泛關(guān)注。美國計算機(jī)協(xié)會多次把個性化推薦系統(tǒng)作為研討主題,而國外期刊也紛紛將推薦系統(tǒng)作為研究專題,明尼達(dá)大學(xué)教授John Riedl說:“推薦系統(tǒng)將成為未來十年里最重要的變革,社會化將由推薦系統(tǒng)所驅(qū)動”llJ。由于個性化推薦系統(tǒng)的良好發(fā)展和廣闊的應(yīng)用前景,目前,幾乎所有大型電子商務(wù)系統(tǒng)和各種提供個
8、性化服務(wù)的,如Amazon、淘寶網(wǎng)和豆瓣網(wǎng)等,都在不同程度的使用著各種形式的個性化推薦系統(tǒng),個性化推薦系統(tǒng)可以有效的保留客戶提高客戶忠誠度,為帶來了巨大的效益。自從2003年標(biāo)簽技術(shù)推出以來就得到了廣泛的應(yīng)用,結(jié)合標(biāo)簽的個性化推薦系統(tǒng)與以往推薦系統(tǒng)所能獲得的信息有了本質(zhì)區(qū)別,標(biāo)簽作為用戶自由創(chuàng)造的關(guān)鍵詞,體現(xiàn)了用戶對資源的理解,也是用戶之間聯(lián)系和交流的紐帶,因此使得個性化推薦技術(shù)的研究進(jìn)入了一個新的階段。標(biāo)簽從用戶角度描述了信息資源的主要特征,涵蓋了用戶與資源之間,以與用戶之間的關(guān)系,兼具容與關(guān)聯(lián)的特征。1.2國外研究現(xiàn)狀個性化推薦系統(tǒng)的發(fā)展源于二十世紀(jì)九十年代,它自產(chǎn)生以來引起了學(xué)術(shù)界和企業(yè)
9、界的關(guān)注,對于它的研究一直持續(xù)至今。現(xiàn)在被廣泛引用的個性化推薦系統(tǒng)的定義是Resnick&Varian在1997年給出的:“它是利用電子商務(wù)向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程"。實際中應(yīng)用最多的是在網(wǎng)上購物環(huán)境下以商品為推薦對象的個性化推薦系統(tǒng),它為用戶推薦符合興趣愛好的商品。個性化推薦系統(tǒng)的最大的優(yōu)點在于,它能主動的收集用戶興趣特征資料并根據(jù)用戶興趣特征,為用戶作出有效的個性化推薦。同時,當(dāng)系統(tǒng)中的商品庫或用戶興趣特征發(fā)生改變時,系統(tǒng)給出的推薦實時更新,即給出的推薦序列會隨著改變,總之,一個成功的個性化推薦系統(tǒng)的作用主要
10、表現(xiàn)在以下三個方面:(1)將瀏覽者轉(zhuǎn)變?yōu)橘徺I者。如果用戶在電子商務(wù)系統(tǒng)的在瀏覽過程中沒有購買的欲望,個性化推薦系統(tǒng)與時向用戶推薦他們感興趣的商品,就能促成購買過程。(2)提高交叉銷售能力。個性化推薦系統(tǒng)在用戶購買過程中向用戶提供其他有價值的商品推薦,用戶能夠從系統(tǒng)提供的推薦列表中購買自己確實需要但在購買過程中沒有想到的商品,從而有效提高電子商務(wù)系統(tǒng)的交叉銷售。(3)提高客戶忠誠度。個性化推薦系統(tǒng)分析用戶的購買習(xí)慣,根據(jù)用戶需求向用戶提供有價值的商品推薦。如果推薦系統(tǒng)的推薦質(zhì)量和精度很高,用戶就會對推薦系統(tǒng)產(chǎn)生依賴,從而與用戶建立長期穩(wěn)定的關(guān)系,有效保留客戶,提高客戶的忠誠度。作為推薦系統(tǒng)的核心
11、,各種各樣的推薦技術(shù)也被研究人員相繼提出。目前,比較成熟的推薦技術(shù)有基于容的推薦、基于協(xié)同過濾技術(shù)的推薦、基于用戶統(tǒng)計信息的推薦、基于效用的推薦、基于知識的推薦、基于規(guī)則的推薦等。其中協(xié)同過濾技術(shù)是推薦系統(tǒng)中最廣泛使用的技術(shù),協(xié)同過濾的概念是由David Goldberg等人在1992開發(fā)系統(tǒng)Tapestry第一次提出,主要用于郵寄過濾,Tapestry也成為第一個使用協(xié)同過濾推薦技術(shù)的系統(tǒng)。協(xié)同過濾技術(shù)提出以后,在不斷地改進(jìn)中成為當(dāng)前應(yīng)用最成功的推薦方法。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,推薦技術(shù)也在向著更高效、更準(zhǔn)確、更個性化發(fā)展。隨著web20的不斷發(fā)展,社會化標(biāo)簽得到了廣泛的應(yīng)用。標(biāo)簽系統(tǒng)已經(jīng)成為
12、Web20的基本功能之一,為用戶的個性化服務(wù)發(fā)揮了重要的作用,許多研究者對此進(jìn)行的探討,并取得了一定的成果。利用標(biāo)簽信息進(jìn)行個性化推薦主要有以下幾方面的研究:(1)基于聚類分析的個性化推薦:聚類分析是用戶模型建立的重要手段,有許多的研究者對此進(jìn)行了探討。對標(biāo)簽的聚類代表了不同語義主題標(biāo)簽間的分類,在這方面,Niwa等人借助容過濾分析,首先計算資源與標(biāo)簽的緊密度,得到用戶標(biāo)簽的緊密度;計算各個標(biāo)簽之間的相關(guān)性并將相關(guān)標(biāo)簽進(jìn)行聚類,得到用戶與已聚類標(biāo)簽的緊密度。再根據(jù)各個已聚類標(biāo)簽計算得出要推薦的網(wǎng)頁,結(jié)合先前的緊密度得到最終的網(wǎng)頁推薦順序。對用戶的聚類代表了不趣的用戶組,相似用戶或鄰居用戶的識別
13、對于推薦而言無疑具有重要的意義。AeTtie等人以用戶資源矩陣為切入點,通過計算目標(biāo)用戶和其他用戶之間的相似性,得到目標(biāo)用戶的相似鄰居,形成一個目標(biāo)用戶的候選標(biāo)簽集;再應(yīng)用樸素貝葉斯法,結(jié)合標(biāo)簽資源矩陣和用戶標(biāo)簽矩陣,計算出用戶對特定標(biāo)簽的喜好程度;在綜合各個標(biāo)簽的影響后,最終得到資源對用戶的推薦度。Diederich等人在數(shù)字圖書館領(lǐng)域根據(jù)相似用戶的興趣也相似的規(guī)律,通過了解相似用戶對資源的標(biāo)注為目標(biāo)用戶進(jìn)行推薦。在對資源聚類方面,Sasaki等人研究了基于標(biāo)簽對資源進(jìn)行了容聚類,通過假設(shè)檢驗計算了不同聚類間的相似性,最后給出了一個網(wǎng)頁容推薦系統(tǒng)。Yeung等人運用貪婪算法,首先對單個用戶所
14、標(biāo)注的資源進(jìn)行容聚類,再提取出已聚類資源的標(biāo)簽,將標(biāo)注頻率最高的標(biāo)簽引入用戶模型進(jìn)行推薦。(2)基于矩陣處理的個性化推薦:標(biāo)簽系統(tǒng)可以分解為三類矩陣關(guān)系,即用戶資源矩陣、資源標(biāo)簽矩陣和用戶標(biāo)簽矩陣。TsoSutter等人通過矩陣擴(kuò)展的方法,綜合用戶資源矩陣與用戶標(biāo)簽矩陣,提出基于標(biāo)簽的協(xié)同過濾推薦算法,并綜合多方的關(guān)系進(jìn)行了分析。1.3本文研究方向本文針對的是基于社會化標(biāo)簽系統(tǒng)的個性化推薦系統(tǒng),研究的是標(biāo)簽系統(tǒng)在基于圖結(jié)構(gòu)的個性化推薦系統(tǒng)中的應(yīng)用與實現(xiàn)。研究圖結(jié)構(gòu)中的各節(jié)點和節(jié)點間的關(guān)系的屬性即其標(biāo)簽的使用。2推薦系統(tǒng)個性化推薦是根據(jù)用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。
15、隨著電子商務(wù)規(guī)模的不斷擴(kuò)大,商品個數(shù)和種類快速增長,顧客需要花費大量的時間才能找到自己想買的商品。這種瀏覽大量無關(guān)的信息和產(chǎn)品過程無疑會使淹沒在信息過載問題中的消費者不斷流失。為了解決這些問題,個性化推薦系統(tǒng)應(yīng)運而生。個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級商務(wù)智能平臺,以幫助電子商務(wù)為其顧客購物提供完全個性化的決策支持和信息服務(wù)。推薦算法有:1、基于容推薦2、協(xié)同過濾推薦3、基于關(guān)聯(lián)規(guī)則推薦4、基于效用推薦5、基于知識推薦6、組合推薦這章主要介紹的是用基于隨機(jī)游走的PersonalRank算法來實現(xiàn)圖的推薦。2.1推薦系統(tǒng)定義推薦系統(tǒng)是利用電子商務(wù)向客戶提供商品信息和建議,幫助用戶
16、決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程”。 圖1 推薦系統(tǒng)模型推薦系統(tǒng)有3個重要的模塊:用戶建模模塊、推薦對象建模模塊、推薦算法模塊。通用的推薦系統(tǒng)模型流程如圖。推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對象模型中的特征信息匹配,同時使用相應(yīng)的推薦算法進(jìn)行計算篩選,找到用戶可能感興趣的推薦對象,然后推薦給用戶。2.2用PersonalRank算法實現(xiàn)圖的推薦在推薦系統(tǒng)中,用戶行為數(shù)據(jù)可以表示成圖的形式,具體來說是二部圖。用戶的行為數(shù)據(jù)集由一個個(u,i)二元組組成,表示為用戶u對物品i產(chǎn)生過行為。本文中我們認(rèn)為用戶對他產(chǎn)生過行為的物品的興趣度是一樣的,也就是我們只考慮“感興趣”O(jiān)R
17、“不感興趣”。假設(shè)有下圖2所示的行為數(shù)據(jù)集。 圖2其中users集U=A, B, C,items集I = a,b,c,d。則用戶物品的二部圖如下圖3所示: 圖3我們用G(V, E)來表示這個圖,則頂點集V=UI,圖中的邊則是由數(shù)據(jù)集中的二元組確定。二元組(u, i)表示u對i有過行為,則在圖中表現(xiàn)為有邊相連,即e(u,i)。那有了二部圖之后我們要對u進(jìn)行推薦物品,就轉(zhuǎn)化為計算用戶頂點u和與所有物品頂點之間的相關(guān)性,然后取與用戶沒有直接邊相連的物品,按照相關(guān)性的高低生成推薦列表。說白了,這是一個圖上的排名問題,我們最容易想到的就是Google的pageRank算法。PageRank是Larry
18、Page 和 Sergey Brin設(shè)計的用來衡量特定網(wǎng)頁相對于搜索引擎中其他網(wǎng)頁的重要性的算法,其計算結(jié)果作為google搜索結(jié)果中網(wǎng)頁排名的重要指標(biāo)。網(wǎng)頁之間通過超相互連接,互聯(lián)網(wǎng)上不計其數(shù)的網(wǎng)頁就構(gòu)成了一超大的圖。PageRank假設(shè)用戶從所有網(wǎng)頁中隨機(jī)選擇一個網(wǎng)頁進(jìn)行瀏覽,然后通過超在網(wǎng)頁直接不斷跳轉(zhuǎn)。到達(dá)每個網(wǎng)頁后,用戶有兩種選擇:到此結(jié)束或者繼續(xù)選擇一個瀏覽。算法令用戶繼續(xù)瀏覽的概率為d,用戶以相等的概率在當(dāng)前頁面的所有超中隨機(jī)選擇一個繼續(xù)瀏覽。這是一個隨機(jī)游走的過程。當(dāng)經(jīng)過很多次這樣的游走之后,每個網(wǎng)頁被訪問用戶訪問到的概率就會收斂到一個穩(wěn)定值。這個概率就是網(wǎng)頁的重要性指標(biāo),被用
19、于網(wǎng)頁排名。算法迭代關(guān)系式如下所示:上式中PR(i)是網(wǎng)頁i的訪問概率(也就是重要度),d是用戶繼續(xù)訪問網(wǎng)頁的概率,N是網(wǎng)頁總數(shù)。in(i)表示指向網(wǎng)頁i的網(wǎng)頁集合,out(j)表示網(wǎng)頁j指向的網(wǎng)頁集合。用user節(jié)點和item節(jié)點替換上面的網(wǎng)頁節(jié)點就可以計算出每個user,每個item在全局的重要性,給出全局的排名,顯然這并不是我們想要的,我們需要計算的是物品節(jié)點相對于某一個用戶節(jié)點u的相關(guān)性。怎么做呢?Standford的Haveliwala于2002年在他Topic-sensitive pagerank一文中提出了PersonalRank算法,該算法能夠為用戶個性化的對所有物品進(jìn)行排序。
20、它的迭代公式如下:我們發(fā)現(xiàn)PersonalRank跟PageRank的區(qū)別只是用替換了1/N,也就是說從不同點開始的概率不同。u表示我們推薦的目標(biāo)用戶,這樣使用上式計算的就是所有頂點相對于頂點u的相關(guān)度。與PageRank隨機(jī)選擇一個點開始游走(也就是說從每個點開始的概率都是一樣的)不同,如果我們要計算所有節(jié)點相對于用戶u的相關(guān)度,則PersonalRank從用戶u對應(yīng)的節(jié)點開始游走,每到一個節(jié)點都以1-d的概率停止游走并從u重新開始,或者以d的概率繼續(xù)游走,從當(dāng)前節(jié)點指向的節(jié)點中按照均勻分布隨機(jī)選擇一個節(jié)點往下游走。這樣經(jīng)過很多輪游走之后,每個頂點被訪問到的概率也會收斂趨于穩(wěn)定,這個時候我們
21、就可以用概率來進(jìn)行排名了。3社會化標(biāo)簽本章介紹的是什么是社會化標(biāo)簽,其意義。使用社會化標(biāo)簽有什么優(yōu)點。3.1定義社會化標(biāo)注是一種以人為本的、靈活的組織和管理在線信息、進(jìn)行網(wǎng)絡(luò)信息分類的方式。大眾分類更近乎個人的知識體系,它的使用以個人的感性邏輯(個人知識、情感、意志、記憶、素養(yǎng)等等的綜合反映)為線索,以個人所需信息的匯集、梳理和查詢?yōu)槟康?以個人的經(jīng)驗為基礎(chǔ)。它不同于傳統(tǒng)的、針對文件本身的關(guān)鍵字檢索,而是一種模糊化、智能化的分類。我們可以為每篇日志、每個帖子或者每圖片、每個視頻,甚至我們認(rèn)為需要或可以添加標(biāo)簽的任何網(wǎng)絡(luò)信息資源都添加一個或多個Tag。Tag體現(xiàn)了群體的力量,使得容之間的相關(guān)性和
22、用戶之間的交互性大大增強(qiáng)。網(wǎng)絡(luò)用戶可以通過添加多個標(biāo)簽為網(wǎng)絡(luò)資源分類,也可以通過搜索某一個或幾個標(biāo)簽發(fā)現(xiàn)其它用戶具有一樣標(biāo)簽的資源。標(biāo)簽(并不是最近的新鮮事物,特別對于圖書館員、編目者和專業(yè)分類人員而言,只是其所用的標(biāo)簽是受控的,而且沒有體現(xiàn)出社會性。本文所指的社會化標(biāo)注起源于年一項建議通過協(xié)同方法加強(qiáng)網(wǎng)絡(luò)瀏覽器書簽功能的研究。之后,也進(jìn)行了一項類似的研究。受此啟發(fā),在年底Joshua Schachter開始提供第一個社會化標(biāo)簽服務(wù),也就是現(xiàn)在的Delicious,該允許用戶可以對自己所感興趣的信息資源添加標(biāo)簽。標(biāo)簽類似于關(guān)鍵詞,它是用戶用來對發(fā)布的信息所進(jìn)行的標(biāo)注,但它與關(guān)鍵詞不同的是,標(biāo)簽
23、的標(biāo)注不存在詞與權(quán)限的限制,而關(guān)鍵詞往往是只能由信息的發(fā)布者或創(chuàng)造者添加的。標(biāo)注是對用戶添加標(biāo)簽的行為的描述。用戶可以對自己發(fā)布的信息進(jìn)行標(biāo)注,也可以對其他用戶發(fā)布的信息進(jìn)行標(biāo)注。當(dāng)多個用戶對多個對象添加標(biāo)簽時,標(biāo)簽就具有了社會性,也就成為了社會化標(biāo)簽。這種行為模式就稱之為社會化標(biāo)注。在這種新的模式下,每個用戶都在進(jìn)行標(biāo)注,而不再是一小部分專家,標(biāo)簽走向了公開化,并在用戶間形成共享。3.2優(yōu)點1、增加的曝光度被收藏、分享越多的意味著被人看到的機(jī)率也就越大。特別是那些在收藏或分享排名前列的,更是取得了非常不錯的口碑和品牌效應(yīng)。2、外鏈被收藏,或是被分享,意味著又多了一個外鏈的渠道。seo表示并且
24、這些外鏈不需要你自己動手去做,只要你容好,在多個地方出現(xiàn)你的都是有可能的。外鏈的持續(xù)增加,對于排名肯定是有促進(jìn)作用的。3、改善的用戶體驗現(xiàn)在使用社會化標(biāo)簽的訪客已經(jīng)越來越多,如果你的沒有這個社會化標(biāo)簽,用戶的體驗滿意度肯定會下降。另外,也請大家記得搜索引擎這么說過的一句話:有利于提高用戶體驗的因素,都是有益于優(yōu)化的。4、提高排名盡管前面說搜索引擎還沒有將社會化標(biāo)簽納入排名因素,但據(jù)國外專家的試驗,同樣的,在美味標(biāo)簽中被收錄多的排名要好于在美味標(biāo)簽中收錄少的(美味標(biāo)簽是國外著名收藏分享)。因此,不排除搜索引擎已經(jīng)在小圍將社會化標(biāo)簽納入排名進(jìn)行測試。因為GOOGLE是不會主動告訴你他要將哪些因素納
25、入排名因素的。4系統(tǒng)分析與設(shè)計本章介紹的是基于社會化標(biāo)簽的推薦系統(tǒng)模型,一些關(guān)于模型的基本容。4.1基于社會化標(biāo)簽的信息推薦系統(tǒng)隨著互聯(lián)網(wǎng)的發(fā)展,標(biāo)簽技術(shù)的出現(xiàn)為個性化推薦帶來了新的機(jī)遇。標(biāo)簽將用戶和資源聯(lián)系起來,描述了資源的特征的同時體現(xiàn)了用戶的興趣偏好,為個性化推薦服務(wù)帶來了至關(guān)重要的數(shù)據(jù)源。然而,現(xiàn)存的基于標(biāo)簽的個性化推薦系統(tǒng)還存在一些問題,限制了標(biāo)簽在推薦領(lǐng)域的應(yīng)用。主要包括以下三個問題:(1) 標(biāo)簽語義模糊問題,模糊的語義難以準(zhǔn)確描述用戶興趣,降低了推薦精度;(2) 推薦效率問題,隨著用戶標(biāo)注急劇增加,計算規(guī)模的增大,推薦效率隨之降低;(3) 推薦質(zhì)量問題,忽視了推薦項目本身的質(zhì)量問
26、題。為了解決上述問題,本章結(jié)合本文第二章和第三章介紹的方法,設(shè)計并開發(fā)了基于標(biāo)簽的圖書推薦系統(tǒng),4.2數(shù)據(jù)庫設(shè)計在該模型中使用的是圖數(shù)據(jù)庫Neo4j。Neo是一個網(wǎng)絡(luò)面向網(wǎng)絡(luò)的數(shù)據(jù)庫也就是說,它是一個嵌入式的、基于磁盤的、具備完全的事務(wù)特性的Java持久化引擎,但是它將結(jié)構(gòu)化數(shù)據(jù)存儲在網(wǎng)絡(luò)上而不是表中。網(wǎng)絡(luò)(從數(shù)學(xué)角度叫做圖)是一個靈活的數(shù)據(jù)結(jié)構(gòu),可以應(yīng)用更加敏捷和快速的開發(fā)模式。你可以把Neo看作是一個高性能的圖引擎,該引擎具有成熟和健壯的數(shù)據(jù)庫的所有特性。程序員工作在一個面向?qū)ο蟮摹㈧`活的網(wǎng)絡(luò)結(jié)構(gòu)下而不是嚴(yán)格、靜態(tài)的表中但是他們可以享受到具備完全的事務(wù)特性、企業(yè)級的數(shù)據(jù)庫的所有好處。在Ne
27、o4j中,我可以直觀的看到各個節(jié)點的關(guān)系,可以直接查詢各節(jié)點的屬性即使用標(biāo)簽來代替節(jié)點的屬性,節(jié)點之間的關(guān)系能通過屬性標(biāo)簽來查詢。這樣我們能夠找到對應(yīng)節(jié)點的信息和與它相關(guān)的信息。4.3程序設(shè)計該模型中主要的是關(guān)于節(jié)點和節(jié)點關(guān)系,使用的算法。4.3.1節(jié)點分為群組節(jié)點(Group)、用戶節(jié)點(User)、目錄節(jié)點(Directory)、文件節(jié)點(File)四種。群組節(jié)點的必有屬性包括節(jié)點類型Group、節(jié)點id、節(jié)點名name、節(jié)點的顯示名displayName、節(jié)點創(chuàng)建時間createTime、節(jié)點創(chuàng)建者createUser、訪問控制信息ACL。其可選屬性包括群組用戶數(shù)userNums、群組最
28、近一次修改時間lastModifyTime等。用戶節(jié)點的必有屬性包括節(jié)點類型Label、節(jié)點id、節(jié)點名name、節(jié)點的顯示名displayName、節(jié)點創(chuàng)建時間createTime、訪問控制信息ACL。其可選屬性包括用戶節(jié)點所屬組belongGroups、群組最近一次修改時間lastModifyTime等。目錄節(jié)點的必有屬性包括節(jié)點類型Label、節(jié)點id、節(jié)點名name、節(jié)點的顯示名displayName、節(jié)點創(chuàng)建時間createTime、訪問控制信息ACL。其可選屬性包括用戶節(jié)點所屬用戶belongUsers、群組最近一次修改時間lastModifyTime等。文件節(jié)點的必有屬性包括節(jié)點
29、類型Label、節(jié)點id、節(jié)點名name、節(jié)點的顯示名displayName、節(jié)點創(chuàng)建時間createTime、訪問控制信息ACL。其可選屬性包括用戶節(jié)點所屬目錄belongDirectory、群組最近一次修改時間lastModifyTime等。除此之外文件節(jié)點還有一個重要屬性,就是表示文件在面向?qū)ο蟠鎯褐写娣盼恢玫膌ocation屬性。4.3.2關(guān)系節(jié)點之間的關(guān)系包括擁有關(guān)系(contains)、朋友關(guān)系(friend)、喜好關(guān)系(like)、創(chuàng)建關(guān)系(create)。擁有關(guān)系(contains)表示在群組和用戶之間、用戶和目錄之間、目錄和文件之間的一種包含關(guān)系,表示后者從屬于前者,利用這種擁有關(guān)系可以得到類似層次化的目錄結(jié)構(gòu);擁有關(guān)系可以有屬性信息,比如創(chuàng)建時間等。朋友關(guān)系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒元旦特輯快樂的開始
- 護(hù)理實操演練
- 房地產(chǎn)項目風(fēng)險管理策略
- 保險公司電視策劃方案
- 保險公司龍年年會活動方案
- 保險春節(jié)活動策劃方案
- 保險進(jìn)社區(qū)活動方案
- 信封寫信活動方案
- 信息評比活動方案
- 信訪快板活動方案
- 燃?xì)馊霊舭惭b工人合同范本
- 中國道路的經(jīng)濟(jì)解釋學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 口服抗凝藥居家管理中國專家共識(2024版)
- 高中化學(xué)作業(yè)優(yōu)化的研究
- 高等數(shù)學(xué)下課后習(xí)題詳解(北大版)
- 成人預(yù)防接種
- 工程機(jī)械租賃服務(wù)方案及保障措施
- 第20課+社會主義國家的發(fā)展與變化高一下學(xué)期統(tǒng)編版(2019)必修中外歷史綱要下
- 寧夏昊盛陽光能源有限公司寧東煤田萌城礦區(qū)惠安煤礦及選煤廠(1.5Mta)項目環(huán)境影響報告
- 生物化學(xué)(天津中醫(yī)藥大學(xué))智慧樹知到期末考試答案章節(jié)答案2024年天津中醫(yī)藥大學(xué)
- 人教版六年級語文下冊期末摸底考試及答案
評論
0/150
提交評論