




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 R語(yǔ)言數(shù)據(jù)挖掘論文題目:數(shù)據(jù)挖掘?qū)崙?zhàn)之網(wǎng)站智能推薦服務(wù) 指導(dǎo)老師: 張 敏 小組成員: 周犬義 王寧 1 / 25數(shù)據(jù)挖掘?qū)崙?zhàn)之網(wǎng)站智能推薦服務(wù)一、背景與挖掘目標(biāo)伴隨著計(jì)算機(jī)技術(shù)、通信技術(shù)的日益成熟和廣泛應(yīng)用,互聯(lián)網(wǎng)自90年代初開始得到迅猛發(fā)展,至今雖然只有短短幾十年的時(shí)間,但它已經(jīng)發(fā)展成為現(xiàn)今信息時(shí)代人類生活中不可或缺的重要組成部分,并成為全球范圍內(nèi)傳播信息的主要渠道。隨之而來(lái)的是互聯(lián)網(wǎng)上信息資源越來(lái)越豐富,人們要在浩如煙海的“混亂的”互聯(lián)網(wǎng)信息世界中找到自己真正感興趣信息卻存在很大的困難,具體表現(xiàn)在:用戶不知道如何貼切表達(dá)真正想要的網(wǎng)上資源的需求,也不知道如何去更準(zhǔn)確有效地尋找,即所謂的
2、 “信息迷失”問題;和對(duì)收到的或已經(jīng)下載的大量無(wú)關(guān)的信息難以消化,即所謂的“信息過載”問題。雖然我們可以借助于搜索引擎來(lái)檢索Web上的信息,但仍不能滿足不同背景、不同目的和不同時(shí)期的查詢要求,因?yàn)榇蠖鄶?shù)搜索引擎缺少主動(dòng)性,沒有考慮用戶的興趣偏好和用戶的不同,無(wú)法有效地解決信息過載和信息迷失的問題。為了適應(yīng)用戶不斷增長(zhǎng)的信息需求,有效地解決信息過載和信息迷失給人們帶來(lái)的種種問題,研究人員紛紛從人工智能中尋找突破口。在許多探索性研究中,個(gè)性化推薦服務(wù)作為一種嶄新的智能信息服務(wù)方式,應(yīng)用前景廣泛,十分引人注目。與搜索引擎不同,推薦系統(tǒng)并不需要用戶提供明確的需求,而是通過分析用戶的歷史行為,根據(jù)用戶的
3、行為主動(dòng)推薦能夠滿足他們興趣和需求的信息。因此,對(duì)于用戶而言推薦系統(tǒng)和搜索引擎是兩個(gè)互補(bǔ)的工具。搜索引擎滿足有明確目的的用戶需求,而推薦系統(tǒng)能夠幫助用戶發(fā)現(xiàn)感興趣的內(nèi)容。因此,在電子商務(wù)領(lǐng)域中推薦技術(shù)可以起到以下作用:第一,幫助用戶發(fā)現(xiàn)其感興趣的物品,節(jié)省用戶時(shí)間、提升用戶體驗(yàn);第二,提高用戶對(duì)電子商務(wù)網(wǎng)站的忠誠(chéng)度,如果推薦系統(tǒng)能夠準(zhǔn)確地發(fā)現(xiàn)用戶的興趣點(diǎn),并將合適的資源推薦給用戶,用戶就會(huì)對(duì)該電子商務(wù)網(wǎng)站產(chǎn)生依賴,從而建立穩(wěn)定的企業(yè)忠實(shí)顧客群,提高用戶滿意度。本案例研究的對(duì)象是泰迪智能科技有限公司的泰迪杯競(jìng)賽網(wǎng)站,泰迪科技是一家專業(yè)從事大數(shù)據(jù)挖掘應(yīng)用研發(fā)、咨詢和培訓(xùn)服務(wù)的高科技企業(yè)。泰迪杯競(jìng)賽
4、網(wǎng)致力于為用戶提供豐富的泰迪杯競(jìng)賽信息、數(shù)據(jù)挖掘培訓(xùn)咨詢服務(wù),并為參賽者提供了往屆優(yōu)秀作品作為參考,為高校提供了豐富的教學(xué)資源,如:案例教程、教學(xué)視頻、教學(xué)書籍、建模工具等。隨著網(wǎng)站量增大,其數(shù)據(jù)信息量也在大幅度增長(zhǎng)。用戶在面對(duì)大量信息時(shí)無(wú)法及時(shí)從中獲取自己需要的信息,對(duì)信息的使用效率越來(lái)越低。這種瀏覽大量無(wú)關(guān)信息的過程,造成了用戶需要花費(fèi)大量的時(shí)間才能找到自己需要的信息。為了能更好地滿足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點(diǎn)。引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求,將網(wǎng)頁(yè)精準(zhǔn)地推薦給所需用戶,幫助用戶發(fā)現(xiàn)他們感興趣但很難發(fā)現(xiàn)的網(wǎng)頁(yè)信息。為了能夠更好的滿
5、足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點(diǎn),從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。行為記錄原始數(shù)據(jù):利用read.csv函數(shù)把原始數(shù)據(jù)導(dǎo)入R語(yǔ)言RStudio中,整理數(shù)據(jù)進(jìn)行下一步的處理。當(dāng)用戶訪問網(wǎng)站頁(yè)面時(shí),系統(tǒng)會(huì)記錄用戶訪問網(wǎng)站的日志,其訪問的數(shù)據(jù)記錄了訪問序號(hào)、內(nèi)容id、訪問內(nèi)容、用戶id、ip等多項(xiàng)屬性的記錄,并針對(duì)其中的各個(gè)屬性進(jìn)行說(shuō)明,如表 2-2 所示。表 2-2 訪問記錄屬性表屬性名稱屬性說(shuō)明屬性名稱屬性說(shuō)明id訪問序號(hào)browser_type瀏覽器類型content_id內(nèi)容idbrowser_version瀏覽器版本page_pa
6、th網(wǎng)址platform_type平臺(tái)類型username用戶名稱platform_series平臺(tái)系列userid用戶idplatform_version平臺(tái)版本sessionid一次瀏覽標(biāo)識(shí)data_time訪問時(shí)間ipip地址mobile_type手機(jī)類型country國(guó)家agent代理商area區(qū)域uniqueVisitorID唯一瀏覽ID依據(jù)所提供的原始數(shù)據(jù),確定挖掘目標(biāo)如下:挖掘目標(biāo):1、借助大量用戶的訪問記錄,發(fā)現(xiàn)用戶的訪問行為習(xí)慣,對(duì)不同需求的用戶進(jìn)行相關(guān)服務(wù)頁(yè)面的推薦;2、根據(jù)用戶訪問內(nèi)容、訪問次數(shù)等屬性特征,深入了解用戶對(duì)訪問網(wǎng)站的行為和目的及關(guān)心的內(nèi)容二、 推薦系統(tǒng)架構(gòu)總
7、體流程主要步驟:1. 從系統(tǒng)中獲取用戶訪問網(wǎng)站的原始記錄。2. 以用戶訪問jhtml后綴的網(wǎng)頁(yè)為關(guān)鍵條件,對(duì)數(shù)據(jù)進(jìn)行處理。3. 對(duì)數(shù)據(jù)進(jìn)行多維度分析,用戶訪問時(shí)間,用戶訪問內(nèi)容,流失用戶分析以及用戶分群等分析。4. 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包含數(shù)據(jù)去重,數(shù)據(jù)刪選,數(shù)據(jù)分類等處理過程。5. 對(duì)比多種推薦算法進(jìn)行推薦,通過模型評(píng)價(jià),得到比較好的智能推薦模型。通過模型對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),獲得推薦結(jié)果數(shù)據(jù)抽取:1.網(wǎng)頁(yè)類型分析 圖一結(jié)論:從去掉.jhtml的網(wǎng)址中針對(duì)用戶的瀏覽習(xí)慣,對(duì)教學(xué)資源、競(jìng)賽、企業(yè)合作、新聞合作進(jìn)行分類提取分析,其中教學(xué)資源、競(jìng)賽、企業(yè)合作、新聞合作分別占總數(shù)的百分比為29.50%、
8、34.50%、9.70%、25.40%,這樣讓我們更深入地去了解用戶需要什么,進(jìn)而為下一步的推薦提升一定的需要。2.臟數(shù)據(jù)探索l 臟數(shù)據(jù)探索一:在記錄中,存在一部分這樣的用戶,他們沒有點(diǎn)擊具體的網(wǎng)頁(yè)(.jhtml形式的),點(diǎn)擊的大部分是目錄網(wǎng)頁(yè),總共有12091條記錄,應(yīng)刪掉這部分。l 臟數(shù)據(jù)探索二:對(duì)數(shù)據(jù)中存在部分翻頁(yè)網(wǎng)址,大量的用戶基本只會(huì)選擇瀏覽了25頁(yè)后,如果沒有搜索到想要的內(nèi)容,直接就放棄此次的搜索,很少會(huì)選擇瀏覽完全部?jī)?nèi)容,因?yàn)檫@部分網(wǎng)頁(yè)存在首頁(yè),故對(duì)數(shù)據(jù)處理應(yīng)刪除翻頁(yè)部分。3.點(diǎn)擊次數(shù)分析點(diǎn)擊次數(shù)用戶數(shù)用戶百分比記錄百分比1236939.74 5.36 296416.17 4.3
9、6 34707.88 3.19 43906.54 1.80 52654.44 3.00 62023.39 2.74 71682.81 2.66 7次以上113319.01 80.08 分析:1.瀏覽一次的用戶占所有用戶39%左右,記錄數(shù)占5%左右;瀏覽七次以上的用戶占所有用戶的80%左右,其中40%的用戶,為網(wǎng)址提供了大約90%的瀏覽量2.對(duì)點(diǎn)擊次數(shù)最大值進(jìn)行分析,其大多是關(guān)于“Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)圖書配套資料下載”的總共2075次。4.網(wǎng)頁(yè)點(diǎn)擊數(shù)排名排序網(wǎng)址點(diǎn)擊數(shù)1/zytj/index.jhtml2469 教學(xué)資源2/yxzp/index.jh
10、tml2123 競(jìng)賽3/ts/661.jhtml2075 教學(xué)資源4/notice/757.jhtml1378 新聞公告5/stpj/index.jhtml1296 競(jìng)賽6/qk/729.jhtml1072 競(jìng)賽7/ts/654.jhtml 934 教學(xué)資源8/jszz/index.jhtml900 競(jìng)賽9/ts/785.jhtml 838 教學(xué)資源10/ts/578.jhtml 831 教學(xué)資源11/xtxm/index.jhtml
11、749 企業(yè)合作12/notices/index.jhtml 709 新聞公告13/notice/758.jhtml 661 新聞公告14/sj/638.jhtml648 新聞公告15/ts/index.jhtml645 教學(xué)資源16/sj/789.jhtml 569 新聞公告17/sm/736.jhtml 513 競(jìng)賽18/ts/655.jhtml505 教學(xué)資源19/ts/747.jhtml 487 教學(xué)資源20/cgal/ind
12、ex.jhtml 467 競(jìng)賽分析:表中可以看出,點(diǎn)擊次數(shù)排名前20名中,“教學(xué)資源”類占了大部分,其次是“競(jìng)賽”類,然后是“新聞公告”類。5.同網(wǎng)頁(yè)翻頁(yè)的點(diǎn)擊數(shù)網(wǎng)址點(diǎn)擊數(shù)比率/yxzp//yxzp/index_2.jhtml 2750.130/yxzp/index_3./yxzp/index_4.jhtml 110.005/yxzp/index_5./yxzp/index_6.jhtml50.002tipdm
13、.org/stpj//stpj/index_2./stpj/index_3.jhtml530.041分析:同一網(wǎng)頁(yè)中登錄次數(shù)最多大部分都是從主頁(yè)搜索引擎直接收索到的網(wǎng)頁(yè)。可了解到用戶進(jìn)行同網(wǎng)頁(yè)翻頁(yè)的比例相對(duì)較少,會(huì)出現(xiàn)用戶衰減的情況。1、如果網(wǎng)頁(yè)需要翻的頁(yè)數(shù)太多,大量的用戶基本只會(huì)選擇瀏覽了2-6頁(yè)后,沒有搜索到想要的內(nèi)容,直接就放棄此次的搜索,很少會(huì)選擇瀏覽完全部?jī)?nèi)容。2、通過搜索入口,直接找到需要的幫助,就不需要對(duì)網(wǎng)址進(jìn)行翻頁(yè)處理。3、如果翻頁(yè)情況比較小,可以建議設(shè)置全頁(yè)顯示,知識(shí)頁(yè)面無(wú)此功能6.數(shù)
14、據(jù)處理流程三、數(shù)據(jù)預(yù)處理1.數(shù)據(jù)清洗, 針對(duì)上述歸納的臟數(shù)據(jù)類型,對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。刪除數(shù)據(jù)類型刪除數(shù)據(jù)記錄原始數(shù)據(jù)記錄百分比翻頁(yè)1277609912.093%亂碼錯(cuò)誤網(wǎng)址5609910.0081%網(wǎng)站主頁(yè)2527609914.143%無(wú).html 120916099119.8%重復(fù)網(wǎng)頁(yè)165906099127.2%2.數(shù)據(jù)選擇, 選擇記錄中.jhtml后綴的記錄,并對(duì)其進(jìn)行手動(dòng)分類處理。類型總記錄數(shù)百分比(27612)說(shuō)明zytj、yxsp、jmgj、information、tsasdf、dsjkf、jiao、jmg、tts、sjfxs、sjsdf790628.63%教學(xué)資源jszz、
15、stpj、yxzp、cgal、firsttipdm、secondtipdm、thirdtipdm、954434.56%競(jìng)賽fourthtipdm、jingsa、kjxm、qk、sdfasf、sm、tdqyal、xtxm、wjxq、zxns、zzszl314511.38%企業(yè)合作news、notice、notices、sj786928.50%新聞合作3.數(shù)據(jù)集成:教學(xué)資源競(jìng)賽 用戶泰迪公司 瀏覽 網(wǎng)頁(yè)企業(yè)合作新聞公告四、統(tǒng)計(jì)分析選取知識(shí)內(nèi)容中的教學(xué)資源類型進(jìn)行分析網(wǎng)址內(nèi)容點(diǎn)擊次數(shù)/ts/661.jhtmlPython數(shù)據(jù)分析與挖掘?qū)崙?zhàn)2075圖書配套資料下載/
16、ts/654.jhtmlR語(yǔ)言分析與挖掘?qū)崙?zhàn)圖書配套資料下載934/ts/785.jhtml 賈圓圓數(shù)據(jù)挖掘競(jìng)賽平臺(tái)838/ts/578.jhtmlMatlab分析與挖掘?qū)崙?zhàn)圖書配套資料下載831/ts/655.jhtmlHadoop分析與挖掘?qū)崙?zhàn)圖書配套資料下載505對(duì)其中的點(diǎn)擊次數(shù)與網(wǎng)頁(yè)進(jìn)行分析。點(diǎn)擊次數(shù)網(wǎng)頁(yè)個(gè)數(shù)(87)網(wǎng)頁(yè)百分比記錄數(shù)(2075)記錄百分比11011.5%100.48%244.6%80.39%33345%90.43%420757080.46%204898.70%分析:通過教學(xué)資源網(wǎng)頁(yè)類型網(wǎng)頁(yè)點(diǎn)擊排名和網(wǎng)頁(yè)個(gè)數(shù)點(diǎn)擊次數(shù)可
17、以看出,人們對(duì)數(shù)據(jù)挖掘類比較感興趣,從網(wǎng)頁(yè)點(diǎn)擊個(gè)數(shù)我們可以看出, 點(diǎn)擊4次以上的網(wǎng)頁(yè)個(gè)數(shù)占了80%左右,瀏覽量卻占了98%,因此我們可以考慮,按點(diǎn)擊行為進(jìn)行分類,分析構(gòu)建模型算法。四、模型構(gòu)建與檢驗(yàn)由于用戶訪問網(wǎng)站的數(shù)據(jù)記錄很大,如果對(duì)數(shù)據(jù)不進(jìn)行分類處理,對(duì)所有記錄直接采用推薦系統(tǒng)進(jìn)行推薦,這樣會(huì)存在以下問題:Ø 數(shù)據(jù)量太大意味著物品數(shù)與用戶數(shù)很多,在模型構(gòu)建用戶與物品的稀疏矩陣時(shí),出現(xiàn)設(shè)備內(nèi)存空間不夠的情況,并且模型計(jì)算需要消耗大量的時(shí)間。Ø 用戶區(qū)別很大,不同的用戶關(guān)注信息不一樣,因此即使能夠得到推薦結(jié)果,其推薦效果也會(huì)不好。Ø 分析思路基于項(xiàng)目的協(xié)同過濾性能
18、:UserCF適用于用戶較少的場(chǎng)合,否則計(jì)算用戶相似度矩陣的代價(jià)很大;而ItemCF正好相反,適用于項(xiàng)目數(shù)明顯小于用戶數(shù)的情況實(shí)時(shí)性:UserCF用戶有新行為,不一定造成推薦結(jié)果的立即變化;ItemCF正好相反,一定會(huì)導(dǎo)致推薦結(jié)果的實(shí)時(shí)變化長(zhǎng)尾物品豐富,用戶個(gè)性化需求強(qiáng)烈的領(lǐng)域推薦理由:與UserCF相比,ItemCF利用用戶的歷史行為給用戶做推薦解釋,更容易讓用戶信服 算法流程:關(guān)聯(lián)規(guī)則是從事務(wù)數(shù)據(jù)庫(kù),關(guān)系數(shù)據(jù)庫(kù)和其他信息存儲(chǔ)中大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。更確切的說(shuō),關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)對(duì)物品乙的出現(xiàn)有多大的影響。推薦結(jié)果1:教學(xué)資源網(wǎng)頁(yè)類型
19、 (部分如下)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)$8//ts/661.jhtml1."/ts/785.jhtml"2. "/ts/654.jhtml"3. "/ts/655.jhtml"4. "/ts/755.jhtml"5."/ts/578.jhtml"$0/ts/661./ts/
20、785./sm/736./notice/760./notice/757.jhtml1."/jmgj/568.jhtml" 2."/ts/646.jhtml" 3."/jmgj/569.jhtml"4."/jmgj/574.jhtml" 5."/jmgj/575.jhtml".$5/ts
21、/785.jhtml1."/ts/661.jhtml" 2."/ts/786.jhtml" 3."/ts/755.jhtml" 4."/ts/654.jhtml"5."/ts/747.jhtml"結(jié)果反饋1模型評(píng)價(jià):準(zhǔn)確率與召回率(Precision & Recall)Precision 就是檢索出來(lái)的條目中(網(wǎng)頁(yè))有多少是準(zhǔn)確的。Recall就是所有準(zhǔn)確的條目有多少被檢索出來(lái)了推薦結(jié)果2
22、:競(jìng)賽網(wǎng)頁(yè)類型(部分如下)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)$46/td/723./zxns/716.jhtml"/td/374.jhtml" "/sm/736.jhtml" "/td/465.jhtml" "/td/378.jhtml" "/qk/729.jhtml"$0/ts/661./ts/
23、661./sm/736./notice/760.jhtml"/fourthtipdm/774.jhtml" "/fourthtipdm/778.jhtml" "/fourthtipdm/777.jhtml" "/qk/729.jhtml" "/td/723.jhtml"/sm/736.jhtml"/td/7
24、23.jhtml" "/td/465.jhtml" "/td/374.jhtml" "/td/378.jhtml$94" "/qk/729.jhtml"結(jié)果反饋模型檢驗(yàn)2推薦結(jié)果3:企業(yè)合作網(wǎng)頁(yè)類型(部分如下)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)$46/td/723./zxns/716.jhtml"/zxns/773.jhtml"
25、"/wjxq/724.jhtml" "/wjxq/660.jhtml" "/wjxq/516.jhtml" "/zxns/782.jhtml"$61/xtxm//xtxm/index_2.jhtml"/wjxq/728.jhtml" "/zxns/773.jhtml" "tipdm
26、.org/wjxq/725.jhtml" "/zxns/782.jhtml" "/zxns/716.jhtml"$26/fourthtipdm/779./fourthtipdm/778./secondtipdm/493./zzszl/718./kjxm/552.jhtml"/wjxq/725.jhtml" "ti
27、/wjxq/724.jhtml" "/wjxq/660.jhtml" "/zxns/780.jhtml" "/wjxq/516.jhtml"結(jié)果反饋模型檢驗(yàn)3推薦結(jié)果4:新聞公告網(wǎng)頁(yè)類型(部分如下)用戶點(diǎn)擊網(wǎng)推薦網(wǎng)$0/ts/661./ts/785./sm/736./notice/760./notice/757
28、./fourthtipdm/775./jmgj/576.jhtml"/notice/765.jhtml" "/notice/787.jhtml" "/notice/769.jhtml" "/notice/758.jhtml" "/notice/743.jhtml"$8/sj/789.jhtml"tipd
29、/notice/758.jhtml" "/notice/757.jhtml" "/notice/661.jhtml" "/notice/758.jhtml" "/notice/561.jhtml"$01/notice/757.jhtml"/notice/758.jhtml" "/notice/769.jhtml"
30、; "/notice/760.jhtml" "/sj/789.jhtml" "/news/465.jhtml" 結(jié)果反饋模型檢驗(yàn)4五、結(jié)果分析從推薦結(jié)果和模型檢驗(yàn)上得出,不同的用戶對(duì)網(wǎng)址點(diǎn)擊的次數(shù)有一定的關(guān)聯(lián)規(guī)則,更確切的說(shuō),就是通過量化的數(shù)字描述物品甲的出現(xiàn)對(duì)物品乙的出現(xiàn)有多大的影響,進(jìn)而真正的了解用戶,從而對(duì)用戶進(jìn)行推薦。從模型的檢驗(yàn)上看,我們用了三種檢驗(yàn)方法,即隨機(jī)推薦檢驗(yàn)、熱點(diǎn)推薦檢驗(yàn)、IBCF推薦檢驗(yàn),從檢驗(yàn)圖形上可以得出熱點(diǎn)推薦對(duì)用戶的召回率和精確度更明顯,即隨著推薦個(gè)
31、數(shù)的增加,用戶被召回的可能性就越低,而針對(duì)這個(gè)問題我們更應(yīng)該深入的去了解用戶,給用戶推薦他們真正想要的結(jié)果。 六、模型應(yīng)用當(dāng)前,隨著互聯(lián)網(wǎng)對(duì)人們生活影響的不斷增大,每天有數(shù)以億計(jì)的用戶行為數(shù)據(jù)被網(wǎng)站記錄。這些數(shù)據(jù)以隱性信息的方式反映人們的行為習(xí)慣、興趣愛好、性格特征,甚至是政治主張。網(wǎng)民每天都在告訴我們,他們到底需要什么。而這也正反映了用戶的需求,可以說(shuō)誰(shuí)能讀出用戶的需求,誰(shuí)就能更好地迎合用戶,獲取更多的流量,其網(wǎng)站的用戶體驗(yàn)也就越好。 通過用戶使用網(wǎng)站時(shí)留下的數(shù)據(jù)來(lái)讀出用戶需求、習(xí)慣、愛好。了解到用戶真正需要什么,所以在對(duì)于日后的網(wǎng)頁(yè)推薦過程中,建議根據(jù)不同類型的網(wǎng)頁(yè)運(yùn)用不同的算法
32、進(jìn)行推薦,即分類推薦,以達(dá)到最好的推薦效果。這不但會(huì)更好的為用戶提供網(wǎng)頁(yè)推薦服務(wù),而且會(huì)加大用戶對(duì)該公司網(wǎng)頁(yè)的點(diǎn)擊量,并在很大程度上方便用戶查找想要的內(nèi)容。 附錄:data<- read.csv('C:UsersAdministratorDesktoptipdm.initdata.csv',stringsAsFactors = F) #導(dǎo)入原始數(shù)據(jù) #采用匹配的方法找出那些帶有.jhtml或.htm形式的網(wǎng)址nf2<-datagrep('.jhtml|.htm',data,'fullurl'), #去除帶%、網(wǎng)站主頁(yè)、亂碼類臟數(shù)據(jù)網(wǎng)址
33、ind1<-nf2-grep('_d+|/index.jhtml|.*%.*|/sj/6.jhtml',nf2,"fullurl"),info<-ind1 ,c('ip','fullurl') #從去除臟數(shù)據(jù)的數(shù)據(jù)中提取出ip、fullurl兩列l(wèi)ibrary('plyr')library('recommenderlab')library('registry') #篩選教學(xué)資源類網(wǎng)頁(yè)ff<-infogrep('zytj
34、|yxsp|jmgj|information|ts|asdf|dsjkf|jiao|jmg|tts|sjfxs|sjsdf',info,"fullurl"), #篩選競(jìng)賽類網(wǎng)頁(yè)ff1<-infogrep('jszz|stpj|yxzp|cgal|firsttipdm|secondtipdm|thirdtipdm|fourthtipdm|jingsa|kjxm|qk|sdfasf|sm|td',info,"fullurl"), #篩選企業(yè)合作類網(wǎng)頁(yè)ff2<-infogrep('qyal|xtxm|wjxq|zxn
35、s|zzszl',info,"fullurl"), #篩選新聞公告類網(wǎng)頁(yè)ff3<-infogrep('news|notice|notices|sj',info,"fullurl"), info1=ddply(ff, .(ip,fullurl), tail, n = 1) #數(shù)據(jù)去重web=strsplit(info1,2,"/",fixed = TRUE) #對(duì)每個(gè)LIST型的數(shù)據(jù),將其組合成數(shù)據(jù)框的格式bine=ldply(web,rbind) #獲取知識(shí)列表中婚姻類別的數(shù)據(jù)以及在原始數(shù)據(jù)中的位置=binewhich(bine,1=""), item_=s(),require(recommenderlab) #將數(shù)據(jù)轉(zhuǎn)換為0-1二元型數(shù)據(jù),即模型的輸入數(shù)據(jù)集inf
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療行業(yè)中的信息倫理與隱私保護(hù)
- 醫(yī)療領(lǐng)域的科技創(chuàng)新與商業(yè)機(jī)遇探討
- 2024財(cái)務(wù)模型構(gòu)建試題及答案
- 消防工程師理論知識(shí)試題及答案
- 醫(yī)療器械注冊(cè)流程與政策更新解析
- 醫(yī)療人工智能的道德框架從理論到實(shí)踐的橋梁建設(shè)
- 吉林全國(guó)計(jì)算機(jī)等級(jí)考試PowerPoint題庫(kù)100道及答案
- 上海全國(guó)計(jì)算機(jī)四級(jí)考試題庫(kù)單選題100道及答案
- 醫(yī)療設(shè)備信息化的整合策略與實(shí)施
- 無(wú)人機(jī)技術(shù)政策落實(shí)現(xiàn)狀試題及答案
- 國(guó)家司法考試試題試卷三
- 客貨線鐵路隧道錨桿施工作業(yè)指導(dǎo)書
- 公路養(yǎng)護(hù)的高級(jí)工復(fù)習(xí)題
- 三人合伙經(jīng)營(yíng)協(xié)議書 doc 三人合伙經(jīng)營(yíng)協(xié)議書實(shí)用版(六篇)
- 葡萄酒品嘗學(xué)第八章-2013
- 鐵路防洪培訓(xùn)課件
- 水事案件調(diào)查詢問筆錄(模板)
- 大班科學(xué)《神奇的洞洞》課件
- 公司工作交接清單表格
- 季節(jié)性防雷防汛防臺(tái)風(fēng)安全檢查表
- 歸檔文件目錄
評(píng)論
0/150
提交評(píng)論