


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、摘要在這樣龐大的圖書信息中選擇自己想要的信息是比較困難的,這樣反而是增加了用戶購 買圖書的難度。為了有效的解決 這一問題,出現了圖書推薦系統。本文將從數據挖掘方面對電子數據挖掘中關聯規則的概念數據挖掘就是大量數據中提取或者挖掘知識,這種數據應該是海量的。還有另一種說法是把數據挖掘看成是數據庫中知識的發現過程的一個基本步驟。1關聯規則的概念關聯規則可以說是在數據挖掘中相對來說比較常用的一種方法了,agmwal等于1993年首先提出了挖掘顧客交易數據庫中項集間的關聯規則問題。在這以后有諸多的研宄員對數據挖掘中的關聯規則進行了大量的研究。他們的工作有很多,其中就包括對原有的算法進行了優化處理。比如,
2、引進了隨機采樣、并行思想等。關聯規則挖掘的過程是這樣的一個流程,首先利用算法根據最小支持度找到頻繁項集,再依托找到的頻繁項集結合置信度生成形如xy的強關聯規則。在關聯關聯規則挖掘過程中用到兩個最重要的參數,支持度和置信度。設i=ili是項集,其中ik(k=l,2,,m)可以是購物籃中的物品,也可以是保險公司的顧客。設任務相關的數據d是事務集,其中每個事務t是項集,使得tsi。設a是一個項集,且at。關聯規則是如下形式的邏輯蘊涵a=b,asi,bgi,且anb=a關聯規則具有如下兩個重要的屬性 支持度p(aub),即a和b這兩個項集在事務集d中同時出現的概率。置信度p(bia),即在出現項集a的
3、事務集d中,項集b也同時出現的概率。同時滿足最小支持度閾值和最小置信度閾值的規則稱為強規則。給定一個事務集d,挖掘關聯規則問題就是產生支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關聯規則,也就是產生強規則的問題。2 apriori算法apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。很多的的挖掘算法是在apriori算法的基礎上進行改進的,比如基于散列(hash)的方法,基于數據分割(partition)的方法以及不產生候選項集的fp-growth方法等。因此要了解關聯規則算法不得不先要了解apriori算法。apriori算法使用的是頻繁項集性質的先驗知識,是使用
4、了一種稱為逐層搜索的迭代方法,其中k項集用于探索(k+1)項集。首先,通過對數據庫的掃描,累計每一項的計數,并收集滿足最小支持度的項,這樣就能找出頻繁項的集合。這樣得到的集合可以標記l,。然后,使用3找出頻繁項集l2,使用l2找出l3。這樣循環下去,直到找到頻繁項集k項集為止。這樣就對數據庫進行了一次完整的掃描。關聯規則在電子商務圖書推薦系統中的具體應用 1數據收集、預處理用戶可以通過登錄到公司的網站進行個人信息的注冊,從而形成用戶個人信息注冊表。用戶可以進行圖書信息瀏覽,或查看其他用戶對圖書產品的評價和感受。當用戶對某件圖書產品進行購買行為,形成訂單之后。數據就會被采集,并進行清洗、集成和轉
5、換。當此用戶再次進行圖書購買行為時,購買記錄同樣會被采集,并根據圖書類別進行分析,逐漸形成關聯數據。并存儲到圖書交易數據庫中。2生成關聯規則假設某個項目集s=sl,s.,sn是頻繁項目集,假設d是一個數據集,其中t是一個非空的項集。再假設a是一個項集并且有t包含a。有這樣一個式子形如a=b。其中ai,bi, b,并且ahb=。這樣的規則人=8在事物集d中是成立的,具有支持度s。概率是p(aub),還有就是置信度c,概率是p(bia)。規則人=8在事物集中的支持度為support,即support(aub)=support(aub,d)=so(3)規則a=b的置信度可以容易的從a和aub的支持度
6、計數推出,即表示為p(y|x)=c%。這樣給出式子confidence(ab)=p(b|a)=support(aubd)/siq)port(a*d)(4)其中,support(aub,d)是包括項集aub的支持度,support(a,d)是項集x的支持度。對于已經給定的數據集d,求出同時滿足最小支持度minsup和最小置信度minconf的關聯規則。關聯規則須滿足這樣兩個條件support(a=b)minsup;confidence(a=b)minconf。3關聯規則的改進方法大部分關聯規則挖掘算法都使用支持度-置信度框架。但是由于算法本身的原因,可能即使滿足了最小支持度和最小置信度對用戶不感
7、興趣的信息的探查,仍然會產生一些讓用戶感到不用的信息。在獲得用戶購買的行為模式后,并不一定所有的強關聯規則都能成為用戶所感興趣的,這樣就使得這個規則的可用性并不理想。此時,就需要用到其他的方法來判斷用戶的興趣所在。假設我們分析涉及購買“java入門經典”和購買“java實戰”兩本書的事務興趣。假設事務a表示包含“java入門經典”,事務b表示包含“java實戰”。在接下來要進行分析的1個事務中,得到數據顯示為6個顧客事務包含“java入門經典”,75個事務包含“java實戰”,而4個事務同時包含“java入門經典”和“java實戰”。現在假設有一個關聯規則要在這樣的數據上進行分析,可以使用最小
8、支持度為3%,最小置信度為6%。將發現下面規則buys(x,a”)=buys(x,”b”)support=4%,confidence=66%這樣可以很容易的看出來這個關系式是屬于強關聯的,因為它的支持度為4/1=4%。置信度為4/6=66%,同時滿足了最小支持度和最小置信度閾值。實際上,這是一種誤導,因為購買“java實戰”的概率是75/1=75%,比66%還高,這就容易出現不明智的商業營銷策略。正如上面出現的問題,支持度和置信度度量不足以過濾掉無趣的關聯規則。為了解決這個問題,可以使用其他關系式來進行同時篩查強關聯規則,比如,使用相關性度量來進行擴充,可以使用這樣的相關規則(correlat
9、ionrule)a=bfsupport,confidence,correlation通過這個關系式可以看出,相關規則不僅用支持度和置信度,而且還用項集a和b之間的相關度量。4 使用提升度相關分析提升度(lift)是一種簡單的相關性度量,相關度的.定義是項集a的出現獨立于項集b的出現,如果p(aub)=p(a)p(b);否則,作為事件,項集a和b是依賴的和相關的.這樣就得到計算式 .lift(a,b)=p(aub)/p(a)p(b)(4)如果這個值小于1,則a的出現與b的出現是負相關的,意味著一個出現可能導致另一個不出現。如果值大于1,則a和b是正相關的,如果值等于1,則a和b是獨立的。這個式子
10、也稱關聯規則a=b的提升度。這樣我們再去看前面的例子,容易得到購買“java入門經典”的概率p(“a”)=.6,購買“java實戰”的概率p(“b”)=.75,而購買兩者的概率是p(“a”,”b”)=.4。則提升度為p(“a”,”b”)/(p(“a”)xp(“b”)=.4/(.6x.75)=.89該值小于1,從而得出購買這兩本書的事務是負相關的,因此這兩種圖書的購買行為不會進行推薦,但這種負相關是不能被支持度-置信度框架識別的。5 電子商務圖書推薦過程首先根據每個顧客的圖書產品購買記錄或則是瀏覽記錄的數據進行預處理,形成交易數據庫。在己經得到的數據庫的基礎上使用選用好的關聯規則挖掘算法對數據庫
11、進行關聯規則分析和挖掘,形成關聯規則數據集合r。之后在通過分析得到的數據集合r為每個顧客設置一個候選推薦集,并將初始值設置為空。對每個用戶搜索關聯規則數據集合r,找出該用戶支持的所有關聯規則集合。將符合與當前用戶購買圖書產品相關聯的所有圖書產品加入到當前用戶的候選推薦集中。將候選推薦集中用戶己經購買的圖書產品刪除。然后可以根據置信度對候選推薦集中的候選項進行排序,從候選推薦集中選擇置信度高的圖書項作為推薦結果。結束語現在越來越多的電子商務網站都在出售圖書類產品,這可以使用戶幾乎足不出戶就能購買到需要的圖書,但是不像在以前到書店購買圖書,沒有導購員向顧客介紹圖書產品信息,顧客也就不會知道那種或那類圖書銷售最好,最受歡迎。電子
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畫室創業攻略計劃書范文
- 2025年中國環氧增塑劑項目創業計劃書
- 交通流量預測在智慧交通系統中的智能駕駛輔助報告
- 2025年自動駕駛卡車在集裝箱運輸中的應用前景分析報告
- 2025年制造業綠色供應鏈綠色認證市場分析報告
- 2025年紡織服裝業智能化生產智能化生產設備市場發展現狀分析報告
- 元宇宙社交平臺內容生態構建與2025年發展瓶頸突破報告
- 2025年互聯網醫療平臺在線問診醫療信息安全管理報告
- 功能性飲料在2025年運動健康市場推廣的健康食品包裝設計趨勢研究報告
- 工業互聯網平臺漏洞掃描技術在智慧社區中的應用前景報告
- 學前教育技能實訓報告
- 3D打印在醫療設備中的應用
- 《祝福》-課件(共60張)
- IoT網絡自組織與自愈能力提升
- 建設工程規劃驗收測量技術報告(示例)
- 劉鐵敏《金融專業英語》(第2版)-習題參考答案20
- 小學生主題班會 小學少先隊入隊前教育《六知六會一做》 課件
- 2023中華護理學會團體標準-老年人誤吸的預防
- GH-T 1011-2022 榨菜標準規范
- 村內魚塘改造申請書
- 科技成果五元價值評估指南
評論
0/150
提交評論