淺談Web挖掘在電子商務中的應用研究_第1頁
淺談Web挖掘在電子商務中的應用研究_第2頁
淺談Web挖掘在電子商務中的應用研究_第3頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、淺談Web挖掘在電子商務中的應用研究摘 要 當今電子商務蓬勃發(fā)展,其網(wǎng)站服務器上積累了大量的數(shù)據(jù),這些數(shù)據(jù)隱含著很多對市場分析及預測有用的知識,可以運用web挖掘技術加以獲得,從而增強企業(yè)的競爭力。本文主要介紹了Web挖掘的概念和分類,論述了電子商務中Web挖掘的過程和方法,最后闡述了Web挖掘技術在電子商務中的應用。 關鍵詞 電子商務 數(shù)據(jù)挖掘 Web挖掘 電子商務采用數(shù)字化方式進行商業(yè)活動,是在電子網(wǎng)絡環(huán)境中進行商品和服務的貿(mào)易活動。近年來,隨著網(wǎng)絡的普及和Internet的發(fā)展,各企業(yè)均積累了大量的數(shù)據(jù)。如何從這些數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律,來幫助制定企業(yè)今后的發(fā)展戰(zhàn)略,是各電子商務平臺急待解

2、決的問題。Web挖掘作為數(shù)據(jù)挖掘的一個重要分支,為上述問題提供了有效的解決途徑。 一、web挖掘 數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的知識的過程。它融合了數(shù)據(jù)庫、人工智能、機器學習等多個領域的理論和技術。Web 挖掘是數(shù)據(jù)挖掘在web上的應用,是指從與web相關的資源和行為中抽取感興趣的、有用的模式和隱含知識。一般地,Web挖掘可分為三類: 1.Web內(nèi)容挖掘,是從文檔內(nèi)容或其描述中抽取知識的過程。它又可以分為Web 頁面內(nèi)容挖掘和搜索結(jié)果挖掘。頁面內(nèi)容挖掘指的就是對Web 頁面上的數(shù)據(jù)進行挖掘, 而搜索結(jié)果挖掘則指的是以某一搜索

3、引擎為基礎,對已搜索結(jié)果進行挖掘。 2.Web結(jié)構(gòu)挖掘,是從www的組織結(jié)構(gòu)和鏈接關系中推導知識。它又可以分為外部結(jié)構(gòu)挖掘、內(nèi)部結(jié)構(gòu)挖掘和URL挖掘。Web結(jié)構(gòu)挖掘的目的是通過聚類和分析網(wǎng)頁的鏈接, 發(fā)現(xiàn)網(wǎng)頁的結(jié)構(gòu)和有用的模式, 找出權威頁面。 3.Web使用挖掘,即Web日志挖掘,是通過挖掘Web日志記錄,發(fā)現(xiàn)用戶訪問Web頁面的模式。它又可分為一般訪問模式挖掘和個性化服務模式挖掘。 二、Web挖掘的過程 1.數(shù)據(jù)收集。Web挖掘的數(shù)據(jù)對象包括服務器日志數(shù)據(jù)、代理服務器數(shù)據(jù)、web頁面內(nèi)容、web超鏈接信息、用戶注冊信息等,其中服務器日志數(shù)據(jù)是web挖掘的主要對象。 2.數(shù)據(jù)預處理。數(shù)據(jù)預處

4、理是web挖掘的重要步驟,直接影響到最后挖掘結(jié)果的正確性和準確性。它通常包括以下幾個方面: (1)數(shù)據(jù)清洗,是指根據(jù)需要刪除與web挖掘任務無關的數(shù)據(jù),過濾掉不需要的記錄。(2)反蜘蛛化。現(xiàn)在互聯(lián)網(wǎng)上有大量的蜘蛛程序,它們模擬用戶在各網(wǎng)頁間爬來爬去。但它們并不代表真實的電子商務用戶,因此需要把服務器日志中的蜘蛛記錄過濾掉,以更真實地反映實際情況。(3)客戶認證,是從服務器日志中識別出訪問網(wǎng)站的每個用戶。(4)會話識別。會話是指客戶在一次訪問中所訪問的所有web頁面,通過分析可以得到,用戶對電子商務站點的興趣所在。(5)路徑補全。由于客戶端緩存的存在,會造成一些重要的訪問信息被遺漏,所以需要對用

5、戶訪問的前后頁面進行推理,補全訪問路徑。 3.模式發(fā)現(xiàn),是運用各種方法,發(fā)現(xiàn)隱藏的模式和規(guī)則。常用的方法有:關聯(lián)分析,分類分析,聚類分析,序列分析。 4.模式分析。模式分析是找出所發(fā)現(xiàn)模式集合中的有用模式,以便對決策提供支持。如果所有模式均不令人滿意,則需要重新挖掘。 三、Web挖掘的方法 1.關聯(lián)分析,用于發(fā)現(xiàn)同一事件中不同數(shù)據(jù)項的相關性。常用的Apriori算法分為兩步,首先找出滿足最小支持度閾值的頻繁項集;然后由它們形成滿足最小置信度閾值的強關聯(lián)規(guī)則。可以將web挖掘得到的關聯(lián)規(guī)則用于改進電子商務站點的結(jié)構(gòu),將相關聯(lián)的商品放在一起,減輕用戶過濾信息的負擔,增加交叉銷售。 2.分類分析,通

6、過學習已被告知類標號的訓練集,得到分類器模型,然后將其用于對其它數(shù)據(jù)的分類。常用的方法有貝葉斯分類法、決策樹技術和支持向量機技術。 3.聚類分析,使用劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法等技術,使同一類中的對象之間具有很高的相似度,而不同類中的對象高度相異。經(jīng)聚類分析,可以對電子商務平臺中的具有相似瀏覽模式的用戶提供個性服務,以滿足該類消費群體的特殊需要。 4.序列分析,是挖掘頻繁出現(xiàn)的有序事件或子序列模式,側(cè)重于數(shù)據(jù)項間的前后關系。在電子商務平臺上,可以幫助企業(yè)預測用戶未來的購買行為,指導企業(yè)制定銷售計劃。 四、Web挖掘在電子商務中的應用 1.提供個性化服務。通過分析用戶的訪

7、問模式,對用戶進行聚類和分類,為每一類用戶提供迎合其興趣的個性化服務,提高電子商務平臺的人性化設計,從而提高用戶的滿意度,留住老用戶;對具有潛在消費能力的用戶,通過提供個性化服務,可以刺激他們的消費,提高電子商務平臺的親和力。 2.優(yōu)化web站點結(jié)構(gòu)。通過分析用戶的瀏覽路徑,用有向圖來表示用戶的整個頁面訪問過程,圖中的頂點代表頁面,圖中的邊代表頁面的訪問順序。通過web挖掘找出頻繁訪問路徑,得到電子商務平臺上的主要頁面,將重要的銷售信息放在上面,有利于用戶快速找到自己需要的商品。 3.降低電子商務平臺運營成本。通過挖掘用戶的行為記錄和反饋情況,預測未來的購買行為,進行有針對性的市場營銷活動;通過分析用戶感興趣的頁面,有針對性地投放廣告。 五、結(jié)束語 隨著信息技術的飛速發(fā)展,電子商務在商業(yè)貿(mào)易中的份額越來越大,使用web挖掘技術對企業(yè)積累的海量數(shù)據(jù)進行處理,挖掘出合適的模式,幫助企業(yè)在激烈的市場競爭中做出正確的決策,對提高企業(yè)的市場競爭力有重要意義。隨著web挖掘技術的不斷發(fā)展和成熟,一定會在電子商務應用領域有廣闊的應用前景。 參考文獻: 1Jiaw

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論