工商管理Web日志挖掘與電子商務(wù)_第1頁
工商管理Web日志挖掘與電子商務(wù)_第2頁
工商管理Web日志挖掘與電子商務(wù)_第3頁
工商管理Web日志挖掘與電子商務(wù)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、日志挖掘與電子商務(wù) 日志挖掘與電子商務(wù)是小柯論文網(wǎng)通過網(wǎng)絡(luò)搜集,并由本站工作人員整理后發(fā)布的,日志挖掘與電子商務(wù)是篇質(zhì)量較高的學(xué)術(shù)論文,供本站訪問者學(xué)習(xí)和學(xué)術(shù)交流參考之用,不可用于其他商業(yè)目的,日志挖掘與電子商務(wù)的論文版權(quán)歸原作者所有,因網(wǎng)絡(luò)整理,有些文章作者不詳,敬請諒解,如需轉(zhuǎn)摘,請注明出處小柯論文網(wǎng),如果此論文無法滿足您的論文要求,您可以申請本站幫您代寫論文,以下是正文。 摘要 在電子商務(wù)中,根據(jù)客戶的訪問數(shù)據(jù)挖掘出有價值的信息,進(jìn)而劃分客戶群體和發(fā)現(xiàn)潛在的客戶,從而提升業(yè)績,對電子商務(wù)網(wǎng)站有重要的意義。web日志挖掘是數(shù)據(jù)挖掘在web頁面上的應(yīng)用,文章對web日志挖掘進(jìn)行了介紹,給出了

2、web日志挖掘的步驟和方法,對web日子挖掘工具進(jìn)行了分析,并介紹了其在電子商務(wù)網(wǎng)站中的應(yīng)用。關(guān)鍵詞 電子商務(wù) 數(shù)據(jù)挖掘 web日志挖掘一、引言隨著計算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,電子商務(wù)的發(fā)展也有了越來越好的技術(shù)平臺,許多公司都建立了自己的網(wǎng)站,這是公司的門戶和電子商務(wù)進(jìn)行的所在。web數(shù)據(jù)挖掘是當(dāng)前最前沿的研究領(lǐng)域,是把internet和數(shù)據(jù)挖掘結(jié)合起來的一種新興技術(shù)。web數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的特定步驟,也是最核心的部分。web日志挖掘是web挖掘的重要內(nèi)容,其技術(shù)和方法在電子商務(wù)中有著巨大的應(yīng)用空間和應(yīng)用價值。如發(fā)現(xiàn)有價值的信息、尋找潛在客戶和提供個性化服務(wù)等。二、web挖掘及

3、web日志挖掘web挖掘是將數(shù)據(jù)挖掘的思想和方法應(yīng)用到web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息等各種web數(shù)據(jù)中,從中抽取隱含的、以前未知的、具有潛在應(yīng)用價值的信息。根據(jù)挖掘的對象不同,web挖掘可分為web內(nèi)容挖掘、web結(jié)構(gòu)挖掘和web日志挖掘。1.web內(nèi)容挖掘web內(nèi)容挖掘主要從web文檔的內(nèi)容中抽取出有用的知識。由于web文檔的絕大部分內(nèi)容是以文本的形式存在,所以web內(nèi)容挖掘主要針對的是web文檔的文本部分,文本挖掘主要包括對web文檔文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除了文本挖掘以外,web內(nèi)容挖掘還包括web上的聲音、圖形、圖像信息的挖掘、數(shù)據(jù)庫中的數(shù)據(jù)挖掘和信息獲取等。

4、2.web結(jié)構(gòu)挖掘web結(jié)構(gòu)挖掘主要通過web頁的組織結(jié)構(gòu)和超鏈接關(guān)系以及web文檔自身的結(jié)構(gòu)信息(如title, heading, anchor標(biāo)記等)推導(dǎo)出web內(nèi)容以外的知識,可分為超鏈挖掘、內(nèi)部結(jié)構(gòu)挖掘和url挖掘。3.web日志挖掘web日志挖掘即web使用記錄挖掘,是從用戶的訪問記錄中抽取具有意義的模式。其數(shù)據(jù)源有服務(wù)器的日志、用戶注冊數(shù)據(jù)、跟蹤文件的數(shù)據(jù)記錄、用戶訪問期間的事務(wù)、用戶查詢、書簽數(shù)據(jù)和鼠標(biāo)移動點擊的信息。web日志記錄挖掘應(yīng)用的技術(shù)主要有路徑分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、聚類分析、統(tǒng)計分析等。web使用記錄挖掘可以發(fā)現(xiàn)潛在的用戶、改進(jìn)電子商務(wù)網(wǎng)站的建設(shè)、增加個性

5、化服務(wù)等。三、web日志挖掘的步驟web日志挖掘步驟主要分為源數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析個階段。1.源數(shù)據(jù)收集源數(shù)據(jù)收集主要是web日志文件的收集。對于一個電子商務(wù)網(wǎng)站來說,經(jīng)過一段時間后,用戶會在網(wǎng)站上積累大量有用的信息(如訪問日志、注冊信息、需求信息、定單信息、交流信息等),采用web 日志挖掘技術(shù)就可以充分利用這些有用信息,幫助電子商務(wù)網(wǎng)站的建設(shè)和發(fā)展。web日志文件主要包括以下3種類型:服務(wù)器日志文件、錯誤日志文件和cookies。2.數(shù)據(jù)預(yù)處理web日志挖掘首先要對日志中的原始數(shù)據(jù)進(jìn)行預(yù)處理,因為從用戶的訪問日志中得到的原始日志記錄并不適于挖掘,必須進(jìn)行適當(dāng)?shù)奶幚怼R虼?/p>

6、,需要通過日志清理,去除無用的記錄。預(yù)處理過程是保證web日志挖掘質(zhì)量的關(guān)鍵步驟,下面我們來闡述數(shù)據(jù)預(yù)處理的過程。(1)數(shù)據(jù)凈化。指刪除 web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)。大多數(shù)情況,只有日志中 html文件與用戶會話相關(guān),所以通過檢查url 的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。(2)識別用戶。由于本地緩存、代理服務(wù)器和防火墻的存在,使得識別用戶的任務(wù)變得很復(fù)雜,可以使用一些啟發(fā)式規(guī)則幫助識別用戶。(3)識別用戶會話。用戶會話是指用戶對服務(wù)器的一次有效訪問,通過其連續(xù)請求的頁面,我們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。(4)識別片段。在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要

7、的請求沒有被記錄。如果當(dāng)前請求頁與用戶上一次請求頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“back”按鈕調(diào)用緩存在本機(jī)中的頁面。檢查引用日志確定當(dāng)前請求來自哪一頁,如果在用戶的歷史訪問記錄上有多個頁面都包含與當(dāng)前請求頁的鏈接,則將請求時間最接近當(dāng)前請求頁的頁面作為當(dāng)前請求的來源。3.模式發(fā)現(xiàn)模式發(fā)現(xiàn)是運用各種算法和技術(shù)對預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。這些技術(shù)包括人工智能、數(shù)據(jù)挖掘、統(tǒng)計理論、信息論等多領(lǐng)域的成熟技術(shù)。可以運用數(shù)據(jù)挖掘中的常用技術(shù)如路徑分析,關(guān)聯(lián)規(guī)則、序列模式以及分類聚類等。(1)路徑分析。它可以被用于判定在一個站點中最頻繁訪問的路徑,還有一些其它的有關(guān)路徑的信息

8、通過路徑分析可以得出。利用這些信息就可以改進(jìn)站點的設(shè)計結(jié)構(gòu)。(2)關(guān)聯(lián)規(guī)則。使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,可以從web的訪問事務(wù)中找到相關(guān)性。利用這些相關(guān)性,可以更好的組織站點的web空間。(3)序列模式。在時間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指那些如“一些項跟隨另一個項”這樣的內(nèi)部事務(wù)模式。發(fā)現(xiàn)序列模式,能夠便于預(yù)測讀者的訪問模式,開展有針對性的服務(wù)。(4)分類和聚類。發(fā)現(xiàn)分類規(guī)則可以給出識別一個特殊群體的公共屬性的描述,這種描述可以用于分類的讀者。聚類分析可以從web訪問信息數(shù)據(jù)中聚類出具有相似特性的讀者,在web事務(wù)日志中,聚類讀者信息或數(shù)據(jù)項能夠便于開發(fā)和設(shè)計未來的服務(wù)模式和服務(wù)群體。4.

9、模式分析該階段實現(xiàn)對用戶訪問模式的分析,基本作用是排除模式發(fā)現(xiàn)中沒有價值的規(guī)則模式,從而將有價值的模式提取出來。四、web日志挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用1.電子商務(wù)網(wǎng)站中web日志挖掘內(nèi)容(1)網(wǎng)站的概要統(tǒng)計。網(wǎng)站的概要統(tǒng)計包括分析覆蓋的時間、總的頁面數(shù)、訪問數(shù)、會話數(shù)、惟一訪問者、以及平均訪問、最高訪問、上周訪問、昨日訪問等結(jié)果集。(2)內(nèi)容訪問分析。內(nèi)容訪問分析包括最多及最少被訪問的頁面、最多訪問路徑、最多訪問的新聞、最高訪問的時間等。(3)客戶信息分析。客戶信息分析包括訪問者的來源省份統(tǒng)計、訪問者使用的瀏覽器及操作系統(tǒng)分析、訪問來自的頁面或者網(wǎng)站、來自的ip地址以及訪問者使用的搜索引擎。

10、(4)訪問者活動周期行為分析。訪問者活動周期行為分析包括一周7天的訪問行為、一天24小時的訪問行為、每周的最多的訪問日、每天的最多訪問時段等。(5)主要訪問錯誤分析。主要訪問錯誤分析包括服務(wù)端錯誤、頁面找不到錯誤等。(6)網(wǎng)站欄目分析。網(wǎng)站欄目分析包括定制的頻道和欄目設(shè)定,統(tǒng)計出各個欄目的訪問情況,并進(jìn)行分析。(7)商務(wù)網(wǎng)站擴(kuò)展分析。商務(wù)網(wǎng)站擴(kuò)展分析是專門針對專題或多媒體文件或下載等內(nèi)容的訪問分析。2.web日志挖掘工具已經(jīng)有部分公司開發(fā)出了商用的網(wǎng)站用戶訪問分析系統(tǒng),如webtrends公司的commercetrends 3.0,它能夠讓電子商務(wù)網(wǎng)站更好地理解其網(wǎng)站訪問者的行為,幫助網(wǎng)站采取

11、一些行動來將這些訪問者變?yōu)轭櫩汀ommercetrends主要由3部分組成:report generation server、campain analyzer和webhouse builder。還有accrue公司的accrue insight,它是一個綜合性的web分析工具,它能夠?qū)W(wǎng)站的運行狀況有個深入、細(xì)致和準(zhǔn)確的分析,通過分析顧客的行為模式,幫助網(wǎng)站采取措施來提高顧客對于網(wǎng)站的忠誠度,從而建立長期的顧客關(guān)系。五、結(jié)束語電子商務(wù)在快速增長,有非常好的前景。web日志挖掘是數(shù)據(jù)挖掘中的前沿技術(shù),應(yīng)用web日志挖掘技術(shù),能使電子商務(wù)網(wǎng)站資源的配置更合理化,能發(fā)現(xiàn)隱含的有價值的信息,改進(jìn)網(wǎng)站

12、設(shè)計,找到潛在的客戶、為已有客戶提供更好的個性化服務(wù)。web日志挖掘技術(shù)和 web內(nèi)容挖掘技術(shù)、web結(jié)構(gòu)挖掘技術(shù)的結(jié)合使用可進(jìn)一步完善和提高電子商務(wù)網(wǎng)站的功能,這是我們今后所要探討的。本文中所涉及到的圖表、注解、公式等內(nèi)容請以pdf格式閱讀原文。其他參考文獻(xiàn)baker, sheridan. the practical stylist. 6th ed. new york: harper & row, 1985.flesch, rudolf. the art of plain talk. new york: harper & brothers, 1946.gowers, ernest. the

13、complete plain words. london: penguin books, 1987.snell-hornby, mary. translation studies: an integrated approach. amsterdam: john benjamins, 1987.hu, zhuanglin. 胡壯麟, 語言學(xué)教程 m. 北京: 北京大學(xué)出版社, 2006.jespersen, otto. the philosophy of grammar. london: routledge, 1951.leech, geoffrey, and jan svartvik. a c

14、ommunicative grammar of english. london: longman, 1974.li, qingxue, and peng jianwu. 李慶學(xué)、彭建武, 英漢翻譯理論與技巧 m. 北京: 北京航空航天大學(xué)出版社, 2009.lian, shuneng. 連淑能, 英漢對比研究 m. 北京: 高等教育出版社, 1993.ma, huijuan, and miao ju. 馬會娟、苗菊, 當(dāng)代西方翻譯理論選讀 m. 北京: 外語教學(xué)與研究出版社, 2009.newmark, peter. approaches to translation. london: pergmon p, 1981.quirk, randolph, et al. a grammar of contemporary english. london: longman, 1973.wang, li. 王力, 中國語法理論 m. 濟(jì)南: 山東教育出版社, 1984.xu, jianping. 許建平, 英漢互譯實踐與技巧 m. 北京: 清華

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論