




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、學(xué)號:河南師范大學(xué)本科畢業(yè)論文I基于Web內(nèi)容的數(shù)據(jù)挖掘分析學(xué)院名稱:計算機與信息工程學(xué)院專業(yè)名稱:計算機科學(xué)與技術(shù)專業(yè)年級班別:2012級1班姓 名:指導(dǎo)教師:2016年5月河南師范大學(xué)本科畢業(yè)論文基于Web內(nèi)容的數(shù)據(jù)挖掘分析摘 要 二一世紀(jì)以來,互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,Web也越來越流行,Web信息資源也是呈現(xiàn)爆炸式增長。基于 Web內(nèi)容的數(shù)據(jù)挖掘分析,通過收集 Web訪問者的互聯(lián)網(wǎng)瀏 覽記錄、上網(wǎng)習(xí)慣等方式得到原始數(shù)據(jù),用來改進互聯(lián)網(wǎng)用戶的操作體驗,提升Web服務(wù),也有利于商戶開展有關(guān)的電子商務(wù)活動。本文講述了從Web挖掘到Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用挖掘的相關(guān)內(nèi)容,重點簡述了
2、 Web使用挖掘的過程。表明了 Web數(shù)據(jù)挖掘的主要應(yīng)用方向,并著重分析相關(guān)應(yīng)用方向的關(guān)鍵技術(shù),然后介紹了Web數(shù)據(jù)挖掘的技術(shù)實現(xiàn),有關(guān)聯(lián)規(guī)則,序列模式挖掘技術(shù),分類、聚類技術(shù),路徑分析技術(shù), 以及最后的Web挖掘技術(shù)的流程。關(guān)鍵詞 數(shù)據(jù)挖掘;Web挖掘;信息提取Data Mining Analysis Based on Web ContentAbstract The twen ty-first cen tury, the rapid developme nt of Internet tech no logy, Web has become increasingly popular, Web
3、information resources is explosive growth. Data mining an alysis based on Web content , browse through the collecti on of Web visitors Internet records, surfi ng habits and other ways to get the raw data used to improve the operati on of the In ternet user experie nee, enhance the Web services, but
4、also con ducive to con duct bus in ess-related e-commerce activities. This article describes the mi ning from the Web to Web content mi ning, Web structure mining, Web usage mining-related content, focusing briefly on Web usage mining process. It in dicates the directi on of the main applicati on We
5、b data mining, and an alyzes the key tech no logy-related applicati on direct ion, and the n in troduced the Web data mi ning tech no logy, associatio n rules, seque ntial pattern mining, classificati on, clusteri ng tech no logy, path an alysis, and last Web mining process.Keywords Data mi ning; We
6、b mi nin g; I nformatio n extract ion、八前言近年來,網(wǎng)絡(luò)以及通信技術(shù)不斷發(fā)展,互聯(lián)網(wǎng)無疑成為全世界影響最大的信息服務(wù)的 平臺,給人們的生活帶來了非常大的變革。如今, 信息顯得特別重要,互聯(lián)網(wǎng)上的相關(guān)信 息資源也無比豐富,人們在對待這么豐富的信息資源時,只有研究出關(guān)鍵相關(guān)技術(shù)才能從 中挖掘出有價值的信息來。Web數(shù)據(jù)挖掘就這樣誕生了,它可以幫助人們挖掘出人們所需 要的隱藏在巨大信息資源背后的有效信息,符合人們的預(yù)期,這已經(jīng)成了熱門的研究方向。1 Web挖掘1.1概念在1996年,Oren Etzioni第一次提出了 Web挖掘這個概念。Web挖掘就是從海量的
7、 Web資源當(dāng)中通過采用數(shù)據(jù)挖掘的技術(shù)能動的得到需要的信息1,11。數(shù)據(jù)挖掘是有數(shù)據(jù)庫、AI、自然語言等幾個方面的匯總2。Web數(shù)據(jù)挖掘的步驟如下:1)發(fā)現(xiàn)資源:任務(wù)是在 Web當(dāng)中檢索數(shù)據(jù);2)信息選取和數(shù)據(jù)預(yù)處理:將已經(jīng)挑選得到的某些原始數(shù)據(jù)根據(jù)相關(guān)技術(shù)進行預(yù)處理3;3)發(fā)現(xiàn)獲取概要模式:利用某些特定技術(shù)將藏匿在不同的Web當(dāng)中的概要模式進行提取;4)概要模式分析:確認(rèn)已經(jīng)獲得的模式并解釋1.2 Web數(shù)據(jù)挖掘的分類Web數(shù)據(jù)挖掘的通常分類方法是依據(jù)挖掘?qū)ο蟮牟幌嗤诸惾缦拢簑eb的內(nèi)容挖掘;web的結(jié)構(gòu)挖掘;web的使用挖掘。如圖11.2.1Web的內(nèi)容挖掘Web的內(nèi)容挖掘就是針對We
8、b文檔,對于那些可以利用原始數(shù)據(jù)預(yù)處理技術(shù)處理的海 量數(shù)據(jù)進行處理得到有價值的信息。 Web的內(nèi)容挖掘是對多媒體文檔和文本文檔來說的。 Web的文本數(shù)據(jù)挖掘,是對 Web進行歸納,總結(jié),分析,最終得出結(jié)論的4,12。近年來, 業(yè)內(nèi)對多媒體數(shù)據(jù)挖掘技術(shù)也是越來越成熟,越來越深入。13Web挖掘結(jié)構(gòu)挖掘用戶分析訪問定制模式Web分析站點圖1.1挖掘分類(1) Web的文本數(shù)據(jù)挖掘Web的文本數(shù)據(jù)挖掘是把統(tǒng)計學(xué)和計算機語言學(xué)作為理論基礎(chǔ),從海量的文本數(shù)據(jù)中提取有用的信息技術(shù)5,13 o(2) Web的多媒體數(shù)據(jù)挖掘?qū)eb當(dāng)中的圖片、視頻、音頻等多媒體信息進行相關(guān)技術(shù)分析獲得有效的模式信息, 企圖得
9、知事物之間的相關(guān)性,得出結(jié)論。文本總結(jié)就是用較少的話語來歸納已經(jīng)提取得到的信息。文本分類就是根據(jù)不同的性質(zhì)或主題將文本分門別類。文本聚類就是將某些具有相同的特征的文本集合起來。關(guān)聯(lián)分析就是找到文檔中不同部分的內(nèi)在的關(guān)系。1.2.2 Web的結(jié)構(gòu)挖掘Web的結(jié)構(gòu)挖掘是在Web結(jié)構(gòu)和鏈接關(guān)系當(dāng)中尋找到隱含的信息和模式的過程。Web內(nèi)容的結(jié)構(gòu)不相同的網(wǎng)頁之間的鏈接的關(guān)系,還有網(wǎng)頁頁面里的樹形的關(guān)系,女口HTMLXML以及文檔URL的目錄路徑結(jié)構(gòu)等等。利用Web的結(jié)構(gòu)挖掘分析可以更加深入的對 Web文檔的內(nèi)容進行分析,從整體的角度審視文檔。結(jié)構(gòu)分析可以采用先分解,再變形, 最后歸納總結(jié)的方法。通過分類
10、技術(shù)和聚類技術(shù),獲得最為重要的頁面,稱之為權(quán)威頁面, 目的是能夠使得查找信息更加高效。所謂鏈接關(guān)系指的是某些網(wǎng)頁當(dāng)中存在著彼此分享某 些內(nèi)容,相互引用的關(guān)系。Web的結(jié)構(gòu)挖掘有很多的應(yīng)用,包含以下幾個方面:1)對網(wǎng)頁的采集有著指導(dǎo)作用:因為鏈接關(guān)系,一個網(wǎng)頁可能與其他不同的網(wǎng)頁相 鏈接,可以對這些相關(guān)聯(lián)的網(wǎng)頁進行質(zhì)量排序,依據(jù)實際需要獲得一些有價值的網(wǎng)頁。2) 網(wǎng)頁聚類:當(dāng)前很多網(wǎng)頁的聚類分析是依據(jù)文本相似度, 但是有些可能會不符合 預(yù)期目標(biāo)。此時可以采用Web的結(jié)構(gòu)挖掘分析,利用鏈接關(guān)系進行聚類可能會得到意想不 到的結(jié)果。3)對社會團體進行識別:在互聯(lián)網(wǎng)上有許多社會團體構(gòu)建,運行以及維護的網(wǎng)
11、頁, 可以對這些社會團體進行識別。4)對資源進行自動分類:日常生活中我們經(jīng)常使用的搜索引擎基本上都是按照層次 來分類的,當(dāng)前主要有貝葉斯概率方式和 SV毗式。有專家曾驗證表明,在按照分類的樣 本的學(xué)習(xí)機當(dāng)中采用鏈接的方式進行分析就能夠?qū)Ψ诸惖募?xì)化程度進行提高。1.2.3 Web的使用挖掘Web使用挖掘就是根據(jù)在服務(wù)器上的搜索記錄進行挖掘,就是對用戶訪問Web網(wǎng)頁時 的存取方式進行挖掘,以得到用戶有關(guān)的訪問模式7,14。使用挖掘即與日志挖掘相同。Web的使用挖掘分析得到互聯(lián)網(wǎng)使用者的可能的訪問模式,如互聯(lián)網(wǎng)的某些可能訪問 習(xí)慣。根據(jù)實際應(yīng)用不相同,可以分為兩種跟蹤模式,屬于個人的獨有的訪問模式跟
12、蹤以 及普通的大眾的訪問模式跟蹤。個性化的訪問模式跟蹤就是依據(jù)個人用戶的喜好和特性, 構(gòu)建合適此人的 Web站點。一般的訪問模式跟蹤就是正常根據(jù)整理平時網(wǎng)頁日志來了解訪 問模式以及個人傾向,通過采用這些跟蹤模式可以很好的了解 Wet結(jié)構(gòu)以及資源分配者的 遍布情況。Web的使用挖掘可以分為以下幾個步驟:采集數(shù)據(jù),數(shù)據(jù)預(yù)處理,發(fā)現(xiàn)模式,分析模 式9。如圖:圖1.2 Web使用挖掘基本過程2 Web數(shù)據(jù)挖掘的主要應(yīng)用研究方向2.1智能化搜索引擎進入二十一世紀(jì)以來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的信息量急劇增加,網(wǎng)絡(luò) 信息也是即時更新,網(wǎng)絡(luò)用戶們急切需要符合自己需求的工具,用來快速準(zhǔn)確的獲取有用 的
13、信息,盡量使得檢索效率增高。由于現(xiàn)有的搜索引擎,如百度、搜狗,已經(jīng)能很好的達 到搜索信息的目的,所以數(shù)據(jù)挖掘的工程師們從數(shù)據(jù)挖掘的角度來提高檢索信息的準(zhǔn)確 度,使得個性化服務(wù)更加能夠應(yīng)用到網(wǎng)絡(luò)互聯(lián)網(wǎng)使用者的日常生活中。2.1.1目前的搜索引擎存在的不足:1)邏輯運算符不能滿足用戶需求目前的搜索引擎諸如百度等,所能夠提供的提問函數(shù)不能夠滿足用戶的需求, 很多的 搜索引擎只是能夠在關(guān)鍵詞的布爾連接之間提供幫助,但是例如SQL語言之類較為復(fù)雜的 搜索不能提供給相關(guān)用戶。2)在增量檢索方面沒有研究目前的搜索引擎在增量檢索方面還缺乏發(fā)展,只能夠?qū)z索信息從新開始,而不能將用戶曾經(jīng)的檢索過的信息進一步提煉
14、,以達到更加準(zhǔn)確的程度。3)只能提供關(guān)鍵詞搜索目前廣泛使用的關(guān)鍵詞搜索不能更好的滿足用戶的需求,關(guān)鍵詞搜索僅僅只是簡單的關(guān)鍵詞匹配和檢索。不能智能化的用語言交流,來達到檢索的目的。4)搜索引擎單一面對當(dāng)前海量的網(wǎng)絡(luò)資源,單個搜索引擎的力量以及數(shù)據(jù)庫的容量都對搜索能力的范 圍有所限制,而且不同的搜索引擎之間存在著許多相同的信息。2.1.2搜索引擎的關(guān)鍵技術(shù)1)排序信息和集成信息目前用戶利用搜索引擎檢索信息時,一般會反饋得到相關(guān)文檔的摘要。許多搜索引擎 會通過自動摘要的功能選擇性抽詞。 這種方法準(zhǔn)確度不高。人們可以利用 Web的內(nèi)容挖掘 當(dāng)中的對文本進行歸納的相關(guān)技術(shù),也就是說利用 Web文檔的內(nèi)
15、容而不是根據(jù)某些詞的位 置來檢索信息。對于PageRank算法,就是搜索引擎首先是檢索提問,之后再將檢索得到 的結(jié)果進行頁面的分析15,得到頁面的相關(guān)等級,然后依據(jù)頁面對檢索結(jié)果的重要性進行 輸出。全球著名的搜索引擎 Google就是采用了這個技術(shù)才使得其檢索結(jié)果準(zhǔn)確度高。類 似的算法還有 AuthorityandHub 16。2)識別搜索條件對搜索條件進行識別含有以下兩個方面:一是對查詢條件當(dāng)中的有效成分進行提取;二是依據(jù)知識的數(shù)據(jù)庫對所針對的關(guān)鍵詞的相關(guān)詞,如近義詞或同義詞進行提取。假設(shè)搜 索引擎在對一個關(guān)系復(fù)雜的查詢進行檢索時,若簡單的使用自然語言不做替換或提取有效 成分,則很難得到預(yù)期
16、的結(jié)果。所以說,建立一種有效的檢索機制對提高檢索準(zhǔn)確度至關(guān) 重要。3)個性化搜索引擎?zhèn)€性是每個人的特征,追求個性是每個人的基本心理。搜索引擎與個性相結(jié)合,將更 加能夠得到用戶的青睞。開發(fā)個性化的搜索引擎的首要前提就是能夠準(zhǔn)確的獲知用戶的興 趣愛好。通常為得知用戶的興趣愛好的方法就是根據(jù)用戶的檢索關(guān)鍵詞、瀏覽的網(wǎng)頁、書簽文件、以及用戶的動態(tài)更新等等。2.2智能化Web瀏覽器隨著互聯(lián)網(wǎng)的發(fā)展,信息資源也越來越豐富,傳統(tǒng)的Web瀏覽器在應(yīng)對用戶需求時,可能難以應(yīng)對。此時智能化的 Web瀏覽器才能讓用戶需求得到更好的滿足。2.2.1傳統(tǒng)的Web瀏覽器存在的不足:1)不能滿足用戶的個性化要求;傳統(tǒng)的We
17、t瀏覽器接受用戶的需求之后,機械的與服 務(wù)器連接,服務(wù)器所反饋回來的頁面不能與用戶的個性相匹配,信息準(zhǔn)確度不高。2)用戶可能會漫無目的的瀏覽服務(wù)器反饋回來的海量信息,就是因為深度優(yōu)先的檢 索,結(jié)果極有可能使得用戶迷失自我,脫離預(yù)期目標(biāo)。3)由于沒有信息過濾機制,查詢結(jié)果有可能會重復(fù),還會有無關(guān)的內(nèi)容,以及過時的 信息。使得互聯(lián)網(wǎng)使用者浪費時間,搜索引擎的檢索效率低。4)不存在能夠自動的查找新內(nèi)容的功能。2.2.2智能Web瀏覽器的關(guān)鍵技術(shù)1)特征選取特征選取是開發(fā)個性化 Web瀏覽器的關(guān)鍵,經(jīng)常使用的方法有依據(jù)某個詞語出現(xiàn)的頻 率來選取特征、依據(jù)瀏覽的的行為特征來選取特征、依據(jù)能否增加期望信息
18、來選取特征、 依據(jù)相互交流的信息量來選取特征。2)用戶興趣模型的學(xué)習(xí)和更新用戶興趣模型是將互聯(lián)網(wǎng)使用者所感興趣的內(nèi)容的概括。主要使用興趣相關(guān)法、貝葉斯分類器等。3)對信息進行過濾以及對文檔進行分類利用信息提取技術(shù)和模式發(fā)現(xiàn)技術(shù)達到 Web言息過濾的目的,對文檔進行分類依據(jù)的原則就是用戶興趣,可以對不感興趣的文檔進行屏蔽3 Web的挖掘技術(shù)的流程Web挖掘技術(shù)實現(xiàn)的流程如下圖3所示,其中各步驟如下:第一步:對目標(biāo)樣本進行確定,選擇好關(guān)于用戶的目標(biāo)文本,當(dāng)作用戶的特征信息來 提取;第二步:對特征信息進行提取,依據(jù)目標(biāo)樣本的相關(guān)詞的分布情況, 在統(tǒng)計詞典當(dāng)中 找到目標(biāo)的特征向量,然后計算得到所對應(yīng)的
19、權(quán)值;第三步:獲取網(wǎng)絡(luò)信息,首先利用搜索引擎的站點來選擇得到等待采集的站點,然后再利用Robot程序?qū)o態(tài) Web頁面進行采集,之后得到被訪問站點的網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài) 信息,形成萬維網(wǎng)的資源索引數(shù)據(jù)庫;第四步:對信息進行特征匹配,對索引數(shù)據(jù)庫當(dāng)中的源信息的特征向量進行提取,并且和目標(biāo)樣本當(dāng)中的特征向量也要進行相關(guān)的匹配, 最后用戶將得到符合閉值條件的結(jié)果 信息。特征信息提取目標(biāo)樣本統(tǒng)計詞典模式匹配返回結(jié)果集合Internet信息資 _ _ 孑 索引集源Robot采集圖3.1 Web信息挖掘流程4 Web數(shù)據(jù)挖掘技術(shù)實現(xiàn)對于Web數(shù)據(jù)挖掘的實現(xiàn)一般需要以下兩類技術(shù) 何:其一是采用人工智能模型,這
20、種 模型主要是根據(jù)機器學(xué)習(xí)來建立的,技術(shù)方法有自然法則計算方法、神經(jīng)網(wǎng)絡(luò)以及Web所獨有的路徑分析技術(shù)等等。其二是基于統(tǒng)計模型,技術(shù)方法有分類、聚類、決策樹、關(guān) 聯(lián)分析等等。4.1關(guān)聯(lián)規(guī)則對于Web數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則就是指用戶訪問的頁面與文件當(dāng)中所挖掘出來的頁面相 重合的關(guān)聯(lián)度,當(dāng)這個關(guān)聯(lián)度達到了某個數(shù)值時的頁面的合集17-18。常用的算法有Aprior, 對于事物數(shù)據(jù)庫,當(dāng)遇到一個最大的訪問項集,就會將其挖掘出來,這個項集就是依靠 Web數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)規(guī)則實現(xiàn)得到的用戶訪問模式。4.2序列模式挖掘技術(shù)在關(guān)聯(lián)規(guī)則挖掘技術(shù)當(dāng)中增加一項時間屬性, 可以用了明確事物的先后順序,預(yù)測事 物的發(fā)展趨勢
21、,這就是序列模式挖掘。這種挖掘是頁面之間的關(guān)系模式,也就是說頁面之 間有先后的關(guān)系。從用戶的訪問序列當(dāng)中挖掘出來有關(guān)的規(guī)則是時序模式發(fā)現(xiàn)的目的。 一 段時間內(nèi)的用戶訪問行為會被服務(wù)器所記錄,數(shù)據(jù)預(yù)處理時,各個事物也會有時間記錄。根據(jù)時間序列分析,可以達到預(yù)測用戶訪問行為的目的,比如,用戶購買了物品A,在一定的時間內(nèi),他有百分之七十的可能性會購買物品 B,這樣的話就可以對其投放特定 的廣告。4.3分類技術(shù)分類的原則就是根據(jù)某些特性,將數(shù)據(jù)庫中的數(shù)據(jù)進行分類11。在Web挖掘技術(shù)當(dāng)中, 比如在線購買中,可以得出購買人群主要是20-30歲的青年人群,就可以針對這個年齡段 人群的特點展開商務(wù)活動。當(dāng)前
22、,最經(jīng)典的分類方法就是決策樹方法。4.4聚類技術(shù)聚類就是將數(shù)據(jù)庫中的數(shù)據(jù)根據(jù)某個相似性劃分為各個不同的類別,對符合某一訪問規(guī)律特征的用戶進行用戶特征挖掘。4.5路徑分析技術(shù)圖是Web數(shù)據(jù)挖掘時用路徑分析技術(shù)最常用的。圖是指G=其中V是結(jié)點集合, E是邊集合,結(jié)點之間用有向邊連接。對于 Web挖掘應(yīng)用,將頁面作為頂點集合,E作為 有鏈接關(guān)系的有向邊集合,入邊是被引用,出邊是引用,這樣就形成了網(wǎng)站的結(jié)構(gòu)圖。對于圖中的訪問路徑,最優(yōu)訪問路徑就是指對于已經(jīng)確定的點之間找到一種符合條件的某個 量度最小的訪問路徑。5案例分析近年來,我國房地產(chǎn)市場持續(xù)火爆,房價成了我國全民關(guān)心的話題。為了防止一些發(fā) 達國家
23、歷史上出現(xiàn)過的房地產(chǎn)泡沫,國家屢次出臺有關(guān)房價問題的政策,持續(xù)加大對房地 產(chǎn)的調(diào)控的力度。因為房地產(chǎn)關(guān)乎民生,所以很多網(wǎng)民都在互聯(lián)網(wǎng)上發(fā)表了自己對政府調(diào) 控房價政策等方面的看法,這就是房地產(chǎn)網(wǎng)絡(luò)輿情。對于這些網(wǎng)絡(luò)輿論情況進行分析, 可 以對其進行有效的控制和疏導(dǎo)。網(wǎng)絡(luò)輿情分析的步驟如下:5.1信息采集有關(guān)房地產(chǎn)網(wǎng)絡(luò)輿情的信息采集主要是通過網(wǎng)絡(luò)爬蟲來對網(wǎng)絡(luò)內(nèi)容進行抓取。 數(shù)據(jù)的 獲取主要從這幾個方面著手,對列表頁進行抓取、相關(guān)鏈接和對下載的詳情頁面。可以通 過內(nèi)容獲取模塊、內(nèi)容分析模塊、數(shù)據(jù)庫操作模塊實現(xiàn),以及分析和分解根。房地產(chǎn)網(wǎng)絡(luò)輿情的信息選取的時間范圍為 2015年1月1日到2015年6月
24、30日的有 關(guān)房價調(diào)控的評論。對網(wǎng)上各有關(guān)房市討論的熱點話題共計抓取2340篇評論。評論者為社會各個行業(yè)的人士,除了國內(nèi)的老百姓,還有海外人士。首先對這些評論采用分類的方 式得到有效評論1800篇,其中正面評論1300篇,負(fù)面500篇。舉例如下表:表5.1正面、反面的評論正面的評論1、真是太好了,中央要抑制房價。2、說的有理,國家不斷增長,有利于人民。3、 政策一直在朝著好的方向發(fā)展,這是毋庸置疑的。4、能不能抑制房價,需要市場調(diào)節(jié),國家一定能解決好這個問題。5、中國一直在不斷向前發(fā)展, 房價對于中國不是問題,我對國家有信心。6、 國家一直在考慮民生問題,國家財政必將取之于民,用之于民。7、支
25、持發(fā)改委,相信政府能夠避免樓市泡沫。8、國家解決問題需要時間,相信政府定能在 盡可能短的時間內(nèi)解決全民炒房問題。負(fù)面的評論1、國家對房價這一重要問題都調(diào)控不好。2、發(fā)改委影響了中國前進的步伐。3、當(dāng)前,地皮歸政府管理,前景不容樂觀。4、科學(xué)院真是不行,調(diào)控房價這么些年,也沒能解決好這個問題。5、國家腐敗太多,民生問題難以解決,唉,悲哀。6、國家政策失誤導(dǎo)致了虛高的房價,應(yīng)該出臺正確的政策,彌補以前的失誤,老百姓辛 辛苦苦一輩子,還買不了一套房,真是悲哀。7、所謂的學(xué)者,你的知識在哪兒,一直在亂講,也沒個好方法,誤導(dǎo)國民。&為什么政府官員、老師總是宣揚一些不著 調(diào)的話語,房價是關(guān)乎民生,政治的大
26、問題。5.2數(shù)據(jù)預(yù)處理首先對所提取的信息進行文本提取,也就是要去除除文本外的信息如視頻,音頻等;然后對文本進行分詞的處理;最后對文本采用向量空間等方法進行特征表示,以及進行特征選擇,得到有效的文本特征,為分析做準(zhǔn)備。5.3文本內(nèi)容分類對獲得的網(wǎng)絡(luò)輿論采取情感上的傾向性分析。 在這個階段,首先將數(shù)據(jù)與現(xiàn)有的網(wǎng)絡(luò) 情感傾向性方法進行對比,這些方法是:基于支持向量機的網(wǎng)絡(luò)輿論情感分析方法, 基于 K階最近鄰方法的網(wǎng)絡(luò)情感分析方法以及基于 N-gram方法的網(wǎng)絡(luò)情感分析方法。通過對 比發(fā)現(xiàn),選擇基于支持向量機的網(wǎng)絡(luò)輿論情感分析方法更合適。第一根據(jù)之前所得的輿情語科庫對SVM進行訓(xùn)練,并將其用于房地產(chǎn)輿
27、情分析預(yù)測當(dāng)中。 再對所收集的信息按照一 個月分為兩次的間隔分成10個時間段。進行分類預(yù)測。結(jié)果如下:表5.2 分類評論的結(jié)果1月a1月z2月a2月z3月a3月z4月a4月z5月a5月z止面 的文 本數(shù)410265303132154799負(fù)面 的文 本數(shù)16343330681009026122348根據(jù)上表,繪制折線圖如下:圖5.1房地產(chǎn)行業(yè)網(wǎng)絡(luò)輿論情況由上圖可知,評論數(shù)呈現(xiàn)上升趨勢5.4輿論情感傾向性分析網(wǎng)絡(luò)輿情反映了事態(tài)發(fā)展,并且能夠引起社會的關(guān)注。通過對網(wǎng)絡(luò)輿情的分析能夠增 加政府與民眾的溝通,知曉民意,了解民情,指定合適的政策。通過對房地產(chǎn)輿情的分析可知,房地產(chǎn)的評論數(shù)量急劇增加,更重
28、要的是,差評率高 達78.1%。這些結(jié)論能夠讓政府更好的面對房地產(chǎn)問題,了解百姓的真實意見,以便做出 更好的政策意見。結(jié)束語本文討論了 Web挖掘的相關(guān)分類和定義。講述了Web勺內(nèi)容挖掘、Web的結(jié)構(gòu)挖掘、Web的使用挖掘等以及所涉及的關(guān)鍵技術(shù)。對于這些方面的研究還不夠完善,仍舊處于初 級的階段,互聯(lián)網(wǎng)在技術(shù)和應(yīng)用兩個方面的不斷發(fā)展使得數(shù)據(jù)庫技術(shù)和數(shù)據(jù)挖掘技術(shù)也在 不斷的發(fā)展,這使得 Web的數(shù)據(jù)挖掘技術(shù)理論和應(yīng)用也同樣不斷發(fā)展。本文不僅討論了 Web的數(shù)據(jù)挖掘的內(nèi)容,Web挖掘的步驟,Web挖掘的技術(shù)等,還研究了關(guān)聯(lián)規(guī)則等算法。 討論了 Web信息挖掘的流程。參考文獻1 張春明 Web挖掘技
29、術(shù)研究J.廊坊師范學(xué)院學(xué)報(自然科學(xué)版),2008,No.3505:35-36.2 蔣望東,黃發(fā)良基于WEB的數(shù)據(jù)挖掘研究綜述J. 湖南工程學(xué)院學(xué)報(自然科學(xué) 版),2007,No.4301:61-64.3 王劍鋼,連仁明,邢博.基于龍格庫塔四階積分的流線可視化方法J. 無線互聯(lián)科 技,2015,No.6513:130+136.4 劉曉鵬,邢長征.基于WEB文本數(shù)據(jù)挖掘的研究J.計算機與數(shù)字工程,2005,09:75-79.5 黃娟.基于文本挖掘技術(shù)的蛋白質(zhì)相互作用預(yù)測方法研究D.中南大學(xué),2009. 巫滿秀.Web StructureMi ning 在電子商務(wù)網(wǎng)站中的應(yīng)用J. 電腦知識與技術(shù)
30、(學(xué)術(shù)交流),2007,05:1215+1226.7 陳修寬,董祥軍,石芙芙.Web數(shù)據(jù)挖掘綜述J. 山東輕工業(yè)學(xué)院學(xué)報(自然科學(xué) 版),2009,v.23;No.8903:25-28.8 林聰.Web挖掘的研究綜述J. 現(xiàn)代計算機(專業(yè)版),2008,No.28707:89-91.9 賈丙靜,葛華,王傳安,趙海燕.Web日志挖掘在校園網(wǎng)建設(shè)中的應(yīng)用研究J.安徽科技學(xué)院學(xué)報,2010,v.24;No.9403:38-41.10 楊銘.Web數(shù)據(jù)挖掘綜述J. 科技展望,2014,No.31219:22.11 烏嵐.基于多樣約束模型的遠(yuǎn)程教育數(shù)據(jù)庫優(yōu)化查詢算法J. 科技通 報,2013,v.29;No.17501:154-156+180.11 Zhe ng Che n,Fa n Lin,Huan Liu,Yin Liu,Wei-Yi ng Ma,Liu Wen yi n. User Inten tion Modeli ng inWeb Applicatio ns Usi ng Data Minin gJ. World Wide Web,2002,53:.12 Robert Cooley,Bamshad Mobasher,Jai
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年齊齊哈爾道路貨物運輸從業(yè)資格證模擬考試
- 合作社農(nóng)村土地資源整合協(xié)議
- 情人節(jié)大營銷經(jīng)典案例講解材料
- 2025年節(jié)能型電冰箱、空調(diào)器項目提案報告
- 項目投資合作協(xié)議計劃書
- 2025年芳香保健師(初級)職業(yè)技能鑒定試題解析與實戰(zhàn)
- 2025年具體城市事業(yè)單位招聘考試教師招聘音樂學(xué)科專業(yè)知識試卷(音樂教育改革成效分析)
- 2025年叉車司機(中級)叉車操作技能與叉車操作技能與叉車操作效率考試試卷
- 2025年法語DELFA級聽力測試試卷與答案
- 跨境醫(yī)療合作協(xié)議書
- 食品安全主題墻框架
- 吸脂術(shù)護理查房
- 學(xué)校危險化學(xué)品安全管理制度(2篇)
- 物流快遞企業(yè)倉庫消防安全培訓(xùn)課件
- 住院患者發(fā)生跌倒、墜床的應(yīng)急預(yù)案和處理流程
- 2024年度農(nóng)業(yè)產(chǎn)業(yè)化項目合作協(xié)議3篇
- 提升醫(yī)療滿意度
- 電商平臺法人免責(zé)協(xié)議書
- 柴油供應(yīng)墊資合同范本
- 成品金屬格柵施工方案
- 大廈物業(yè)移交接收方案(標(biāo)準(zhǔn)版)
評論
0/150
提交評論