電商評論中細粒度主題情感混合模型建構_第1頁
電商評論中細粒度主題情感混合模型建構_第2頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、電商評論中細粒度主題情感混合模型建構 摘要:本文對細粒度觀點挖掘的相關理論做了深入探討,詳細研究了 LDA 模型,又對該模型加以改進,提出了細粒度主題情感混合模型,該模型能對實體提取、意見詞識別、情感傾向分析、評論信息自動匯總分析、用戶評價等提供評價分析,為用戶提供直觀的信息。 關鍵詞:細粒度挖掘 電商評論 主題模型 Abstract: This paper discusses the related theory of fine-grained opinion mining, a LDA model is studied in detail, but also to improve this

2、 model, we propose a fine-grained topic sentiment mixture model, the model of entity extraction, opinion words recognition, sentiment analysis, analysis and evaluation on automatic information collection analysis, user evaluation for evaluation, to provide visual information for the user. Key words:

3、 fine-grained mining e-commerce review theme model 研究的背景 用戶網絡購物時常常先查閱商品的評論信息,把消費者對產品或服務使用后的真實評價作為重要參考,商家也把評論作為反饋機制,自身產品與服務的不足之處可以從評論中得以發現,進而對產品進行改進或者對銷售策略進行調整。 近幾年來,網絡購物深入到青年、中年、老年等各個人群,購物結束后人們也越來越習慣于對商品做出評論,如此網站中電商評論的信息巨增,對于一件商品其評論信息會達到幾千甚至上萬條。消費者和商家都不可能對評論信息逐條閱讀,但僅看其中的一部分評論得到的結果卻又很片面。因此,從大量的評論信息中幫

4、助消費者或商家提取有價值的信息成為當前最為迫切的問題,傳統的觀點挖掘方法對整條評論或對句子的層次做情感分析,這種方法不能反映產品或服務某種屬性的評價具體情況,只是對產品或服務的優劣情況做反饋。針對電商評論的細粒度觀點挖掘,采用建構細粒度主題情感混合模型的方法對某個方面進行的挖掘,一方面能夠反映評論信息的整體評價,另一方面還可反饋用戶對產品或服務每個方面的評價褒貶情況,從而對消費者和商家提供更重要的、有價值的信息。消費者所關心的產品的某個或某些方面的評價從中可以直接地了解,進而在綜合考慮的基礎上,制定和自身利益相符的決策。產品和服務在具體方面的優缺點商家也可以從中獲得,在此基礎上對產品進行進一步

5、改進,形成更合理、更合適的營銷方案。 細粒度觀點挖掘理論與相關個性化技術 (一)觀點挖掘的概念 觀點挖掘涉及到實體和觀點兩種相關術語,下面分別對其進行定義和解釋。 實體:實體通常由 E(t,w)表示,E 表示實體,T表示實體組件的層次結構,或子組件的層次結構,w 表示E 屬性的集合。以華為 P10 手機為例,它是一個實體,電池、屏幕、充電器等是這個實體的組成部件,大小、機身內存等是手機的屬性,每一個組成部件也有其自己的屬性,比如屏幕的屬性有可操作性、像素大小、屏幕大小等。其組成部分屏幕也有自己的屬性如顏色、可操作性。 實體是一棵倒樹型的層次結構。實體本身等同于樹的根結點,實體的組成部分或子組成

6、部分處于樹的各個非根結點,每一個結點之間分別具有其聯系的屬性。 觀點:五元組結構表示法(e j ,a jk ,s oijkl ,h i ,t l )常常用來表示觀點,其中每一個元素含義為:e j 實體;a j 實體的特征或方面;s oijkl 在特定的時間,觀點持有者的情感評價;h i 做評論的用戶即觀點持有者;t l 表述觀點的時間。這種五元組描述方法設計了一種框架,該框架能夠把無結構的文本轉化為結構化的數據,使用該框架可以完成對信息量眾多的數據實現量化分析。 (二)相關個性化推薦技術 個性化推薦技術是在推薦技術基礎上發展和改進的結果,是目前被用來解決評論信息量過大的有效處理辦法。參考用戶的

7、愛好及用戶日常的瀏覽足跡,個性化推薦系統綜合考慮推薦對象的特點,將推薦對象列表以個性化的方式向用戶推薦。個性化推薦如圖 1 所示,其過程為:根據用戶瀏覽歷史,對用戶的喜好、興趣與需求做出判斷;在眾多的用戶推薦對象信息中建設推薦對象模型;利用最佳推薦算法形成個性化推薦結果,并將推薦結果呈現給用戶。 當前,在處理評論內容信息量過大過程中,個性化推薦技術作為最有效的技術手段被普遍應用。該技術手段多采用基于內容的推薦算法、協同過濾算法和混合推薦算法。基于內容的推薦算法。此算法可以在用戶對推薦對象不做評價的情況下,能夠抽取出推薦對象內容的特征,還能夠依據用戶確定的對象的內容特點取得用戶的愛好,從而使用戶

8、獲得與其愛好匹配率最高的對象。協同過濾推薦算法。此算法的推薦原則是:購物與生活習慣或喜好相近的用戶所需要的信息也是相同的。該推薦方法以過濾和選擇具有相似購物習慣的用戶為目標,統計用戶之間愛好的最大相似性。混合推薦。混合推薦算法綜合應用了基于內容的推薦算法和協同過濾推薦算法。 現在所使用的個性化推薦方法源于基于推薦的方法,用戶的評分信息評論被作為所使用的數據。由于用戶有時不是完全用心地給商品做出評價與評分,所以個性化推薦方法得出的結果不是特別有用。 (三)細粒度觀點挖掘 從研究對象層次方面劃分,觀點挖掘可分為三種層次類型,各類型及其研究層次如下:第一,把文檔作為分析基礎的挖掘即基于文檔級的觀點挖

9、掘,在這種方法應用中整個評論信息在情感方面被分類處理。第二,基于句子級的觀點挖掘,這種方法與文檔級層面的區別是在于情感分類時基于評論信息中的句子級。不能獲得具體的細節信息是第一、二種挖掘方法的相同點。第三,基于方面級的觀點挖掘。前兩種觀點挖掘方法不能得到具體的細節信息,基于方面級的觀點挖掘又稱為細粒度觀點挖掘,使用過程中評論中的被評價實體方面被這種方法細節化,實體所有方面的詳細觀點和情感傾向都能被分析得出。實現較深層次的任務是細粒度觀點挖掘的一大優勢,另一優點是向消費者或商家提供被評價實體與之相關的情感觀點信息,細粒度觀點挖掘獲得的信息可以滿足用戶更高層次的需求。 (四)細粒度觀點挖掘承擔的主

10、要任務 細粒度觀點挖掘的目標定在被評價實體方面的抽取,抽取過程中注重情感分析,即從眾多的評論中生成評價摘要。提取實體、提取意見詞和分析情感傾向是細粒度意見挖掘的三個主要任務。圖2展示了細粒度觀點挖掘的流程。挖掘過程為:采集電商網上消費者的評論數據過濾無用數據(數據預處理)刪掉停用詞等轉化數據,生成可識別的格式供算法使用抽取被評價實體方面和觀點詞,在此基礎上從情感傾向角度進行分析生成評價摘要且評價摘要可視化。 細粒度主題情感混合模型 (一)主題模型 文檔中常常有一些隱含的主題,對于這些主題的建模采用主題模型的方法實現,每一個文檔的生成模型稱為主題模型。若干個詞語組成了文檔,文檔的形成包括以下過程

11、:詞語確定主題;在這個主題中選擇詞語;不斷重復前兩步的選擇過程,從而生成文檔。主題模型在上述選擇主題或詞的過程中均以采取相應的概率為前提,PLSA 和 LDA 是電商評論中被普遍采用的兩種主題模型,這兩種模型在應用過程中的使用情況如下:PLSA 模型容易出現過擬合,應在文檔層和主題層之間增加概率模型;LDA 模型在 PLSA 模型基礎上做了改進,在文檔和主題層之間設置了超參數,解決了 PLSA 模型過擬合現象。 (二)LDA 模型 文本文檔的 LDA 模型被認為是由多個主題組成的概率分布,如圖 3 所示,它是由文檔、主題和詞組成的三層模型,每個主題的概率分布由多個詞組成。圖 3 中各變量的含義

12、如表1所示。LDA模型先確定評論文檔的主題分布,再選擇一個主題,接著選擇一個詞語,從上一步驟生成的對應主題詞條分布中進行選擇,反復進行上述兩個過程,完成文檔的編輯后過程結束。 (三)細粒度觀點挖掘主題模型設計 細粒度觀點挖掘的實現目標有以下四個方面:在眾多的評論信息中進行抽取,獲得被評價實體方面和與其相對應的情感;生成評價摘要;為消費者和商家提供信息所需;為商家提供決策性支持。傳統的 LDA 模型由于使用文檔級的詞共現信息識別主題,因此聚類得到的主題粒度較粗,不能對被評價實體方面進行識別,另外 LDA 模型把詞和觀點詞集為一體,不能一目了然地呈現描述方面的詞和觀點詞,情感也沒有做建模處理,不能

13、實現情感傾向分析。由于上述缺陷,對主題模型進行拓展和設計的重點應充分考慮被評價實體,應把評價實體方面的抽取做為改進工作的核心,兼顧考慮如何分離描述詞和情感詞。 細粒度觀點挖掘主題模型拓展設計如下:第一,引入滑動窗口。一篇評論文檔由若干個滑動窗口組成,使用拓展模型,對滑動窗口進行主題的抽取,局部主題被抽取后將幾個句子組成一個滑動窗口,例:一篇評論有 5 個句子,滑動窗口大小為 3,則將有 7 種窗口,分別是 s1、s1,s2、s1,s2,s3、s2,s3,s4、s3,s4,s5、s4,s5、s6。如果句子 s3 有 10 個單詞,各個詞的來源窗口分布如表 2所示。由表 2 可知,同一個句子不僅僅

14、只包含在相同的窗口中,不同的滑動窗口也可以包括相同的句子,處理單個句子級別詞共現缺乏時可以用這種方法。 第二,充分考慮用戶的情感傾向。在細粒度觀點挖掘中,不僅要識別被評價實體,還應了解用戶的情感傾向,解決這一問題的方法是將情感層加在文檔層與主題層之間,同時對主題和情感建模,從而實現對被評價實體方面的情感分析。增加情感層的主題模型相對于傳統的方法而言,充分考慮了情感傾向,各種主題與情感中的詞語分布情況都能夠通過被分析而獲得,情感所呈現出的正面與負面的情緒因素也可以被判斷,這樣便能夠達到觀點挖掘的目的。 第三,使用指示變量將情感與方面進行分離。分析結果中所有描述方面的詞和表述情感方面的詞構成了一個

15、集合,稱之為詞聚類的集合,該集合作為主題模型的結果被輸出。為了將其分離,將模型中的詞進行分類,分為:方面詞和觀點詞。描述被評價實體某一方面的詞定義為方面詞,例如手機的電池方面上有待機時間、耗電等詞;觀點詞被用來描述或表達被評價實體方面,高、低、長、短都屬于觀點詞,模型中通過兩個增加變量可以將兩方面的詞分離,變量一決定詞是否存在情感字典中,變量二代表詞的類型。 (四)常用的情感主題混合模型 JST 模型在 LDA 模型上進行進一步改進,增加了情感分析的功能,該模型的結構如圖 4 所示。由圖 4JST 模型結構圖可以看出:JST 模型中,每個詞分別具有兩個屬性即主題和維度;JST 模型為了實現情感分析的目標,在模型設計上充分顧及兩種關系:一種是情感與主題的關系,一種是情感與文檔的關系;每個情感的主題不是單一的,而是多個不相同的主題共存;情感維度決定了主題的生成;情感與主題兩個方面的信息生成詞。 (五)細粒度主題情感混合模型描述 細粒度主題情感混合模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論