




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于文本挖掘的消費者情感分析Let’sStart第6章文本分析法Experimentalknowledgepreparation消費者情感分析案例示范CaseDemonstration問題的提出Experimentalpurpose思考與練習ThinkingandexerciseCONTENTS目錄1問題的提出(一)商品評論中的情感營銷觀念的轉變使得越來越多的公司發現相比于單純的增長顧客數量,如何長期維系客戶與企業或者品牌之間的良好關系成為公司可持續性發展的重要影響因素之一。因此,為了提高顧客的品牌忠誠度,企業越來越關注消費者的情感走向,也更傾向于跟隨消費者的情感傾向制定相關的營銷戰略。尤其是,隨著互聯網技術的飛速發展,網上購物的方式在通過突破“時間”和“空間”的局限性給消費者帶來極大便利的同時,電子商務平臺也讓消費者在購物中感受到的“愉快”、“不愉快”、“滿意”、“不滿意”等情緒有了宣泄的出口。因此,對于企業而言,如何借助消費者在社交媒體、在線社區等領域中發布的文本評論,分析出消費者的內在情感傾向,是當代企業不斷獲取市場份額,贏得消費者偏愛中至關重要的環節。隨著計算機技術的不斷升級,文本分析方法的出現,實現了借助計算機獨立地對文本中的信息進行分類、排序和提取、并輸出相關的模式、關系、觀點。因此,文本分析方法迅速在政治、營銷、傳播、社會科學和心理學等領域引起了廣大研究者的關注。分析評論文本的情感傾向也成為研究在線購物網站和社交媒體用戶行為的一個重要研究方向。從評論文本的角度,我們可以對感興趣的話題進行情感分析,也可以對感興趣的文章進行情感分析,比如商品分析帖子或微博。將高質量評論與混合評論相分離,對情感分析具有指導意義。特別是在競爭日趨白熱化的電子商務領域中,除了提高商品質量、降低商品價格和適當的營銷手段外,電子商務平臺越來越需要了解更多消費者的訴求,找出其商品的痛點。因此,能否有效分析整理出消費者文本評論中的情感傾向,是企業能否實現可持續性發展的關鍵性因素,這對電子商務平臺和產品都具有重要意義。(二)問題設計現某家經營烤腸的電商店鋪為了提升自己的產品和服務,想要調查自己店鋪的烤腸在消費者中的輿情。店鋪數據運營專員采集了自己店鋪烤腸的所有客戶的評論數據,利用文本分析法進行用戶情感分析,從好詞和壞詞兩個維度去分別計算詞頻,從而制作出輿情分析詞云圖,分析評價情況,看消費者對產品的夸贊主要在哪些方面,并且調查在哪些方面對產品提出了質疑或者差評,從而幫助產品的更新迭代。另外分析員又導出了近期的店鋪交易數據,希望還能夠從中挖掘出用戶情感走向與用戶行為之間的關聯。(三)問題解決思路這個問題是利用店鋪商品評價數據,借助文本挖掘技術,快速高效地識別消費者的需求,從而給賣家以建議。從數據分析的角度而言,其實問題并不復雜,關鍵在于所有的分析都需要緊密圍繞評價信息展開。針對以上需求,案例實現思路如下:問題分析流程如下:①使用評價內容,對其進行數據預處理,處理內容主要包括去除重復值、空值處理等操作,也就是將評價內容中重復評價和為空的評價去除;②獲得每個評論的情感得分;③拆分評價內容,進行分詞;④匯總詞在文本出現的次數;⑤將數據導出到關系目標源,再進行可視化展現,分析消費者的情感,給賣家以參考建議。2文本分析法(一)文本分析原理文本主要是指由一些符號或代碼組成的信息結構體,可通過語言、文本、圖像等不同的形式進行表達。文本是由特定的人制定的,其含義必然反映了人們特定的觀點、價值和利益等意識形態的內容。一般來說,文本分析是一種針對文本類型數據的處理方法,就是從海量的文本數據中提取出有價值的數據,并通過分析利用這些數據來重組信息。文本分析作為探討信息內容本質的有力研究方法被廣泛應用于包括商業管理的各個領域。1.分詞分詞是根據一定的規范對連續的單詞序列進行重組的過程。它將句子準確地劃分為單詞,在詞典中進行搜索和匹配,并根據匹配結果將句子劃分為常用短語或單詞。它通常用于文本挖掘和分析。分詞既簡單又復雜。分詞算法的研究已經非常成熟。大多數單詞(如HMM分詞和CRF分詞)的準確率可以達到95%以上,因此相對簡單。復雜的是,剩下的5%很難取得突破,原因可以概括為以下幾點:①不同的應用程序對粒度有不同的要求。其中,粒度是指分割的最小單位。例如,“保證金交易”可以是一個詞(“保證金交易”)或兩個詞(“保證金”和“交易”);②歧義,如“恒生”一詞。它可以參考恒生公司和恒生指數;③未登錄詞,即未出現在算法使用詞典中的單詞,如不常見的專業金融術語和各種上市公司的名稱。2.詞袋詞袋是將句子按分隔符分成獨立的單詞。簡單地說,每個文檔都被視為一個包(因為它包含單詞,所以稱為單詞包),通過查看包中的單詞,可對它們進行分類。3.詞頻統計詞頻統計是詞匯分析的一種研究方法。這是一種通過計算出一定長度的語言材料中每個單詞的出現次數來分析統計結果,從而描述詞匯規則的方法。這種方法有助于評估作品,確定一種語言或學科的基本詞匯。簡而言之,詞頻統計用于計算單詞在文本中出現的次數。詞頻統計通常用于顯示單詞云。詞頻統計的原理是,如果在給定的文檔中,詞頻通常是標準化的,以防止它偏向長文檔。同時,詞頻統計是自然語言處理的重要基礎。信息熵、詞概率等參數只是詞頻的映射變換,但分析的實質基礎沒有改變。(二)文本數據的分析類型與一般流程文本數據分析包括三種基本類型:①文本統計分析:對文本中出現的詞語進行統計分析,運用場景主要有詞云、輿情分析、簡易版的智能客服;②文本建模分析:通過將文本進行數字數據化之后,再和機器學習等算法進行結合,包括情感分析和詞語網絡分析;③文本語義分析:通過采取深度學習等復制算法進行訓練,使得可以從文本中挖掘出來具有語法信息的文本信息,包括主題模型LDA、RNN(遞歸神經網絡)等。完整的文本數據分析的一般流程包括:數據收集、除去數據中非文本部分、處理中文編碼問題、中文分詞、引入停用詞、特征處理、建立分析模型等7個步驟。(三)文本情感分析的三種方法情感分析是自然語言處理的一種常見應用。情感分析又被稱為意見挖掘,因為其可以對帶有情感色彩的主觀性文本信息進行分析,挖掘出文本信息中隱藏的情感傾向,所以既可幫助政府根據輿情了解民意也可幫助企業根據網絡留言預測消費者的態度和未來行為傾向。文本情感分析的方法主要有三種:基于情感詞典的情感分析方法、基于傳統機器學習的情感分析方法和基于深度學習的情感分析方法。對于這三種方法的具體介紹,如下表6-1所示。表6-1三種文本情感分析方法方法定義優勢劣勢基于情感詞典的分析方法根據不同詞典所提供的情感詞的情感極限進行學習的方法可有效反應文本的結構特征,易于理解,在情感詞多時效果更優受制于情感詞典的限制,情感詞典需要及時更新擴充基于傳統機器學習的分析方法一種通過給定的模型預測結果的學習方法可根據情感特征的選取和情感分類器的組合對文本進行情感分析無法考慮上下文文本的整體語境信息;數據量大時效率低
基于深度學習的分析方法借助神經網絡的學習能力進行情感分析的方法。可細分為單一神經網絡的情感分析、混合(組合、融合)神經網絡的情感分析、引入注意力機制的情感分析和使用預訓練模型的情感分析可充分利用上下文語境、可主動學習文本特征,能根據詞語的順序,提取較為精確的語義信息,從而實現情感分析要求大量數據,比較耗時、對操作人員的技術要求高3消費者情感分析案例示范實驗背景:現某家經營烤腸的電商店鋪,為提升店鋪的產品和服務,該店鋪數據運營部基于數據情感分析,通過具體的烤腸銷售評論數據來確定消費者對產品的需求。由于消費者的個性化屬性,消費者對產品的評價會因為個人的口味、習慣以及對質量的要求有所不同,因此制定出一份較為客觀的產品評價是店鋪改進產品,從而獲得產品營銷成功與否中的重要環節。尤其對于一種新的產品,通過對大數據的最大挖掘和模型策略的分析,能夠更好的了解消費者的需求彈性,從而有效提升產品銷量。在本案例中,選取該店鋪消費者對烤腸的評論數據,基于情感詞典的分析方法對消費者的網絡評語進行情感分析。(一)探索數據源本案例主要采用了淘寶某店鋪烤腸評價數據(統計時間:2020/8/1-2020/9/6),共1599條數據,其內容如圖6-2所示,初步觀察初始數據,發現存在著如圖所示一模一樣的重復值,因此后續需要進行去重復值處理;其次,還采用了后期店鋪部分的銷售數據,(統計時間:2020/9/14-2020/9/21),共720條數據,其內容如圖6-3所示。圖6-2評價數據圖6-3后期店鋪銷售數據(二)數據預處理要進行用戶情感分析,需要對評價數據進行文本分析處理,觀察數據源發現評論中存在的重復值現象以及“此用戶沒有填寫評論!”這種無效評價。因為這種情況對文本挖掘的結果會產生不利的影響,所以需要進行數據預處理。(1)過濾針對無效評價,可以使用平臺節點“過濾”,如圖6-4所示,設置篩選條件,以此篩除無效數據。圖6-5是過濾后的數據,剩余1555條數據,共刪除了44條無效數據。圖6-4
過濾條件設置圖6-5
過濾后的數據(2)去除重復值由于初始數據中存在的每個字段都一模一樣的重復值,如圖6-2所示,在數據建模過程中,重復值會影響到最終輸出的結果,造成結果的偏差,因此需要用“去除重復值”節點進行去重操作。如圖6-6所示,選擇“評論”字段,進行去除重復值操作。處理前共1555條數據,進行數據預處理后,數據條數為1540,如圖6-7所示。圖6-6去除重復值設置圖6-7
去重后的數據(三)計算情感得分 評價有好評與差評之分,可以依據文本的情感得分進行區分。情感得分趨近于0,用戶情感越負面;趨近于1則用戶情感越正面。為了能夠快速了解用戶的關注點,后續需要進行好評與差評的詞頻可視化分析。通過提前使用python節點“計算情感得分”來計算每個評論的情感得分,拖動【自定義模塊】中的“計算情感得分”節點進行實現,如圖6-8所示。圖6-8
計算情感得分節點如圖6-9為節點代碼,該節點主要使用了snownlp庫中的SnowNLP(job).Sentiments,SnowNLP是一個中文的自然語言處理的Python庫,可以進行中文分詞、情感分析、文本分類等操作,SnowNLP的優勢在于安裝簡便,僅使用pip安裝即可,基本沒有前置條件,適合新手使用。本案例使用SnowNLP針對評價數據進行了情感得分計算,輸出結果如圖6-10所示。圖6-9計算情感得分節點代碼展示圖6-10計算情感得分節點(四)好評與差評的詞頻統計
如圖6-11所示,運用平臺【自定義模塊】中的python節點“好詞詞頻”和“壞詞詞頻”分別得到情感得分>=0.5的詞頻統計數據和情感得分<0.5的詞頻統計數據,并作為“關系目標源”進行數據儲存,為后續可視化做準備。圖6-11詞頻數據輸出
如圖6-12,該內容為python節點“好詞詞頻”的代碼內容,主要流程是首先判斷出情感得分>=0.5的評論數據,并將這些評論數據整合成一個長的字符串“good”,再運用jieba分詞庫對“good”進行分詞操作,最后使用Counter函數進行數據統計,并針對統計后的數據格式對“分詞”和對應的“詞頻”進行數據提取,獲得最終的好詞詞頻統計數據。圖6-12“好詞詞頻”節點代碼內容 而圖6-13是python節點“壞詞詞頻”的代碼內容,與好詞詞頻不同的是,代碼中設定了不能被拆分的詞和停用詞,原因有三:①依據jieba庫的拆詞規則,它會將“不好吃”拆分成“不”和“好吃”。所以指定不能拆分的詞,能夠提升情感分析的精準度。②本項目調用的是python中用于中文情感分析的庫,對于購物評論數據的情感判斷不夠精準。況且每個行業的好詞詞庫也有所不同,比如“很硬”一詞,它如果是消費者購買輪胎后的評論內容那么可能是好詞,而放在大部分的零食行業“很硬”更偏向于壞詞。這樣大概率會出現兩種情況,人為判斷的好評被機器判斷為差評、人為判斷的差評被機器判斷為好評,所以需要設置一系列的停用詞,或者找到一個準確度較高的用于處理自然語言的詞庫、api。③有些評論的前半段可能是好評,后半段可能是差評,但整體情感得分低于0.5,趨于負面,所以無法避免正面詞出現。比如“烤腸很好吃,味道比別家好,先來一個五星好評,客服服務周到,但是快遞真的太慢了,聯系好幾次都聯系不到快遞員,沒有人管”這種評論才分后,依舊會出現“好吃”、“好評”這些正面詞。所以需要在拆分得分較低的評論時,需要設置停用詞,避免出現好詞頻率過高的現象。圖6-13“壞詞詞頻”節點代碼內容圖6-14
好詞詞頻輸出結果好詞、壞詞的拆分結果如圖6-14、6-15所示。圖6-15
壞詞詞頻輸出結果好詞、壞詞的拆分結果如圖6-14、6-15所示。圖6-16好詞詞頻統計數據的“關系目標源”節點設置內容詞頻數據輸出后需要運用“關系目標源”節點,以新數據源存儲至平臺。這里以好詞詞頻統計數據為例,圖6-16是對應的“關系目標源”節點設置內容。圖6-17
壞詞詞頻統計數據的“關系目標源”節點設置內容(五)詞頻數據可視化
兩張詞頻統計數據存至平臺后,需要分別將其轉為平臺數據集(數據集→新建自助數據集),再利用【自助儀表盤】繪制評論的詞云圖,能夠更加直觀的了解消費者對商品的情感。在“智能配圖”中選擇“詞云圖”(如圖6-18),將“分詞”拖入“標簽”區,“詞頻”拖入“大小”區,如圖6-19所示。形成的詞云圖如圖6-20所示,詞云圖中詞匯字體越大,詞頻越高,消費者關注度越高。圖6-18選擇配圖圖6-19選擇指標數據圖6-20好詞詞云圖根據好詞詞云圖的詞頻分析如下:發現“好吃”、“口感”、“回購”詞的數量較高,說明消費者對口感方面的滿意度較高且有較多消費者愿意推薦將此款商品。圖6-21壞詞詞云圖壞詞的可視化制作步驟與好詞的可視化制作步驟相同,最后得出壞詞詞云圖如圖6-21所示。在壞詞詞云圖中存在“變質”、“壞了”、“漏氣”、“化了”等分詞,說明部分消費者的關注點在商品的質量、口味以及包裝是否完好等方面,可以此作為突破點不斷改良,滿足消費者需求,提升客戶忠誠度。再了解消費者情感走向后,需要結合后期店鋪銷售數據挖掘背后消費者可能存在的行為,比如針對好評中詞頻較高的“回購”這一詞,我們可以推測部分消費者在后期可能會有復購行為。根據文本分析結果我們提出建議:由于該電商平臺物流的特殊性,在物流運輸環節,要注意保存商品的完整性,也需加固產品包裝。對于老客戶可以積極進行售后溝通,客服的服務態度和商品售后服務的保障是影響消費者評價的重要因素。(六)規律探索
首先,如圖6-22所示對后期店鋪銷售數據進行“聚合”節點設置,匯總每個買家的消費總金額以及消費頻率,聚合結果如圖6-23所示。圖6-22店鋪消費數據聚合條件設置圖6-23
店鋪消費數據聚合結果再添加平臺中的python節點“情感分析與用戶行為的聯系挖掘”,該節點主要從復購人數以及復購金額兩個方面觀察不同類別情感得分的用戶復購情況。如圖6-24,為該節點的主要代碼,首先統計了評論情感得分>=0.5的買家會員名,再統計后期店鋪消費數據中的買家會員名,兩者對比取交集即可獲得復購的買家人數,以及復購人數占比;在復購金額方面,主要匯總了有復購行為的買家消費總金額,計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計算機操作工模考試題與答案
- 用電客戶受理員練習題+答案
- 車工高級工練習題庫及答案
- 山東省濟寧市鄒城市2024-2025學年高二下學期4月期中生物試題 (原卷版+解析版)
- 航空器維修工程中的技術創新與轉化考核試卷
- 水果和堅果加工的食品安全與質量控制考核試卷
- 石棉材料的斷裂性能測試考核試卷
- 涂料門店銷售數據化管理考核試卷
- 筆的制造業商業模式創新與案例分析考核試卷
- 煙草制品零售企業盈利模式分析考核試卷
- 食品安全自查、從業人員健康管理、進貨查驗記錄、食品安全事故處置等保證食品安全的規章制度
- 【MOOC】理解馬克思-南京大學 中國大學慕課MOOC答案
- 傳統園林技藝智慧樹知到期末考試答案章節答案2024年華南農業大學
- 物理實驗通知單記錄單初二上
- GB∕T 40501-2021 輕型汽車操縱穩定性試驗通用條件
- 認識浮力+阿基米德原理
- 防止電力生產重大事故地二十五項反措
- 蘇教版五年級數學下冊第三單元測試題及答案一
- 變電站第二種工作票(范本)
- 抗滑樁設計計算(驗算)Word版
- DCP決策評審要素
評論
0/150
提交評論