《自然語言處理技術(shù)》進階案例基于樸素貝葉斯的商品滿意度分類V1.0_第1頁
《自然語言處理技術(shù)》進階案例基于樸素貝葉斯的商品滿意度分類V1.0_第2頁
《自然語言處理技術(shù)》進階案例基于樸素貝葉斯的商品滿意度分類V1.0_第3頁
《自然語言處理技術(shù)》進階案例基于樸素貝葉斯的商品滿意度分類V1.0_第4頁
《自然語言處理技術(shù)》進階案例基于樸素貝葉斯的商品滿意度分類V1.0_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《自然語言處理技術(shù)》代碼42所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s12讀取數(shù)據(jù)并進行預(yù)處理#讀取商品評論數(shù)據(jù)集data=pd.read_csv("../data/商品評論數(shù)據(jù).csv")print('原始數(shù)據(jù)為(部分):\n',data.head())#提取評論和標簽(滿意:1,不滿意:0)comments=data['content']labels=data['score']#清洗評論數(shù)據(jù)defclean_text(text):returnre.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():;《)《》“”’‘[\]]","",text)clean_comments=comments.apply(clean_text)#對清洗后的評論進行分詞seg_comments=clean_comments.apply(lambdax:"".join(jieba.cut(x)))print('清洗后的評論分詞(部分):\n',seg_comments.head())運行REF_Ref97535682\h代碼42,得到數(shù)據(jù)預(yù)處理結(jié)果如下。原始數(shù)據(jù)為(部分):sku_id_iditem_namecomment_id\0753411303b51aa9-2b5e-41c3-a40b-343164a1d23acomment118017511731753411303b51aa9-2b5e-41c3-a40b-343164a1d23acomment115253581402753411303b51aa9-2b5e-41c3-a40b-343164a1d23acomment1178768131138240587082df194-97f0-425e-85ac-8596344114e6comment1172661355245942439dce41ae6-aed6-480e-a4e2-705dfb515c71comment11795202075contentcreation_time\0還可以刷臉解鎖,幫朋友買的,她很滿意2018-08-1312:24:591第一次買vivo,真心不錯,1498的機子,沒想到照相很清晰,性價比很高,買值了,還送了小音...2018-05-2717:49:172手機好用快遞送的快。2018-08-0907:17:373手機收到。外觀設(shè)計很好!美觀大方。我喜歡!一直使用華為手機。從榮耀七,榮耀八,榮耀九。反正一...2018-07-2113:29:444收到了,挺好的,聲音大,電池大,好用發(fā)貨速度快,非常滿意,好好好。2018-08-1111:51:26reply_countscoreuseful_vote_countuseless_vote_count...\00500...175190...20500...34580...40500...user_provincenicknameuser_level_nameuser_clientuser_client_show\0NaNk***0PLUS會員2來自京東iPhone客戶端1NaN呢***吶PLUS會員4來自京東Android客戶端2NaNV***c銀牌會員4來自京東Android客戶端3NaN8***3金牌會員4來自京東Android客戶端4NaN勇***來鉆石會員4來自京東Android客戶端is_mobiledaysreference_timeafter_daysafter_user_comment01.04.02018-08-0913:38:150.0NO_MESSAGE11.05.02018-05-2209:32:370.0NO_MESSAGE21.03.02018-08-0618:45:590.0NO_MESSAGE31.01.02018-07-2006:14:020.0NO_MESSAGE41.02.02018-08-0915:02:190.0NO_MESSAGE[5rowsx21columns]清洗后的評論分詞(部分):0還可以刷臉解鎖幫朋友買的她很滿意1第一次買vivo真心不錯1498的機子沒想到照相很清晰性價比很高...2手機好用快遞送的快3手機收到外觀設(shè)計很好美觀大方我喜歡一直使用華為手機從榮耀七榮耀...4收到了挺好的聲音大電池大好用發(fā)貨速度快非常滿意好好好Name:content,dtype:object提取文本特征使用TF-IDF算法對文本數(shù)據(jù)進行特征提取,如REF_Ref98942649\h代碼43所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s13提取文本特征#創(chuàng)建TfidfVectorizer對象,用于將文本轉(zhuǎn)換為TF-IDF表示vectorizer=TfidfVectorizer()#使用vectorizer的fit_transform方法將分詞后的評論轉(zhuǎn)換為TF-IDF特征矩陣X=vectorizer.fit_transform(seg_comments)#將標簽數(shù)據(jù)(labels)轉(zhuǎn)換為NumPy數(shù)組并存儲在變量y中y=labels.valuesprint('TF-IDF詞向量矩陣形狀為:\n',X.shape)運行REF_Ref98942649\h代碼43,得到TF-IDF詞向量矩陣形狀如下。TF-IDF詞向量矩陣形狀為:(3637,8421)劃分訓練集和測試集將特征矩陣X和標簽向量y分割成訓練集和測試集,如REF_Ref98521257\h代碼44所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s14劃分訓練集和測試集#X_train,X_test,y_train,y_test這些變量分別用于存儲訓練集特征、測試集特征、訓練集標簽和測試集標簽X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)構(gòu)建模型并評估性能構(gòu)建基于樸素貝葉斯分類器的商品滿意度分類模型,對測試集進行預(yù)測,并計算準確率,如REF_Ref133789439\h代碼45所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s15構(gòu)建模型并評估性能#使用MultinomialNB構(gòu)建滿意度分類模型model=MultinomialNB()model.fit(X_train,y_train)#在測試集上進行預(yù)測y_pred=model.predict(X_test)#計算準確率accuracy=accuracy_score(y_test,y_pred)print("模型準確率:",accuracy)運行REF_Ref133789439\h代碼45,得到模型準確率如下。模型準確率:0.9532967032967034預(yù)測結(jié)果展示輸出預(yù)測結(jié)果和實際標簽的對比,展示模型預(yù)測的效果,如REF_Ref133792104\h代碼46所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s16預(yù)測結(jié)果展示#輸出預(yù)測的前10條評論結(jié)果和實際標簽foriinrange(10):print("原評論:",comments[i])print("預(yù)測滿意度:","滿意"ify_pred[i]==1else"不滿意")print("實際滿意度:","滿意"ify_test[i]==1else"不滿意")print()運行REF_Ref133792104\h代碼46,得到模型預(yù)測部分結(jié)果如下。原評論:還可以刷臉解鎖,幫朋友買的,她很滿意預(yù)測滿意度:5實際滿意度:5原評論:第一次買vivo,真心不錯,1498的機子,沒想到照相很清晰,性價比很高,買值了,還送了小音響,用了,真不錯,機子貼膜都貼好了,不用自己單貼膜,拿起來就用,系統(tǒng)也不錯,很快,國產(chǎn)的品牌真挺不錯的。預(yù)測滿意度:5實際滿意度:5原評論:手機好用快遞送的快。預(yù)測滿意度:5實際滿意度:5原評論:手機收到。外觀設(shè)計很好!美觀大方。我喜歡!一直使用華為手機。從榮耀七,榮耀八,榮耀九。反正一出新機就想換。榮耀十就想換。一直考慮。看見這款機挺心動!現(xiàn)在手里的榮耀七,榮耀八。想不出處理辦法!有不敢隨便處理。怕高手把里面資料回復(fù)。留在手里也不是辦法。給人也不敢。如果有好的方法!介紹個!預(yù)測滿意度:5實際滿意度:5原評論:收到了,挺好的,聲音大,電池大,好用發(fā)貨速度快,非常滿意,好好好。預(yù)測滿意度:5實際滿意度:5原評論:本來覺得雙十一還會便宜的,想不到和11月初的價格差不多,想想還是感覺入手了,早買早享受。我的5s也該退休了,16G的內(nèi)存完全不夠用。值得表揚的是快遞真的太快了,雙十一買的,12號下午就到了。然后玩了一晚上,機子運行速度挺快,不過有些網(wǎng)上傳的小問題,出現(xiàn)了兩次開機閃屏的現(xiàn)象,后來就好了,不影響機子運行。打電話有輕微電流聲,可以接受。整天感覺還行,等用段時間在看看。預(yù)測滿意度:5實際滿意度:5原評論:沒有真正意義上的窄邊框,不過已經(jīng)不錯了,手機流暢,另外還有51G空間可用,同時試了下近距拍攝,我的發(fā)毛清晰可見預(yù)測滿意度:5實際滿意度:5原評論:幻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論