《數據科學導論》- 文本分類_第1頁
《數據科學導論》- 文本分類_第2頁
《數據科學導論》- 文本分類_第3頁
《數據科學導論》- 文本分類_第4頁
《數據科學導論》- 文本分類_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

i加

文本分類?文本分析實踐文本分類問題背景文本分類方法:樸素貝葉斯(NaiveBayes)文本分類舉例垃圾信息過濾From: <>Subject:realestateistheonlyway...gemoalvgkay標簽短信內容0商業秘密的秘密性那是維系其商業價值和壟斷地位的前提條件之一AnyonecanbuyrealestatewithnomoneydownStoppayingrentTODAY!ThereisnoneedtospendhundredsoreventhousandsforsimilarcoursesIam22yearsoldandIhavealreadypurchased6propertiesusingthemethodsoutlinedinthistrulyINCREDIBLEebook.ChangeyourlifeNOW!ClickBelowtoorder:

/sales/nmd.htm垃圾Email南口阿瑪施新春第一批限量春裝到店啦 春暖花開淑女裙、冰藍色公主衫 氣質粉小西裝、冰絲女王長半裙0帶給我們大常州一場壯觀的視覺盛宴0有原因不明的泌尿系統結石等023年從鹽城拉回來的麻麻的嫁妝感謝致電杭州蕭山全金釜韓國燒烤店,本店位于金城路XXX號。韓式燒烤等,價格實惠、歡迎惠顧【全金釜韓國燒烤店】0這款UVe智能殺菌機器人是掃地機的最佳伴侶

一次價值XXX元王牌項目;可充值XXX元店內項目卡一張;可以參與V動好生活百分百抽獎機會一次!預約電話:xxxxxxxxxxx0此類皮膚特別容易招惹粉刺、黑頭等1(長期誠信在本市作各類資格職稱(以及印/章、牌xxxxxxxxxxx李偉%等。祥:垃圾短信3提取特征:X

ydata['cut_comment*]data['sentiment']Xtrain,X_testry_trainrytesttraintestsplit(X,y,testsize^O.2):fromsklearn.featureextraction.textimportTfidfVectorizervect TfidfVectorizer(maxdfmin_df-3,token_pattern*u'(?u)\\b[A\\d\\W]\\w+\\b' 0.8,)features.head()pd.DataFrame(vect.fittransform(X_train).toarray(),columns^vect.getfeaturenan67appipadokpswifi—下一個個一個半一個多1人...麻將麻煩麻賺黃爪黃色黑椎*燈齊全00.00.00.00.00.00.00.00.00.00.0 …0.0...0.0...0.0...0.0...0.00.00.00.00.00.00.00.00.00.010.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.020.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.030.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.040.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.05rowsx1910columns使用樸素貝葉斯分類器In[13]:fromsklearn.naive_bayesimportMuItinomia1NB

nb MultinomialNB()

X_train_vect vect.fit_transform(X_train)

nb.fit(X_train_vectty_train)

trainaccuracy=nb.score(Xtrainvect,y_train)

print

(trainaccuracy) 0.914375In(14]:test_accuracy-nb.score(X_test_vect,y_test)68y_predictnb?predict(X_/test_vect)print「測試準確率’,test_accuracy)fromsklearn.metricsimportclassification_report

print("測試集上其他指標: ,classification_report(y_test,y_predict))測試準確率0.82測試集上其他指標:precisionrecallfl-scoresupport0

10.85

0.790.77

0.870.81

0.83197

203micr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論