【進階案例】新聞文本聚類V1.0_第1頁
【進階案例】新聞文本聚類V1.0_第2頁
【進階案例】新聞文本聚類V1.0_第3頁
【進階案例】新聞文本聚類V1.0_第4頁
【進階案例】新聞文本聚類V1.0_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《自然語言處理技術》代碼42所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s12讀取新聞文本數據#使用pandas的read_csv方法讀取名為"news_data.csv"的新聞數據文件,并將數據賦值給變量datadata=pd.read_csv("news.csv")#從data中提取"content"列的內容(即新聞正文),并將其賦值給變量news_textsnews_texts=data["text"]print('新聞內容:\n',news_texts.head())運行REF_Ref97535682\h代碼42,得到清洗后的新聞文本分詞結果如下。清洗后的新聞文本分詞結果:0作者姜鵬飛夜班越來越不好值急診越來越讓人捉急哪怕去洗手間五分...1作為馬來西亞霹靂州首府怡保的名字常泯然于吉隆坡馬六甲檳城等但這...2作為父母如果我們留給孩子的只是一些消耗性的財富是不可靠的只有...3昨天下午廣州市政府常務會議審議通過廣州市綜合交通發展第十三個五年規劃...4昨天開始進入黃金周很想出去玩又怕人人人人人又不想天天在家葛優躺......1895昔日巴薩中場鐵三角中哈維最終沒能在諾坎普終老如今呼吸機則是在...1896天津女排的國家隊主力二傳魏秋月最近被男友求婚成功而她的男友正是...1897法國媒體法國足球日前評選出了2016年度最佳年輕球員多特蒙德小將...1898本菲卡中后衛瑞典國腳林德羅夫是曼聯心儀已久的獵物綜合英國媒體葡萄...1899北京時間12月23日乒超官網終于公布兩人2016賽季乒超總決賽的...Name:text,Length:1900,dtype:object對新聞文本進行預處理和分詞定義了一個clean_text函數,用于清洗文本數據,并對清洗后的新聞文本(clean_texts)進行分詞處理,將分詞后的字符串組成的序列賦值給變量seg_texts,如REF_Ref98942649\h代碼43所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s13對新聞文本進行預處理和分詞defclean_text(text):#使用正則表達式去除特殊符號、數字和英文字符returnre.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():;《)《》“”’‘[\]]","",text)clean_texts=news_texts.apply(clean_text)#對清洗后的新聞文本進行分詞seg_texts=clean_texts.apply(lambdax:"".join(jieba.cut(x)))print('分詞后的新聞文本分詞結果:\n',seg_texts)運行REF_Ref98942649\h代碼43,得到分詞后的新聞文本分詞結果如下。分詞后的新聞文本分詞結果:0作者姜鵬飛夜班越來越不好值急診越來越讓人捉急哪怕去洗手間五分...1作為馬來西亞霹靂州首府怡保的名字常泯然于吉隆坡馬六甲檳城等但這...2作為父母如果我們留給孩子的只是一些消耗性的財富是不可靠的只有...3昨天下午廣州市政府常務會議審議通過廣州市綜合交通發展第十三個五年規劃...4昨天開始進入黃金周很想出去玩又怕人人人人人又不想天天在家葛優躺......1895昔日巴薩中場鐵三角中哈維最終沒能在諾坎普終老如今呼吸機則是在...1896天津女排的國家隊主力二傳魏秋月最近被男友求婚成功而她的男友正是...1897法國媒體法國足球日前評選出了2016年度最佳年輕球員多特蒙德小將...1898本菲卡中后衛瑞典國腳林德羅夫是曼聯心儀已久的獵物綜合英國媒體葡萄...1899北京時間12月23日乒超官網終于公布兩人2016賽季乒超總決賽的...Name:text,Length:1900,dtype:object使用TF-IDF對文本數據進行特征提取使用TF-IDF算法進行特征提取,如REF_Ref98521257\h代碼44所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s14使用TF-IDF對文本數據進行特征提取#創建了一個TF-IDF向量化器對象(TfidfVectorizer類的實例),用于將文本數據轉換為TF-IDF特征矩陣vectorizer=TfidfVectorizer()#使用fit_transform方法將分詞后的新聞文本序列(seg_texts)轉換為TF-IDF特征矩陣X=vectorizer.fit_transform(seg_texts)print('TF-IDF向量詞矩陣:\n',X.shape)運行REF_Ref98521257\h代碼44,得到TF-IDF向量詞矩陣如下。TF-IDF向量詞矩陣:(1900,78710)應用K-Means算法進行聚類分析使用K-Means算法對新聞文本進行聚類,設置聚類簇的數量為3,經過聚類后,新聞文本將被分配到3個簇中,每個簇代表一個主題或類別,如REF_Ref133789439\h代碼45所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s15應用K-Means算法進行聚類分析#設定聚類簇的數量k=3#創建了一個K-Means聚類器對象(KMeans類的實例)kmeans=KMeans(n_clusters=k)#使用fit方法對TF-IDF特征矩陣X進行K-Means聚類kmeans.fit(X)計算聚類結果的輪廓系數,評估聚類效果計算K-Means聚類的輪廓系數,以評估聚類效果的好壞,如REF_Ref133792104\h代碼46所示。silhouette_score函數計算所有樣本的平均輪廓系數。輪廓系數是一個介于-1和1之間的值,用于評估聚類效果。值越接近1,表示聚類效果越好;值越接近-1,表示聚類效果越差。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s16計算聚類結果的輪廓系數,評估聚類效果#計算輪廓系數silhouette_avg=silhouette_score(X,kmeans.labels_)#輸出計算得到的輪廓系數print("輪廓系數:",silhouette_avg)運行REF_Ref133792104\h代碼46,得到輪廓系數如下。輪廓系數:0.010016169029636837分析聚類結果將聚類結果添加到原始數據中,并輸出每個簇中的前5篇新聞標題,以便觀察聚類效果,如REF_Ref134044905\h代碼47所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s17分析聚類結果#將聚類結果添加到原始數據中data['cluster']=kmeans.labels_#輸出每個簇中的前5篇新聞標題foriinrange(k):print(f"簇{i}:")print(data[data['cluster']==i]['label'].head(5))#輸出一個空行,用于在不同簇的輸出結果之間添加間隔,使得輸出更加清晰易讀。print()運行REF_Ref134044905\h代碼47,得到各新聞的每個簇結果如下。簇0:9旅游30

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論