




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《自然語言處理技術》代碼42所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s12讀取新聞文本數據#使用pandas的read_csv方法讀取名為"news_data.csv"的新聞數據文件,并將數據賦值給變量datadata=pd.read_csv("news.csv")#從data中提取"content"列的內容(即新聞正文),并將其賦值給變量news_textsnews_texts=data["text"]print('新聞內容:\n',news_texts.head())運行REF_Ref97535682\h代碼42,得到清洗后的新聞文本分詞結果如下。清洗后的新聞文本分詞結果:0作者姜鵬飛夜班越來越不好值急診越來越讓人捉急哪怕去洗手間五分...1作為馬來西亞霹靂州首府怡保的名字常泯然于吉隆坡馬六甲檳城等但這...2作為父母如果我們留給孩子的只是一些消耗性的財富是不可靠的只有...3昨天下午廣州市政府常務會議審議通過廣州市綜合交通發展第十三個五年規劃...4昨天開始進入黃金周很想出去玩又怕人人人人人又不想天天在家葛優躺......1895昔日巴薩中場鐵三角中哈維最終沒能在諾坎普終老如今呼吸機則是在...1896天津女排的國家隊主力二傳魏秋月最近被男友求婚成功而她的男友正是...1897法國媒體法國足球日前評選出了2016年度最佳年輕球員多特蒙德小將...1898本菲卡中后衛瑞典國腳林德羅夫是曼聯心儀已久的獵物綜合英國媒體葡萄...1899北京時間12月23日乒超官網終于公布兩人2016賽季乒超總決賽的...Name:text,Length:1900,dtype:object對新聞文本進行預處理和分詞定義了一個clean_text函數,用于清洗文本數據,并對清洗后的新聞文本(clean_texts)進行分詞處理,將分詞后的字符串組成的序列賦值給變量seg_texts,如REF_Ref98942649\h代碼43所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s13對新聞文本進行預處理和分詞defclean_text(text):#使用正則表達式去除特殊符號、數字和英文字符returnre.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():;《)《》“”’‘[\]]","",text)clean_texts=news_texts.apply(clean_text)#對清洗后的新聞文本進行分詞seg_texts=clean_texts.apply(lambdax:"".join(jieba.cut(x)))print('分詞后的新聞文本分詞結果:\n',seg_texts)運行REF_Ref98942649\h代碼43,得到分詞后的新聞文本分詞結果如下。分詞后的新聞文本分詞結果:0作者姜鵬飛夜班越來越不好值急診越來越讓人捉急哪怕去洗手間五分...1作為馬來西亞霹靂州首府怡保的名字常泯然于吉隆坡馬六甲檳城等但這...2作為父母如果我們留給孩子的只是一些消耗性的財富是不可靠的只有...3昨天下午廣州市政府常務會議審議通過廣州市綜合交通發展第十三個五年規劃...4昨天開始進入黃金周很想出去玩又怕人人人人人又不想天天在家葛優躺......1895昔日巴薩中場鐵三角中哈維最終沒能在諾坎普終老如今呼吸機則是在...1896天津女排的國家隊主力二傳魏秋月最近被男友求婚成功而她的男友正是...1897法國媒體法國足球日前評選出了2016年度最佳年輕球員多特蒙德小將...1898本菲卡中后衛瑞典國腳林德羅夫是曼聯心儀已久的獵物綜合英國媒體葡萄...1899北京時間12月23日乒超官網終于公布兩人2016賽季乒超總決賽的...Name:text,Length:1900,dtype:object使用TF-IDF對文本數據進行特征提取使用TF-IDF算法進行特征提取,如REF_Ref98521257\h代碼44所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s14使用TF-IDF對文本數據進行特征提取#創建了一個TF-IDF向量化器對象(TfidfVectorizer類的實例),用于將文本數據轉換為TF-IDF特征矩陣vectorizer=TfidfVectorizer()#使用fit_transform方法將分詞后的新聞文本序列(seg_texts)轉換為TF-IDF特征矩陣X=vectorizer.fit_transform(seg_texts)print('TF-IDF向量詞矩陣:\n',X.shape)運行REF_Ref98521257\h代碼44,得到TF-IDF向量詞矩陣如下。TF-IDF向量詞矩陣:(1900,78710)應用K-Means算法進行聚類分析使用K-Means算法對新聞文本進行聚類,設置聚類簇的數量為3,經過聚類后,新聞文本將被分配到3個簇中,每個簇代表一個主題或類別,如REF_Ref133789439\h代碼45所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s15應用K-Means算法進行聚類分析#設定聚類簇的數量k=3#創建了一個K-Means聚類器對象(KMeans類的實例)kmeans=KMeans(n_clusters=k)#使用fit方法對TF-IDF特征矩陣X進行K-Means聚類kmeans.fit(X)計算聚類結果的輪廓系數,評估聚類效果計算K-Means聚類的輪廓系數,以評估聚類效果的好壞,如REF_Ref133792104\h代碼46所示。silhouette_score函數計算所有樣本的平均輪廓系數。輪廓系數是一個介于-1和1之間的值,用于評估聚類效果。值越接近1,表示聚類效果越好;值越接近-1,表示聚類效果越差。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s16計算聚類結果的輪廓系數,評估聚類效果#計算輪廓系數silhouette_avg=silhouette_score(X,kmeans.labels_)#輸出計算得到的輪廓系數print("輪廓系數:",silhouette_avg)運行REF_Ref133792104\h代碼46,得到輪廓系數如下。輪廓系數:0.010016169029636837分析聚類結果將聚類結果添加到原始數據中,并輸出每個簇中的前5篇新聞標題,以便觀察聚類效果,如REF_Ref134044905\h代碼47所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s17分析聚類結果#將聚類結果添加到原始數據中data['cluster']=kmeans.labels_#輸出每個簇中的前5篇新聞標題foriinrange(k):print(f"簇{i}:")print(data[data['cluster']==i]['label'].head(5))#輸出一個空行,用于在不同簇的輸出結果之間添加間隔,使得輸出更加清晰易讀。print()運行REF_Ref134044905\h代碼47,得到各新聞的每個簇結果如下。簇0:9旅游30
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年玻璃纖維及其制品項目可行性研究報告
- 2025年中國農業機械市場供需預測及投資戰略研究咨詢報告
- 中國晶鳳尾行業市場發展前景及發展趨勢與投資戰略研究報告(2024-2030)
- 2024年中國煤化工輕油市場供需格局及未來發展趨勢報告
- 鋼結構工程合同
- 2025年中國手動千斤頂行業市場發展前景及發展趨勢與投資戰略研究報告
- 2024年中國地板蠟行業調查報告
- 2023-2028年中國電力系統安防行業發展前景預測及投資戰略咨詢報告
- 中國網絡貨運平臺行業市場調研及投資戰略規劃建議報告
- 浙江省體育局事業單位真題2024
- 2025江西上饒市國控投資集團限公司招聘中層管理6人易考易錯模擬試題(共500題)試卷后附參考答案
- 2024年廣東省臺山市事業單位公開招聘教師崗考試題帶答案分析
- 2025-2030中國碲化鎘(CdTe)行業市場發展趨勢與前景展望戰略研究報告
- 東莞市行政規范性文件制定程序中公眾參與的多維度審視與優化路徑
- 急性心梗的介入治療課件
- 宜賓五糧液股份有限公司2025年上半年校園招聘(253人)筆試參考題庫附帶答案詳解
- 職業技術學院旅游管理專業《景區服務與管理》課程標準
- 水利站項目規劃選址論證報告
- 防汛防雷安全培訓
- 2024版壓力容器設計審核機考題庫-簡答題3-3
- 2025-2030國內天然橡膠行業深度分析及競爭格局與發展前景預測研究報告
評論
0/150
提交評論