



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《自然語言處理技術》代碼42所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s12準備文本數據text_data=["我關注鄉村振興","鄉村振興是一項重要任務","實現鄉村振興面臨著諸多挑戰","我積極支持鄉村振興"]基于Word2Vec進行文本向量化構建Word2Vec模型,并使用Word2Vec模型對文本數據進行向量化處理,如REF_Ref133687894\h代碼43所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s13基于Word2Vec進行文本向量化sentences=[simple_preprocess(sentence)forsentenceintext_data]#對文本數據進行簡化預處理model=Word2Vec(sentences,min_count=1)#構建Word2Vec模型model.train(sentences,total_examples=len(sentences),epochs=10)vectorized_data=np.array([model.wv[sentence]forsentenceinsentences])vectorized_data=vectorized_data.reshape(4,100)print("詞向量矩陣:\n",vectorized_data)運行REF_Ref133687894\h代碼43,得到詞向量矩陣如下。詞向量矩陣:[[-8.2426788e-039.2993546e-03-1.9766092e-04-1.9672776e-034.6036290e-03-4.0953159e-032.7431131e-036.9399667e-036.0654259e-03-7.5107957e-039.3823504e-034.6718074e-033.9661191e-03-6.2435055e-038.4599778e-03-2.1501661e-038.8251876e-03-5.3620026e-03-8.1294207e-036.8245577e-031.6711927e-03-2.1985101e-039.5135998e-039.4938539e-03-9.7740479e-032.5052286e-036.1566923e-033.8724565e-03[[-5.3622725e-042.3643016e-045.1033497e-039.0092728e-03-9.3029495e-03-7.1168090e-036.4588715e-038.9729885e-03-5.0154282e-03-3.7633730e-037.3805046e-03-1.5334726e-03-4.5366143e-036.5540504e-03-4.8601604e-03-1.8160177e-032.8765798e-039.9187379e-04-8.2852151e-03-9.4488189e-037.3117660e-035.0702621e-036.7576934e-037.6286553e-046.3508893e-03-3.4053659e-03-9.4640255e-045.7685734e-03-7.5216386e-03-3.9361049e-03-7.5115822e-03-9.3004224e-049.5381187e-03-7.3191668e-03-2.3337698e-03-1.9377422e-038.0774352e-03-5.9308959e-034.5161247e-05-4.7537349e-03-9.6035507e-035.0072931e-03-8.7595871e-03-4.3918253e-03-3.5099984e-05-2.9618264e-04-7.6612402e-039.6147414e-034.9820566e-039.2331432e-03-8.1579182e-034.4957972e-03-4.1370774e-038.2453492e-048.4986184e-03-4.4621779e-034.5175003e-03-6.7869616e-03-3.5484887e-039.3985079e-03-1.5776539e-033.2137157e-04-4.1406299e-03-7.6826881e-03-1.5080094e-032.4697948e-03-8.8802812e-045.5336617e-03-2.7429771e-032.2600652e-035.4557943e-038.3459523e-03-1.4537406e-03-9.2081428e-034.3705511e-035.7178497e-047.4419067e-03-8.1328390e-04-2.6384138e-03-8.7530091e-03-8.5655687e-042.8265619e-035.4014279e-037.0526553e-03-5.7031228e-031.8588186e-036.0888622e-03-4.7980524e-03-3.1072616e-036.7976285e-031.6314745e-031.8991709e-043.4736372e-032.1777629e-049.6188262e-035.0606038e-03-8.9173913e-03-7.0415614e-039.0145587e-046.3925339e-03]]計算文本相似度并可視化處理使用余弦距離計算文本之間的相似度,并使用熱力圖可視化文本之間的相似度,如REF_Ref133687041\h代碼44所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s14計算文本相似度并可視化處理#計算每一行之間的余弦距離distances=pdist(vectorized_data,metric='cosine')#將距離轉換為方陣形式similarity_matrix=np.zeros((vectorized_data.shape[0],vectorized_data.shape[0]))similarity_matrix[np.triu_indices(vectorized_data.shape[0],k=1)]=distancesplt.imshow(similarity_matrix,cmap='viridis',interpolation='nearest')#繪制熱力圖plt.colorbar()#添加顏色條plt.xticks(range(len(text_data)),text_data,rotation=90)#設置x軸刻度標簽plt.yticks(range(len(text_data)),text_data)#設置y軸刻度標簽plt.title("文本相似度")#設置標題plt.xlabel("文本")#
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國水處理過濾器行業市場發展監測及投資潛力預測報告
- 2025年中國可印刷磁膠行業市場全景分析及前景機遇研判報告
- 2025年中國可調節床底座和床套行業市場全景分析及前景機遇研判報告
- 2025年中國建筑集成光伏(BIPVBIPV)天窗行業市場全景分析及前景機遇研判報告
- 2025年南極冰藻提取物項目節能評估報告(節能專)
- 2025年中國配電斷路器行業發展監測及發展趨勢預測報告
- 稅務師網課老師和課件
- 中國制動轂拆裝翻轉架行業市場發展現狀及投資潛力預測報告
- 2025年 云南省快開門式壓力容器R1證理論考試練習題附答案
- 2025年釀造葡萄汁項目節能評估報告(節能專)
- 可控震源日常維護及安全操作規程
- T∕ACSC 01-2022 輔助生殖醫學中心建設標準(高清最新版)
- 校園環境衛生管理制度
- 建設工程項目監理人員變更申請表
- 房產證英文翻譯件模板
- 板形與板形控制基礎知識
- 過敏性休克ppt課件
- 服務器設備加電測試記錄(共6頁)
- 熱血傳奇架設及參數設置修改
- 金礦堆浸初步設計
- 有限空間作業應急預案(最新版)
評論
0/150
提交評論