


VIP免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
操作題根據教材中的說明和代碼,調試環境,實踐項目實施流程,最后輸出圖9-4,驗證書中的結論。(略)2.項目總結中提出此工程改進的角度。文本轉換為數值時,可以增加轉換維度,以增大計算量為代價,換取分類性能的提升。請修改food_security_check.py,定位到以下代碼:#訓練集文檔向量化:利用get_corpus_vectors函數對訓練集進行向量化n=3window=30model_train_words_str,corpus_vectors_train_words_str\=get_corpus_vectors(list_train_words_str,n,window)其中n參數就表示轉換的維度。教材為了便于可視化,采用了3維視角的變換。請修改n為5,10,20。觀察分類性能是否得到了提升。答:原來代碼n=3,F1分數為0.918當n=5時,F1分數為0.95當n=10時,F1分數為0.942當n=20時,F1分數為0.942可見當n=5時f1分數有所提升,分類性能變好。但是當n=10時,f1有所下降,分類性能略微下降,n繼續變大時f1維持在恒定值,分類性能保持不變。3.上述代碼中的window參數,表示一個詞與前后多少詞存在相關性。Window越大,關聯窗口越大;window越小,關聯窗口越小。在維持n=3不變的情況下,改變window。分析算法性能的改變情況。答:window=10,f1分數為0.929window=20,f1分數為0.947window=30,f1分數為0.948window=40,f1分數為0.937window=50,f1分數為0.947說明window存在一個上限,大約是30左右,達到上限之前,增大window可以使分類性能變好。達到上限以后,繼續增大,沒有明顯改變。4.教材中采用了支持向量機算法進行分類識別。請采用logistics回歸算法分類,并比較2種算法的性能差異。答:在n=3,window=30的情況下進行二者對比。Logistics算法修改代碼為:fromsklearn.linear_modelimportLogisticRegression#整理數據格式,準備訓練樣本x=dfA.iloc[::n].values.tolist()y=dfA.iloc[:nl.values.tolist()print("x:\n".x)print("y:\n".y)#開始訓練clf=LogisticRegression(solver='liblinear')clf.fit(x,y)結果:f1分數為0.938原來的代碼,f1分數為0.938,二者沒有明顯區別習題10操作題根據教材中的說明和代碼,調試環境,實踐項目實施流程,驗證書中的結論。略2.在test數據庫中,新創建customerRecommendation01表和productRecommendation01表。修改bbb04_06.scala,進行top5商品推薦,并將推薦結果寫入customerRecommendation01表和productRecommendation01表。答:關鍵代碼修改://向所有用戶推薦排名前五的商品,show的false參數可以顯示較長字段valdf04=model.recommendForAllUsers(numItems=5)//向所有的商品推薦排名前五的用戶valdf07=model.recommendForAllItems(numUsers=5)3.在數據規模不大的情況下,可以考慮不用數據倉庫,直接用Spark處理MySQL中的消費記錄,并把結果寫入MySQL。新創建associationRules01表。修改bbb04_05.scala,實現直接用Spark讀取MySQL中的消費記錄,進行關聯規則分析,并把結果寫入associationRules01表。答:直接連接數據庫:valdf0l=spark.read.jdbc(url="idbc:mysql://192.168.152.210:3306/test",table="shopping",properties)df01.cache()最后處理的結果直接保存入數據庫:df06.coalesce(1).wri
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 德克士炸雞的市場營銷策略
- 危重病患的護理處理方案與技巧
- 德克士 品質美食體驗絕妙
- 小型水庫度汛安全管護要點
- 炸雞店的品牌識別系統
- 施工機械的綠色改造策略
- 土木工程中的BIM與虛擬現實結合案例
- 炸雞店的產品包裝設計
- 化妝的正確步驟 緊跟流程不走樣
- 卡通小熊的春節探險
- 江蘇保安證考試題及答案
- T/ZJSEE 0010-2023光伏電站晶硅組件電致發光(EL)檢測及缺陷判定方法
- 臨床助理技能試題及答案
- 臨夏州臨夏市招聘專職社區工作者考試真題2024
- 2025年廣東九年級物理中考三輪沖刺之題型過關綜合能力題 科普閱讀題(含答案)
- 2025年羊胎盤項目可行性研究報告
- 2025年入團考試評委提問的常見問題及答案
- 貿易咨詢服務合同協議
- 四川省成都重點中學2022-2023學年高一下學期期末考試英語試題(含答案)
- 施工現場常見的安全隱患排查及試題與答案
- 食管癌病例分析 手術、化療與放療方案優化
評論
0/150
提交評論