




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第7章
集成學習與實現集成學習的概念Bagging算法隨機森林算法Boosting算法7.4Boosting算法的基本原理2Boosting是一族可將弱學習器提升為強學習器的算法,是串行式集成學習方法中最著名的代表。Boosting家族中各個算法的工作原理類似,即先從初始訓練集中訓練出一個個體學習器,并對這個個體學習器預測錯誤的樣本進行關注,然后調整訓練樣本的分布,基于調整后的樣本訓練下一個個體學習器,如此重復直到個體學習器的數量達到事先指定的值T,再將這T個個體學習器進行加權結合,得到最終模型。3Boosting家族中比較有代表性的算法是AdaBoost,AdaBoost算法從訓練樣本出發,通過不斷調整訓練樣本的權重或概率分布來訓練模型,其基本流程如下。7.4Boosting算法的基本原理(1)將初始訓練集D中每個樣本的權重都設置為一個相同的值(N為初始訓練集的樣本數量),使用初始訓練集訓練一個個體學習器。(2)使用訓練完成的個體學習器對訓練數據進行預測,然后增加預測錯誤的樣本的權重,減少預測正確的樣本的權重,獲得帶權重的訓練集。(3)使用上一步迭代完成的訓練集重新訓練模型,得到下一個個體學習器。(4)重復步驟(2)和步驟(3),直到個體學習器的數量達到事先指定的值T,然后將這T個個體學習器進行加權結合,得到最終模型。4在AdaBoost算法中,訓練樣本的權重會被逐個修改。隨著迭代次數的增加,難以預測正確的樣本對模型的影響越來越大,弱學習器更加關注這些樣本,其預測準確率就會逐漸提升,最終將弱學習器提升為強學習器。7.5AdaBoost算法5Sklearn的ensemble模塊提供了AdaBoostClassifier類和AdaBoostRegressor類,分別用于實現AdBboost分類和回歸算法。在Sklearn中,可通過下面語句導入AdaBoost算法模塊。7.5AdaBoost算法fromsklearn.ensembleimportAdaBoostClassifier #導入AdaBoost分類模塊fromsklearn.ensembleimportAdaBoostRegressor #導入AdaBoost回歸模塊6AdaBoostClassifier類和AdaBoostRegressor類都有如下幾個參數。(1)參數base_estimator用于指定個體學習器的基礎算法,常用的算法是CART決策樹或神經網絡(神經網絡算法將在后面項目中介紹)。(2)參數n_estimators用于設置要集成的個體學習器的數量,其默認值為50。一般來說n_estimators值設置得較小,模型容易出現欠擬合現象,n_estimators值設置得較大,模型容易出現過擬合現象。在實際調參過程中,該參數經常與參數learning_rate一起調節。(3)參數learning_rate為弱學習器的權重縮減系數,其取值范圍為0~1。對于同樣的訓練集擬合效果,較小的learning_rate值意味著需要更多數量的弱學習器。7.5AdaBoost算法7【例8-3】使用AdaBoost算法對Sklearn自帶的鳶尾花數據集進行分類。AdaBoost算法的參數n_estimators往往要與參數learning_rate一起調節,可使用網格搜索法尋找參數的最優值,然后輸出最優參數值與對應模型的預測準確率。【程序分析】7.5AdaBoost算法8程序運行結果如圖7所示。可見,網格搜索法找到的最優參數值為{'learning_rate':0.005,'n_estimators':40},這組參數值對應的模型給出了較高的預測準確率。【運行結果】7.5AdaBoost算法圖7最優參數值與對應模型的預測準確率【參考代碼】
fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.treeimportDecisionTreeClassifierfromsklearn.metricsimportaccuracy_scorefromsklearn.model_selectionimportGridSearchCVfromsklearn.model_selectionimportStratifiedShuffleSplit #拆分數據集x,y=load_iris().data,load_iris().targetx_train,x_test,y_train,y_test=train_test_split(x,y,random_state=0,test_size=50)param_grid={'n_estimators':[10,20,30,40,50,60,70,80,90,100],'learning_rate':[0.0001,0.0005,0.001,0.005,0.01,0.05,0.1,0.5,0.6,0.7,0.8,0.9]}cv=StratifiedShuffleSplit(n_splits=5,test_size=0.3,random_state=420) #對樣本進行分層抽樣grid=GridSearchCV(AdaBoostClassifier(DecisionTreeClassifier(criterion='gini',max_depth=3),random_state=0),param_grid=param_grid,cv=cv)grid.fit(x_train,y_train)model=grid.best_estimator_
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年云計算服務模式變革下的市場細分領域競爭格局研究報告
- 校園安全管理報告2025:智慧校園安全教育與培訓課程開發與應用
- 2025年醫院電子病歷系統與移動醫療設備集成優化報告
- 江蘇省鎮江市名校2025屆英語七下期中統考試題含答案
- 2025年醫藥企業研發外包(CRO)市場潛力與未來發展趨勢報告001
- 2025年醫藥企業研發外包(CRO)模式生物材料研發與產業化報告
- 2025年農村一二三產業融合發展的農產品質量安全監管報告
- 周期表課件教學課件
- 2025年公眾參與環境影響評價的公眾參與機制與公眾參與能力培養研究報告
- 2025年高校產學研合作技術轉移創新生態構建研究
- 小區物業管理計劃書:范文
- 公司法務部職責與職能
- 泉州市石獅市2024-2025學年六年級下學期小升初數學考前押題卷含解析
- 物流倉儲設備選型與配置規范
- 水電工程驗收單
- 2025年廣東省高中歷史學業水平考試綜合測評(一)歷史試題(原卷版+解析版)
- (2025)全國交管12123學法減分考試題庫附答案
- 攸縣2024-2025學年小學六年級第二學期小升初數學試卷含解析
- 2025譯林版高中英語高考復習必背全七冊單詞表(精校打印)
- 安保主管上半年工作總結
- 撬裝加油站承包合同協議書
評論
0/150
提交評論