




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Boosting課程大綱2018.9.15集成學習實戰2018.9.22Boosting與Adaboost實戰2018.9.29Bagging與隨機森林實戰背景Boosting思想源于三個臭皮匠,勝過諸葛亮
Findingmanyroughrulesofthumbcanbealoteasierandmoreeffectivethanfindingasingle,highlypredictionrule.原理引入天氣預報 預測明天是晴是雨? 傳統觀念:依賴于專家系統(AperfectExpert)原理引入AperfectexpertRealityCNN(Perfect!)ABCCBSXXX原理引入Boosting:basedon“Nobodyisperfect”,combinecommonreportertoobtainperfectexpert更加符合自然界的現實CNNABCCBSRealityXXXXX原理引入MONTUEWEDTHUREALITYMAJORITYCNNABCCBSFOXTOTAL32/828/826/815/837/4XXXXXXX11111/211111/41/211/41/21/8121XXBoosting—concepts(1)機器學習(MachineLearning):將一些已知的并已被成功解決的問題作為范例輸入計算機,機器通過學習這些范例總結并生成相應的規則,這些規則具有通用性,使用它們可以解決某一類的問題。
人臉識別文本分類網絡安全生物信息工程學習機(learner):機器學習得到的規則或者模型。樣本:所研究問題的實例,一般在訓練集中包括正樣本和負樣本。
一張人臉圖像,一篇文章,一個病毒代碼,一個生物的遺傳編碼訓練:采用某種方法,用已知屬性的樣本作為輸入,得到相應規則的過程。訓練集:由已知屬性的樣本組成的集合,作為訓練過程的輸入數據。測試集:由已知屬性的樣本組成的集合,作為測試過程的輸入數據。假設:學習機對樣本做出的判斷,即是否符合需要判定的事實。
某張臉是否是張三的,某篇文章是否屬于新聞類別Boosting—concepts(2)特征選?。簭膶嶋H數據中抽取反映其本質規律的屬性。
傳統人臉識別中人臉圖像向量做PCA變換得到特征向量的投影系數 對文本進行語法分析后表示成關于詞的特征向量機器學習系統結構表示Boosting—concepts(3)弱學習機(weaklearner):對一定分布的訓練樣本給出假設(僅僅強于隨機猜測)
根據有云猜測可能會下雨強學習機(stronglearner):根據得到的弱學習機和相應的權重給出假設(最大程度上符合實際情況:almostperfectexpert)
根據CNN,ABC,CBS以往的預測表現及實際天氣情況作出綜合準確的天氣預測弱學習機強學習機BoostingBoosting流程(loop1)強學習機弱學習機原始訓練集加權后的訓練集加權后的假設X>1?1:-1弱假設Boosting流程(loop2)強學習機弱學習機原始訓練集加權后的訓練集加權后的假設Y>3?1:-1弱假設Boosting流程(loop3)強學習機弱學習機原始訓練集加權后的訓練集加權后的假設Z>7?1:-1弱假設流程描述Step1:原始訓練集輸入,帶有原始分布Step2:給出訓練集中各樣本的權重Step3:將改變分布后的訓練集輸入已知的弱學習機,弱學習機對每個樣本給出假設Step4:對此次的弱學習機給出權重Step5:轉到Step2,直到循環到達一定次數或者某度量標準符合要求Step6:將弱學習機按其相應的權重加權組合形成強學習機核心思想樣本的權重沒有先驗知識的情況下,初始的分布應為等概分布,也就是訓練集如果有N個樣本,每個樣本的分布概率為1/N每次循環一后提高錯誤樣本的分布概率,分錯樣本在訓練集中所占權重增大,使得下一次循環的弱學習機能夠集中力量對這些錯誤樣本進行判斷。弱學習機的權重準確率越高的弱學習機權重越高循環控制:損失函數達到最小在強學習機的組合中增加一個加權的弱學習機,使準確率提高,損失函數值減小。簡單問題演示(Boosting訓練過程)算法—問題描述訓練集{(x1,y1),(x2,y2),…,(xN,yN)}xiRm,yi{-1,+1}Dt
為第t次循環時的訓練樣本分布(每個樣本在訓練集中所占的概率,Dt總和應該為1)ht:X{-1,+1}為第t次循環時的Weaklearner,對每個樣本給出相應的假設,應該滿足強于隨機猜測:wt為ht的權重
為t次循環得到的Stronglearner算法—樣本權重思想:提高分錯樣本的權重反映了stronglearner對樣本的假設是否正確采用什么樣的函數形式?
算法—弱學習機權重思想:錯誤率越低,該學習機的權重應該越大為學習機的錯誤概率采用什么樣的函數形式?
和指數函數遙相呼應:算法--Adaboost理論分析--最優化如何求弱學習機的權重?最基本的損失函數表達形式為了便于計算,采用以下的目標函數Boosting的循環過程就是沿著損失函數的負梯度方向進行最優化的過程。通過調整樣本的分布Dt和選擇弱學習機的權重wt來達到這個目的。每循環一次,增加一項,使損失函數以最快速度下降。理論分析—熵映射給定當前分布和選定的弱學習機,如何求下一次的分布?
Boosting的設計思想:改變分布,提高錯誤樣本概率,使下一次的弱學習機能夠集中精力針對那些困難樣本。調整分布后的訓練集對當前學習機具有最大的隨機性,正確率50%(恰好為隨機猜測)
理論分析—熵映射相對熵原理(最小鑒別信息原理)
已知隨機變量X(樣本集)的先驗分布(Dt),并且已知所求未知分布Dt+1滿足條件(Dt+1*Ut=0),那么所求得的未知分布估計值具有如下形式:
物理意義:在只掌握部分信息的情況下要對分布作出判斷時,應該選取符合約束條件但熵值取得最大的概率分布。從先驗分布到未知分布的計算應該取滿足已知條件,不確定度(熵)變化最小的解。應用—人臉識別應用—人臉識別應用—文本分類應用—文本分類總結Boosting的思想源泉:三個臭皮匠,勝過諸葛亮將一系列粗略的規則加權組合起來得到高度精確的規則。Boosting的數學實質:對目標函數(損失函數)的最優化問題。Boosting的理論聯系:最優化熵映射Boosting的應用人臉識別文本分類參考資料Internet站點
推薦論文ABriefIntroductiontoBoostingExperimentswithaNewBoostingAlgorithmAdditiveLogisticRegression:aStatisticalViewofBoostingTheBoosting
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥品運輸公司管理制度
- 藥庫藥房調撥管理制度
- 藥店店面衛生管理制度
- 藥店藥品倉庫管理制度
- 營運客車報廢管理制度
- 設備備品耗材管理制度
- 設備改造安全管理制度
- 設備檢查計劃管理制度
- 設備管道安全管理制度
- 設備設施拆除管理制度
- 2025-2030年中國茶具行業深度分析及發展前景與發展戰略研究報告
- 2025年山東省高考招生統一考試高考真題化學試卷(真題+答案)
- 2025至2030年中國月子中心行業競爭格局分析及市場前景趨勢報告
- 2025年山煤國際招聘筆試沖刺題(帶答案解析)
- 2024-2025學年七年級英語下學期期末模擬試卷(外研版2024)
- 2024年涼山昭覺縣委社會工作部選聘社區工作者真題
- 2025年山東省濟南市長清區中考二模道德與法治試題(含答案)
- 冠心病的規范化診培訓課件
- 未來中國檢測市場發展趨勢簡析(精)
- 2025年AI+賦能中小企業:出海營銷的創新與發展
- 2025年福建省糧食行業職業技能競賽(糧油保管員)備賽試題庫(含答案)
評論
0/150
提交評論