



付費下載
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
線性模型、基于樹的模型、神經網絡三種算法的對比我們將機器學習中最突出、最常用的算法分為三類:線性模型、基于樹的模型、神經網絡,用一張圖表簡明地指出了每一類的優勢和劣勢。在機器學習中,我們的目標要么是預測(prediction),要么是聚類(clustering)。本文重點關注的是預測。預測是從一組輸入變量來預估輸出變量的值的過程。例如,得到有關房子的一組特征,我們可以預測它的銷售價格。預測問題可以分為兩大類:回歸問題:其中要預測的變量是數字的(例如房屋的價格);分類問題:其中要預測的變量是“是/否”的答案(例如,預測某個設備是否會故障)
了解了這點,接下來讓我們看看機器學習中最突出、最常用的算法。我們將這些算法分為3類:線性模型、基于樹的模型、神經網絡。線性模型方法線性模型使用簡單的公式,通過一組數據點找到“最佳擬合”的行。這一方法可以追溯到200多年前,在統計學和機器學習領域都得到廣泛應用。由于它的簡單性,它對統計學很有用。你想要預測的變量(因變量)被表示為你已經知道的變量(自變量)的方程,因此預測只是一個輸入自變量,然后算出方程的答案的問題。線性回歸線性回歸,或更準確的說法“最小二乘回歸”,是線性模型的最標準形式。對于回歸問題,線性回歸是最簡單的線性模型。其缺點是模型容易過擬合,也就是說,模型完全適應已進行訓練的數據,而犧牲了推廣到新數據的能力。因此,機器學習中的線性回歸(以及我們接下來將談到的邏輯回歸)通常是“正則化”的,這意味著模型有一定的懲罰來防止過擬合。線性模型的另一個缺點是,由于它們非常簡單,所以當輸入變量不獨立時,他們不容易預測更復雜些的行為。邏輯回歸邏輯回歸是線性回歸對分類問題的適應。邏輯回歸的缺點與線性回歸相同。邏輯函數對分類問題非常好,因為它引入了閾值效應。基于樹的模型決策樹決策樹是使用分支方法顯示決策的每一個可能的結果的圖示。比如說,你決定要點一份沙拉,你的第一個決策是可能是生菜的種類,然后是配菜,然后是沙拉醬的種類。我們可以在一個決策樹中表示所有可能的結果。為了訓練決策樹,我們需要使用訓練數據集并找出那個屬性對目標最有用。例如,在欺詐檢測用例中,我們可能發現對預測欺詐風險影響最大的屬性是國家。在以第一個屬性進行分支后,我們得到兩個子集,這是假如我們只知道第一個屬性時最能夠準確預測的。接著,我們再找出可以對這兩個子集進行分支的第二好的屬性,再次進行分割,如此往復,直到使用足夠多的屬性后能滿足目標的需求。有關決策樹,新智元對一篇經典文章做過介紹:【經典】機器學習可視化演示隨機森林隨機森林是許多決策樹的平均,其中每個決策樹都用隨機的數據樣本進行訓練。隨機森林中的每個樹都比一個完整的決策樹弱,但是將所有樹放在一起,由于多樣性的優勢,我們可以獲得更好的整體性能。隨機森林是當今機器學習中非常流行的算法。隨機森林的訓練很容易,而且表現相當好。它的缺點是相對于其他算法,隨機森林輸出預測可能會很慢,所以在需要快速預測時,可能不會選擇隨機森林。梯度提升梯度提升(GradientBoosting),像隨機森林那樣,也是由“弱”決策樹組成的。梯度提升與隨機森林最大的區別是,在梯度提升中,樹是一個接一個被訓練的。每個后面的樹主要由前面的樹識別錯誤的數據來訓練。這令梯度提升較少關注易于預測的情況,而更多地關注困難的情況。梯度提升的訓練也很快,表現也非常好。但是,訓練數據集的小小變化可以令模型發生根本性的變化,因此它產生的結果可能不是最可行的。神經網絡神經網絡是指大腦中彼此交換信息的相互聯系的神經元組成的生物學現象。這個想法現在被適用到機器學習領域,被稱為ANN(人工神經網絡)。深度學習是疊在一起的多層的神經網絡。ANN是一系列通過學習獲取類似人類大腦的認知能力的模型。在處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大班幼兒在教育中的五大領域目標及發展指導
- 2025年android自學教程!面試官都被搞懵了建議收藏-剛學安卓很懵逼
- 賽事商城測評題目及答案
- 2023-2024學年山西省太原市高二下學期期末學業診斷數學試題(解析版)
- 2023-2024學年湖南省長沙市瀏陽市高二下學期期末質量監測數學試卷(解析版)
- 2025屆河南省開封市等3地高三二模語文試題(解析版)
- 2024-2025學年云南省保山市高一上學期期末考試語文試題(解析版)
- 汽車解押的授權委托書
- 玻璃襯紙合同范本
- 臍部抗感染治療方案講課件
- 立式加工中心的基本操作專題培訓課件
- 一例慢阻肺病人護理個案
- 建平中學自招真題解析
- 阿克蘇地區生態環境準入清單
- 產品創新設計與實踐完整版課件全套ppt教學教程電子教案講義最全(最新)
- 漢字起源和發展
- 試運行方案計劃-
- 法蘭規格尺寸表國標,美標
- 動物疫病流行病學調查表診斷送檢用
- 模具技術要求
- 廣東省公務員錄用審批表
評論
0/150
提交評論