機器學習算法與實踐 課件 第2章 機器學習基本理論_第1頁
機器學習算法與實踐 課件 第2章 機器學習基本理論_第2頁
機器學習算法與實踐 課件 第2章 機器學習基本理論_第3頁
機器學習算法與實踐 課件 第2章 機器學習基本理論_第4頁
機器學習算法與實踐 課件 第2章 機器學習基本理論_第5頁
已閱讀5頁,還剩24頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章機器學習基本理論機器學習方法離不開數據和模型,俗話說,“巧婦難為無米之炊”,數據便是“米”,模型則是“巧婦”。沒有充足的數據、合適的特征,再強大的模型結構也無法得到滿意的輸出。機器學習業界有一句經典“Garbagein,garbageout”。對于一個機器學習問題,數據和特征往往決定了結果的上限,而模型和算法的選擇及優化則逐步接近這個上限。12.1機器學習術語基本概念過擬合和欠擬合模型評估22.1.1基本概念數據集(dataset)是一種由數據所組成的集合,通常以表格的形式出現,其中每一行是一個數據,表示對一個事件或對象的描述,又稱為樣本(sample)或實例(instance)。每一列反映事件或對象在某方面的表現或性質,稱為特征(feature)或屬性(attribute)。屬性上的取值稱為屬性值(attributevalue)或特征值。所有屬性構成的空間稱為屬性空間(attributespace)、樣本空間(samplespace)或輸入空間(inputspace)。

屬性空間中的每一個點通常用一個向量來表示,稱為特征向量(featurevector),即每個特征向量附屬于一個實例。32.1.1基本概念模型(model)指描述特征和問題之間關系的數學對象。從數據中使用算法得到模型的過程稱為學習(learning)或訓練(training)。訓練過程中使用的數據集又被分為以下3種:訓練集(trainningset):通常取數據集中一部分數據作為訓練集來訓練模型。測試集(testingset):用來對已經學習好的模型或者算法進行測試和評估的數據集。驗證集(validationset):有時需要把訓練集進一步拆分成訓練集和驗證集,驗證集用于在學習過程中對模型進行調整和選擇。42.1.1基本概念每個實例中描述模型輸出的可能值稱為標簽(label)或標記。特征是事物固有屬性,標簽是根據固有屬性產生的認知。在經過一定次數的訓練迭代后,模型損失不再發生變化或變化很小,說明當前訓練樣本已經無法改進模型,稱為模型達到收斂(convergence)狀態。新的數據輸入到訓練好的模型中,以對其進行判斷稱為預測(prediction)。通過學習得到的模型適用于新樣本的能力,稱為泛化(generalization)能力。檢驗模型效果的方法稱為模型評估(evaluation)。52.1.2過擬合和欠擬合

當學習器把訓練樣本學得“太好”的時候,很可能將訓練樣本自身的一些特點當作所有潛在樣本的共有特性,這樣會導致泛化性能下降,這在機器學習中稱為“過擬合”。與之相反地,“欠擬合”是指對訓練樣本的一般性質尚未學習好。62.1.2過擬合和欠擬合處理過擬合的方法大致分為以下幾種:從數據入手,獲得更多的訓練數據。降低模型復雜度。正則化方法。集成學習方法。處理欠擬合的方法大致分為以下幾種:添加新特征。增加模型復雜度。減小正則化系數。72.1.3模型評估現實中如何進行模型的評估與選擇呢?通過實驗測試來對學習器的泛化誤差進行評估并進而做出選擇。具體地講,先使用某種實驗評估方法測得學習器的某個性能度量結果,然后對這些結果進行比較。這個評估的過程涉及到實驗評估方法的選擇、性能度量指標以及比較檢驗等幾個步驟。82.2實驗估計方法

92.2.1留出法

“留出法”是最簡單也是最直接的驗證方法,它將原始的樣本集合隨機劃分成訓練集和驗證集兩部分。比方說,對于一個點擊率預測模型,我們把樣本按照70%~30%的比例分成兩部分,70%的樣本用于模型訓練;30%的樣本用于模型驗證Scikit-learn提供的train_test_split函數能夠將數據集切分成訓練集和測試集兩類,其函數原型如下:sklearn.model_selection.train_test_split(X,y,**options)102.2.2交叉驗證法

“交叉驗證法”首先將全部樣本劃分成k個大小相等的樣本子集;依次遍歷這k個子集,每次把當前子集作為驗證集,其余所有子集作為訓練集,進行模型的訓練和評估;最后把k次評估指標的平均值作為最終的評估指標。

112.2.3自助法

自助法是基于自助采樣法的檢驗方法。對于總數為n的樣本集合,進行n次有放回的隨機抽樣,得到大小為n的訓練集。n次采樣過程中,有的樣本會被重復采樣,有的樣本沒有被抽出過,將這些沒有被抽出的樣本作為驗證集,進行模型驗證,這就是自助法的驗證過程。

122.3性能度量性能度量(performancemeasure)是指衡量模型泛化能力的評價標準,同時反映了任務需求。在對比不同模型能力時,使用不同的性能度量往往會導致不同的評判結果;這意味著模型的“優劣”是相對的,對模型評價的標準不僅取決于算法和數據,還決定于任務需求。132.3.1錯誤率與精度

精度則定義為

142.3.2查準率、查全率與F1真實情況預測結果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)

152.3.3查準率、查全率與F1“平衡點”(Break-EventPoint,簡稱BEP)是“查準率=查全率”時的取值

162.3.4ROC與AUCROC全稱是“受試者工作特征”(ReceiverOperatingCharacteristic)曲線AUC(AreaUnderROCCurve)

172.4比較檢驗統計假設檢驗(hypothesistest)為我們進行學習器性能比較提供了重要依據?;诩僭O檢驗結果可以推斷出,若在測試集上觀察到學習器A比B好,則A的泛化性能是否在統計意義上由于B,以及這個推斷結論的準確性有多大。182.4.1假設檢驗

192.4.1假設檢驗

202.4.1假設檢驗

αk251020300.0512.7062.7762.2622.0932.0450.106.3142.1321.8331.7291.699雙邊t檢驗的常用臨界值212.4.2交叉驗證t檢驗

222.4.2交叉驗證t檢驗

232.4.2交叉驗證t檢驗

242.5參數調優機器學習常涉及兩類參數:一類是算法的參數亦稱“超參數”,數目常在10以內;另一類是模型的參數,數目可能很多,例如大型“深度學習”模型甚至有上百億個參數。參數搜索算法一般包括三個要素:目標函數,即算法需要最大化/最小化的目標;搜索范圍,一般通過上限和下限來確定;算法的其他參數,如搜索步長。252.5.1網格搜索網格搜索是最簡單、應用最廣泛的超參數搜索算法,它通過查找搜索范圍內的所有點來確定最優值。如果采用較大的搜索范圍以及較小的步長,網格搜索有很大概率找到全局最優值。

在實際應用中,網格搜索法一般會先使用較廣的搜索范圍和較大的步長,來尋找全局最優值可能的位置;然后會逐漸縮小搜索范圍和步長,來尋找更精確的最優值。這種操作方案可以降低所需的時間和計算量,但由于目標函數一般是非凸的,所以很可能會錯過全局最優值。262.5.2隨機搜索隨機搜索(GridSearchCV)的思想與網格搜索比較相似,只是不再測試上界和下界之間的所有值,而是在搜索范圍中隨機選取樣本點。它的理論依據是,如果樣本點集足夠大,那么通過隨機采樣也能大概率地找到全局最優值,或其近似值。GridSearchCV采用的是暴力尋找的方法來尋找最優參數。當待優化的參數是離散的取值的時候,GridSearchCV能夠順利地找出最優的參數。但是當待優化的參數是連續取值的時候暴力尋找就有心無力了。272.5.3貝葉斯優化算法貝葉斯優化算法通過對目標函數形狀進行學習,找到使目標函數向全局最優值提升的參數。它學習目標函數形狀的方法是:首先根據先驗分布,假設一個搜集函數;然后,每一次使用新的采樣點來測試目標函數時,利用這個信息來更新目標函數的先驗分布;最后,算法測試由后驗分布給出的全局最值最可能出現的位置的點。28

2.6本章小結本章首先介紹了包含數據集、模型、泛化等常見的機器學習基礎概念,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論