




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、對線性回歸、邏輯回歸、各種回歸的概念學習回歸問題的條件/前提:1)收隼的數據2)假設的模型,即一個函數,這個函數里含有未知的參數,通過學習,可以估計出參數。然后利用這個模型去預 測/分類新的數據。1.線性回歸假設特征和結果都滿足線性。即不大于一次方。這個是針對收隼的數據而言。收隼的數據中,每一個分量,就可以看做一個特征數據C每個特征至少對應一個未知的參數。這樣就形成了一個線 性模型函數,向量表示形式:這個就是一個組合問題,已知一些數據,如何求里面的未知參數,給出一個最優解。一個線性矩陣方程,直接求 解,很可能無法直接求解。有唯一解的數據隼,微乎其微。基本上都是解不存在的超定方程組。因此,需要退
2、一步,將參數求解問題,轅化為求最小誤差問題,求出一個杲接 近的解,這就是一個松弛求解。求一個杲接近解,直觀上,就能想到,誤差最小的表達形式。仍然是一個含未知參數的線性模型,一堆觀測數據, 其模型與數據的誤差最小的形式,模型與數據差的平方和最小:這就是損失函數的來源。接下來,就是求解這個函數的方法,有最小二乘法,梯度下降法。/wiki/%E7%EA%EF%E6%80%A7%E6%96%E9%E7%A8%8E%E7%EB%84杲小二乘法是一個直接的數學求解公式,不過它要求X是列滿秩的,梯度下降法分別有梯度下降法,批梯度下降法,增量梯度下降。本質上,部是偏導數,步長/
3、疑佳學習率,更新,收斂的問題。這個算法只是最優化原理中的一個普通的方法,可以結臺最優化原理來學,就容易理解了。2邏輯回歸邏輯回歸與線性回歸的聯乘、異同? 邏輯回歸的模型是一個非線性模型,sigmoid函數,又稱邏輯回歸函數。但是它本質上又是一個線性回歸模型,因為除去sigmoid映射函數矢系,其他的步腺,算法都是線性回歸的。可以說,邏輯回歸,都是以線性回歸為理論支持的。只不過,線性模型,無法做到sigmoid的非線性形式,sigmoid可以輕松處理0/1分類問題。另外它的推導含義:仍然與線性回歸的最大似然估計推導相同,最大似然函數連續積(這里的分市,可以使伯努利分布,或泊 松分市等其他分布形式
4、)菜導得損失函數。111邏輯回歸函數表現了 0,1分類的形式。應用舉例:是否垃圾分類?是否腫瘤、癌癥診斷?是否金融欺詐?3. 一般線性回歸線性回歸是以高斯分布為誤差分析模型;邏輯回歸采用的是伯努利分布分析誤差。而高斯分布、伯努利分布、貝塔分布、迪特里特分布,都屬于指數分布。而一般線性回歸,在X條件下,y的概率分布P (ylx)就是指指數分布.經歷最大似然估計的推導,就能導出一般線性回歸的誤差分析模型(最小化誤差模型)。softmax回歸就是一般線性回歸的一個例子。有監督學習回歸,針對多類問題(邏輯回歸,解決的是二類劃分問題),如數宇宇符的分類問題,0-9,10個數字,y 值有10個可能性。而這
5、種可能的分布,是一種指數分布。而且所有可能的和為1,則對于一個輸入的結果,其結果可表示為:參數是一個k維的向量。而代價函數:是邏輯回歸代價函數的推廣。而對T softmax的求解,沒有閉式解法(高階多頂方程組求解)仍用梯度下降法或L-BFQS求解。當k=2時 softmax退化為邏輯回歸這也能反映softmax回歸是邏輯回歸的推廣。線性回歸,邏輯回歸,softmax回歸三者聯系,需要反復回味,想的多了,理解就能深入了。 4擬合:擬合模型/函數由測重的數據,估計一個假宦的模型/函數。如何擬合,擬合的模型是否合適?可分為以下三類 臺適擬臺欠擬合過擬合看過一篇文章(附錄)的圖示,理解起來很不錯: 欠
6、擬合:臺適的擬臺/ g(0 () + 龍 1 + %龍 2+03好+ %詭儀+05不L2)過擬臺g(%+弘彳汀+玄必7 +&3蘭轉 + 04A1A2+ 05八0 +% 咄2 + .)過擬合的問題如何解決?問題起源?模型太復雜,參數過多,特征數目過多。方法:1)減少特征的數重,有人工選擇,或者采用模型選擇算法.cnblogs./heaad/archive/2011/01/02/192408&html (特征選擇算法的綜述)2)正則化,即保留所有特征,但降低參數的值的影響。正則化的優點是,特征很多時,每個特征都矣有一個 合適的影響因子。5 概率解釋:線性回歸中為什么選用平方和作為誤差函數?假設模型
7、結果與測量值誤差滿足,均值為O的高斯分布,即正態分布。這個假設是靠譜的,符合一般客觀統計規律。數據X與y的條件概率:若使模型與測量數據最接近,那么其概率積就最大。概率積,就是概率密度函數的連續積,這樣,就形成了一個杲大似然函數估計。對最大似然函數估計進行推導,就得出了求導后結果:平方和熾小公式參數估計與數據的矢系擬合尖系錯誤函數/代價函數/損失函數:線性回歸中采用平方和的形式,一般都是由模型條件概率的最大似然函數概率積最大值,求導,推導出來的。統計學中,損失函數一般有以下幾種:01損失函數z (MA) ) =i,0,y/x4A) /X4A)平方損失函數z (K4A) ) = L4AJ) 2絕對
8、損失函數砒個)卄個I對數損失函數L (Y,FYA) =-JogP (YA損失函數越小,模型就越好,而且損失函數盡重是一個凸函數,便于收斂計算。線性回歸,采用的是平方損失函數。而邏輯回歸采用的是對數損失函數。這些僅僅是一些結果,沒有推導。&正則化:為防止過度擬臺的模型出現(過于負雜的模型),在損失函數里増加一個每個特征的懲罰因子。這個就是正則化。如 正則化的線性回歸的損失函數:lambda就是懲罰因于。正則化是模型處理的典型方法。也是結構風險最小的策略。在經驗風險(誤差平方和)的基礎上,増加一個懲罰頂/ 正則化頂。線性回歸的解,也從(XTXiX7y轉化為rO0 =也 + A括號的矩陣,即使在樣本
9、數小干特征數的情況下,也是可逆的。邏輯回歸的正則化:I m疋)二羸D log加(小)+ (1)1隅(1 一切()從貝葉斯估計來看,正則化頂對應模型的先驗概率,復雜模型有較大先驗概率,簡單模型具有較小先驗概率。這個里 面又有幾個概念。什么是結構風險最小化?先驗概率?模型簡單與否與先驗概率的尖系?經驗風險、期望風險、經驗損失*結構風險期望風險(直實風險),可理解為模型函數固定時,數據平均的損失程度,或“平均”犯錯誤的程度。期 望風險是依 賴損失函數和概率分布的。只有樣本,是無法計算期望風險的。所以,采用經驗風險,對期望風險進行估計,并設計學習算法,使其最小化。即經驗風險杲小化(Empirical
10、Risk Minimization) ERM,而經驗風險是用損失函數來評估的、計算的。對于分類問題,經驗風險,就訓練樣本錯誤率。對于函數逼近,擬臺問題,經驗風險,就平方訓練誤差C對于概率密度估計問題,ERM,就是最大似然估計法。而經驗風險最小,并不一定就是期望風險最小,無理論依據。只有樣本無限大時,經驗風險就逼近了期望風險。如何解決這個問題?統計學習理論SLT,支持向量機SVM就是專門解決這個問題的。有限樣本條件下,學習出一個較好的模型。由干有限樣本下,經驗風險Rempf無法近似期望風險Rif o因此,統計學習理論給出了二者之間的尖系:Rf = ( Rempf + e )而右端的表達形式就是結
11、構風險,是期望風險的上界。而e = g(li/n)是置倍區間,是VC維h的增函數,也是樣本數 n的減函數。VC維的定義在SVM, SLT中有詳細介紹。e依賴h和n,若使期望風險最小,只需尖心其上界杲小,即e杲小化。所 以需耍選擇合適的h和n。這就是結構風險最小化Stnicture Risk Minimization, SRM.SVM就是SRM的近似實現,SVM中的概念另有一大筐。就此打住。爲2數的物理意義:數,能將一個事物,映射到非負實數,且滿足非負性,齊次性,三角不等式。是一個具有“長度”概念的函數。1數為什么能得到稀疏解?壓縮感知理論,求解與重構,求解一個L1數正則化的最小二乘問題。其解正
12、是欠定線性系統的解。2數為什么能得到最大間隔解? 2數代表能量的度重單位,用來重構誤差。以上幾個概念理解需要補充。9最小描述長度準則:即一組實例數據,存儲時,利用一模型,編碼壓縮。模型長度,加上壓縮后長度,即為該數據的總的描述長度。最小 描述長度準則,就是選擇總的描述長度最小的模型。最小描述長度MDL準則,一個重要特性就是避免過度擬合現象。如利用貝葉斯網絡,壓縮數據,一方面,模型自身描述長度隨模型復雜度的增加而增加;另一方面,對數據隼描述的 長度闕模型復雜度的增加而下隔。因此,貝葉斯網絡的MDL總是力求在摸型精度和模型復雜度之問找到平衡。當模 型過于復雜時,最小描述長度準則就矣其作用,限制復雜
13、程度。奧卡姆剃刀原則:如果你有兩個原理,它們都能解釋觀測到的事實,那么你應該使用簡單的那個,直到發現更多的證據。萬事萬物應該盡量簡單,而不是更簡單。H.凸松弛技術:將組合優化問題,轉化為易于求解極值點的凸優化技術。凸函數/代價函數的推導,熾大似然估計法。12牛鎖法求解最大似然估計前提條件:求導迭代,似然函數可導,且二階可導。迭代公式:若是向量形式,H就是n*n的hessian矩陣了。特征:當靠近極值點時,牛頓法能快速收斂,而在遠離極值點的地方,牛頓法可能不收斂。這個的推導?這點是與梯度下降法的收斂特征是相反的。線性與非線性:線性,一次函數;非線性,輸入、輸出不成正比,非一次函數。線性的局限性:
14、xoi問題。線性不可分,形式:xOOx而線性可分,是只用一個線性函數,將數據分類。線性函數,直線。線性無尖:各個獨立的特征,獨立的分重,無法由其他分重或特征線性表示。核函數的物趣意義:映射到高維使其變得線性可分。什么是髙維?如一個一維數據特征X,轉換為(x, x八2,x八3),就成為了 一個三維特征且線性無尖。一個一維特征線性不可分的特征在髙維就可能線性可分了。邏輯回歸logicalistic regression本質上仍為線性回歸,為什么被單獨列為一 類?其存在一個非線性的映射尖系,處理的一般是二元結構的o, 1問題,是線性回歸的擴展,應用廣泛,被單獨列為一 類。而且如果直接應用線性回歸來擬
15、臺邏輯回歸數據,就會形成很多局部最小值。是一個非凸隼,而線性回歸損失函數 是一個凸函數,即最小極值點,即是全局極小點。模型不符。若采用邏輯回歸的損失函數,損失函數就能形成一個凸函數。” convex”多頂式樣條函數擬合多頂式擬合,模型是一個多頂式形式;樣條函數,模型不僅連瀆,而且在邊界處,髙階導數也是連續的。好處:是 一條光滑的曲線,能避免邊界出現震蕩的形式出現(龍格線性)baike.baidn. /view/ 301735.htm以下是幾個需倏倏深入理解的概念:無結構化預測模型結構化預測模型什么是結構化問題?adaboost, svm, lr三個算法的尖系。三種算法的分布對應exponential loss (指數損失函數),hinge loss, log loss (對數損失函數),無本質區別。 應用凸上界取代0、1損失,即凸松弛技術。從組合優化到凸隼優化問題。凸函數,比較容易計算極值點。正則化與貝葉斯參數估計的聯丟?部分參考文章:.giizili./?p=4515052opencoiirse./133/coursera%E5%
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 交警實習心得與體會(8篇)
- 掌握核心公路工程試題及答案詳解
- 網絡可視化技術的實際工作案例試題及答案
- 弘揚工匠精神的心得體會(20篇)
- 計算機四級軟件測試改革趨勢試題及答案
- 2025公路運輸合同新范本(16篇)
- 2025成人教育自我鑒定(7篇)
- 網絡工程師考試基本知識及試題與答案
- 有線與無線網絡特點試題及答案
- 數字語言試題及答案
- 計算機基礎考試知識試題及答案集
- 山東省棗莊市市中學區五校聯考2025屆七年級數學第二學期期末考試模擬試題含解析
- 2025年中考道德與法治三輪沖刺:人工智能+文化建設 考題含答案
- 福建廈門雙十中學2025屆物理八下期末質量跟蹤監視試題含解析
- 安全生產事故案例分析
- 2025中煤電力有限公司總部及所屬企業招聘筆試參考題庫附帶答案詳解
- 廣西壯族自治區2025屆高三下學期一模英語試題(解析版)
- 育兒嫂簽合同協議
- 書法中考試題及答案
- 2025年上半年浙江杭州市屬事業單位統一招聘工作人員371人易考易錯模擬試題(共500題)試卷后附參考答案
- 帶你聽懂中國傳統音樂智慧樹知到期末考試答案章節答案2024年廣州大學
評論
0/150
提交評論