




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數學專業論文用初等數學解讀邏輯回歸一、引言為了降低理解難度,本文用最基礎的初等數學來解讀邏輯回歸,少用公式,多用圖形來直觀解釋推導公式的現實意義,希望使讀者能夠對邏輯回歸有更直觀的理解。二、邏輯回歸問題的通俗幾何描述邏輯回歸處理的是分類問題。我們可以用通俗的幾何語言重新表述它:
空間中有兩群點,一群是圓點“〇”,一群是叉點“X”。我們希望從空間中選出一個分離邊界,將這兩群點分開。注:分離邊界的維數與空間的維數相關。如果是二維平面,分離邊界就是一條線(一維)。如果是三維空間,分離邊界就是一個空間中的面(二維)。如果是一維直線,分離邊界就是直線上的某一點。不同維數的空間的理解下文將有專門的論述。為了簡化處理和方便表述,我們做以下4個約定:我們先考慮在二維平面下的情況。而且,我們假設這兩類是線性可分的:即可以找到一條最佳的直線,將兩類點分開。用離散變量y表示點的類別,y只有兩個可能的取值。y=1表示是叉點“X”,y=0表示是是圓點“〇”。點的橫縱坐標用表示。于是,現在的問題就變成了:怎么依靠現有這些點的坐標和標簽(y),找出分界線的方程。三、如何用解析幾何的知識找到邏輯回歸問題的分界線?我們用逆推法的思路:
假設我們已經找到了這一條線,再尋找這條線的性質是什么。根據這些性質,再來反推這條線的方程。這條線有什么性質呢?
首先,它能把兩類點分開來。——好吧,這是廢話。( ̄▽ ̄)”
然后,兩類點在這條線的法向量p上的投影的值的正負號不一樣,一類點的投影全是正數,另一類點的投影值全是負數!
首先,這個性質是非常好,可以用來區分點的不同的類別。而且,我們對法向量進行規范:只考慮延長線通過原點的那個法向量p。這樣的話,只要求出法向量p,就可以唯一確認這條分界線,這個分類問題就解決了。
還有什么方法能將法向量p的性質處理地更好呢?
因為計算各個點到法向量p投影,需要先知道p的起點的位置,而起點的位置確定起來很麻煩,我們就干脆將法向量平移使其起點落在坐標系的原點,成為新向量p’。因此,所有點到p’的投影也就變化了一個常量。
假設這個常量為,p’向量的橫縱坐標為。空間中任何一個點到p’的投影就是,再加上前面的常量值就是:
看到上面的式子有沒有感到很熟悉?這不就是邏輯回歸函數中括號里面的部分嗎?
令
就可以根據z的正負號來判斷點x的類別了。四、從概率角度理解z的含義。由以上步驟,我們由點x的坐標得到了一個新的特征z,那么:z的現實意義是什么呢?首先,我們知道,z可正可負可為零。而且,z的變化范圍可以一直到正負無窮大。
z如果大于0,則點x屬于y=1的類別。而且z的值越大,說明它距離分界線的距離越大,更可能屬于y=1類。
那可否把z理解成點x屬于y=1類的概率P(y=1|x)(下文簡寫成P)呢?顯然不夠理想,因為概率的范圍是0到1的。
但是我們可以將概率P稍稍改造一下:令Q=P/(1-P),期望用Q作為z的現實意義。我們發現,當P的在區間[0,1]變化時,Q在[0,+∞)區間單調遞增。函數圖像如下(以下圖像可以直接在度娘中搜“x/(1-x)”,超快):
但是Q的變化率在[0,+∞)還不夠,我們是希望能在(-∞,+∞)區間變化的。而且在P=1/2的時候剛好是0。這樣才有足夠的解釋力。注:因為P=1/2說明該點屬于兩個類別的可能性相當,也就是說這個點恰好在分界面上,那它在法向量的投影自然就是0了。而在P=1/2時,Q=1,距離Q=0還有一段距離。那怎么通過一個函數變換然它等于0呢?有一個天然的函數log,剛好滿足這個要求。
于是我們做變換R=log(Q)=log(P/(1-P)),期望用R作為z的現實意義。畫出它的函數圖像如圖:
這個函數在區間[0,1]中可正可負可為零,單調地在(-∞,+∞)變化,而且1/2剛好就是唯一的0值!基本完美滿足我們的要求。
回到我們本章最初的問題,“我們由點x的坐標得到了一個新的特征z,那么z的具體意義是什么呢?”由此,我們就可以將z理解成x屬于y=1類的概率P經過某種變換后對應的值。也就是說,z=log(P/(1-P))。反過來就是P=。圖像如下:
這兩個函數log(P/(1-P))、看起來熟不熟悉?這就是傳說中的logit函數和sigmoid函數!小小補充一下:在概率理論中,Q=P/(1-P)的意義叫做賠率(odds)。世界杯賭過球的同學都懂哈。賠率也叫發生比,是事件發生和不發生的概率比。而z=log(P/(1-P))的意義就是對數賠率或者對數發生比(log-odds)。于是,我們不光得到了z的現實意義,還得到了z映射到概率P的擬合方程:有了概率P,我們順便就可以拿擬合方程P=來判斷點x所屬的分類:當P>=1/2的時候,就判斷點x屬于y=1的類別;當P<1/2,就判斷點x屬于y=0的類別。五、構造代價函數求出參數的值到目前為止我們就有兩個判斷某點所屬分類的辦法,一個是判斷z是否大于0,一個是判斷g(z)是否大于1/2。
然而這并沒有什么X用,以上的分析都是基于“假設我們已經找到了這條線”的前提得到的,但是最關鍵的三個參數仍未找到有效的辦法求出來。還有沒有其他的性質可供我們利用來求出參數的值?我們漏了一個關鍵的性質:這些樣本點已經被標注了y=0或者y=1的類別!我們一方面可以基于z是否大于0或者g(z)是否大于1/2來判斷一個點的類別,另一方又可以依據這些點已經被標注的類別與我們預測的類別的插值來評估我們預測的好壞。這種衡量我們在某組參數下預估的結果和實際結果差距的函數,就是傳說中的代價函數CostFunction。當代價函數最小的時候,相應的參數就是我們希望的最優解。由此可見,設計一個好的代價函數,將是我們處理好分類問題的關鍵。而且不同的代價函數,可能會有不同的結果。因此更需要我們將代價函數設計得解釋性強,有現實針對性。
為了衡量“預估結果和實際結果的差距”,我們首先要確定“預估結果”和“實際結果”是什么。“實際結果”好確定,就是y=0還是y=1。“預估結果”有兩個備選方案,經過上面的分析,我們可以采用z或者g(z)。但是顯然g(z)更好,因為g(z)的意義是概率P,剛好在[0,1]范圍之間,與實際結果{0,1}很相近,而z的意思是邏輯發生比,范圍是整個實數域(-∞,+∞),不太好與y={0,1}進行比較。接下來是衡量兩個結果的“差距”。我們首先想到的是y-hθ(x)。
但這是當y=1的時候比較好。如果y=0,則y-hθ(x)=-hθ(x)是負數,不太好比較,則采用其絕對值hθ(x)即可。綜合表示如下:
但這個函數有個問題:求導不太方便,進而用梯度下降法就不太方便。因為梯度下降法超出的初等數學的范圍,這里就暫且略去不解釋了。于是對上面的代價函數進行了簡單的處理,使之便于求導。結果如下:代價函數確定了,接下來的問題就是機械計算的工作了。常見的方法是用梯度下降法。于是,我們的平面線形可分的問題就可以說是解決了。六、從幾何變換的角度重新梳理我們剛才的推理過程。回顧我們的推理過程,我們其實是在不斷地將點進行幾何坐標變換的過程。第一步是將分布在整個二維平面的點通過線性投影映射到一維直線中,成為點x(z)第二步是將分布在整個一維直線的點x(z)通過sigmoid函數映射到一維線段[0,1]中成為點x(g(z))。第三步是將所有這些點的坐標通過代價函數統一計算成一個值,如果這是最小值,相應的參數就是我們所需要的理想值。
七、對于簡單的非線性可分的問題。由以上分析可知。比較關鍵的是第一步,我們之所以能夠這樣映射是因為假設我們點集是線性可分的。但是如果分離邊界是一個圓呢?考慮以下情況。
我們仍用逆推法的思路:
通過觀察可知,分離邊界如果是一個圓比較合理。假設我們已經找到了這個圓,再尋找這個圓的性質是什么。根據這些性質,再來反推這個圓的方程。我們可以依據這個性質:
圓內的點到圓心的距離小于半徑,圓外的點到圓心的距離大于半徑假設圓的半徑為r,空間中任何一個點到原點的距離為。令,就可以根據z的正負號來判斷點x的類別了然后令,就可以繼續依靠我們之前的邏輯回歸的方法來處理和解釋問題了。從幾何變換的角度重新梳理我們剛才的推理過程。
第一步是將分布在整個二維平面的點通過某種方式映射到一維直線中,成為點x(z)第二步是將分布在整個一維射線的點x(z)通過sigmoid函數映射到一維線段[0,1]中成為點x(g(z))。第三步是將所有這些點的坐標通過代價函數統一計算成一個值v,如果這是最小值,相應的參數就是我們所需要的理想值。
八、從特征處理的角度重新梳理我們剛才的分析過程其實,做數據挖掘的過程,也可以理解成做特征處理的過程。我們典型的數據挖掘算法,也就是將一些成熟的特征處理過程給固定化的結果。
對于邏輯回歸所處理的分類問題,我們已有的特征是這些點的坐標,我們的目標就是判斷這些點所屬的分類y=0還是y=1。那么最理想的想法就是希望對坐標進行某種函數運算,得到一個(或者一些)新的特征z,基于這個特征z是否大于0來判斷該樣本所屬的分類。
對我們上一節非線性可分問題的推理過程進行進一步抽象,我們的思路其實是:第一步,將點的坐標通過某種函數運算,得到一個新的類似邏輯發生比的特征,第二步是將特征z通過sigmoid函數得到新的特征。第三步是將所有這些點的特征q通過代價函數統一計算成一個值,如果這是最小值,相應的參數(r)就是我們所需要的理想值。
九、對于復雜的非線性可分的問題由以上分析可知。比較關鍵的是第一步,如何設計轉換函數。我們現在開始考慮分離邊界是一個極端不規則的曲線的情況。
我們仍用逆推法的思路:通過觀察等先驗的知識(或者完全不觀察亂猜),我們可以假設分離邊界是某種6次曲線(這個曲線方程可以提前假設得非常復雜,對應著各種不同的情況)。第一步:將點的坐標通過某種函數運算,得到一個新的特征。并假設z是某種程度的邏輯發生比,通過其是否大于0來判斷樣本所屬分類。第二步:將特征z通過sigmoid函數映射到新的特征第三步:將所有這些樣本的特征q通過邏輯回歸的代價函數統一計算成一個值,如果這是最小值,相應的參數就是我們所需要的理想值。相應的,分離邊界其實就是方程=0,也就是邏輯發生比為0的情況嘛。十、多維邏輯回歸的問題以上考慮的問題都是基于在二維平面內進行分類的情況。其實,對于高維度情況的分類也類似。
高維空間的樣本,其區別也只是特征坐標更多,比如四維空間的點x的坐標為。但直接運用上文特征處理的視角來分析,不過是對坐標進行參數更多的函數運算得到新的特征。并假設z是某種程度的邏輯發生比,通過其是否大于0來判斷樣本所屬分類。
而且,如果是高維線性可分的情況,則可以有更近直觀的理解。如果是三維空間,分離邊界就是一個空間中的一個二維平面。兩類點在這個二維平面的法向量p上的投影的值的正負號不一樣,一類點的投影全是正數,另一類點的投影值全是負數。
如果是高維空間,分離邊界就是這個空間中的一個超平面。兩類點在這個超平面的法向量p上的投影的值的正負號不一樣,一類點的投影全是正數,另一類點的投影值全是負數。特殊的,如果是一維直線空間,分離邊界就是直線上的某一點p。一類點在點p的正方向上,另一類點在點p的負方向上。這些點在直線上的坐標可以天然理解成類似邏輯發生比的情況。可見一維直線空間的分類問題是其他所有高維空間投影到法向量后的結果,是所有邏輯回歸問題的基礎。
十一、多分類邏輯回歸的問題以上考慮的問題都是二分類的問題,基本就是做判斷題。但是對于多分類的問題,也就是做選擇題,怎么用邏輯回歸處理呢?
其基本思路也是二分類,做判斷題。
比如你要做一個三選一的問題,有ABC三個選項。首先找到A與BUC(”U”是并集符號)的分離邊界。然后再找B與AUC的分離邊界,C與AUB的分離邊界。
這樣就能分別得到屬于A、B、C三類的概率,綜合比較,就能得出概率最大的那一類了。
十二、總結本文的分析思路——逆推法畫圖,觀察數據,看出(猜出)規律,假設規律存在,用數學表達該規律,求出相應數學表達式。
該思路比較典型,是數據挖掘過程中的常見思路。兩個視角:幾何變換的視角與特征處理的視角。小結:
幾何變換的視角:高維空間映射到一維空間→一維空間映射到[0,1]區間→[0,1]區間映射到具體的值,求最優化解特征處理的視角:特征運算函數求特征單值z→sigmoid函數求概率→代價函數求代價評估值,求最優化解首先要說明的是,在邏輯回歸的問題中,這兩個視角是并行的,而不是包含關系。它們是同一個數學過程的兩個方面。
比如,我們后來處理復雜的非線性可分問題的時候,看似只用的是特征處理的思路。其實,對于復雜的非線性分離邊界,也可以映射到高維空間進行線性可分的處理。在SVM中,有時候某些核函數所做的映射與之非常類似。這將在我們接下來的SVM系列文章中有更加詳細的說明。在具體的分析過程中,運用哪種視角都可以,各有優點。
比如,作者個人比較傾向幾何變換的視角來理解,這方便記憶整個邏輯回歸的核心過程,畫幾張圖就夠了。相應的信息都濃縮在圖像里面,異常清晰。于此同時,特征處理的視角方便你思考你手上掌握的特征是什么,怎么處理這些特征。這其實的數據挖掘的核心視角。因為隨著理論知識和工作經驗的積累,越到后面
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 展覽墻面的燈光布置與效果呈現
- 少數民族文化的傳承與創新研究
- 少數民族地區特色旅游開發研究文化多樣性的體現
- 少兒教育培訓市場現狀及策略研究
- 小微餐飲企業的數字化運營與拓展研究
- 小學漢語拼音教學新思路
- 宿舍安全與宿舍文化建設的結合
- 家長對教育服務的需求變化及應對策略
- 臨購耗材管理制度
- 2025年免疫治療在系統性血管炎治療中的應用突破
- 網絡輿情分析模型-全面剖析
- 課題申報書:生成式人工智能賦能高校體育教師教學能力的內在機理與實踐路徑研究
- 信譽樓管理制度特色
- 登山安全培訓課件內容
- 防沙治沙光伏一體化技術方案設計
- 2025年春新北師大版生物七年級下冊課件 第11章 人體的運動 第1節 人體的骨骼
- 便攜式移動電源規范
- 實驗室生物安全評估制度(4篇)
- 【MOOC】《電路原理》(東北大學)中國大學慕課答案
- 兒康家長培訓內容
- 2024年商城縣人民醫院高層次衛技人才招聘筆試歷年參考題庫頻考點附帶答案
評論
0/150
提交評論