




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
模式識別非參數判別分類方法3.5.3
特征映射法、解決非線性判別分類問題*支持向量機采用的方法與前面提到的方法很不相同,支持向量機提出的方法是利用特征映射方法,使非線性分類的問題可以利用線性分類的計算框架來實現。*原理示意圖廣義線性判別函數
例如:假設對一個二維空間的分類問題,想用一個二次函數作為判別函數,則二次曲線函數的一般式可以寫成:
作為映射后的特征向量,而相應的廣義權向量如果我們希望采用廣義線性方程的方法,則可以定義則一個線性方程就可以寫成,其中,這樣一來,線性分類方法就可以直接采用。支持向量機利用特征映射的思想其中,是以下式子求極大值的解
計算上式的極大值只用到訓練樣本數據間的點積<xi.xj>,而使用的分類器判別函數中權向量的作用也是通過權向量與樣本的點積體現出來的,而從(3-104)式子中可以看出,權向量是訓練樣本中的支持向量的線性組合,因此WTX值的計算可以寫成(3-104)(3-105)(3-106)4
它表明在計算判別函數值時,仍然只需要通過計算相應數據的點積即可。
由此可以設想,如果我們將原特征向量用映射的方式轉換成
,則相應的式子只需要改變成分類界面方程其中
為相應的常數項(3-107)(3-108)特征映射,核函數分類界面方程
因此選擇合適的函數K(.,.)就成為設計中的重要問題
由于特征進行了映射,從x變成了f(x),因此問題是在另一個映射后的空間討論的。設原空間維數為d,即,而新空間為m維,即
,則一般m維要比d維大得多。權向量的維數也是m維,它是在映射后空間中的支持向量的線性求和。但是支持向量機的提出者進一步發現,并不一定要求出這個權向量,因為分類判別函數中只關心權向量與樣本向量之間的點積。因此,又引出了所謂核函數(3-109)(3-110)支持向量機計算示意圖核函數
與內積函數值等價的函數K(.,.)稱為核函數。理論上的研究對核函數的充分必要條件進行了研究,并已得出一些主要結論(如Mercer條件)。
常用的核函數還局限于以下三種函數形式。多項式類型的函數核函數型式的函數S行函數,如(3-111)(3-112)(3-113)本章小結一、參數判別分類方法與非參數判別分類方法的區別
參數判別方法:它的提前是對特征空間中的各類樣本的分布清楚,因此一旦要測試分類樣本的特征向量值X已知,就可以確定X對各類的后驗概率,也就是可按相應的準則計算與分類,所以判別函數等的確定取決于樣本統計分布的有關知識。
非參數分類判別方法:著眼于直接利用訓練樣本集,省去參數估計這一環節,這樣一來,從保證最小錯去率的原則出發計算確定判別函數的方法就不適用了。因此,非參數分類判別方法只能根據一些其它準則來設計分類器。分類器的效果好壞,所選擇的判別函數型式,所使用的訓練樣本集,以及所用的算法是對結果都會有影響。二、非參數分類判別方法的基本做法
非參數分類判別方法進行分類器設計主要包含兩個步驟:1.確定要使用的判別函數類型或決策面方程類型,如線性分類器,分段線性分類器,非線性分類器等或近鄰法等。如果使用人工神經網絡,則怎樣的網絡結構也隱含了所使用的函數形式。
2.在選定的函數類型網絡結構等條件下,確定相應的參數,從而完成整個分類器設計。三、決策面方程的顯示表示和隱式表示四、基于相似度的分類判別方法
判別函數的隱式表示與使用基于相似程度判別的原則有關。如近鄰法是用距離遠近表示相似程度,錯誤修正法用樣本向量與增廣權向量的點積運算,也可在一定程度上看作相似度,在多類問題上,往往用計算相似度較為方便。*用函數直接表示分界面方程,如線性方程式表示的邊界等。*用隱含形式,例如我們用最小距離分類器就代表了這種類
型,其實這兩種型式是等價的。如二維空間的最小距離分類器用最小距離表示為:||X-m1||=||x-m2||而其等價于連接m1與m2線的垂直平分線。*本章學習的Fisher準則、支持向量機與局部訓練法等用的是
顯示表示,而錯誤修正法和近鄰法則可以說是隱式表示。五、Fisher準則
Fisher準則是傳統模式識別方法中的典型方法,它強調將線性方程中的法向量與樣本的乘積看作樣本向量在單位法向量上的投影,如能做到不同類的樣本在法向量上的投影呈現類內聚集,類間分開的效果,則對減少錯分類有利。所得最佳法向量計算式為
(
見有關課本定義)。這個結果與正態分布協方差矩陣等的貝葉斯決策結果相近,這說明如果兩類分布范圍繞各自均值的確相近,Fisher準則可使錯誤率較小。六、感知準則函數方法
這種方法提倡用錯分類提供的信息修正錯誤,這種思想對機器學習的發展以及人工神經元網絡的發生發展產生深遠影響。七、近鄰法
近鄰法訓練樣本數量較多時,從逐漸錯誤率角度看,其錯誤率比較小,是經常使用的模式識別分類方法,比較適合在多類別情況下使用。當每類的樣本數很多時,存儲量與計算量要求都偏高,使用剪輯近鄰法與壓縮近鄰法,特別是壓縮近鄰法可大量減少訓練樣本的數量。八、支持向量機
支持向量機是新近提出的影響較大的方法。在理論上有很深的背景,這里指的理論是統計學習理論。
它主要關注的問題是:當訓練樣本數量有限時。在訓練過程中做到使訓練樣本錯誤率為最小,是否就意味著系統在實際應用中,也能自然而然做到錯誤率小呢?對我們來說了解這種理論顯然超出我們課程的范圍,但是可以舉一個例子說明這種問題的確存在。例如下圖表示在一個樣本集(X,Y),其中X在實數范圍內取值,而Y則在[-1,+1]范圍取值。例:Sin(ax)擬合紅線表示正確擬合得到的結果,但是對于這樣一組數據,我們完全可以用一個函數Sin(ax)來擬合它,如圖中藍線表示的函數所示,只要調整參數a總可以使所有數據都落在Sin(ax)曲線上,但是很明顯Sin(ax)并不反映這組數據的內在規律,如果再增加一個新數據,參數a很可能就要變。從直觀上講,所用的函數Sin(ax)并不合適,但是從訓練樣本數據來看,它的擬合程度的確很高。統計學習理論
從我們所討論的一些方法中,分類器設計的性能,都以隊訓練樣本集有好的性能為目標,而沒有辦法保證在實際使用時仍能保持好的性能。支持向量機在線性可分時要求隔離帶盡可能寬,正是從期望實際的錯誤率也較低這一點出發。關于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 4月長沙地區房地產市場監測分析
- 物理中考一輪復習教案 第二十五講 電路初探
- 仙居特產活動方案
- 代縣交警大練兵活動方案
- 代理記賬公司優惠活動方案
- 代賬公司外促活動方案
- 以信寄情活動方案
- 任城區憲法宣傳活動方案
- 會冬季長跑活動方案
- 湖北省黃岡市蘄春縣實驗高級中學2024-2025學年高三下學期第二次模擬考試數學試題
- 兒科三基試題及答案
- 2024年江西省中考生物·地理合卷試卷真題(含答案逐題解析)
- IATF16949-COP-內部審核檢查表+填寫記錄
- 維克多高中英語3500詞匯
- 部編語文八年級語文下冊專題復習課件
- 2021年英語專業四級TEM4考試真題和答案
- 蘇教版四年級下冊三位數乘兩位數整理和復習課件
- 中國華電集團公司火電廠煙氣脫硫工程(石灰石-石膏濕法)設計導則(A版)
- 《小學英語小組合作學習的研究》課題結題報告
- 初中英語語法講解PPT課件(共210頁)
- 排骨架檢驗標準_圖文
評論
0/150
提交評論