




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
模式識別
PatternRecognition課程教材2《模式識別》
張向榮馮婕劉芳焦李成西安電子科技大學出版社第一章緒論第二章統計決策方法第三至第四章分類方法第五至第六章特征選擇/提取方法第七章神經網絡第八至第十章現代模式識別課程參考書IEEETrans.OnPatternAnalysisandMachineIntelligence(TPAMI)《模式識別與人工智能》,科學出版社,自動化學會主辦,季刊背景知識概率論;線性代數(矩陣計算);學習要求掌握基本概念,了解理論內容;考試形式總學時:40+16,講授40,實驗16;課程分為:講授+學生展示+實驗上機;考試:平時成績40%(出勤率,平時作業,課堂展示,上機課)+考試成績60%;相關期刊5文獻查找6文獻查找作者個人主頁7文獻查找網址:33/dbNavList.jspx8文獻閱讀第一章
模式識別概論1.1什么是模式識別1.2模式識別的基本概念1.3模式識別系統(基本框架)1.4模式識別的歷史與現狀1.5模式識別方法1.6模式識別應用領域第一章
模式識別概論1.1什么是模式識別1.2模式識別的基本概念1.3模式識別系統(基本框架)1.4模式識別的歷史與現狀1.5模式識別方法1.6模式識別應用領域1.1什么是模式識別?模式識別的定義
Patternrecognition
isthestudyofhow
machines
canobservetheenvironment,learnto
distinguishpatterns
ofinterestfromtheirbackground,andmakesoundandreasonable
decisions
aboutthecategoriesofthepatterns.
——AnilK.Jain,MichiganStateUniversity
/~jain/
Ref:AnilK.Jainetal.StatisticalPatternRecognition:AReview.IEEETrans.onpatternanalysisandmachineintelligence.2000,22(1):4-3712目標識別(人臉識別):人在環顧四周的時候,可以認出周圍的物體是桌子,椅子;能認出你的同學是張三還是李四;語音識別:聽到聲音,能夠區分出是汽車喇叭還是火車鳴笛,是貓叫還是人在說話,是誰在說話;文本分類:通過閱讀書籍,可以看出哪些屬于藝術類書籍,哪些屬于體育類書籍;圖像、視頻識別:看到圖像和視頻,可以立刻反映出來是動物的圖片,或者講述動物生活習性的視頻;人類所具備的這些認知能力非常的平常,但如何讓計算機來模擬人的智能,可以同人類一樣具備這種認知,學習這種模式識別能力是這門課關注的問題。1.1什么是模式識別?1.1什么是模式識別?人的模式識別過程:剛出生的小朋友,你不斷地給他灌輸知識反復訓練他,比如,介紹一個動物,介紹這種動物的一些主要的特征,叫聲,外形,顏色等,來反復地讓他加深印象,下一次見到可以認出這種動物;機器的模式識別過程:如果讓機器識別一個動物,需要將動物的抽象特征提取出一些機器可以識別的符號、向量,作為機器的輸入;然后,建立一個模型(分類器),讓機器識別出來這是貓,這種動物是狗;這里面就是模式識別的兩個核心:特征提取和分類器設計,這門課也主要圍繞這兩大模塊進行。因為每一種數據,每一種應用,都有各自的特點,所以要根據不同的應用,設計相應的特征提取方法和相應的分類器模型。14DeepBlue深藍是美國IBM公司生產的一臺超級國際象棋電腦,重1270公斤,有32個大腦(微處理器),每秒鐘可以計算2億步。"深藍”輸入了一百多年來優秀棋手的對局兩百多萬局。1997年5月11日,“深藍”超級電腦戰勝了人類有史以來最偉大的國際象棋大師卡斯帕羅夫。這場舉世矚目的人機大戰以計算機取勝而落下帷幕。深藍算法的核心是基于暴力窮舉:生成所有可能的走法,然后執行盡可能深的搜索,并不斷對局面進行評估,嘗試找出較佳走法。包括走棋模塊,評估模塊,以及搜索控制器。1.1什么是模式識別?正在與深藍下棋的卡斯帕羅夫1.1什么是模式識別?16Watson2011年,IBMWatson參加綜藝節目危險邊緣(Jeopardy)來測試它的能力,Watson贏得了第一筆獎金100萬美元。它包括語音的識別,語義的理解,還有對答系統。首先需要語音的識別,他需要識別出,你說的是人工智能四個字,然后需要理解問題,因為語料庫中的問題未必和主持人完全匹配,最后需要在語料庫中找到相應的答案。1.1什么是模式識別?17小度小度機器人誕生于百度自然語言處理部。依托于百度強大的人工智能,集成了自然語言處理、對話系統、語音視覺等技術;2014年9月16日,小度機器人現身江蘇衛視《芝麻開門》:40道涉及音樂,影視,歷史,文學類型的題目全部答對;2017年1月,小度參加江蘇衛視《最強大腦》第四季;1.1什么是模式識別?AlphaGo由谷歌(Google)旗下DeepMind公司開發。2016年3月,
AlphaGo與圍棋世界冠軍、職業九段選手李世石比賽并獲勝;2016年末2017年初,該程序在中國棋類網站上以“大師”(Master)為注冊帳號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績。2017年5月,戰勝中國選手柯潔戰勝。2017年10月,發布AlphaGoZero。核心技術:深度學習+強化學習AlphaGo1.1什么是模式識別?1.1什么是模式識別?什么是模式?模板匹配提取車的輪廓、顏色,這個屬于來自圖像本身的底層特征;用底層特征來抽象到這種輪廓這種顏色的車身,它有幾個車輪,上升到了中層特征;有車身和四個車輪的這種物體,上升到汽車這樣一個語義的層次。語義就是人類賦予它的一個定義,這是高層特征。識別的過程是從底層,逐漸抽象到高層,這樣的一個過程。其中,汽車作為物體的一個類別屬性,根據底層特征,抽象到中層特征,從而獲取物體的類別屬性,就是一個模式分類的過程。1.1什么是模式識別?車身車輪車型顏色底層中層汽車高層品牌什么是模式?廣義地說,存在于時間和空間中可觀察的物體,如果我們可以區別它們是否相同或是否相似,都可以稱之為模式。狹義地說,模式是對感興趣的客體的定量的或結構的描述。模式的直觀特性:可觀察性可區分性相似性1.1什么是模式識別?什么是模式?模式識別的目的:利用計算機對物體(模式)進行分類,在錯誤概率最小的條件下,使識別的結果盡量與客觀物體相符合。Y=F(X)X的定義域取自特征集
Y的值域為類別的標號集
F是模式識別的判別方法1.1什么是模式識別?什么是識別?第一章
模式識別概論1.1什么是模式識別1.2模式識別的基本概念1.3模式識別系統(基本框架)1.4模式識別的歷史與現狀1.5模式識別方法1.6模式識別應用領域一個例子:鱸魚和鮭魚識別問題:某魚類制品罐頭廠需將傳送帶上的鱸魚和鮭魚進行區分,以便于后續對鱸魚和鮭魚進行分別處理并裝罐。Seabass:鱸魚Salmon:鮭魚1.2模式識別的基本概念一個例子:鱸魚和鮭魚識別1.2模式識別的基本概念1.需要將魚輸入到計算機,我們搭建一個攝像機,然后拍攝很多魚的圖片收集起來;2.由于在傳送帶上,攝像機拍照,有背景,也有可能很多魚交疊在一起,所以要進行一個預處理;3.需要對魚的圖像進行特征提取;比如,長度、光澤、寬度、鰭的數目與形狀等;4.設計分類器,對鱸魚和鮭魚進行分類。1.2模式識別的基本概念一個例子:鱸魚和鮭魚識別傳感器:攝像頭預處理:統一光照、統一焦距,去除背景,分割…特征提取:長度,亮度,重量,鰭的數目…輸入(測量):重量,長度,寬度,光澤度(亮還是暗)鰭數目設計分類器:線性?非線性?特征選擇:長度
從長度上選一個閾值很難區分Salmon:鮭魚Seabass:鱸魚1.2模式識別的基本概念特征選擇:亮度錯誤率仍然較高1.2模式識別的基本概念1.如果單一特征不能產生一個滿意的結果,我們可以考慮融合多種特征;
2.光澤度與寬度(二維特征),描述魚的數據----模式
1.2模式識別的基本概念光澤度寬度特征選擇:光澤度+寬度1.2模式識別的基本概念問題1:是不是特征越多越好?二維特征的分類結果看起來好于一維特征;我們可以考慮加入更多的特征來進一步提高分類效果,比如背鰭的頂角,嘴的位置等等;1.特征越多,測量的代價就越多;
2.加入冗余或低辨別力的特征,反而可能會帶來負面影響;
3.特征越多,模型就越復雜,分類邊界也越復雜,容易過擬合。1.2模式識別的基本概念問題1:訓練樣本的完美分類面是不是最好的?分類器設計的核心目標是實現對未知樣本的正確分類,也就是要有好的推廣能力。一個過于復雜的決策界面一般來說不太可能有好的推廣能力,它過擬合了個別少量的訓練樣本。這些訓練樣本沒有真正地反映數據的真實分布。結論:我們必須在訓練樣本的分類正確率和推廣能力之間權衡以得到滿意的設計。1.2模式識別的基本概念非線性分類面圖中的判決面是對訓練樣本的分類性能和分界面復雜度的一個折中,可以解決這種線性不可分問題。避免過擬合的方法:避免過于復雜的分類面。樣本(sample):一類事物的一個具體體現,所研究對象的一個個體,也稱模式。樣本集(sampleset):若干樣本的集合。類或類別(class):在所有樣本上定義的一個子集,處于同一類的樣本在我們所關心的性質上是不可區分的,即具有相同的模式,也稱模式類。
特征(feature):用于表征樣本的觀測信息,通常是數值表示的,有時也稱為屬性(attribute);如果是高維則稱為特征向量,樣本的特征(向量)構成了特征空間,每個樣本是特征空間中的一個點。1.2模式識別的基本概念已知樣本(knownsample):事先知道類別標號的樣本(訓練樣本)。未知樣本(unknownsample):類別標號未知但特征已知的樣本(待識別的樣本,測試樣本)。一般來說,模式識別必須經歷如下的過程:1.2模式識別的基本概念1.2模式識別的基本概念模式空間特征空間類型空間在模式空間里,每個樣本模式都是一個點,點的位置由該模式在各維上的測量值確定。對模式空間里的各坐標元素進行綜合分析,以提取最能揭示樣本屬性的特征,這些特征就構成特征空間。根據適當的判決規則,把特征空間里的樣本區分成不同的類型,從而把特征空間塑造成了類型空間。由特征空間到類型空間所需要的操作就是分類判決。特征提取分類決策模式識別過程:
從物理上可以覺察到的世界,通過模式空間、特征空間到類型空間,經歷了模式采集、特征提取和選擇、以及分類決策等過程,這就是一個完整的模式識別過程。模式識別:是從樣本到類別的映射1.2模式識別的基本概念第一章
模式識別概論1.1什么是模式識別1.2模式識別的基本概念1.3模式識別系統(基本框架)1.4模式識別的歷史與現狀1.5模式識別方法1.6模式識別應用領域模式識別系統傳感器(Sensing):信號采集分割(Segmentation):使模式之間相互獨立,互不重疊,依靠圖象處理技術。特征提取(Featureextraction)
可判別特征平移、旋轉和尺度變換不變性特征分類(Classification):由特征向量確定對象所屬的類別。后處理(PostProcessing):利用“上下文”先驗信息提高分類性能。1.3模式識別系統39預處理特征測量分類器預處理特征提取/選擇學習待識模式(數據)訓練模式(樣本集)訓練過程識別過程1.3模式識別系統收集數據(collectdata):收集足夠的代表性樣本特征選擇(choosefeatures):確定哪個目標的屬性可以區別不同的目標選擇模型(choosemodel):選擇分類器模型,確定分類原理和機理訓練分類器(trainclassifier):確定分類器參數分類器評估(evaluateclassifier):估計可能的誤差率模式識別系統設計的五個步驟:1.3模式識別系統分類器的學習和適應:給定一般模型或分類器的形式,利用樣本(例子)去學習或估計模型的未知參數。有監督學習(Supervisedlearning):已知訓練樣本集中每個輸入樣本的類別標記和分類代價,尋找能降低總體代價的方向。已知分類情況,計算各類在特征空間的分布,然后對未知樣本進行分類.無監督學習(Unsupervisedlearning):樣本的類別標記和分類代價未知,由聚類器形成“聚類”(clusters)或者“自然組織(naturalgroupings)”。事先不知有多少類,有哪些類,只能根據樣本間的相似性進行聚合。1.3模式識別系統第一章
模式識別概論1.1什么是模式識別1.2模式識別的基本概念1.3模式識別系統(基本框架)1.4模式識別的歷史與現狀1.5模式識別方法1.6模式識別應用領域1929年GustavTauschek(奧地利)利用光學和機械手段發明了閱讀機,能夠閱讀0-9的數字,在德國獲得了光學字符識別的專利。20世紀30年代Fisher提出統計分類理論,奠定了統計模式識別的基礎。統計模式識別發展很快,但由于被識別的模式愈來愈復雜,特征也愈來愈多,出現“維數災難”問題。20世紀40年代電子計算機興起,由于計算機運算速度的迅猛發展,統計模式識別的“維數災難”問題得到一定克服。統計模式識別仍是模式識別的主要理論。1.4模式識別的歷史與現狀20世紀50年代人工智能興起。喬姆斯基(Chemsky)提出形式語言理論,用數學方法研究自然語言(如英語)和人工語言(如程序設計語言)的產生方式、一般性質和規則。由于統計方法不能表示和分析模式的結構,20世紀70年代以后結構和句法模式識別方法受到關注。尤其是美籍華人付京蓀提出句法結構模式識別理論,在20世紀70-80年代受到了廣泛的關注。但是,句法模式識別中的基元提取和文法推斷(學習)問題直到現在還沒有很好的解決,因而沒有太多的實際應用。1.4模式識別的歷史與現狀20世紀80年代,BP算法的重新發現和成功應用推動了人工神經網絡的研究熱潮。神經網絡方法與統計學習方法相比具有不依賴概率模型、參數自學習、泛化能力強等優點。20世紀90年代,支撐矢量機(SVM)的提出吸引了模式識別領域對小樣本統計學習理論和核方法(KernelMethods)的關注。與神經網絡相比,SVM通過優化一個泛化誤差界限,自動確定一個最優的分類器結構,具有更好的泛化能力。核方法的引入使統計方法從線性空間推廣到高維非線性空間。(經驗風險最小化-結構風險最小化)1.4模式識別的歷史與現狀21世紀以來:蓬勃發展時期統計學習理論越來越多地用于解決具體的模式識別和模型選擇問題新的概率密度估計、特征選擇、特征變換、聚類算法不斷提出模式識別領域和機器學習領域的互相滲透模式識別系統大規模用于實際問題Ref:劉成林,談鐵牛.模式識別研究進展.中科院自動化所,模式識別重點實驗室1.4模式識別的歷史與現狀發展趨勢半監督學習(Semi-supervisedLearning):利用少量的標注樣本和大量的未標注樣本進行訓練和分類
增量學習(IncrementalLearning):樣本逐步積累時,學習精度也要隨之提高
遷移學習(TransferLearning):將從一個環境中學到的知識用來幫助新環境中的學習任務
主動學習(ActiveLearning):根據已標記樣本集合,找到未標記樣本的子集,主動提出標記請求,學習器之外的某個系統對這些未標記進行標記后,加入標記樣本中,進行下一次迭代
……1.4模式識別的歷史與現狀第一章
模式識別概論1.1什么是模式識別1.2模式識別的基本概念1.3模式識別系統(基本框架)1.4模式識別的歷史與現狀1.5模式識別方法1.6模式識別應用領域模板匹配法統計方法結構方法(句法方法)神經網絡方法1.5模式識別的方法模板匹配首先對每個類別建立一個或多個模板輸入樣本和數據庫中每個類別的模板進行比較,求相關或距離根據相關性或距離大小進行決策優點:直接、簡單缺點:適應性差形變模板1.5模式識別的方法統計方法根據訓練樣本,建立決策邊界(decisionboundary)統計決策理論——根據每一類總體的概率分布決定決策邊界判別式分析方法——給出帶參數的決策邊界,根據某種準則,由訓練樣本決定“最優”的參數本課程的重點內容1.5模式識別的方法句法方法許多復雜的模式可以分解為簡單的子模式,這些子模式組成所謂“基元”每個模式都可以由基元根據一定的關系來組成基元可以認為是語言中的詞語,每個模式都可以認為是一個句子,關系可以認為是語法模式的相似性由句子的相似性來決定優點:適合結構性強的模式缺點:抗噪聲能力差,計算復雜度高1.5模式識別的方法神經網絡進行大規模并行計算的數學模型具有學習、推廣、自適應、容錯、分布表達和計算的能力優點:可以有效的解決一些復雜的非線性問題缺點:缺少有效的學習理論1.5模式識別的方法幾種方法比較方法表達識別函數評價準則模版匹配樣本,像元,曲線相關,距離度量分類錯誤統計方法特征決策函數分類錯誤句法方法基元規則,語法接受錯誤神經網絡樣本,像元,特征網絡函數均值方差錯誤1.5模式識別的方法第一章
模式識別概論1.1什么是模式識別1.2模式識別的基本概念1.3模式識別系統(基本框架)1.4模式識別的歷史與現狀1.5模式識別方法1.6模式識別應用領域1.6模式識別的應用領域文字處理:文字識別(印刷體,手寫體漢字識別,車牌識別);辦公自動化(機器翻譯);銀行(支票識別);郵局(郵政信函的自動分揀)1.6模式識別的應用領域生物特征識別:指紋識別,人臉識別,虹膜識別,聲音識別,簽名識別,步態識別……1.6模式識別的應用領域生物醫學:血細胞計數,染色體分類,心電腦電圖,整形外科,癌癥檢測和分級……1.6模式識別的應用領域遙感:資源普查(地形地貌分析,森林、海洋資源普查,湖水面積計算),地圖識別,軍事目標檢測……1.6模式識別的應用領域文檔分類1.6模式識別的應用領域預測決策1.6模式識別的應用領域機器人:機器人是一種可編程的多功能操作裝置。機器人研究的四個階段:遙控機器人——程序機器人——自適應機器人——智能機器人。1.6模式識別的應用領域其它:……1.6模式識別的應用領域第二章貝葉斯決策理論2.1引言2.2基于最小錯誤率的貝葉斯決策2.3基于最小風險的貝葉斯決策2.4分類器、判別函數及決策面2.5正態分布下的統計決策第二章貝葉斯決策理論2.1引言2.2基于最小錯誤率的貝葉斯決策2.3基于最小風險的貝葉斯決策2.4分類器、判別函數及決策面2.5正態分布下的統計決策統計決策理論是模式分類問題的基本理論之一貝葉斯決策理論是統計決策理論中的一個基本方法貝葉斯決策的兩個要求各個類別的總體概率分布(先驗概率和類條件概率密度)是已知的要決策分類的類別數是一定的2.1引言黑色:第一類粉色:第二類綠色:哪一類?統計決策理論就是根據每一類總體的概率分布決定未知類別的樣本屬于哪一類決策2.1引言評價決策有多種標準,對于同一個問題,采用不同的標準會得到不同意義下“最優”的決策貝葉斯決策常用的準則:
最小錯誤率準則
最小風險準則
Neyman-Pearson(黎曼皮爾遜)準則最小最大決策準則決策準則2.1引言在連續情況下,假設對要識別的物理對象有d種特征觀察量x1,x2,…xd,這些特征的所有可能的取值范圍構成了d維特征空間。稱向量假設要研究的分類問題有c個類別,類型空間表示為:為d維特征向量。基本概念2.1引言先驗概率:類條件概率:后驗概率:
幾個重要概念2.1引言先驗概率:類條件概率:后驗概率:
未獲得觀測數據之前類別的分布幾個重要概念2.1引言先驗概率:類條件概率:后驗概率:
未獲得觀測數據之前類別的分布表示在類條件下x的概率分布密度幾個重要概念2.1引言先驗概率:類條件概率:后驗概率:
未獲得觀測數據之前類別的分布表示在類條件下x的概率分布密度在x出現條件下類出現的概率幾個重要概念2.1引言第二章貝葉斯決策理論2.1引言2.2基于最小錯誤率的貝葉斯決策2.3基于最小風險的貝葉斯決策2.4分類器、判別函數及決策面2.5正態分布密度(TheNormalDensity)2.6正態分布的判別函數鱸魚/鮭魚例子自然狀態下,先驗的類別狀態,
i,i=1,2
i類別狀態是一個隨機變量,P(
i)表示為先驗概率。捕獲鱸魚和鮭魚的幾率相等。P(
1)=P(
2)(先驗)P(
1)+P(
2)=1(排除其它魚的種類)2.2基于最小錯誤率的貝葉斯決策僅含先驗信息的判別規則這種分類決策沒有意義由先驗概率所提供的信息太少2.2基于最小錯誤率的貝葉斯決策采用類條件信息——類條件概率密度函數p(x|
1):鱸魚的屬性分布p(x|
2):鮭魚的屬性分布。2.2基于最小錯誤率的貝葉斯決策采用類條件信息——類條件概率密度函數p(x|
1):鱸魚的屬性分布p(x|
2):鮭魚的屬性分布。2.2基于最小錯誤率的貝葉斯決策鱸魚和鮭魚判別中的類條件概率密度函數(以光澤度為例)貝葉斯公式先驗概率,后驗概率,概率密度函數之間關系貝葉斯公式通過類條件概率密度形式的觀察值,將先驗概率轉化為后驗概率。2.2基于最小錯誤率的貝葉斯決策后驗概率含義
P(ω1|x):當觀測向量為x值時,是鱸魚的概率。P(ω2|x):當觀測向量為x值時,是鮭魚的概率。2.2基于最小錯誤率的貝葉斯決策P(error|x)=P(
2|x)判定為
1(錯誤選擇
2);基于后驗概率的決策規則:存在一個觀察值x(特征)如果P(
1|x)>P(
2|x)類別狀態=
1如果P(
1|x)<P(
2|x)類別狀態=
2因此,無論何時觀測到某一個特定值x,概率誤差為:P(error|x)=P(
1|x)判定為
2(錯誤選擇
1);2.2基于最小錯誤率的貝葉斯決策因此,P(error|x)=min[P(
1|x),P(
2|x)]錯誤概率的最小化判定規則:如果P(
1|x)>P(
2|x),判定為
1;否則,判定為
2。(最大后驗概率準則可以保證最小錯誤率,所以又稱最小錯誤率準則)基于后驗分布的判別規則:2.2基于最小錯誤率的貝葉斯決策基于最小錯誤率的貝葉斯決策:84等價形式2.2基于最小錯誤率的貝葉斯決策例:假設在某個局部地區細胞識別中正常和異常兩類的先驗概率分別為正常狀態:異常狀態:現有一待識別的細胞,其觀察值為x,類條件概率密度分別為,試對該細胞x進行分類。
2.2基于最小錯誤率的貝葉斯決策例:假設在某個局部地區細胞識別中正常和異常兩類的先驗概率分別為正常狀態:異常狀態:現有一待識別的細胞,其觀察值為x,類條件概率密度分別為,試對該細胞x進行分類。解:2.2基于最小錯誤率的貝葉斯決策以一維情況為例討論基于最小錯誤率的貝葉斯決策確實對應最小錯誤率統計意義上的錯誤率,即平均錯誤率,用P(e)表示87最小錯誤率的討論2.2基于最小錯誤率的貝葉斯決策88最小錯誤率的討論2.2基于最小錯誤率的貝葉斯決策在C類別情況下最小錯誤率貝葉斯決策規則的后驗概率形式:
先驗概率與類條件概率密度相聯系的形式:89C類別情況下最下錯誤率2.2基于最小錯誤率的貝葉斯決策90小結基于最小錯誤率的貝葉斯決策規則:貝葉斯公式:2.2基于最小錯誤率的貝葉斯決策第二章貝葉斯決策理論2.1引言2.2基于最小錯誤率的貝葉斯決策2.3基于最小風險的貝葉斯決策2.4分類器、判別函數及決策面2.5正態分布下的統計決策92例子1:鱸魚和桂魚的出售Seabass:鱸魚Salmon:鮭魚2.3基于最小風險的貝葉斯決策93例子2:良性和惡性腫瘤的診斷2.3基于最小風險的貝葉斯決策94主要思想:上述最小錯誤率決策中,使錯誤率達到最小是重要的。但實際上,有時候需要考慮一個比錯誤率更廣泛的概念—風險,而風險又是和損失緊密相連的。我們對樣本的分類不僅要考慮到盡可能作出正確的判斷,而且還要考慮到作出錯誤判斷時會帶來什么后果。最小風險貝葉斯決策正是考慮各種錯誤造成損失不同而提出的一種決策規則。2.3基于最小風險的貝葉斯決策(3)決策/行動指將模式x判定為ωi或者是拒判。決策空間是由a個決策組成(4)損失函數為表示當樣本x真實狀態為ωj而所采取的決策為
時所帶來的損失。95x是d維隨機向量(2)狀態空間Ω由c個自然狀態(c類)組成:
2.3基于最小風險的貝葉斯決策96條件風險:由于引入了“損失”的概念,在考慮錯判所造成的損失時,就不能只根據后驗概率的大小來做決策,而必須考慮所采取的決策是否使損失最小。對于給定的x,如果采取決策αi
,從決策表可見,λ可以在c個λ(αi,ωj),j=1,2,…,c值中任取一個,其相應概率為P(ωj|x)。因此在采取決策αi情況下的條件期望損失(也稱為條件風險)R(αi|x)為:2.3基于最小風險的貝葉斯決策期望風險:對于x的不同觀察值,采取決策αi時,其條件風險大小是不同的。所以究竟采取哪一種決策將隨x的取值而定。這樣,決策α可以看成隨機向量x的函數,記為α(x)。可以定義期望風險Rexp為:期望風險反映對整個空間上所有x的取值采取相應的決策α(x)所帶來的平均風險。2.3基于最小風險的貝葉斯決策98決策規則:在考慮錯判帶來的損失時,總是希望損失最小。如果在采取每一個決策或行動時,都使其條件風險最小,則對所有的x作出決策時,其期望風險也必然最小。這就是最小風險貝葉斯決策。最小風險貝葉斯決策規則為:2.3基于最小風險的貝葉斯決策992.3基于最小風險的貝葉斯決策100舉例例:在某個局部地區細胞識別中正常(
1)和異常(
2)兩類的先驗概率為:P(ω1)=0.9,P(ω2)=0.1,滿足:對于未知細胞x,利用最小風險貝葉斯決策和最小錯誤率貝葉斯決策,問該細胞屬于正常細胞還是異常細胞?決策狀態ω1ω2α106α210P(x/ω1)=0.2,
P(x/ω2)=0.42.3基于最小風險的貝葉斯決策101舉例例:在某個局部地區細胞識別中正常(
1)和異常(
2)兩類的先驗概率為:P(ω1)=0.9,P(ω2)=0.1,滿足:對于未知細胞x,利用最小風險貝葉斯決策和最小錯誤率貝葉斯決策,問該細胞屬于正常細胞還是異常細胞?決策狀態ω1ω2α106α210P(x/ω1)=0.2,
P(x/ω2)=0.4解:計算出后驗概率2.3基于最小風險的貝葉斯決策102舉例因為,決策為ω2,即判別待識別細胞為異常細胞。利用基于最小錯誤率的準則,判定為ω1,這里損失函數起了決定性作用。各種錯誤造成的損失不同,正常細胞判定為異常細胞的損失遠大于異常判定為正常的損失。
計算條件風險:分析:最小風險決策必須要有合適的損失函數λ,實際中要列出合適的決策表很不容易,往往要根據所研究的具體問題,分析錯誤決策造成損失的嚴重程度,與有關專家共同商討來確定,才能做出更有效的決策。2.3基于最小風險的貝葉斯決策103兩分類問題下的最小風險準則決策行動:
1
:對應于類別判別
1;
2:對應于類別判別
2。損失:表示當實際類別為
j時誤判為
i
所引起的損失。條件風險(條件期望損失):最小風險決策規則:如果,則根據決策行動
1
,判決類別
1。2.3基于最小風險的貝葉斯決策104似然比形式
等價于:與x無關,對于某個問題,是個可以事先計算的常量。
似然比大于某個閾值,則采取行動決策
1(判決
1);否則為:
22.3基于最小風險的貝葉斯決策105
兩分類問題下的最小風險準則在兩類問題中,若有,決策規則變為2.3基于最小風險的貝葉斯決策106
多類問題下的最小風險準則在c個類別的問題中,如果損失函數為“0-1”損失函數:“0-1”損失函數:1)對于c類問題只有c個決策,2)實際類別正確判定為第j類時,損失為0。3)實際類別誤判為第類時,損失均為1。2.3基于最小風險的貝葉斯決策107“0-1”
損失函數下的最小風險準則最小錯誤率貝葉斯決策是在0-1損失函數條件下的最小風險貝葉斯決策,最小錯誤率貝葉斯決策是最小風險貝葉斯決策的特例。2.3基于最小風險的貝葉斯決策第二章貝葉斯決策理論2.1引言2.2基于最小錯誤率的貝葉斯決策2.3基于最小風險的貝葉斯決策2.4分類器、判別函數及決策面2.5正態分布下的統計決策判別函數(DiscriminantFunction):用于表示決策規則的某些函數gi(x)稱為判別函數。每個類別對應一個判別函數,。判別函數與決策面方程密切相關,且都由相應的決策規則所確定。表達同樣的判決規則可能采用不同的判別函數,只要滿足如下條件:例如:
gi(x)kgi(x),k為正常數
gi(x)gi(x)+k,k為任意常數
gi(x)ln(gi(x))用f(gi(x))替換gi(x),其中f(*)為單調遞增函數2.4分類器、判別函數及決策面決策面(DecisionSurface):對于c類分類問題,按照決策規則可以把d維特征空間分成c個決策域,將劃分決策域的邊界面稱為決策面,在數學上用解析形式可以表示成決策面方程。
判決區域Ri是特征空間中的一個子空間,判決規則將所有落入Ri的樣本x分類為類別ωi;判決邊界是特征空間中劃分判決區域的(超)平面;在判決邊界上,通常有兩類或多類的判別函數值相等。2.4分類器、判別函數及決策面2.4分類器、判別函數及決策面分類器設計(Classifier):分類器設計就是設計判別函數,求出判定面方程g(x)分類器最常用的表述方式為判別函數:每個類別對應一個判別函數。基于判別函數的判決:如果:,則屬于決策面方程:基于最小錯誤率的判決函數基于最小風險的判決函數2.4分類器、判別函數及決策面兩分類下的判別函數特殊的,對于兩分類問題,也可以只用一個判別函數
令:判決規則例如:決策面:如果:則模式為否則為2.4分類器、判別函數及決策面114兩分類下的判別函數2.4分類器、判別函數及決策面例子求:利用最小錯誤率和最小風險決策分別寫出判別函數和決策面方程。2.4分類器、判別函數及決策面116例子求:利用最小錯誤率和最小風險決策分別寫出判別函數和決策面方程。利用最小錯誤率決策,其對應的判別函數為:決策面方程為:利用最小風險決策,其對應的判別函數為:決策面方程為:2.4分類器、判別函數及決策面117多分類下的判別函數判決函數:決策面:則模式為:2.4分類器、判別函數及決策面118多分類下的判別函數分類器設計:它的功能是先計算出c個判別函數gi,再從中選出對應于判別函數為最大值的類作為決策結果。2.4分類器、判別函數及決策面119判別函數、決策面2.4分類器、判別函數及決策面判別函數,決策面2.4分類器、判別函數及決策面第二章貝葉斯決策理論2.1引言2.2基于最小錯誤率的貝葉斯決策2.3基于最小風險的貝葉斯決策2.4分類器、判別函數及決策面2.5正態分布下的統計決策2.5正態分布下的統計決策為什么研究正態分布?物理上的合理性:較符合很多實際情況,觀測值通常是很多種因素共同作用的結果,根據中心極限定理(這組定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變量累積分布函數逐點收斂到正態分布的積累分布函數的條件),服從正態分布。數學上比較簡單:參數個數少單變量正態分布多元正態分布123單變量正態分布
2.5正態分布下的統計決策多元正態分布函數期望(均值向量)協方差矩陣(對稱非負定)2.5正態分布下的統計決策多變量正態分布
二次型xT∑x≥0●協方差矩陣總是對稱陣,協方差矩陣為
的方差就是對角線上的元素非對角線上的元素就是和的協方差。2.5正態分布下的統計決策●協方差矩陣總是非負定陣。●對于任意隨機向量x,xT∑x是∑的二次型。如果對x≠0的一切x
有
xT∑x≥0都成立,則稱∑為非負定陣。●若xT∑x>0,則∑為正定陣。●對于正定矩陣,各階主子式非零(包括|∑|≠0)。多元正態分布的性質參數個數:d+d(d+1)/2
均值向量:d個參數協方差矩陣:對稱的d維矩陣,d(d+1)/2個參數等密度點的軌跡為一超橢球面要使密度p(x)值不變,需指數項為常數,即:超橢球面2.5正態分布下的統計決策多元正態分布的性質馬氏距離:與歐式距離:馬氏距離考慮數據各個維度間的相關性,x到的馬氏距離為常數時,所組成的超橢球面為等密度點。2.5正態分布下的統計決策2.多元正態分布的性質⑴參數μ和∑對分布的決定性⑵等密度點的軌跡為一超橢球面⑶不相關性等價于獨立性⑷邊緣分布和條件分布的正態性⑸線性變換的正態性⑹線性組合的正態性⑴參數μ和∑對分布的決定性多元正態分布被均值向量μ和協方差矩陣∑所完全確定。均值向量μ由d個分量組成;協方差矩陣∑由于其對稱性故其獨立元素有p(x)~N(μ,∑)多元正態分布概率密度函數常記為⑵等密度點的軌跡為一超橢球面從正態分布總體中抽取的樣本大部分落在由μ和∑所確定的一個區域里。從一個以均值μ為中心的云團內的二維高斯分布中取出的樣本。橢圓顯示了等概率密度的高斯分布軌跡。■當指數項為常數時,密度p(x)值不變,因此等密度點應是此式的指數項為常數的點,即應滿足■
證明上式的解是一個超橢球面,且它的主軸方向由∑陣的特征向量所決定,主軸的長度與相應的協方差矩陣∑的本征值成正比。在數理統計中上式所表示的數量:為x到μ的Mahalanobis距離的平方。所以等密度點軌跡是x到μ的Mahalanobis距離為常數的超橢球面。這個超橢球體大小是樣本對于均值向量的離散度度量。可以證明對應于Mahalanobis距離為超橢球的體積是其中Vd是d維單位超球體的體積。⑶不相關性等價于獨立性不相關與獨立的定義:若E{xi
xj}=E{xi}·E{xj}則定義隨機變量xi和xj是不相關的。若p(xi,xj)=
p(xi)p(xj)則定義隨機變量xi和xj是獨立的。
■一般情況下相關與獨立的關系獨立性是比不相關性更強的條件,獨立性要求
p(xi,xj)=p(xi)p(xj)對于xi和xj都成立。不相關性是兩個隨機變量的積的期望等于兩個隨機變量的期望的積,它反映了xi與xj總體的性質。若xi和xj相互獨立,則它們之間一定不相關;反之則不一定成立。■多元正態分布情況對多元正態分布的任意兩個分量xi和xj而言,若xi與xj互不相關,則它們之間一定獨立。在正態分布中不相關性等價于獨立性。(證明見P27)推論:如果多元正態隨機向量的協方差陣是對角陣,則x的分量是相互獨立的正態分布隨機變量。⑷邊緣分布和條件分布的正態性多元正態分布的邊緣分布和條件分布仍然是正態分布。二元正態分布協方差矩陣∑及其逆矩陣∑-1為根據邊緣分布定義其中由于所以x1的邊緣分布
就是說邊緣分布p(x1)服從以均值為方差為的正態分布。
同理可以推出x2的邊緣分布為對于給定x1的條件下x2的分布,有定義p(x2|x1)=p(x1,x2)/p(x1)同理可以寫出給定x2條件下x1的分布:⑸線性變換的正態性若對x用線性變換矩陣A(A是非奇異(|A|≠0)的)作線性變換,y
=Ax則y服從以均值向量為Aμ,協方差矩陣為A∑AT的多元正態分布。即p(y)~N(Aμ,A∑AT)⑹線性組合的正態性若x為多元正態隨機向量,則線性組合是一維的正態隨機變量,則y服從:其中是與x同維的向量。根據最小錯誤率貝葉斯判別函數,在多元正態概型(p(x|ωi)~N(μi,∑i),i=1,…,c)下就可以立即寫出其相應的表達式。判別函數為:決策面方程為:
即
(1)2.5正態分布下的統計決策情況一:各類協方差陣相等,且每類各特征獨立,方差相等(對角矩陣)情況二:各類協方差陣相等情況三:各類協方差陣不相等
任意的2.5正態分布下的統計決策情況一:將代入得到決策函數展開決策函數其中,二次項與i無關2.5正態分布下的統計決策正交因此,等價的判決函數為:其中:決策面可以寫成:其中:過與的超平面此時,寫成了一個線性判別函數的形式。2.5正態分布下的統計決策當,當,向先驗概率小的方向偏移。位于兩中心的中點;在先驗概率相等的情況下,最優判決的規則為:為將某特征向量x歸類,通過測量每一x到c個均值向量中心的每一個歐氏距離,并將x歸為離它最近的那一類。這樣的分類器稱為“最小距離分類器”。2.5正態分布下的統計決策情況一:最小距離分類器上述結果表示在二維特征空間里,如下圖所示:先驗概率大,樣本分布多,遠離先驗概率大的區域。向先驗概率兩類判決面與垂直,的中點時其交點為為時較小類型的均值點偏移。2.5正態分布下的統計決策情況一:最小距離分類器最小距離分類器判決邊界是d-1維超平面,垂直于兩類中心的連線2.5正態分布下的統計決策各類的協方差矩陣相等,在幾何上,相當于各類樣本集中在以該類均值為中心的同樣大小和形狀的超橢球內。情況二:
決策函數不變,與i無關:2.5正態分布下的統計決策一個特例:當時,各樣本先驗概率相等。其中:為x到均值點的“馬氏距離”(Mahalanobis)的平方。進一步簡化:
對于每類樣本x,只要計算出x到每類的均值點μi的馬氏距離平方,最后把x歸于最小的類別。2.5正態分布下的統計決策一般地,決策函數展開決策函數對所有的i是相等的,則其中:2.5正態分布下的統計決策正交決策面可以寫成:其中:過與的超平面由于并非沿著方向,因此分界面并非與均值間的連線垂直正交。2.5正態分布下的統計決策當各類先驗概率不相等時,不在的中點上,而是偏向先驗概率較小的均值點。上述結果表示在二維特征空間里,如下圖所示:
當各類先驗概率相等時,判決面與的交點2.5正態分布下的統計決策時決策面向先驗概率小的方向偏移2.5正態分布下的統計決策情況三:任意的去掉與i無關的項:可以寫為:其中二次項,一次項系數和常數項分別為:由于:(二次型)2.5正態分布下的統計決策156判別函數gi(x)表示為x的二次型。若決策域Ri與Rj相鄰,則決策面應滿足
gi(x)-gj(x)=0即xT(Wi-Wj)x+(wi-wj)Tx+wi0-wj0=0由上式所決定的決策面為超二次曲面,隨著∑i,μi,P(ωi)的不同而呈現為某種超二次曲面,即超球面、超橢球面、超拋物面、超雙曲面或超平面。2.5正態分布下的統計決策各類協方差不同,決策面為超二次曲面。上述結果表示在二維特征空間里,如下圖所示:2.5正態分布下的統計決策第三章線性和非線性判別分析第三章線性和非線性判別分析3.1Fisher線性判別3.2感知準則函數3.3廣義線性判別分析3.4k近鄰3.5決策樹第三章線性和非線性判別分析3.1Fisher線性判別3.2感知準則函數3.3廣義線性判別分析3.4k近鄰3.5決策樹161貝葉斯估計:先驗概率和類條件概率密度已知,通過貝葉斯公式,來求解后驗概率的問題。實際問題中,類條件概率密度可能并不知道,這種情況下,可以采用非參數估計——當樣本比較充足的時候,估計類條件概率密度的方法。但實際中,有時候并沒有充分的樣本,同時存在樣本維數比較高,這種情況下,可能會使類條件概率密度估計不準確,我們就采用另一種方法。線性判別函數:我們直接假設判別函數,我們用樣本估計判別函數的參數,這樣就省去了估計類條件概率。在這一章之后,都采用這種方式。我們直接估計決策面或判別函數。這種情況下,最簡單的是假設判別函數是線性函數。決策面是超平面。3.1Fisher線性判別162假設判別函數是線性的時候,利用樣本用什么準則來求解這個判別函數的參數?當判別函數的參數有了,這個判別函數就確定了,這樣決策面也就確定了。如果假設判別函數為線性函數,包含參數w和w0。當準則函數不同,求解出的參數就存在不同。貝葉斯決策中,最小錯誤率和最小風險就是準則函數,不同的準則最終判別函數存在不同。貝葉斯分類器,它使得錯誤率或風險達到最小,是所有分類器中的最優分類器。而其他準則函數下得到的分類器稱為次優分類器。后續章節中介紹的準則函數,求出的是給定準則下的最優解。求得的最優解并不是這個問題的最優解。既然是次優解,為什么去研究?因為在樣本有限情況下,簡單容易實現,計算代價,存儲量,求解速度快。所以,線性判別函數方法廣泛使用。3.1Fisher線性判別1633.1Fisher線性判別164方程g(x)=0定義了一個決策面,把歸于不同類的點分割開來,當g(x)為線性函數時,這個決策面便是超平面。3.1Fisher線性判別165設計線性分類器的步驟3.1Fisher線性判別166Fisher線性判別出發點:—應用統計方法解決模式識別問題時,一再碰到的問題之一就是維數問題。—在低維空間里解析上或計算上行得通的方法,在高維空間里往往行不通。—降低維數有時就會成為處理實際問題的關鍵。問題描述:對兩分類問題,考慮把d維空間的樣本投影到一條直線上,形成一維空間,即把維數壓縮到一維,同時保持較好的分類性能。3.1Fisher線性判別引言167如何根據實際數據找到一條最好的、最易于分類的投影方向,這就是Fisher判別方法所要解決的基本問題。(1)降低維數,降低計算復雜度;(2)易于分類的;3.1Fisher線性判別168假設有一集合D包含m個n維樣本{x1,x2,…,xm}
第一類樣本集合記為D1,規模為N1第二類樣本集合記為D2,規模為N2若對xi的分量做線性組合可得標量:yi
=wTxi,i=1,2,…,m這樣便得到m個一維樣本yi組成的集合,并可分為兩個子集D'1和D'2。從d維空間到一維空間的一般數學變換方法—w的值是無關緊要的,它僅使x乘上一個比例因子,重要的是選擇w的方向。它將影響樣本投影后的可分離程度。—上述尋找最佳投影方向的問題,在數學上就是尋找最好的變換向量w*的問題。3.1Fisher線性判別Fisher準則函數基本思想169最佳投影方向的評價依據:
使兩類樣本在該軸上投影之間的距離盡可能遠,而每一類樣本的投影盡可能緊湊。如何度量?評價標準—類內離散度矩陣,類間離散度矩陣x1x2w1H:g=0w23.1Fisher線性判別170
在n維X空間(1)各類樣本的均值向量:(2)樣本類內離散度矩陣Si和總樣本類內離散度矩陣SwFisher準則函數中的基本參量其中Sw是對稱半正定矩陣,而且當m>n時通常是非奇異的。(3)樣本類間離散度矩陣Sb其中Sb是對稱半正定矩陣。3.1Fisher線性判別171
在一維Y空間(1)各類樣本的均值:
(2)樣本類內離散度
和總樣本類內離散度Fisher準則函數中的基本參量(3)樣本類間離散度3.1Fisher線性判別172
目標:投影后,在一維Y空間中各類樣本盡可能分得開些,即使原樣本向量在該方向上的投影能兼顧類間分布盡可能分開,類內樣本投影盡可能密集的要求.Fisher準則函數3.1Fisher線性判別173
目標:投影后,在一維Y空間中各類樣本盡可能分得開些,即使原樣本向量在該方向上的投影能兼顧類間分布盡可能分開,類內樣本投影盡可能密集的要求.Fisher準則函數:Fisher最佳投影方向的求解:不同類的投影點盡量分開同一類的投影點盡量靠近Fisher準則函數3.1Fisher線性判別174Fisher準則函數由各類樣本均值可推出:投影樣本均值之差可以展開為:將J(w)變成w的顯函數3.1Fisher線性判別175由類內散布矩陣可推出:于是有:Fisher準則函數準則函數可以寫為:3.1Fisher線性判別176要求使J(w)最大的w,可以采用Lagrange乘子法求解。假設分母等于非零常數,即:定義Lagrange函數為:最佳變換向量w*的求取
矩陣/向量求導法則3.1Fisher線性判別177要求使J(w)最大的w,可以采用Lagrange乘子法求解。假設分母等于非零常數,即:定義Lagrange函數為:對w求偏導數,令偏導數為0:即:標量R最佳變換向量w*的求取
3.1Fisher線性判別178由于w的模對問題本身無關緊要,因此降維:對樣本集合作線性變換w*Tx,得到n個樣本投影后
的樣本值y1,y2,……,ynFisher線性判別分析3.1Fisher線性判別179一維空間的分類面是一個點將兩類分開即是確定一個閾值分類規則:Fisher線性分類3.1Fisher線性判別180例:兩組訓練數據D1和D2D1=[-0.4,0.58,0.089;-0.31,0.27,-0.04;-0.38,0.055,-0.035;-0.15,0.53,0.011;-0.35,0.47,0.034;0.17,0.69,0.1;-0.011,0.55,-0.18;-0.27,0.61,0.12;-0.065,0.49,0.0012;-0.12,0.054,-0.063]D2=[0.83,1.6,-0.014;1.1,1.6,0.48;-0.44,-0.41,0.32;0.047,-0.45,1.4;0.28,0.35,3.1;-0.39,-0.48,0.11;0.34,-0.079,0.14;-0.3,-0.22,2.2;1.1,1.2,-0.46;0.18,-0.11,-0.49]例題3.1Fisher線性判別(1)求取兩組訓練數據D1和D2的均值向量
和由公式:得:例題3.1Fisher線性判別(2)然后求取兩組訓練數據D1和D2的類內散度矩陣Si和總樣本類內離散度矩陣Sw。由公式:得:例題3.1Fisher線性判別(3)求取最佳變換向量w*
由公式:得投影方向(4)求閾值由公式:得例題3.1Fisher線性判別(5)將兩組訓練數據D1和D2作線性變換,得到20個樣本投影后的樣本值兩組數據投影后的樣本值分別為:例題3.1Fisher線性判別185訓練效果圖:例題3.1Fisher線性判別測試數據和
:計算投影變換和:由:得:判別準則:例題3.1Fisher線性判別1871.Fisher辨別分析要求:在UCI數據集上的Iris和sonar數據上驗證算法的有效性;Iris數據3類,4維,150個數據;Sonar數據2類,60維,208個樣本;訓練和測試樣本有三種方式進行劃分:(三選一)1)將數據隨機分訓練和測試,多次平均求結果2)k折交叉驗證3)留1法仿真結果+報告。第一次大作業3.1Fisher線性判別第三章線性和非線性判別分析3.1Fisher線性判別3.2感知準則函數3.3廣義線性判別分析3.4k近鄰3.5決策樹幾個基本概念線性可分樣本的規范化解向量和解區對解區的限制3.2感知準則函數線性可分性假設樣本集,為樣本個數m,為n維向量,其中包含兩類和。如果存在一個向量,滿足如下條件,則稱樣本集是線性可分的,反之是線性不可分的。190幾個基本概念3.2感知準則函數樣本的規范化對于線性可分的樣本集,若令則樣本集線性可分的條件可改寫為。上述過程就被稱為樣本的規范化。被稱為規范化增廣樣本向量,后續介紹中,我們簡化記為。191幾個基本概念3.2感知準則函數解向量和解區對于線性可分的一組樣本(規范化增廣樣本向量),若存在一個權向量滿足則稱為一個解向量,在權值空間中所有解向量組成的區域稱作為解區。192幾個基本概念3.2感知準則函數對解區的限制由于解向量不唯一,我們可以通過加入額外的限制得到更好的選擇。一般認為,越靠近解區中間的解向量,似乎越能對新的樣本正確分類。因此,我們可以選找一個單位長度的解向量使之最大化樣本到分界面的距離,也可以引用一個余量
,尋找對所有樣本滿足的最小長度的向量。新的解區位于原解區之中,而且它的邊界到原解區邊界的距離為。實際上,只要解向量嚴格位于解區之中都能滿足要求,這里引入余量主要是為了避免求解權向量的算法收斂到解區邊界的某點上。193幾個基本概念3.2感知準則函數194幾個基本概念解向量和解區的兩維示意圖解區里面的向量叫解向量;讓它線性可分的解不唯一;準則不同,落在這個解區中的解不同;但準則確定,解一般是唯一的。3.2感知準則函數感知準則出發點一旦判別函數的形式確定下來,不管它是線性的還是非線性的,剩下的問題就是如何確定它的系數。在模式識別中,系數確定的一個主要方法就是通過對已知樣本的訓練和學習來得到。感知器算法就是通過訓練樣本模式的迭代和學習,產生線性(或廣義線性)可分的模式判別函數。感知準則函數,是人工神經網絡的雛形,最早的人工神經網絡就是感知器神經網絡。感知器準則求解過程,線性判別函數形式一但確定,通過樣本不斷試錯糾正迭代來求解更新參數w和w0的過程。給定一個w和w0的初始值,來一個樣本,如果這個參數結果不好,就進行修正,如果結果好,就保留,不斷這樣迭代,等所有樣本都可以正確劃分,保留這時的參數,就是最終要求解的參數。3.2感知準則函數感知器算法基本思想采用感知器算法(PerceptionApproach)能通過對訓練模式樣本集的“學習”得到判別函數的系數說明這里采用的算法不需要對各類別中模式的統計性質做任何假設,因此稱為確定性的方法。3.2感知準則函數對于權向量w,如果某個樣本被錯誤分類,。我們可以用對所有錯分樣本的求和來表示對錯分樣本的懲罰,定義感知器準則函數:當且僅當函數取得最小值0時,求得最優的w。可以用梯度下降法進行求解。3.2感知準則函數樣本線性可分滿足:其中,梯度下降算法3.2感知準則函數梯度下降算法梯度是一個向量,它的最重要性質就是指出了函數f在其自變量y增加時最大增長率的方向。負梯度指出f的最陡下降方向利用這個性質,可以設計一個迭代方案來尋找函數的最小值3.2感知準則函數討論若正確地選擇了準則函數J(w,x),則當權向量w是一個解時,J達到極小值(J的梯度為零)。為了使權向量能較快地收斂于一個使函數J極小的解,C值的選擇是很重要的。若C值太小,則收斂太慢;若C值太大,則搜索可能過頭,引起發散。梯度下降算法3.2感知準則函數3.2感知準則函數感知器算法3.2感知準則函數感知器算法感知器算法實質上是一種賞罰過程對正確分類的模式則“賞”,實際上是“不罰”,即權向量不變。對錯誤分類的模式則“罰”,使w(k)加上一個正比于Xk的分量。當用全部模式樣本訓練過一輪以后,只要有一個模式是判別錯誤的,則需要進行下一輪迭代,即用全部模式樣本再訓練一次。如此不斷反復直到全部模式樣本進行訓練都能得到正確的分類結果為止。3.2感知準則函數感知器算法的收斂性只要模式類別是線性可分的,就可以在有限的迭代步數里求出權向量。如果有一個樣本線性不可分,那么感知器算法就會一直迭代,無法收斂。這是它的局限性。3.2感知準則函數感知器算法采用感知器算法的多類模式的分類討論這個分類算法都是通過訓練樣本來確定判別函數的系數,并沒有考慮到測試樣本,但一個分類器的性能最終用未知的測試樣本來檢驗。要使一個分類器設計完善,必須采用有代表性的正確的訓練數據,它能夠合理反映模式數據的整體。如果訓練樣本中有噪聲樣本,就會影響分類的性能。局限性在于對噪聲數據敏感,解不夠魯棒。3.2感知準則函數采用感知器算法的多類模式的分類討論要獲得一個判別性能好的線性分類器,究竟需要多少訓練樣本?直觀上是越多越好,但實際上能收集到的樣本數目會受到客觀條件的限制;過多的訓練樣本在訓練階段會使計算機需要較長的運算時間;一般來說,合適的樣本數目可如下估計: 若k是模式的維數,令C=2(k+1),則通常選用的訓練樣本數目約為C的10~20倍。3.2感知準則函數207三種梯度下降優化框架批量梯度下降法(BatchGradientDescent,BGD)每次使用全部的訓練樣本來更新模型參數/學習;優點:每次更新都會朝著正確的方向進行,最后能夠保證收斂于極值點;缺點:每次學習時間過長,并且如果訓練集很大以至于需要消耗大量的內存,不能進行在線模型參數更新。3.2感知準則函數208隨機梯度下降法(StochasticGradientDescent,SGD)隨機梯度下降算法每次從訓練集中隨機選擇一個樣本來進行學習;優點:每次只隨機選擇一個樣本來更新模型參數,因此每次的學習是非常快速的,并且可以進行在線更新;SGD波動帶來的好處,在類似盆地區域,即很多局部極小值點,那么這個波動的特點可能會使得優化的方向從當前的局部極小值點調到另一個更好的局限極小值點,這樣便可能對于非凹函數,最終收斂于一個較好的局部極值點,甚至全局極值點。缺點:每次更新可能并不會按照正確的方向進行,因此會帶來優化波動,使得迭代次數增多,即收斂速度變慢。3.2感知準則函數209小批量梯度下降法(Mini-batchGradientDescent,SGD)小批量梯度下降綜合了batch梯度下降與stochastic梯度下降,在每次更新速度與更新次數中間一個平衡,其每次更新從訓練集中隨機選擇k(k<m)個樣本進行學習;優點:相對于隨機梯度下降,Mini-batch梯度下降降低了收斂波動性,即降低了參數更新的方差,使得更新更加穩定;相對于批量梯度下降,其提高了每次學習的速度;MBGD不用擔心內存瓶頸從而可以利用矩陣運算進行高效計算;3.2感知準則函數第三章線性和非線性判別分析3.1Fisher線性判別3.2感知準則函數3.3廣義線性判別分析3.4k近鄰3.5決策樹211對于非線性問題,線性判別函數難以正確分類,而且設計非線性判別函數比較復雜。此時,常用的方法是將原特征空間映射到一個高維空間,將低維空間中的非線性問題轉化為高維空間中的線性問題,從而降低模式分類的難度。3.3廣義線性判別分析例:如右圖,212對于非線性問題,線性判別函數難以正確分類,而且設計非線性判別函數比較復雜。此時,常用的方法是將原特征空間映射到一個高維空間,將低維空間中的非線性問題轉化為高維空間中的線性問題,從而降低模式分類的難度。3.3廣義線性判別分析例:如右圖,二次判別函數可以表達為2133.3廣義線性判別分析廣義線性判別函數這樣一個非線性判別函數通過映射,變換成線性判別函數。原始的特征空間是非線性,但通過某種映射,在新的空間能保證是線性函數,原始空間的判別函數為廣義線性判
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒元旦特輯快樂的開始
- 護理實操演練
- 房地產項目風險管理策略
- 保險公司電視策劃方案
- 保險公司龍年年會活動方案
- 保險春節活動策劃方案
- 保險進社區活動方案
- 信封寫信活動方案
- 信息評比活動方案
- 信訪快板活動方案
- 護理心理學試題及答案解讀
- 2025年高考物理壓軸題專項訓練:動量定理及碰撞類動量守恒定律的應用(解析版)
- 2025年西藥藥劑員(中級)職業技能鑒定考試題庫(含答案)
- 5.2做自強不息的中國人(教學設計)2024-2025學年七年級道德與法治下冊(統編版2024)
- 2025 年中職高考對口升學(幼兒教育學)真題試卷附參考答案
- 2025承諾合同(個人承諾)
- 2025年農藝工(高級)職業技能鑒定參考試題庫(含答案)
- 污染源法規培訓
- 醫療數據化下的醫生職業轉型路徑
- (四調)武漢市2025屆高中畢業生四月調研考試 英語試卷(含答案)
- GB/T 45472-2025架空和綜合管廊用預制保溫管道
評論
0/150
提交評論