




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章
機器感知及其應用目錄3.1機器感知基礎3.2視覺感知3.3聽覺感知3.4機器感知應用3.1機器感知基礎3.1.1機器感知的概念
人類通過“擬人化”的方式使得機器具備了視覺、聽覺、觸覺、嗅覺和味覺等感知能力。由于敏感域、敏感度和分辨力等突破了人類感官局限,機器感知能夠幫助人類獲得了超越自身感官的感知能力。感知是指獲取、選擇、組織和解釋感官所獲得的信息的過程,可分為感覺過程和知覺過程。機器感知是指機器以人造感官系統與外部世界聯系,并對外部世界運動狀態及其變化方式進行感知。通俗地講,機器感知就是要讓機器擁有人性化的感知能力,如視覺、觸覺、聽覺、味覺、嗅覺等。即機器通過由硬件與軟件組成的信息感知與處理系統,對外界刺激做出具有一定敏感度和保真度的響應,從而能夠得到類似于感官所能得到的結果。
任何模擬生物感知的技術,都可以稱之為機器感知。
機器感知在具體的“看”、“聽”、“觸”、“嗅”、“味”等方面的能力,可能超越人類自身感官的感知能力。例如人眼對紅外光不可見,而配置有紅外傳感器的機器卻能看到紅外光線。機器感知是人類感官感知能力的延伸與拓展,使得人類能夠“看”得更遠、更清,“聽”得更多、更豐富、更有層次感。借助機器感知,人類對自我與外部世界的認知和理解能力變得更加強大,對事物本質的洞察將會更加透徹、更加深遠。3.1機器感知基礎3.1.2機器感知的物理原理1.機器視覺
機器視覺是指由計算機或圖像處理設備來模擬動物的視覺,從而得到類似于動物視覺系統所獲取的信息。但與動物視覺相比,機器視覺能以動物視覺無法比擬的速度和準確性執行視覺感知任務。機器視覺的基本原理:在光源(例如可見光、紅外、紫外等頻段的電磁波)的照射下,使用相機將感興趣的場景和目標轉換成圖像信號,其中的感光器件(如CCD和CMOS)實現光參量信號到電參量信號的轉化,信號處理單元根據顏色、亮度等電參量在不同像素上的分布,將其轉化成數字信號,圖像處理系統對這些信號進行各種運算來提取圖像中場景和目標的特征信息,如面積、數量、位置、長度、速度等,并借助深度學習等工具,最終實現目標的自動識別與理解。
以圖像的方式對觀測場景或目標做出描述和解釋的行為,在廣義上被認為是機器視覺感知。所以,工作在電磁波其它頻段的微波成像雷達、激光成像雷達,可以被認為是機器視覺感知的新手段。3.1機器感知基礎3.1.2機器感知的物理原理2.機器聽覺
機器聽覺是指機器系統化地處理它們所聽到的聲音,理解聲音中所蘊涵的信息,并根據這些聲音做出適當的反應。與機器視覺感知系統所產生圖像相比,聲音信號本質上是一種需要介質傳播的機械波信號,因此與圖像的產生機理和表示方式有著根本的區別。為實現機器聽覺功能:
首先,機器需要擁有“耳朵”去“聽得到”聲音,即能夠將聲振動參量信號轉化為電參量信號,支撐的技術包含拾音、聲源定位和分離、語音增強、噪聲處理、語音識別、說話人識別;
其次,機器聽覺還需擁有“智能”去“聽得懂”語言,因此需要建立聽覺中樞系統,以便于在復雜多變的環境下能夠運用小樣本數據自主學習,實現對語義和語用信息的理解;
第三,機器聽覺需要具備用語音“表達自己”的能力,也就是“說得出話”,即能夠將電參量信號轉化為聲振動參量信號,需要的支撐技術除了語音合成之外,還需更高層次的機器情感技術去完成“語調”和“情感”的理解與表達。3.1機器感知基礎3.1.2機器感知的物理原理3.機器觸覺
機器觸覺是指機器通過觸摸去感測環境刺激,獲取有關物體屬性(例如形狀、材料、尺寸、紋理等)和外部環境(如壓力、溫度、沖力、振動等)的信息,并提供與動作有關的信息(例如物體定位和滑動檢測)。
機器觸覺基本原理:觸覺傳感器將外部刺激(例如壓力、振動和熱刺激)轉換為傳感元件上的變化,以信號傳導的形式將觸覺信號轉換為電信號,使用嵌入式數據處理單元獲取、調節和處理感知的數據,然后將其傳輸到較高的感知級別以構建感知客體的模型,從而感知交互對象的屬性(例如形狀和材料屬性)。
在感知時,觸摸感可能需要與其它感知方式(例如視覺和聽覺感知)融合在一起,以便機器能夠獲得外界物體更加完整的屬性信息。
機器觸覺在臨床診斷、健康評估、健康監控、虛擬電子、柔性觸摸屏、服務機器人等領域擁有很大的應用潛力。例如,柔性觸覺傳感器不僅能提供外界物體的尺寸、形狀、紋理等特性,還能提供安全和友好的交互體驗,實現類似于人類皮膚的功能,因此它也被稱為電子皮膚。3.1機器感知基礎3.1.2機器感知的物理原理4.機器嗅覺
機器嗅覺是指機器通過敏感的化學傳感器陣列和適當的模式識別算法,實現對氣味的測量與識別,它是一種模擬生物嗅覺工作原理的仿生技術。
機器嗅覺的基本工作原理:氣味分子被機器嗅覺系統中的傳感器陣列吸附,產生電信號,然后對該信號進行加工處理與傳輸,并使用模式識別系統對其做出判別。機器嗅覺系統工作過程與人的嗅覺形成過程相似,相應地由三部分組成,即:氣敏傳感器陣列、信號調理電路、微處理器及模式識別。
氣敏傳感器陣列模擬人鼻內的嗅覺感受器細胞感受氣味信息;信號調理電路對傳感器陣列輸出的信息進行處理;微處理器利用氣味識別算法對多維數據進行分析處理并識別出結果。
機器嗅覺在食品工業、環境監測、醫療衛生、中草藥分類、安防監測、軍事等領域有著廣泛的應用。例如,水果通過呼吸作用進行新陳代謝,在它們的不同生長階段,散發的氣味不同,因此可以通過機器嗅覺來檢測水果的成熟度,從而確定最佳的采摘期。3.1機器感知基礎3.1.2機器感知的物理原理5.機器味覺
機器味覺是指使用傳感器感知和識別目標物的“酸、甜、咸、苦和鮮”等味道信息,針對味覺特性的不同,可以使用人工智能味覺識別系統實現機器味覺感知。機器味覺原理:包括物理法和化學法。
物理法使用聲波型和光學型等傳感器去檢測味質不同的物理參數,如共振頻率、吸附質量、折射率、聲波相變化等,此法更多地應用于溶液的物理味覺常用的化學法包括電位法、伏安法、電流法、阻抗譜法等電化學檢測技術,檢測的是味質的化學信號,即將一般難以測定的化學量直接變換成容易測定的電參數而加以測定。
機器味覺在食品加工、食品銷售、藥品研發、農產品品質檢驗等領域有著廣泛的應用前景。例如,使用石墨烯等材料制作的電子舌頭,可以實現對甜味和鮮味的辨別,在新食品開發時,能代替人類進行味覺測試,幫助食品生產者更準確地調整食品的味道。可使用電子舌對不同品種的蔬菜、水果進行“酸、甜、苦、咸、鮮”分析,辨別其味道上的差異。3.1機器感知基礎3.1.3機器感知的特性與要求根據機器感知概念與基本工作原理可知,機器感知本質上是機器“擬人化”。由于人腦是一個復雜的系統,可以將感知的一切信息聯系在一起,但在現有認知水平下,準確描述感知機制尚無法實現,或許進一步的研究可能會發現其它影響感知的重要因素。本節給出在現有認知水平下的感知特性,這些特征和要求是開發類人機器感知仿生模型的起點。3.1機器感知基礎3.1.3機器感知的特性與要求1.多種感覺方式為了感知外部環境與自身狀態,大腦使用視覺、聽覺、觸覺、嗅覺和味覺中的一種或者數種知覺方式,多種感官信息來源的組合和整合是獲得可靠感知的關鍵。因為,無論是技術上還是生物學上的單個信息處理系統,都沒有足夠強大的功能來確保系統能夠在所有條件下均能正常工作。如果單個模態不足以給出可靠的估計,則可以組合來自多個模態的信息,以相互補充增加信息內容。為了獲得連貫而穩健的感知,必須有效地整合來自不同感官的信息,但由此出現如下問題:
1)盡管不同類型的傳感器可以提供互補的信息,但是它們也可能提供冗余、矛盾、模棱兩可和不確定的信息。
2)對于在感知環境中同時發生的事件,存在著如何正確地將不同的感官信息分配給不同事件的問題。3.1機器感知基礎3.1.3機器感知的特性與要求2.并行分布式信息處理為了連貫且穩健地感知,必須要處理來自各個感官來源的信息。但是,感知系統并非如同一個統一的中央處理單元那樣逐步地處理所有信息。來自不同感官的信息分別被并行處理,隨后再進行融合。機器感知技術模型面臨的挑戰是開發一種架構,該架構允許類似并行分布式處理及將單獨的處理結果融合成一個統一的感知信息。3.跨時間信息整合在感知環境中的對象、事件、場景和情況的過程中,由不同模態提供的單次快拍感官信息,并不總能夠完全滿足確切識別的需求。而且,傳感器信號在時間上的連續性和進程也很重要。隨著時間的流逝,大腦會收集越來越多的有關感知事件的信息,并最終消除感知的歧義。因此,在跨時間信息整合時,一個非常具有吸引力的問題是當環境中同時發生不同的事件時,如何隨時間變化正確地將感官刺激分配給對應的事件。3.1機器感知基礎3.1.3機器感知的特性與要求4.異步信息處理
在大腦中,信息是異步處理的。從物理意義上理解,就意味著信號及其相應的特性在不同的時間點到達。在機器感知中,環境中發生的事件可能不會在絕對相同的時間去觸發不同模態的傳感器,也就是說不同傳感器對相同事件的響應時間可能存在差異。而且,不同傳感器數據的傳輸時間也不盡相同。因此,在智能感知體構建中,怎樣處理異步到達的多模態傳感器的數據是必須面對的問題。5.神經和符號信息處理在人腦中,來自不同模態的知覺信息通過相互作用的神經元進行處理。但是,人類并不是根據動作電位和發射神經細胞來思考,而是根據符號來思考。模擬大腦信息處理面臨的挑戰:如何從通過神經信息處理的感覺刺激到達符號表征,以及符號之間的關聯如何產生新的符號表征。3.1機器感知基礎3.1.3機器感知的特性與要求6.學習和適應力人腦的感知系統在出生時并未完全發育。盡管某些模式需要通過遺傳密碼進行預定義,但是許多與感知有關的概念和相關性只有在生命周期中才能學會。對于機器感知模型而言,極具挑戰性的問題是在系統啟動之前需要預定義哪些內容,可以從示例和經驗中學到什么,以及如何進行這種學習。7.注意力的影響根據集中注意力的假設,在每時每刻,環境所提供的感知信息遠遠超過可以有效處理的感知信息。注意力幫助選擇相關信息,并忽略無關或干擾的信息。與其嘗試同時處理所有對象,不如將處理限制在空間中的某個特定區域的特定對象上。因此,注意力應如何以及在何種程度上與感知相互作用,是機器感知研究領域中的一個非常重要的話題。3.1機器感知基礎3.1.3機器感知的特性與要求8.知識的影響通常需要先驗知識來解釋不明確的感知信息,也即知識會提升感知能力。在某種程度上,人們認為是知覺的東西其實是記憶。機器感知模型的一個基本問題是如何表征知識,知識與感官知覺的相互作用方式以及在何種程度上相互影響。上述這些特性和要求,是機器感知技術研究的起點。因此在機器感知機理研究中必須重點關注以下這些問題:1)異質多模態傳感器信息融合;2)執行并行分布式信息處理;3)跨越時間感官信息綁定;4)評估如何使異步信息處理變得可行;5)從神經到符號信息處理;6)學習數據之間的相關性;7)通過關注點來限制和促進信息處理;8)將知識融入感知過程。3.1機器感知基礎3.1.4多模態機器感知從感知的角度來講,模態是觀測事物的方法或者視角。人類生活在多模態相互交融環境中,視、聽、觸、嗅、味等不同模態形式的感知手段的綜合運用,讓人類更加全面和高效地了解內外部世界。隨著感知理論與技術的不斷發展,機器感知已經走上了由單維度參量感知向多模態感知演進之路。例如,現在的機器感知已經跨越了看得見、看得清的發展階段,正朝著全新的智能感知體邁進,未來會進一步演化成為智能多維的感知體,感知的內容將不限于“看”到物體、“聽”到聲音,還包括“感覺”質地、“聞”到異味、“嘗”到百味,等等。
因此,使用多種異質傳感器從不同模態下觀測,并描述事物(目標、場景等)已成為機器感知的新發展趨勢。
多模態感知可以獲得更加全面準確的信息,增強機器感知的可靠性和容錯性。例如,從可見光攝像機、紅外攝像機到激光雷達、毫米波雷達、超聲波雷達,智能駕駛汽車已經將多模態感知手段融為一體,使得全視角環境的精準感知、狀態評估和智能決策成為現實,出行將樂享駕趣。3.1機器感知基礎3.1.4多模態機器感知在多模態感知與學習問題中,由于不同模態之間具有完全不同的描述形式和復雜的耦合對應關系,因此需要統一地解決關于多模態的感知表示和認知融合的問題。多模態感知與融合就是要通過適當的變換或投影,使得兩個看似完全無關、不同格式的數據樣本,可以相互融合。而且,異構數據的融合往往能取得意想不到的效果。應當注意到,多模態機器感知所采集到的多模態數據具有一些明顯的特點,這為感知信息融合帶來了巨大的挑戰。這些問題包括:
1)“污染”的多模態數據。機器的操作環境可能異常復雜,因此采集的數據通常具有很多噪聲和野值。
2)“動態”的多模態數據。機器是在動態環境下工作,采集的多模態數據必然具有復雜的動態特性。
3)“失配”的多模態數據。機器攜帶的傳感器的工作頻段、工作體制、觀測角度等具有很大差異,導致各個模態之間的數據難以“配對”。3.1機器感知基礎3.1.4多模態機器感知以機器視覺、觸覺感知融合為例進行說明:目前,很多機器人都配備了視覺傳感器,但在實際操作應用中常規的視覺感知技術受到很多限制,例如光照、遮擋等。對于物體很多內在屬性,例如“軟”、“硬”等,則難以通過視覺傳感器感知獲取。與視覺不同,觸覺傳感器可直接測量對象和環境的多種性質特征。同時,觸覺也是人類感知外部環境的一種基本模態。視覺信息與觸覺信息采集的是物體不同部位、不同性質的信息,前者是非接觸式信息,而后者是接觸式信息,因此它們反映的物體特性具有明顯的差異,這也使得視覺信息與觸覺信息具有非常復雜的內在關聯關系。
視覺與觸覺模態信息具有顯著的差異性:一方面,它們的獲取難度不同。通常,視覺模態信息較容易獲取,相比之下觸覺模態信息獲取更加困難。這往往造成兩種模態信息的數據量相差較大。另一方面,由于“所見非所摸”,在采集過程中采集到的視覺信息和觸覺信息往往不是針對同一部位的,具有很弱的“配對特性”。因此,視覺與觸覺信息的融合感知具有極大的挑戰性。3.2視覺感知3.2.1電磁波與視覺感知
視覺的基本原理可以表述為光作用于視覺器官,使其感受細胞興奮,信息經視覺神經系統加工后便產生視覺。借助視覺,人和動物可以感知外界物體的大小、明暗、顏色、動靜,獲得對機體生存具有重要意義的各種信息。據統計分析,至少有80%以上的外界信息經視覺獲得。機器視覺感知,就是用機器代替人眼進行目標和環境感知。感覺器官(人眼)接受外界環境中波長范圍在380~780納米電磁波(即電磁波中的可見光部分)的刺激,是視覺產生的基本條件,視覺感知的示意圖如右圖。典型的機器視覺感知系統包括:光源(可見光)、鏡頭(定焦鏡頭、變倍鏡頭、遠心鏡頭、顯微鏡頭)、相機(包括CCD相機和COMS相機)、圖像處理單元(或圖像捕獲卡)、圖像處理軟件、監視器、通訊/輸入輸出單元等。3.2.1電磁波與視覺感知
電磁波是由同相且互相垂直的電場與磁場在空間中衍生發射的震蕩粒子波,是以波動的形式傳播的電磁場,具有波粒二象性,速度約為m/s。頻率是電磁波的重要特性,按照頻率由低到高分為:無線電波、微波、紅外線、可見光、紫外線、X射線和γ射線等。據統計分析,至少有80%以上的外界信息經視覺獲得。機器視覺感知,就是用機器代替人眼進行目標和環境感知。用不同頻段電磁波“看”目標,獲取的目標信息是不同的。傳感器優點缺點微波/毫米波雷達全天時工作;全天候工作;能穿透植物;大搜索區域;可以獲取距離和圖像數據;可以獲得目標運動速度。中等分辨力;沒有隱蔽性;對干擾敏感。紅外熱成像儀具有良好的空間和頻率分辨力;隱蔽性好。易受雨、霧霾、煙塵等影響;對植物穿透能力差;沒有辦法直接獲得距離信息。激光雷達良好的空間和頻率分辨力;能夠得到目標的距離和反射數據;能夠獲取目標的速度和航跡數據;全天時工作。易受雨、霧霾、煙塵等影響;對植物穿透能力差。可見光相機能夠獲得良好的分辨力;隱蔽性好;圖像容易理解。只能白天工作;易受雨、霧霾、煙塵等影響;無植物穿透能力;沒有距離數據。3.2視覺感知3.2.1電磁波與視覺感知
廣義上,攝像頭可以認為是被動雷達,因此攝像頭、微波雷達、毫米波雷達、太赫茲雷達、激光雷達等對相同場景的觀測,會獲取不一樣的信息,通過這些信息的融合,會獲取更加全面的目標信息,進而對目標特征的描述也將更加接近“客觀事實”。
多種不同頻段電磁波視覺感知技術相融合,獲得的效果見如下表:傳感器1傳感器2效果可見光紅外適用于白天和黑夜毫米波雷達紅外穿透力強,分辨力高紅外微光夜視適用于低照度條件下的探測毫米波雷達可見光穿透力強,目標定位準確合成孔徑雷達紅外遠距離監視、探測、目標搜索能力強3.2視覺感知3.2.2目標檢測視覺感知中的目標檢測,是指利用機器對場景成像結果進行目標屬性(空間位置、幾何形狀與大小等)估計,包含圖像恢復、圖像增強、目標特征提取、圖像分割等內容。在實際應用中,視覺感知的場景可能非常復雜,目標可能存在遮擋、運動、姿態變化,電磁波照射條件可能比較差,氣象環境可能非常惡劣,等等,這些都會嚴重影響目標檢測的性能。具體而言,影響主要體現在以下幾個方面:
1)目標建模受制于目標運動狀態、姿態等因素,特別是目標之間的相互遮擋,會嚴重影響建模的準確性。
2)復雜的觀測場景,眾多的背景目標,使得前景目標與背景之間的區分更加困難。
3)照射環境和氣象環境的變化,加劇了目標檢測的難度。
3.2視覺感知3.2.2目標檢測1.目標檢測框架
視覺目標檢測本質上是判斷圖像或者視頻序列中是否存在感興趣的目標,并從中找到感興趣目標的位置、區域、形狀、類別等屬性。目標檢測是目標識別、跟蹤的前提,檢測結果直接影響視覺感知系統的總體性能。當前,目標檢測主要理論有兩種:
第一種是事先建立背景模型,當待檢測圖像輸入時,檢測出圖像中所存在的“奇異”信息,將其作為感興趣的目標。
第二種是通過特征提取及識別,再對圖像進行分割,從而提取出感興趣的目標。前者適用于背景較為穩定,但目標信息多變的場景;而后者則更適用于背景復雜,或者環境多變的場景。3.2視覺感知3.2.2目標檢測1.目標檢測框架按照背景模型的差異,基于背景建模的目標檢測算法可以分為局部背景建模和全局背景建模兩種目標檢測算法。但在實際中,背景往往復雜多變,容易導致事先建立的背景模型失效,這制約著目標檢測性能。近年來,基于深度學習的目標檢測算法在機器視覺感知領域已經大放異彩。其主要可分為兩大類,即兩階段檢測與一階段檢測算法。
兩階段檢測算法是在區域候選框架的基礎上進行目標檢測的,即它需要先通過啟發式方法或卷積神經網絡(CNN)產生一系列稀疏的區域候選框,然后再對這些候選框進行分類與回歸,此類方法主要包括RCNN、FasterRCNN等。
一階段目標檢測算法通常在不同尺度和長寬比下對圖像進行均勻密集采樣,然后使用多層卷積網絡架構提取目標特征,最后再將其映射至分類器輸出,它可以實現端對端的檢測。
兩階段目標檢測算法通常具有較高的檢測精度,但檢測速度難以滿足實時性要求。一階段目標檢測算法最大的優勢是檢測速度快,可以滿足實時檢測需求,但是檢測精度相對較低。
3.2視覺感知3.2.2目標檢測2.運動目標檢測
運動目標檢測是指在視頻圖像中找到感興趣目標(前景)所在的位置,并把其它區域作為背景,其包含兩個方面的任務:一是判斷視頻中是否存在感興趣的目標;二是將目標提取并顯示出來。運動目標檢測的難點在于如何快速而可靠地從一幀圖像中找到目標。在實際視頻圖像處理中,界定感興趣的運動目標是一件非常困難的事情,特別是在光線漸變、突變的動態背景或者目標偽裝下和存在陰影、鬼影等等復雜場景中,準確地定義感興趣目標并精確地提取出目標是一個非常艱巨的任務,這使得運動目標的檢測與分割變得極具挑戰性。根據機器是否保持靜止,運動檢測分為靜態背景和運動背景兩類。由于大多數視頻監控系統的視覺傳感器固定,下面重點介紹幀間差分法、背景差分法、光流法等靜態背景下運動目標檢測方法。3.2視覺感知3.2.2目標檢測2.運動目標檢測(1)幀間差分法幀間差分法是最簡單和最常用的運動目標檢測和分割方法之一,其基本流程為,
第一步,將相鄰幀圖像對應的像素值相減得到差分圖像;
第二步,對差分圖像進行二值化處理;
第三步,進行閾值判斷,即如果對應像素值變化小于事先確定的閾值時,可以認為此處為背景像素,反之如果圖像區域的像素值變化很大,可以認為這是由于圖像中運動物體引起的,則將這些區域標記為前景像素;
第四步,根據標記的像素區域確定運動目標所在位置。幀間差分法的優缺點也非常明顯,不足在于對環境噪聲敏感,如何選擇適當的閾值是個難題,閾值過低將導致噪聲抑制能力變差,而閾值過高則將忽略圖像中有用的變化信息。3.2視覺感知3.2.2目標檢測2.運動目標檢測(2)背景差分法背景差分算法(也稱為背景相減法)是指將實時場景圖像與背景圖像進行差分去獲取運動目標的方法。背景差分法的主要流程包括預處理、背景建模、前景檢測和后處理等4個步驟。
第一步,預處理。主要是對視頻圖像數據進行空間或時間濾波處理,用以消除機器噪聲和雨雪等瞬時環境噪聲,或者降低圖像大小和幀率。
第二步,背景建模。構建背景圖像或通過構建某種模型來表示背景,該步是背景差分法性能優劣的關鍵。
第三步,前景檢測。也稱為閾值分割,即通過設置合適閾值,進行前景與背景的分割。首先將當前視頻圖像幀與背景模型進行相減得到差值,然后對差值進行閾值判斷,從而檢測出運動區域。
第四步,后處理。后處理主要消除不屬于真實運動目標的像素,以便得到真正的前景運動目標,比如消除小而假的前景像素、重影、陰影和鬼影等。3.2視覺感知3.2.2目標檢測2.運動目標檢測(3)光流法在視頻圖像流中,隨著時間的變化,運動目標的亮度模式會發生變化,這種現象被稱為圖像的光流特性。光流表征著圖像亮度模式的運動,也就是說圖像序列中像素數據的時域變化蘊含著各自像素位置的“運動”信息,因此可根據圖像灰度在時間上的變化來確定目標運動情況。
光流法的基本原理:對圖像中的每一個像素點都賦予一個速度矢量,從而形成圖像的運動場,如果圖像中不存在運動物體,則光流矢量在整個圖像區域是連續變化的;反之當圖像中存在運動物體時,目標和圖像背景之間具有相對運動,運動物體所形成的速度矢量必然和鄰域背景速度矢量存在較大差異,從而可以檢測出運動物體及位置。
光流法的主要優點是即使機器視覺傳感器處在運動狀態下,它也可以檢測出場景中的運動目標,甚至可以檢測到運動目標的局部,所以它能夠得到比較完整的運動信息。大多數的光流計算方法復雜,且計算量大、抗噪性能差,因此,視頻圖像流的光流法實時處理需要特別的硬件支持。3.2視覺感知3.2.3目標識別
目標識別的主要流程包括圖像預處理、圖像分割、特征提取和識別等。1.圖像預處理
圖像預處理是對機器視覺所獲取的圖像目標進行灰度矯正、噪聲濾除、高分辨重建等操作,使得圖像目標中有用的信息更容易被提取。圖像預處理需要對圖像進行平移、旋轉和縮放等幾何規范以及圖像濾波等操作,以確保圖像識別能夠快速、準確進行。
圖像濾波主要目的是在保持圖像特征的狀態下進行噪聲消除,其可分為線性濾波和非線性濾波。
與線性濾波相比,非線性濾波能夠在去噪的同時保護圖像細節,是目前圖像濾波方法中研究的熱點,具有代表性的是卡爾曼濾波和粒子濾波。此外,深度學習工具如超分辨卷積神經網絡(SRCNN)等,不僅可以對圖像進行超分辨重建,也能夠實現對圖像的降噪處理。3.2視覺感知3.2.3目標識別2.圖像分割
圖像分割是指根據圖像的灰度、彩色、紋理、幾何形狀等特征,將圖像劃分成若干個互不相交的區域,并使得這些特征在同一區域內表現出較高的相似性,但在不同區域間表現出明顯的差異性。圖像分割可通過區域分割、邊緣分割等實現。區域分割的目的是從圖像中劃分出感興趣物體的區域。邊緣分割是指通過搜索不同區域之間的邊界來完成圖像的分割。圖像分割的方法有很多種,其中,最常用的分割方法是閾值法,但這種方法適用范圍較小、分割精度較差;能量最小化方法可以不受圖像大小的影響,能產生高穩定性分割的結果,但是其計算效率偏低;基于圖割的圖像分割方法能夠逼近最優解,效率高,但存在不一定收斂的缺點。由于單一圖像分割方法的精度與效率較低,不能滿足高效率、高精度圖像分割的需求,因此將多種方法融合起來進行圖像分割,已經成為機器視覺圖像分割的主要發展方向。3.2視覺感知3.2.3目標識別3.特征提取
特征是一類對象不同于其它類對象的特點或特性。作為機器視覺圖像目標識別的關鍵節點,特征提取對目標識別的精度和速度有著重要的影響。
從復雜的圖像信息中提取有用的特征,對實現機器視覺目標識別具有決定性作用。圖像的特征既包括亮度、邊緣、紋理和色彩等直接可見的特征,也包括直方圖、主成分、局部二進制模式(LocalBinaryPatterns,LBP)等需要通過變換才能獲得的內在特征。根據不同分類方法,可將圖像特征分為多種類型,例如可根據區域大小分為全局特征和局部特征,根據統計特征分為矩特征、輪廓特征及紋理特征等。與全局特征相比,用局部特征在復雜的背景下對圖像目標進行描述非常高效,常用的檢測方法有稀疏選取、密集選取和其它方法選取等,但這三類方法都存在對圖像目標背景依賴性大的問題。因此,采用多種描述子進行機器視覺的圖像目標識別是重要的發展趨勢。3.2視覺感知3.2.3目標識別4.分類器識別
分類器的作用是利用給定的類別、已知的訓練數據來學習分類規則,然后對輸入的未知數據進行分類或預測。邏輯回歸、支持向量機(SupportVectorMachine,SVM)是常用的二值分類器。對于多分類問題,也可以用邏輯回歸或SVM,只不過需要多個二分類來完成多分類,但這樣容易出錯且效率不高,因此最常用的多分類方法是Softmax。進行多分類時:
SVM輸出的是類別的得分值,其大小順序表示所屬類別的排序,得分的絕對值大小沒有特別明顯的物理意義;Softmax輸出的結果是每一類的概率值,此值大小表征屬于該類別的概率。3.2視覺感知3.2.4目標跟蹤
機器視覺目標跟蹤是指根據視覺感知獲得的圖像、回波數據等對目標的位置和運動特性進行分析和預測,是機器視覺的關鍵技術,在安防、生產流水線、輔助駕駛、運動分析、行為分析、人機交互等領域中有著廣泛的應用。
目標跟蹤算法的性能與傳感器狀態、目標本身以及目標所處的環境等因素有關,例如,傳感器是否運動、目標大小是否變化、目標形態是否變化,以及背景雜波特性等都會影響跟蹤的效果。1.基于均值漂移的目標跟蹤算法
均值漂移(MeanShift)算法是一種基于特征的運動目標跟蹤方法,它通過迭代方式實現目標的跟蹤。即先計算出當前點的偏移均值,移動該點到其偏移均值,然后以此為新的起始點,繼續移動,直到滿足一定的條件結束。由于均值漂移算法完全依靠特征空間中的樣本點進行分析,不需要任何的先驗知識,收斂的速度快,近年來被廣泛地應用于目標跟蹤等領域。
均值漂移算法原理簡單、迭代效率高,但迭代搜索區域大小對算法準確性和效率有很大影響。3.2視覺感知3.2.4目標跟蹤2.基于卡爾曼濾波的目標跟蹤算法
卡爾曼濾波器是經典的目標跟蹤算法,由一系列遞歸數學公式描述。卡爾曼濾波通常被用來對被跟蹤目標的運動狀態進行預測,可以減少搜索區域的大小,提高跟蹤的實時性以及準確性。卡爾曼濾波器可分為兩個部分:時間更新方程和測量更新方程。時間更新方程負責及時向前推算當前狀態變量和誤差協方差估計的值,以便為下一個時間狀態構造先驗估計。測量更新方程則負責反饋,也就是說,它將先驗估計和新的測量變量結合,以構造改進的后驗估計。
時間更新方程也可視為預估方程,測量更新方程可視為校正方程。
卡爾曼濾波和均值漂移法相結合,能夠有效提升跟蹤性能。在均值漂移算法的過程中,使用卡爾曼濾波預測目標的運動方向和速度。在不同干擾情況下,對卡爾曼濾波和均值漂移算法的跟蹤結果使用不同的權值進行加權處理,可以得到更加精準的跟蹤結果。即弱干擾情況下均值漂移算法的跟蹤結果占較大比重;而強干擾情況下,卡爾曼濾波結果占較大的比重,可以保證跟蹤效果的穩定性和穩健性。3.2視覺感知3.2.4目標跟蹤3.基于特征的目標跟蹤算法基于特征的目標跟蹤方法是通過提取圖像中的特征元素,利用匹配算法在圖像序列中尋找目標,進而實現跟蹤的方法。以下給出基于特征點的目標跟蹤方法的主要實現步驟:
第一步,目標物特征點的提取。特征點提取方法需要具有尺度變化不變特性,即不因為圖像尺度縮放、旋轉而導致特征點發生變化。此外,在實時跟蹤過程中,目標所處的運動場景的變化和目標在圖像中映射關系的變化,可能會使得原本用來描述目標的特征點消失。
第二步,特征點匹配。特征點匹配策略可以分為兩種:基于窮盡搜索的特征點匹配策略和基于最優估計的特征點匹配策略。基于窮盡搜索的特征點匹配策略是較為傳統的全局搜索匹配策略,分別獲取兩幅圖像特征描述子,根據一定的搜索策略對這些特征描述子進行計算,從而獲得最優匹配結果。
基于最優估計的特征點匹配策略,只需要獲取參考幀圖像的特征點信息,并且不需要對圖像進行全局搜索,可以提高匹配的速度。3.2視覺感知3.3.1聲波與聽覺感知
聲音本質上是物體振動產生的聲波,通過介質(空氣或固體、液體)傳播并能被人或動物聽覺器官所感知的波動現象。聲源可以是某個具體的物體,也可以是某個區域的介質(如紊流擾動的某個區域);介質可以是氣體、固體或者液體。在聲波的傳播過程中,介質在其平衡位置附近往復振動,傳播的只是物質的運動形態,這種運動形態是一種機械性質的波動,因而被稱為聲波。聲波在傳播過程中會產生反射、衍射和散射等物理現象,這些物理現象對于聲音的聽覺感知將產生重要影響。
人類能夠感受到的聲波頻率范圍在20~20000Hz之間,但聽覺感知卻不限于人類所感受的范圍,它也包括人類感受不到,但動物或者機器能夠感受到的聲波,如次聲和超聲等。低于人耳感受范圍下界(小于20Hz)的聲波被稱為次聲波。次聲波的特點是來源廣、衰減小、傳播距離遠。
在自然界中,大量的自然現象如風暴、火山爆發、海嘯、電閃雷鳴、地震等都可能伴有次聲波的發生。在人類活動中,諸如核爆炸、導彈飛行、火箭發射、輪船航行、汽車行駛、高樓和大橋搖晃,甚至像鼓風機、攪拌機、擴音喇叭等在發聲的同時也都能產生次聲波。3.3聽覺感知3.3.1聲波與聽覺感知
次聲波與人體內臟固有的振動頻率相近,容易引起人體內臟的“共振”,會威脅人體健康,因此研制次聲波環境監測聽覺感知設備,有助于避免人體受到次聲波的危害。超過人耳感受范圍上界(大于20000Hz)的聲波被稱為超聲波。超聲波具有方向性好,反射能力強,易于獲得較集中的聲能等特點。
借助超聲波,機器聽覺感知可以幫助全聾人聽到聲音,使全聾人具備語言的理解能力。在對人的聽覺系統工作機理的研究中,研究人員發現了一系列的現象或效應:
1)遮蔽效應。一個較弱聲音的聽覺感受被另一個較強聲音所影響的現象稱之為遮蔽效應。
2)哈斯效應。若強度相等的兩個聲源先后到達,若其中一個延遲時間在30毫秒以內,聽覺上感到聲音好像只來自未延遲的聲源。當延遲時間超過30毫秒而未到達50毫秒時,聽覺上可以識別出已延遲聲源的存在,但仍然感覺聲音來自未經延遲的聲源。只有在延遲時間超過50毫秒以上時,聽覺上才能感到延遲聲音會成為一個清晰的回聲。
3)雞尾酒會效應。雞尾酒會效應,也稱為選擇性關注,是指人的聽力具有選擇能力。
4)雙耳效應。雙耳效應是指人們依靠雙耳間的音量差、時間差和音色差判別聲音的方位。3.3聽覺感知3.3.2麥克風陣列原理
麥克風陣列,即多個麥克風傳感器像陣列一樣排列組成,用來對聲場的空間特性進行采樣并處理的系統。由于麥克風陣列可以獲取聲波信號的空域信息,因此它具有以下幾個優勢:
1)具有良好的空間選擇性,通過電子掃描或波束形成等空間定位技術,可以精準獲取聲源的位置信息,在獲取感興趣語音信號的同時,還可以有效抑制其它方向的干擾。
2)麥克風陣列可以同時獲取多聲源的位置,并能跟蹤特定說話人,從而定向進行語音增強。
3)麥克風陣列可以獲取聲音的時域、頻域和空域信息,具有多域聯合濾波的優勢,通過信號空、時、頻三維聯合處理,提升聽覺感知應對復雜環境的能力。麥克風陣列在機器聽覺感知領域已經獲得了廣泛的應用,例如手機、智能音箱、智能電視等已經在使用麥克風陣列進行聽覺感知。不僅可以拾取高質量的語音,而且還可以感知聲音的方位。根據聲源和麥克風陣列之間距離遠近,可將聲場分為近場模型和遠場模型。當聲源距離麥克風陣列較近時,需要用近場模型處理接收信號,將聲波看成球面波。當聲源距離麥克風陣列非常遠時,聲源信號波前的等相位面可近似為平面,聲波平行到達接收陣列的各個陣元,此時可忽略各陣元接收信號間的幅度差,近似認為各接收信號之間是簡單時延關系。3.3聽覺感知3.3.3聲源定位與跟蹤
聲源定位與跟蹤是機器聽覺感知的重要內容,也有著廣泛的應用。例如,在視頻會議系統中,攝像機轉向控制與語音拾取均離不開說話人的位置信息;在移動機器人中,通過對說話人進行定位,可以幫助機器人順利實現移動路徑的規劃。1.聲源定位基于麥克風陣列的聲源定位就是根據多個麥克風的接收信號,運用陣列信號處理的方法估計出聲源的位置。當聲源移動時,還可運用跟蹤算法,實時估計出聲源的運動軌跡。按照定位原理,基于麥克風陣列的聲源定位方法大致可分為三類:基于高分辨率譜估計的方法;基于時延估計的方法;基于最大輸出功率的可控波束形成方法。2.聲源跟蹤
聲源跟蹤實質上是通過對觀測信號的處理,維持對目標當前狀態的估計。在對說話人進行跟蹤時,特別是在室內環境下,人的運動速度相對較低,因此可不考慮多普勒頻移。目標狀態信息通常包括目標位置和運動速度,在對說話人跟蹤時,主要的狀態分量是目標位置。3.3聽覺感知3.3.4說話人識別以聲音識別說話者為何人是人類聽覺感知的重要特征,語音的特殊性是指語音信號的音質、音長、音強、音高等物理量因人而異,這使得每個人的語音在聲紋圖譜上呈現不同的聲紋特征。所謂說話人識別是指通過對說話人發出的語音信號進行分析與處理,自動確認說話人是否在所記錄的說話者集合中,并進一步確認說話人是誰。說話人識別包含兩個任務:說話人識別與驗證。說話人識別包含兩種場景:
第一種是封閉場景,即已知給定集合中的所有說話者;
第二種是開放場景,即如果潛在的輸入測試對象可能來自預定義的已知說話者集合之外,這種情況稱為開放式說話人識別(也稱為錯位說話人識別)。在說話人驗證中,未知說話者被聲明了身份,而任務是驗證此聲明是否正確。本質上是向下比較兩個語音樣本/語音,并確定它們是否由同一位發言者說的。
說話人識別可以看作是語音識別的一種,它和語音識別一樣,都是通過對所收到的語音信號進行處理,提取相應的特征或建立相應的模型,然后據此做出判斷。3.3聽覺感知3.3.4說話人識別說話人識別主要有兩種類型的方法。
第一種是模板模型法,該方法將訓練特征參數和測試的特征參數進行比較,以兩者之間的失真作為相似度,用以判斷說話者。
第二種方法是隨機模型法,是用一個適當的概率密度函數來模擬說話人的語音特征空間的分布情況,并以該概率密度函數的一組參數作為說話人的模型,訓練過程用于預測概率密度函數的參數,匹配過程通過計算相應模型的測試語句的相似度來完成。3.3聽覺感知說話人識別可分為兩個階段:訓練階段識別階段
3.4.1在自動駕駛中的應用
3.4機器感知應用
自動駕駛是指在車輛行駛全程,所有的駕駛控制、周邊監視等工作全部交由車輛完成。自動駕駛環境又分為車外環境和車內環境。車外環境主要包括4類:①行人、動物、車輛等;②路道、路肩、植被等;③交通信號燈、指示等;④天氣和天時信息,主要包括云雨雪霧和光照等。3.4.1在自動駕駛中的應用
3.4機器感知應用類型優點缺點使用案例可見光攝像機色彩及文字識別;價格低廉。實現距離識別需要雙目攝像頭;設置困難;圖像識別處理運算量大。車道線識別;行人識別、交通標識識別;泊車輔助;掌握車內乘員狀況。激光雷達長距離視野廣;掌握的空間信息豐富。難以直接掌握真正的目標速度;價格昂貴。獲取車輛周邊的建筑物形狀信息。毫米波雷達掌握正確的中遠距離;可應用于運動目標;全天候、全天時探測。分辨力較激光雷達低。自適應巡航;碰撞警告;交通堵塞時的行駛輔助;死角識別。超聲波雷達價格低廉。低分辨力;低速度。后向行駛輔助;泊車輔助。紅外攝像機主動系統:感知生物及無機物;被動系統:識別溫度。主動系統不適用于惡劣天氣;被動系統不善于識別無機物;低分辨力。夜視。3.4.2在虛擬現實中的應用
3.4機器感知應用
虛擬現實技術是一種可以創建和體驗虛擬世界的計算機仿真系統,它利用計算機生成一種模擬環境,并在視、聽、觸、嗅、味等多源感知信息融合之下,提供交互式的三維動態視景和實體行為。整個虛擬現實技術的實現過程,主要包括以下四個環節:
1)監測與傳感。通過陀螺儀、定位傳感器等設備感知用戶頭部的當前位置和視覺范圍等信息。高精度的定位需要用到紅外攝像機、光學攝像機、激光雷達、毫米波雷達等機器視覺感知技術。
2)虛擬環境生成。基于圖像的生成技術是構建逼真虛擬環境的主要手段,該技術以實際場景的圖像為基礎,去構建虛擬環境。
3)虛擬環境展示。使用空間跟蹤定位傳感器為用戶提供近距離接觸的虛擬三維物體。在虛擬現實技術中廣泛使用的空間跟蹤定位傳感器是電磁場式、超聲式傳感器等機器感知設備。
4)多元互動模式。在多元互動模式中,為了產生逼真與沉浸式的互動機制,將視覺、聽覺、觸覺、嗅覺和味覺等多元感知技術融為一體。例如,運用機器視覺感知實現對手勢和姿態的識別;用麥克風陣列完成語音交互;使用力觸覺感知手套設置震動或者直接刺激皮膚使得用戶在虛擬世界中體驗到觸覺;使用骨傳導傳感器模仿咀嚼的動作;使用舌頭傳感器品嘗美味;通過電子鼻識別現實環境中的氣味,然后根據所述氣味構建與所述現實環境相對應的氣味。3.4.3在無人平臺集群中的應用
3.4機器感知應用
無人機集群、無人車集群、無人艇集群已成為機器智能發展的新方向,靈感來源于蜂群、魚群、鳥群和蟻群等具有較低智能的生物在遷徙、巡游或是躲避敵人追擊過程中所呈現出來的集群行為。
無人平臺集群執行任務的環境復雜多變,因此集群系統必須具備全面感知和了解復雜環境、在集群中進行信息共享與交互的能力。利用集群中分布式布設的光電、雷達等機器視覺感知傳感器網絡,采集環境和感興趣目標更豐富、更全面的信息,增強系統任務實現的可靠性。
以無人平臺集群的障礙物感知為例,其主要依靠以毫米波雷達、激光雷達、光電、紅外等視覺感知設備,以及針對水下探測的前視和側掃聲吶等。無人平臺集群的一個特點是需要使用低成本的設備以降低整個系統的費用。盡管多傳感器數據融合可提高感知精度,但成本低、功耗小與載荷輕的機器感知系統顯然更受歡迎。
雙目相機由于可以測距,已在主流自動駕駛方案中已經獲得應用,這極大地降低了它的成本,也非常有利于雙目相機在無人平臺集群中的應用。使用雙目相機進行同步定位與地圖構建,標定如塔架、電力線、樓宇等障礙物,結合深度學習工具,可有效地提升集群在未知環境下對障礙物的種類、大小、相對位置等的實時綜合感知。End第4章模式識別及其應用目錄4.1模式識別概述4.2分類器設計4.3聚類分析4.4模式識別應用4.1模式識別概述4.1.1模式識別的發展歷程模式識別技術與其它技術發展一樣,也不是突然出現的,而是有其從初級到高級、從實踐探索到理論突破的發展過程,期間已經歷了近百年的歷史。模式識別的發展歷史可以追溯到1929年奧地利科學家G.Tauschek發明的光電閱讀機。該裝置在一個旋轉輪上安裝了與數字形狀相同的透孔,能夠閱讀“0-9”的數字。當一個被強光照亮的字符經過透鏡聚焦照射到旋輪上時,如果正好與某一個字符的透孔形狀吻合,則透過光強最強,會驅動旋輪內部的光敏元件發出信號,使閱讀機識別出顯示的數字“0-9”。該法被稱為“模板匹配”,其后,模式識別發展歷程中的重要時間節點和標志性事件可以簡單歸納如下:
1936年,英國學者RonaldAylmerFisher提出統計分類理論,奠定了統計模式識別的基礎。
1960年,美國學者FrankRosenblatt提出了感知機。
60年代,L.A.Zadeh(乍得)提出了模糊集理論,基于模糊數學理論的模糊模式識別方法得以發展和應用。4.1模式識別概述4.1.1模式識別的發展歷程
70年代,美國華裔計算機專家傅京孫提出了結構模式識別的系統理論,并在1976年,傅京孫教授作為創始人和首任主席成立了國際模式識別協會。從此,模式識別作為一個獨立的學科領域走上了國際學術舞臺。
1976至1986年間,線性模式識別方法無法解決非線性問題,導致模式識別的研究處于低潮期。
1986年,DavidRumelhart提出誤差反向傳播網絡(BPNN),在模式識別領域得到廣泛應用。
1995年,前蘇聯統計學家和數學家Vapnik提出支持向量機(SVM),SVM作為一種理論基礎嚴密、優化目標明確、擴展能力強大的模式識別算法,受到了高度重視。
上世紀90年代中期及之后一段時間內,神經網絡由于面臨性能提升和計算量巨大的壓力,發展一直十分緩慢。直到計算機技術、網絡技術的快速發展,情況才有所改觀。
2006,GeoffreyHinton等人提出深度學習,自此之后,以深度學習技術為核心的人工智能發展掀起了新一輪浪潮,同時也推動模式識別技術取得了突破性進展。4.1.2模式識別的基本概念1.模式識別
這些人是誰?你是怎樣識別的?計算機會怎樣識別?差別在哪?環境感知和識別能力是生物的本能,不僅智能生物(例如,人)具有識別能力,其它高等或低等的生物也都具有對環境和外界事物的感知和識別能力。
當人類初次接觸人或事物時,人類感官會采集到有關的各種信息,例如人的容貌、聲音,甚至表情、動作,并把這些特征與其名字關聯起來。當再次見到時,就能根據感官采集到的特征,去記憶庫中尋找符合這些特征的名字,然后就能識別出是誰了。所以,識別的基礎是認知。4.1模式識別概述4.1.2模式識別的基本概念1.模式識別
模式識別釋義:識別一個模式,其本質是對事物的分類。模式代表的不是一個具體的事物,而是事物所包含的信息特點,對應一個抽象的概念。即從客觀事物中抽象出來,用于識別的關鍵的一些特征信息。
認知,是建立類別標簽和類別模式特征之間關聯的過程。也可以說,是將某些特征與一個概念相關聯,完成概念抽象的過程。
識別,則是根據某個具體事物的特征來判斷它是不是屬于某種事物,也可以說是按照特征來將其歸類于某一個概念。
識別的本質是分類,而不是對事物特征的嚴格匹配。當人們抽象出屬于同一個概念的事物所具有的共同特征,并根據這些共同特征來識別一個個具體的事物時,依據就不再是兩個事物是否完全相同,而依據的是它們之間的相似性。4.1模式識別概述4.1.2模式識別的基本概念2.特征與特征空間
1)樣本。指一個個用于識別的具體事物。
2)特征。指從樣本中抽取的,能夠用于識別的某個重要特性,稱為樣本的一個特征。
3)特征空間。當找到一組可以用于識別的特征時,每一個樣本就可以用特征的集合來加以表示,所有樣本轉換為特征表達后,樣本特征的整體就構成了一個空間,稱為特征空間。在特征空間中,每個樣本都可以看作是一個由一組特征來表達的一個點,而樣本之間的相似程度,可以用這些特征空間的點之間的相似程度來計算。特征空間中屬于同一類事物樣本的點也會聚集在一起,就形成了特征空間中的“類”的概念。有了特征和特征空間的概念,對一個樣本的識別問題,就轉換為對該樣本在特征空間中對應點的分類問題。看這個樣本在特征空間中的點屬于哪個類的聚集范圍,或者與哪個類的眾多樣本相似度更高,就可以把它歸類到哪一類之中。根據樣本特征的屬性不同,特征空間可以分為不同的類型:向量空間、集合空間。4.1模式識別概述4.1.2模式識別的基本概念3.有監督學習與無監督學習模式識別的核心是分類器,在已經確定分類器模型和樣本特征的前提下,分類器通過某些算法找到自身最優參數的過程,稱為分類器的訓練,也稱為分類器的“學習”。根據訓練樣本集是否有類別標簽,可以分為有監督學習和無監督學習。(1)有監督學習
對于每一個類別,都給定一些樣本,形成一個具有類別標簽的訓練樣本集。分類器可以通過分析每一個樣本,尋找屬于同一類的樣本具有哪些共同的特征,也就是從訓練集中學習到具體的分類決策規則,此類學習過程稱為有監督學習。(2)無監督學習給定訓練樣本集中的所有樣本沒有類別標簽,根據相似程度的大小,按照一些規則,把相似程度高的樣本歸為同一類,從而將訓練樣本集的樣本劃分成不同的類別,再從每一個類別的樣本中去尋找共同的特征,形成分類決策規則,完成分類器學習的任務。4.1模式識別概述4.1.2模式識別的基本概念4.緊致性與維數災難模式識別的本質是模式分類,同類內樣本之間的相似度大于不同類樣本之間的相似度。如果同類樣本之間的相似度越大,不同類樣本之間的相似度越小,分類決策時發生錯誤的可能性也就越小。這可以作為評判用于有監督學習的帶標簽訓練樣本集,以及作為無監督學習結果的樣本集優劣的一個指標,稱為“緊致性”準則。緊致性好的樣本集,樣本的類內相似度遠大于類間相似度。如果希望有緊致性較好樣本集,就要能提取有效的特征信息。一般來說會考慮增加特征的種類,或稱為增加特征的維度。特征的維度越多,用于識別的信息就越豐富,就有越多細節信息可以將不同的樣本之間的相似度降低,提高樣本集的緊致性。但是,如果不斷地增加模式識別問題中的特征維數,會帶來計算量劇增與解法性能下降等嚴重問題,最終無法使用,這種現象被稱為維數災難。因此,特征提取和特征降維是模式識別技術中重點研究的領域,其結果將直接影響到分類器性能的好壞。4.1模式識別概述4.1.2模式識別的基本概念5.泛化能力與過擬合一個分類器要經過訓練才能具備模式識別的能力,期望分類器不僅能將訓練集中的樣本正確分類,而且對于不在訓練集中的新樣本,也應該能夠正確地分類。
訓練好的分類器對未知新樣本正確分類的能力,稱為“泛化能力”。在采集用于訓練的樣本時,由于數據采集方法的問題或噪聲干擾,得到的樣本特征會存在誤差,甚至會出現少數“異常數據”。但是,在用這些樣本進行分類器訓練時,并無法預先得知哪個數據是真實數據,哪個數據是誤差帶來的異常數據。因此,如果一定要求訓練出的分類器能夠對所有訓練集中的樣本都能夠正確分類,就可能在分類決策規則上出現失真,從而在面對新的未知樣本進行分類時出現錯誤,也就是說,使得分類器的泛化能力降低。
由于過分追求訓練樣本集中樣本的分類的正確性,從而導致的分類器泛化能力降低,稱為分類器訓練過程中“過擬合”。4.1模式識別概述4.1.3模式識別的基本方法1.統計模式識別
統計模式識別原理:
1)根據待識別對象所包含的原始數據信息,從中提取出若干能夠反映該類對象某方面性質的相應特征參數,并根據識別的實際需要從中選擇一些參數的組合作為一個特征向量。
2)依據某種相似性測度,設計一個能夠對該向量組表示的模式進行區分的分類器,就可把特征向量相似的對象分為一類。統計模式識別是主流的模式識別方法,其將樣本轉換成多維特征空間中的點,再根據樣本的特征取值情況和樣本集的特征值分布情況確定分類決策規則。其主要的理論基礎包括概率論和數理統計;主要方法包括線性分類、非線性分類、Bayes分類器、統計聚類算法等。4.1模式識別概述4.1.3模式識別的基本方法2.結構模式識別當需要對待識別對象的各部分之間的聯系進行精確識別時,就需要使用結構模式識別方法。
1)結構模式識別根據識別對象的結構特征,將復雜的模式結構先通過分解劃分為多個相對更簡單且更容易區分的子模式;
2)若得到的子模式仍有識別難度,則可繼續對其進行分解,直到最終得到的子模式具有容易表示且容易識別的結構為止,通過這些子模式可以復原原來比較復雜的模式結構。結構模式識別利用形式語言理論中的語法規則,將樣本的結構特征轉化為句法類型的判定,從而實現模式識別的功能。結構模式識別的主要理論基礎包括形式語言和自動機技術;主要方法包括自動機技術和轉移圖法。4.1模式識別概述4.1.3模式識別的基本方法3.模糊模式識別模糊集理論認為,模糊集合中的一個元素,可以不是百分之百地確定屬于某個集合,而是可以以一定的比例屬于某個集合。模糊模式識別就是以模糊集理論為基礎,根據一定的判定要求建立合適的隸屬度函數來對識別對象進行分類。模糊模式識別不是一套獨立的方法,而是將模糊理論引入模式識別技術后,對現有各種算法的模糊化改造,在更精確地描述問題和更有效地得出模式識別結果方面都有許多有價值的思路。模糊模式識別的理論基礎是模糊數學;主要方法包括模糊統計法、二元對比排序法、推理法、模糊集運算規則、模糊矩陣等。4.1模式識別概述4.1.4模式識別原理與過程1.模式采集模式識別研究的是計算機識別,因此事物所包含的各種信息必須通過感知器采集轉換成計算機能接受和處理的數據。對于各種物理量,可以通過傳感器將其轉變成電信號,再由信號變換部件對信號的形式、量程等進行變換,最后經A/D(模擬/數字)轉換器轉換成對應的數據值。2.預處理預處理環節通過各種濾波降噪措施,降低干擾的影響,增強有用的信息,在此基礎上,生成在分類上具有意義的各種特征參數。
特征生成的方法和思路與待解決的模式識別問題和所采用的模式識別方法密切相關,例如,對圖像數據,如果要識別的是場景的類型,顏色和紋理特征就很有用;如果要識別出包含的人臉是誰,那么人臉輪廓和關鍵點特征就很重要。預處理生成的特征可以仍然用數值來表示,也可以用拓撲關系、邏輯結構等其它形式來表示,分別適用于不同的模式識別方法。4.1模式識別概述4.1.4模式識別原理與過程3.特征提取和選擇
從大量的特征中選取出對分類最有效的有限特征,降低模式識別過程的計算復雜度,提高分類準確性,是特征提取和選擇環節的主要任務,目的都是為了降低特征的維度,提高所選取的特征對分類的有效性。
特征選擇是從已有的特征中,選擇一些特征,拋棄掉其它特征;
特征提取是對原始的高維特征進行映射變換,生成一組維數更少的特征。要求所選用的特征應滿足以下五個條件:
1)真實性。特征應能真實地包含分類對象的物理信息。
2)有效性。所選用的特征和特征組合對分類是有效的,盡量使得對象易于分類識別。
3)簡約性。信息充分且數據冗余量少。4)魯棒性。當所選用的特征受到測量誤差較大影響時,盡可能使得算法有效性不被破壞。
5)便捷性。提取特征方便經濟,便于實際操作。4.1模式識別概述4.1.4模式識別原理與過程3.特征提取和選擇
特征提取和特征選擇都是在不降低或較少降低分類性能的情況下,降低特征空間的維數。其主要作用在于:
①簡化計算。特征空間維數越高,需要占用的計算機資源越多,計算的復雜度也就越高。
②簡化特征空間結構。特征提取和選擇是去除類間差別小的特征,保留類間差別大的特征。
特征提取和選擇并不是截然分開的。例如,可以先將原始特征空間映射到維數較低的空間,然后在此空間進行特征選擇來進一步降維。典型原理框圖:分類器根據規則,選擇合適的測度4.1模式識別概述4.1.4模式識別原理與過程4.分類器學習分類器學習是由計算機根據樣本的情況自動進行的,可分為有監督學習和無監督學習。
有監督學習是指用于分類器學習的樣本已經分好了類,具有類別標簽,分類器知道那些樣本是屬于哪些類的,由此可以學習到屬于某類的樣本都具有哪些共同的特征,從而建立起分類決策規則。
無監督學習是指用于分類器學習的樣本集沒有分好類,分類器自主地根據樣本與樣本之間的相似程度來將樣本集劃分成不同的類別,在此基礎上建立分類決策規則。5.分類決策分類決策(ClassificationDecision):對待分類的樣本按照已建立起來的分類決策規則進行分類,而且分類的結果要進行評估(Evaluating)。4.1模式識別概述4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類
貝葉斯公式由托馬斯?貝葉斯(ThomasBayes)于1763年提出,其數學定義為:設試驗E的樣本空間為S,A為E的事件,B1,B2,…Bc為S的一個劃分,且P(A)>0,P(Bi)>0(i=1,2,…,c),則其中,P(Bi︱A)為后驗概率,表示事件A出現后,各不相容的條件Bi存在的概率,它是在結果出現后才能計算得到的,因此稱為“后驗”。
P(A︱Bi)稱為類條件概率,表示在各條件Bi存在時,事件A發生的概率。
P(Bi)稱為先驗概率,表示各不相容的條件Bi出現的概率,它與事件A是否出現無關,僅表示根據先驗知識或主觀推斷。
P(A)是由先驗概率和類條件概率計算得到,它表達了結果A在各種條件下出現的總體概率,稱為結果A的全概率。4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類1.貝葉斯分類器的基本原理統計模式分類是依據樣本在各個維度上的特征值分布來進行分類決策的模式識別算法。
如果把樣本真實所屬的類別作為條件,樣本的特征值作為結果,那么,模式識別的分類決策過程也可以看作是一種根據結果推測條件的推理過程,也就是逆向推理的過程,因此可以將貝葉斯理論應用于模式分類。
如果把每一個類樣本的整體出現概率作為先驗概率,把每個類中樣本取得某個具體特征向量值的概率作為類條件概率,把要計算的樣本取得某一個具體特征向量值時屬于每一類的概率作為后驗概率。即把貝葉斯公式應用于不確定統計分類時,就得到了根據樣本的特征取值來進行類別劃分的一種不確定分類器,計算出該樣本屬于每一個類別的概率是多少。當然,前提是每個類別整體出現的先驗概率,以及每個類別中出現這個特征向量值的類條件概率必須是已知的。這就是貝葉斯分類的核心原理。4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類1.貝葉斯分類器的基本原理
例如,在人類社會,男性和女性的比例基本相同,如果把男性作為類ω1,女性作為類ω2,ω1和ω2的先驗概率都是0.5。選擇“身高h=170cm”作為樣本所具有的特征值,然后對比“P(ω1︱h=170)”和“P(ω2︱h=170)”。假設男性身高h=170cm和女性身高身高h=170cm的概率分別為80%和10%。用貝葉斯理論描述,后驗概率分別是P(ω1︱h=170)、P(ω2︱h=170),先驗概率分別是P(ω1)=P(ω2)=50%。類條件概率分別是P(h=170︱ω1)=80%、P(h=170︱ω2)=10%。則:P(ω1︱h=170)=(0.5*0.8)/(0.5*0.8+0.5*0.1)=0.89P(ω2︱h=170)=(0.5*0,1)/(0.5*0.8+0.5*0.1)=0.11由此看出,身高170cm的人是男性的概率大于是女性的概率,故在做分類判決時,一般把其判定為男性。4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類2.最小誤判概率準則
貝葉斯分類通過每個類別的先驗概率和每個類別中出現某種特征值情況的類條件概率,來計算具有某種特征值的樣本,屬于每一類的后驗概率,從而為分類決策奠定基礎。有了后驗概率后,該如何做分類決策呢?不同的貝葉斯分類器有不同的準則。其中一種最簡單、最直接的準則,就是把樣本劃分到后驗概率最大的類別中去,這就是“最小誤判概率準則”。其分類決策規則可表示:
當時,判決x∈ωi。
對于所有的類,樣本的全概率P(x)都是相等的,在分類決策判定時,只有分子項起作用,故分類決策規則可以寫為公式若則x∈ωi。4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類2.最小誤判概率準則例如,魚類加工廠對魚進行自動分類,ω1:鱸魚;ω2:鮭魚。模式特征x=x(長度)。已知:先驗概率:P(
1)=1/3(鱸魚出現的概率),
P(
2)=1-P(
1)=2/3(鮭魚出現的概率);條件概率:p(x︱
1)=0.05,p(x︱
2)=0.5,問:現在打撈了一條魚的長度x=10,試判定該魚是什么魚?解:利用Bayes公式:4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類2.最小誤判概率準則因為:故判決:(x=10)∈ω2即:長度x=10的這條魚是鮭魚。4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類3.最小損失判決準則
最小誤判概率準則,也等價于最大后驗概率準則,在做分類決策時,非常實用而且有效。但是對于有些實際問題,誤判概率最小并不一定是最佳選擇。例如,2020年1月以來,人感染新型冠狀病毒的病例開始出現,并造成了一定的社會恐慌。假設,該病的總體發病率為1000萬分之一,對照普通流感的發病率高達30%。經不完全粗略估計,易感人群中99%的人感染新型冠狀病毒病例曾出現過發熱、咳嗽、乏力等癥狀,而同樣的易感人群中80%的普通流感患者也會出現類似癥狀。
現有一位患者出現了發熱、咳嗽、乏力癥狀,在沒有進行核算檢測等驗證條件前,是否應當將其按照新型冠狀病毒疑似病例對待(執行嚴格隔離措施)?4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類3.最小損失判決準則依據已有數據,首先計算該患者為新型冠狀病毒病例的后驗概率。可以看到,如果按照最小誤判概率準則,因后驗概率低,應將該患者按普通流感病例對待。但實際情況是,如果把普通流感患者誤診為新型冠狀病毒患者,該患者可能就是虛驚一場,以及隔離后生活不便,一般沒有太大社會風險。但若把一名新型冠狀病毒患者誤診為普通流感患者,而沒有采取合理有效的措施進行隔離和治療的話,可能會給患者本人和整個社會造成嚴重后果!
從該實例可以看到,當使用貝葉斯分類器時,僅僅考慮識別錯誤率低仍不夠,還應當把所采取的分類決策所帶來的損失考慮進去,這就是最小損失判決準則。4.2分類器設計4.2.1基于貝葉斯決策理論的模式分類3.最小損失判決準則下面首先介紹最小損失判決準則的幾個基本概念:
1)決策αi:把待識別樣本x歸到ωi類中;
2)損失函數λij:把真實屬于ωi類的樣本歸到ωj類中帶來的損失;
3)條件風險損失R(αi︱x):對采取決策αi后可能的總的風險
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 機電工程領域統計分析的重要性試題及答案
- 機電工程理論與實踐結合的試題及答案
- 西方政黨制度的演變分析試題及答案
- 安全達人測試題及答案
- 軟件設計師考試前瞻性試題及答案
- 西方國家文化多樣性的政治影響試題及答案
- 移民政策的法律與倫理問題試題及答案
- 西方政治制度與公民社會的深度互構研究試題及答案
- 將理論應用于實踐的2025年軟件設計師試題及答案
- 車輛檢修練習測試題附答案
- GMS基礎知識的教案
- 第5章 鋼梁計算原理
- GB/T 3452.4-2020液壓氣動用O形橡膠密封圈第4部分:抗擠壓環(擋環)
- 西南科技大學機械原理期末考試復習題及答案
- 讀后續寫:騎馬迷路 遇困難不放棄 課件 【知識建構+點播拓展】高考英語作文備考
- 2023年宜興市云湖茶禪文旅發展有限公司招聘筆試題庫及答案解析
- Unit2Reading2知識點課件-高中英語牛津譯林版(2020)選擇性必修第一冊
- 交通協管員勞務外包服務方案
- 頂管工程頂進記錄表
- 呼吸道病原體抗體檢測及臨床應用課件
- 戰略管理教學ppt課件(完整版)
評論
0/150
提交評論