模式識別與機器學習期末考查試題及參考答案_第1頁
模式識別與機器學習期末考查試題及參考答案_第2頁
模式識別與機器學習期末考查試題及參考答案_第3頁
模式識別與機器學習期末考查試題及參考答案_第4頁
模式識別與機器學習期末考查試題及參考答案_第5頁
免費預覽已結束,剩余4頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、模式識別與機器學習期末考查試卷研究生姓名: 入學年份: 導師姓名:試題 1:簡述模式識別與機器學習研究的共同問題和各自的研究側重點。答: (1)模式識別是研究用計算機來實現人類的模式識別能力的一門學科,是指 對表征事物或現象的各種形式的信息進行處理和分析,以對事物或現象進行描述、 辨認、分類和解釋的過程。主要集中在兩方面,一是研究生物體(包括人)是如何 感知客觀事物的,二是在給定的任務下,如何用計算機實現識別的理論和方法。機 器學習則是一門研究怎樣用計算機來模擬或實現人類學習活動的學科,是研究如何 使機器通過識別和利用現有知識來獲取新知識和新技能。主要體現以下三方面:一 是人類學習過程的認知模

2、型;二是通用學習算法;三是構造面向任務的專用學習系 統的方法。兩者關心的很多共同問題,如:分類、聚類、特征選擇、信息融合等, 這兩個領域的界限越來越模糊。機器學習和模式識別的理論和方法可用來解決很多 機器感知和信息處理的問題,其中包括圖像 / 視頻分析(文本、語音、印刷、手 寫)文檔分析、信息檢索和網絡搜索等。( 2) 機器學習和模式識別是分別從計算機科學和工程的角度發展起來的,各自的 研究側重點也不同。模式識別的目標就是分類,為了提高分類器的性能,可能會用 到機器學習算法。而機器學習的目標是通過學習提高系統性能,分類只是其最簡單 的要求,其研究更側重于理論,包括泛化效果、收斂性等。模式識別技

3、術相對比較 成熟了,而機器學習中一些方法還沒有理論基礎,只是實驗效果比較好。許多算法 他們都在研究,但是研究的目標卻不同。如 SVM 在模式識別中研究所關心的就是 其對人類效果的提高,偏工程。而在機器學習中則更側重于其性能上的理論證明。 試題 2:列出在模式識別與機器學習中的常用算法及其優缺點。答:(1) K 近鄰法KNN算法作為一種非參數的分類算法,它已經廣泛應用于分類、回歸和模式識別等。在應用KNN算法解決問題的時候,要注意的兩個方面是樣本權重和特征 權重。優缺點:非常有效,實現簡單,分類效果好。 樣本小時誤差難控制,存儲所有樣 本,需要較大存儲空間,對于大樣本的計算量大。( 2) 貝葉斯

4、決策法 貝葉斯決策法是以期望值為標準的分析法,是決策者在處理風險型問題時常常 使用的方法。優缺點:由于在生活當中許多自然現象和生產問題都是難以完全準確預測的,因此 決策者在采取相應的決策時總會帶有一定的風險。貝葉斯決策法就是將各因素發生 某種變動引起結果變動的概率憑統計資料或憑經驗主觀地假設,然后進一步對期望 值進行分析,由于此概率并不能證實其客觀性,故往往是主觀的和人為的概率,本 身帶有一定的風險性和不肯定性。雖然用期望的大小進行判斷有一些風險,但仍可 以認為貝葉斯決策是一種兼科學性和實效性于一身的比較完善的用于解決風險型決 策問題的方法,在實際中能夠廣泛應用于組織系統改革、企業效益、市場開

5、發、證 券投資等諸多領域。使用時根據決策者的側重點,結合變異系數,綜合使用貨幣因 素的貝葉斯決策、或效用函數的貝葉斯決策法,都會得到自己想要的結果。( 3) DES 加密算法DES 是 Data Encryption Standard (數據加密標準)的縮寫,它為密碼體制中 的對稱密碼體制,又被稱為美國數據加密標準,是 1972 年美國 IBM 公司研制的加 密算法。DES是一個分組加密算法,他以64位為分組對數據加密。同時 DES也是 一個對稱算法:加密和解密用的是同一個算法。它的密匙長度是 56位(因為每個 第8 位都用作奇偶校驗),密匙可以是任意的 56位的數,而且可以任意時候改 變。其

6、中有極少量的數被認為是弱密匙,但是很容易避開他們。所以保密性依賴于 密鑰。優缺點:具有極高安全性,分組比較短,密鑰太短,密碼生命周期短,運算速度較慢。( 4) 決策樹學習算法 決策樹算法是一種混合算法,它綜合了多種不同的創建樹的方法,并支持多個 分析任務,包括回歸、分類以及關聯。決策樹算法支持對離散屬性和連續屬性進行 建模。優缺點:決策樹算法高效快速且可伸縮,可輕松實現并行化,這意味著所有處理器 均可協同工作,共同生成一個一致的模型。這些特征使決策樹分類器成為了理想的 數據挖掘工具。在數據挖掘的各種方法中,決策樹歸納學習算法以其易于提取顯式規則、計算量相對較小、可以顯示重要的決策屬性和較高的分

7、類準確率等優點而得 到廣泛應用。決策樹的這種易理解性對數據挖掘的使用者來說是一個顯著的優點。 然而決策樹的這種明確性可能帶來誤導。比如,決策樹每個節點對應分割的定義都 是非常明確毫不含糊的,但在實際生活中這種明確可能帶來麻煩。對決策樹常見的 批評是說其在為一個節點選擇怎樣進行分割時使用 “貪心 ”算法。此種算法在決定當 前這個分割時根本不考慮此次選擇會對將來的分割造成什么樣的影響。(5) C均值算法C 均值算法是通過不斷調整聚類中心使得誤差平方和準則函數取得極小值。 優缺點:能夠動態聚類,是一種無監督學習算法,算法簡單,速度快,局部搜索能 力強,能夠有效處理大型數據庫,與神經網絡結合可極大地提

8、高收斂性和精度。 c- 均值算法的一個主要問題是劃分類別數必須事先確定,這種主觀確定數據子集數目 并不一定符合數據集自身的特點,所以對于隨機的初始值選取可能會導致不同的聚 類結果,甚至存在著無解的情況;在選取聚類中心點時采用隨機選取易使得迭代過 程陷入局部最優解,容易收斂于局部極小點;該算法對“噪音”和孤立點數據比較 敏感,少量的該類數據能夠對平均值產生極大的影響。( 6)遺傳算法遺傳算法( Genetic Algorithm )是模擬達爾文的遺傳選擇和自然淘汰的生物進 化過程的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。 優缺點:遺傳算法是一類可用于復雜系統優化的具有魯棒性的搜索算

9、法,與傳統的 優化算法相比,主要有以下特點: 1. 與問題領域無關切快速隨機的搜索能力。 2. 搜索從群體出發,具有潛在的并行性,可以進行多個個體的同時比較。 3. 搜索使 用評價函數啟發,過程簡單。 4. 使用概率機制進行迭代,具有隨機性。 5. 具有可 擴展性,容易與其他算法結合。 6. 直接以適應度作為搜索信息,無需導數等其它 輔助信息。 7. 使用多個點的搜索信息,具有隱含并行性。 8. 使用概率搜索技術, 而非確定性規則。也存在一些問題: 1. 沒有能夠及時利用網絡的反饋信息,故算 法的搜索速度比較慢,要得要較精確的解需要較多的訓練時間。 2. 算法對初始種 群的選擇有一定的依賴性,

10、能夠結合一些啟發算法進行改進。 3. 算法的并行機制 的潛在能力沒有得到充分的利用,這也是當前遺傳算法的一個研究熱點方向。(7)BP 神經網絡算法 其學習過程由正向傳播和反向傳播組成。在正向傳播過程中,輸入信息從輸入層經隱單元層逐層處理后,傳至輸出層。如果輸出層得不到期望輸出,那么就轉為 反向傳播,把誤差信號沿連接路徑返回,并通過修改各層神經元的權值,使誤差信 號最小。優缺點:BP算法能夠通過學習帶正確答案的實例集自動提取“合理的”求解規則;具有一定的推廣能力;學習過程有被“固化”的潛在可能性;它能以任意精度 逼近任意非線性函數,而且具有良好的逼近性能,并且結構簡單,是一種性能優良 的神經網絡

11、。但也存在一些問題,BP算法是按照均方誤差的梯度下降方向收斂 的,但均方誤差的梯度曲線存在不少局部和全局最小點,這就使得神經網絡易陷入 局部最小;算法的收斂速度較慢,可能會浪費大量時間;神經網絡隱層的結點個數 難以確定合適的數值;如何選取合適的學習樣本解決網絡的推廣(泛化)問題,即 使網絡能正確處理未學習過的輸入。(8)Hopfield 網絡算法Hopfield 網絡算法作為典型的反饋神經網絡,有下列特有的優點和缺點。1. 只有不動點吸引子,沒有其它類型的吸引子。 Hopfield 同的這個性質被稱為全 局穩定性。 2. 網絡狀態的演化趨于某個二次函數的局部最小點。 3. 很難精確地分 析 H

12、opfield 網的性能。 4. 難于找到通用的學習算法。 5. 這類阿絡的動力學行為過 于筒單。 5. Hopfield 問只有不動點吸子,是一種消極被動的神經網絡。試題 3:簡述在模式識別與機器學習中解決問題的主要步驟。指出那些步驟涉及到 學習?在數據的前處理中,特征選擇起什么作用?答: (1) 在模式識別與機器學習中解決問題的主要步驟:1. 問題描述:準確分析研究目的,并對未來工作做出計劃。2. 數據選擇:數據選擇是根據用戶需求從數據庫中提取相關數據3. 知識發現過程: 歸納為 3 個步驟,即數據挖掘預處理、數據挖掘、數據挖掘后 處理。數據預處理是對數據進行再加工,檢查數據的完整性及一致

13、性,對其中的噪 音數據進行處理。對丟失的數據利用統計方法進行填補,形成發掘數據庫。數據變 換即從發掘數據庫里選擇數據,變換的方法主要是利用聚類分析和判別分析。數據 挖掘是根據用戶要求,確定知識發現的目標是發現何種類型的知識。運用選定的知 識發現算法。從數據庫中提取用戶所需要的知識。知識評價主要用于對所獲得的規 則進行價值評定,以決定所得到的規則是否存入基礎知識庫。4. 選擇或設計模型:對同一個問題或許有許多不同的模型可以描述,不同的模型 會導致識別和學習結果的不同,因此需要利用已有的經驗和知識來選擇或設計適當 的模型。在確定了所建立的模型后,就可以估計模型的參數,需要注意的時,應該 使得模型對

14、未知數據有良好的適應性。5. 訓練所建立的模型:用前面所得的數據分成兩組,一組作為訓練數據,一組作 為測試數據。設定目標誤差,用訓練數據對所建立的模型進行訓練,達到目標誤 差,就停止訓練,這樣就確定了所建立模型的參數。6. 測試、評估、驗證模型:測試模型的目的是為了確定所建立模型是否滿足實際 應用要求。測試數據應該和訓練用的樣本數據不一致,否則,測試所得的結果永遠 都是滿意的。用測試數據對所建立模型進行測試,觀察測試結果是否與實際情況是 相符合。若與實際情況相符合,所建立模型就可對未知數據做預測,從而得到進一 步的驗證。(2)在這些步驟中,步驟 5 涉及到學習。(3) 特征選取(也稱作屬性選擇

15、)是簡化數據表達形式,是在模式識別中根據一定 的原則,選取反映被識別模式本質的那些特征的方法或過程。模式識別和機器學習 方法首先要解決的一個問題就是特征選擇。在數據的前處理中,特征選擇是一個非 常重要的步驟,特征選擇不合理,會影響識別和學習效果。通過特征選擇和提取, 我們才可得到所采集數據中最有效的信息,最有效的特征,選擇出有利于分類或聚 類建立模型的變量,從而實現特征空間維數的壓縮,以降低后續處理過程的難度, 才能基于這些特征對所建立模型進行訓練和測試。同時特征選取也是降低存儲要 求,提高分類精度和效率的重要途徑。試題 4:在模式識別與機器學習的研究中,還不斷有人提出新的算法。請列舉一些 可

16、以用來比較算法好壞的方法? 答:算法是計算機科學中一個重要的研究方向,是解決復雜問題的關鍵。在計算機 世界中,算法無處不在。同一問題可用不同算法解決,而一個算法的質量優劣將影 響到算法乃至程序的效率。可以用來比較算法好壞的方法有:1. 正確性一個算法是否正確的,是指對于一切合法的輸入數據,該算法經過有限時間 (算法意義上的有限)的執行是否都能產生正確(或者說滿足規格說明要求)的結 果。2. 時間復雜度和空間復雜度時間一個算法的時間復雜性是指該算法的基本運算次數,記作 T(n)=O(f(n) 。 復雜度不斷增大,算法的執行效率越低。空間復雜度是指算法在計算機內執行時所 需存儲空間的度量。記作 S

17、(n)=O(f(n) 。存儲空間越大,算法效率也越低。3. 占用空間算法執行需要存儲空間來存放算法本身包含的語句、常數、變量、輸入數據和 實現其運算所需的數據(如中間結果等),此外還需要一些工作空間用來對(以某 種方式存儲的)數據進行操作。4. 可讀性可讀性好的算法有助于設計者和他人閱讀、理解、修改和重用。與此相反,晦 澀難懂的算法不但容易隱藏較多的錯誤,而且增加了人們在閱讀、理解、調試、修 改和重用算法等方面的困難。5. 堅固性當輸入數據非法時,算法能適當地作出合適的反應。試題 5:在你所知道的模式識別與機器學習算法中,那些方法較合適用來解決純數 值型數據的問題,那些方法較適合用來解決包含大

18、量非數值數據的問題。答: (1)解決純數值型數據問題的方法:貝葉斯決策法、神經網絡算法等。貝葉 斯決策法是基于概率統計的基本的判別函數分類法。只要知道先驗概率和條件概率 就可以對樣本進行判斷,由于數據是純數值型數據,數據簡單,樣本間的空間距離 易計算,且先驗概率和條件概率易求得。神經網絡只能處理數值型數據。建立神經 網絡需要做的數據準備工作量很大。 要想得到準確度高的模型必須認真的進行數 據清洗、整理、轉換、選擇等工作。對任何數據挖掘技術都是這樣,神經網絡尤其 注重這一點。比如神經網絡要求所有的輸入變量都必須是 01(或-1+1) 之間的 實數,因此像“地區”之類文本數據必須先做必要的處理變成

19、數值之后才能用作神 經網絡的輸入。(2)對于非數值型數據可用方法:決策樹、遺傳算法等。決策樹很擅長處理非數 值型數據, 決策樹的分類方法是從實例集中構造決策樹,是一種有指導的學習方 法。其算法的特點是通過將大量數據有目的分類,從中找到一些有價值的,潛在的 信息,特別適合大規模的數據處理。遺傳算法特點從解集合進行搜索,利于全局擇 優。該算法具有收斂性,通過選擇、交叉、變異操作,能迅速排除與最優解相差極 大的串。是非數值并行算法之一,解決了非數值數據及大量數據帶來的計算量和存 儲量的問題。試題 6:模式識別與機器學習最難解決的問題是什么?并說明理由。 答:我覺得模式識別與機器學習中最難解決的問題是

20、:(1)學習速率的確定。提出設計者應該從具體系統中獲得的數據確定算法學習速 率的上、下界數值,并選取最優學習速率。( 2)在處理具體的問題時,合適算法的選擇。 在算法選擇中沒有天生優越的模 式。識別與機器學習算法,各自算法的都有其對應的應用范圍及應用中應注意的問 題,只有充分了解不同模式識別算法,深入分析算法的使用條件,才能做到最佳選 擇。但目前算法很多,沒有深入的話容易被遺忘,深入的話花得時間多,且在很多 實際問題當中,常常不容易找到那些最重要的特征,或者受條件限制不能對它們進 行測量,這使得特征選擇和提取的任務復雜化,從而成為構造模式識別系統,提高 決策精度的最困難的任務之一。(3)相應的

21、參數的選擇。如何確定變量值,這是一個很關鍵的問題,但至今還沒 有快速而有效的規則,有的只是一些原則性的指導。而且選擇參數值最終還應歸結 為每個用戶對算法的體驗,用戶只能通過自己的編程實踐,用各種不同的參數值進 行調試,看結果會發生什么,并從中選取適合的值。試題 7:請例舉一些你認為應用得較好的算法及應用實例。答: 我認為應用較好的算法如下:(1)遺傳算法 由于遺傳算法的整體搜索策略和優化搜索方法在計算是不依賴于梯度信息或其 它輔助知識,而只需要影響搜索方向的目標函數和相應的適應度函數,所以遺傳算 法提供了一種求解復雜系統問題的通用框架,它不依賴于問題的具體領域,對問題 的種類有很強的魯棒性,所

22、以廣泛應用于許多科學。1、 函數優化 函數優化是遺傳算法的經典應用領域,也是遺傳算法進行性能評價的常用算 例,許多人構造出了各種各樣復雜形式的測試函數:連續函數和離散函數、凸函數 和凹函數、低維函數和高維函數、單峰函數和多峰函數等。對于一些非線性、多模 型、多目標的函數優化問題,用其它優化方法較難求解,而遺傳算法可以方便的得 到較好的結果。2、 組合優化 隨著問題規模的增大,組合優化問題的搜索空間也急劇增大,有時在目前的計 算上用枚舉法很難求出最優解。對這類復雜的問題,人們已經意識到應把主要精力 放在尋求滿意解上,而遺傳算法是尋求這種滿意解的最佳工具之一。實踐證明,遺 傳算法對于組合優化中的 NP 問題非常有效。例如遺傳算法已經在求解旅行商問 題、 背包問題、裝箱問題、圖形劃分問題等方面得到成功的應用。此外,GA也在生產調度問題、自動控制、機器人學、圖象處理、人工生命、 遺傳編碼和機器學習等方面獲得了廣泛的運用。(2)BP神經網絡算法B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論