




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
9.1概述9判別分析法判別分析也是一種傳統的多元統計分析方法。判別分析屬于“模式識別”方法,在人工智能和機器學習領域,判別分析方法屬于“監督分類”或“有導師學習”方法。判別分析的任務是在假設研究對象分類情況已知的前提下,判斷未知樣品屬于其中哪一類。判別分析法的一般思路是,利用已知對象(如單元)的觀測數據,建立一個判別函數(也稱判別模型),經檢驗認為模型有效后,將未知對象的數據代入該模型,算出未知對象應歸屬的類別。判別分析法用于礦產預測的基本思路是,假設所有單元可分為不同的類別,如“無礦單元”、“含礦單元”;選擇一批控制單元,它們也可分為這兩類;根據控制單元中的多變量數據,建立一個判別模型,然后應用該模型,判斷任一未知單元屬于這些類別中的哪一類。一旦識別了一個未知單元的類別,也就實現了對它是否含礦的預測。以下主要介紹狹義的判別分析,即基于費歇(Fisher)準則的兩類判別分析方法。這是一種傳統的多元統計分析方法。9.1概述9判別分析法基于費歇準則的兩類判別,簡稱為費歇(Fisher)判別,是假設已知對象分為2類的情況下,判斷任一未知對象的類別。(對象=樣品)9.2基于費歇準則的兩類判別分析9.2.1判別函數與費歇準則設p維變量空間內,已知有A、B兩類樣品點。為分開這兩個類別的樣品,需要找到一個投影面R,使兩點群投影到R之后達到最大程度的分離,而各群內部離散程度盡量小。R稱為判別函數,它是多個變量的線性組合。例如,x1x2R假設只有兩個變量(右圖),R是一條直線。兩點群投影到任一變量軸上不能很好地分離,但投影到R后可以最大限度地分離。A類B類9判別分析法9.2基于費歇準則的兩類判別分析判別函數R的表達式可寫為其中,是待定的各變量系數。將任一樣品的各變量數據代入判別函數R,得到的函數值稱為該樣品的判別得分。如何確定諸從而得到R?假設R已經得到,并令和分別表示A、B兩類判別得分的平均值:這里,和分別為A、B
Eq9-1Eq9-2Eq9-3兩類樣品各變量的平均值。9判別分析法投影后,兩點群中心的”距離”可表示為9.2基于費歇準則的兩類判別分析為兩類樣品數;兩點群內部的離散程度可用離差平方和來表征:、,、分別為A、B兩類第i樣品第
j變量的值。Eq9-4Eq9-5Eq9-6分別為兩類樣品中第i個樣品的判別得分。9判別分析法費歇準則是使投影后的類間距離盡量大、類內離差盡量小的最優化準則,即令9.2基于費歇準則的兩類判別分析達到極大值,求出從而獲得判別函數。為此需要解方程組該方程組經求導、化簡、整理后變為如下方程組:Eq9-79判別分析法其中,9.2基于費歇準則的兩類判別分析Eq9-8Eq9-9Eq9-10Eq9-119判別分析法兩類離差平方和的和兩類離差叉積和的和9.2基于費歇準則的兩類判別分析9判別分析法令上頁的方程組可寫成矩陣形式:解方程組可求出各從而得到判別函數:Eq9-12Eq9-13或Eq9-14(=Eq9-1)9.2.2判別函數的使用9.2基于費歇準則的兩類判別分析將任一樣品的多變量數據代入判別函數,可求出該樣品的判別得分。如果判別函數有效,兩類樣品的判別得分值大小將會有顯著差別,一類較大,另一類較小。所以算出判別得分后就可判斷一個樣品屬于已知分類的哪一類。但需要一個判別臨界值,以便歸類。判別臨界值R0為:即判別臨界值是兩類樣品平均判別得分按樣品數加權的平均值。Eq9-159判別分析法判別函數是否有效,可用兩種方法進行檢驗:(1)回判。計算已知樣品的判別得分,并據此歸類(稱回判)。一般來說判對率越高說明判別函數越好。實際中若判對率達到如80%以上,可認為判別函數有效。(2)F-檢驗。求第一自由度為p,第二自由度為NA+NB-p
-1的F-統計量:9.2.3判別函數的檢驗9.2基于費歇準則的兩類判別分析給定置信度,查F-分布表,若計算值超過表列值,認為判別函數有效。Eq9-169判別分析法一個簡單例子,用于說明費歇判別分析應用過程。9.2.4判別分析舉例9.2基于費歇準則的兩類判別分析控制單元數據如右表類別單元號x1x2x3x4A(有礦)113.854.797.8049.60222.314.6712.3147.80328.824.6316.1862.15415.293.547.5843.20528.294.9016.1258.70B(無礦)62.181.061.2320.5073.850.84.0647.10811.400.003.500.0093.662.422.1415.101012.100.005.680.00下面建立判別函數。9判別分析法9.2.4判別分析舉例9.2基于費歇準則的兩類判別分析,所以先算出S和D。由Eq9-9計算兩類中各變量平均值的差:9判別分析法為獲得判別函數,需解方程組9.2.4判別分析舉例9.2基于費歇準則的兩類判別分析對稱矩陣,下三角未列出。由Eq9-10和Eq9-11計算。判別函數為判別臨界值為因為所以,判別得分大于臨界值的樣品都將判為A類。9判別分析法各類判別得分平均值為9.2.4費歇判別分析舉例9.2費歇兩類判別檢驗(1)回判正確率100%:(2)計算得F-統計量14.822,查表可知,在0.01置信水平上顯著。對未知單元進行判別(例如下表):類別單元號x1x2x3x4得分判別歸類未知318.853.285.1726.103.984B(無礦)3228.62.41.2127.029.355A(有礦)類別單元號R回判歸類A(有礦)16.008A27.016A38.094A46.946A57.968AB(無礦)62.484B72.692B83.123B92.603B101.141B9判別分析法9.3.1概述9.3基于實例的學習方法9判別分析法基于實例的學習(k-instancebasedlearning)也稱k-最近鄰法,是一類模式識別方法,能夠進行多類判別。該方法的特點是不管已知分類情況如何復雜,都能進行識別;計算過程很簡單,且幾乎不受數據噪聲影響,被稱為最穩健的智能化模式識別方法,應用廣泛。9.3.1概述9.3基于實例的學習方法9判別分析法在該類方法中,用于建立判別模型的已知樣本稱為訓練樣本或訓練集(在礦床統計預測中即控制單元)。訓練集中可以包含任意多個類別的樣品,這些類別的名稱可以用文字符號或數字表示,稱為類標號(類標簽)。根據計算結果不同,該方法有若干種變種,有的只識別類標號,有的可輸出定量結果。分別介紹如下。9.3.2輸出類標號的k-最近鄰法9.3基于實例的學習方法9判別分析法輸出類標號的k-最近鄰法是k-最近鄰法中最簡單的一種。計算過程共2步,如下:第1步:列出訓練樣品數據表。設有n個訓練樣品。數據表格式為:為類標號(文本變量),共m類。其中為d維實向量(表示有d個變量);所以數據表有n行d+1列。在礦床統計預測中,訓練樣品就是控制單元。訓練樣品數據表也稱為訓練樣本表,也就是控制單元數據表。所以數據表有d+1列。式中f(x)稱為x的目標函數值,其值是類標號;v是已知類別號,argmax
表示在k個樣品類標號中,出現最多的那一個,即v。第2步:識別。給定未知對象,從“訓練樣本表”中取出k個與距離最近的對象,設為。9.3.2輸出類標號的k-最近鄰法9.3基于實例的學習方法9判別分析法計算距離的公式:Eq9-17考查所取出的k個對象中都是什么類別,將其中出現最多的類標號,作為的類標號判斷結果。用公式表示為:Eq9-189.3.2輸出類標號的k-最近鄰法9.3基于實例的學習方法9判別分析法示例:設訓練樣本分2類,分別用+和-表示;共2個變量。若k=5,判別結果為:Xq屬于“-”類若k=1,判別結果為:Xq屬于“+”類可見,若已知分類情況與變量之間不是線性關系、很復雜,該方法仍能識別未知樣品類別。另外,k取多大,無現成規則,需要試驗。9.3.2輸出類標號的k-最近鄰法9.3基于實例的學習方法9判別分析法在礦床統計預測中,地質變量數據應為定量數據,這樣才能計算距離(Eq9-17)。預測結果是未知單元的可能歸屬的類別,如“含礦”、“不含礦”或“含大礦”等。9.3.3輸出連續值的k-最近鄰法9.3基于實例的學習方法9判別分析法輸出連續值是指預測結果不是類標號,而是定量數值,如“找礦有利度”、“資源量”等。為了獲得連續值預測結果,訓練集中樣品的y值也應當是連續值。這時,將前述的識別公式Eq9-18改為即計算所取出k個樣品的因變量的平均值作為判別結果。也只需兩步就可達到目的。Eq9-199.3.3輸出連續值的k-最近鄰法——簡單例子9.3基于實例的學習方法9判別分析法x1x2顏色表示礦床規模值(數字未寫出),k=6。算出圈內6個點的礦床規模平均值作為預測結果。k=12。算出圈內12個點的礦床規模平均值作為預測結果。9.3.4距離加權k-最近鄰法9.3基于實例的學習方法9判別分析法在預測未知樣品時,上述k-最近鄰法將取出的k個訓練樣本同等對待。距離加權k-最近鄰法能夠使距較遠的訓練樣本起較小的作用,讓較近的起較大作用,通常這樣更合理。9.3.4距離加權k-最近鄰法9.3基于實例的學習方法9判別分析法其中表示以距離平方的倒數為權系數。這時,表達式(1)輸出類標號:只需將Eq9-18作如下改動:Eq9-20Eq9-21會算出一個連續值;Eq9-20表示判別結果取該連續值最大的那個類標號。9.3.4距離加權k-最近鄰法9.3基于實例的學習方法9判別分析法(1)輸出類標號——簡單例子x1x2例如顏色表示不同的類標號。k=4。若不進行距離加權,預測結果為xq屬于洋紅色類;若距離加權,預測結果可能為:xq屬于綠色類。9.3.4距離加權k-最近鄰法9.3基于實例的學習方法9判別分析法(2)輸出連續值:只需將Eq9-19作如下改動:Eq9-22f(xi)為實連續函數。使用該公式的k最近鄰法稱為Shepard方法。在實施距離加權k-最近鄰法時,可以不先選出k個最近鄰樣本,而是用所有訓練樣本都算,這樣可省去選擇較近樣品的步驟,較方便,但如樣品數多則會較慢。這時稱為全局方法。否則稱局部方法。9.3.5應用注意事項9.3基于實例的學習方法9判別分析法因為要用多變量數據計算樣品之間的距離,所以,所有的自變量都應當規格化,或做其它類似的變換,以使不同變量統一量綱??刂茊卧ㄓ柧毤┖臀粗獑卧臄祿y一進行規格化。如果數據沒有規格化,則所計算出的距離受那些值域大的變量影響大,而值域小的變量無意間被忽視。9.3.5例9.3基于實例的學習方法9判別分析法訓練樣本數據:110個樣品2個變量3類樣品號x1x2類標號9.3基于實例的學習方法9判別分析法1類別23訓練樣本數據散點圖9.3.5例9.3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫院尿液標本管理制度
- 外部投資企業管理制度
- 培訓學校防暴管理制度
- 天津物業薪酬管理制度
- 員工借款金額管理制度
- 地下礦山安全管理制度
- 小學編程社團管理制度
- 工程往來資料管理制度
- 獸藥銷售現場管理制度
- 外包單位服務管理制度
- (正式版)JBT 14694-2024 電氣絕緣用合成有機酯與結構材料的相容性試驗方法
- MOOC 工程制圖-重慶大學 中國大學慕課答案
- 黑龍江省哈爾濱市香坊區風華教育集團2022-2023學年三年級下學期數學期末測試卷
- 銀川市安置房買賣合同合集3篇
- 男西褲結構制圖課件
- 道觀行業分析
- 博弈策略與完美思維智慧樹知到期末考試答案2024年
- 《關于勞動合同制職工工齡計算問題的復函》(勞社廳函〔2002〕323 號)
- 地下管線和相鄰建筑物安全保護措施
- 政府與非營利組織會計第8版王彥習題答案
- XXXX大學機關“定編、定崗、定責”實施方案
評論
0/150
提交評論