


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一講:多元統計方法及應用;多元統計方法分類(按變量、模型、因變量等)多元統計分析應用選擇題:數據或結構性簡化運用的方法有:多元回歸分析,聚類分析,主成分分析,因子分析分類和組合運用的方法有:判別分析,聚類分析,主成分分析 變量之間的相關關系運用的方法有:多元回歸,主成分分析,因子分析, 預測與決策運用的方法有:多元回歸,判別分析,聚類分析-屮中S因果模型(因變量數)i多元回歸,判別分析橫貫數據:.- I :1多元統計分析方法選擇題:多元統計方法的分類:1)按測量數據的來源分為:橫貫數據(同一時間不同案例的觀測數據),縱觀數據(同樣案例在不同時間的多次觀測數據)2 )按變量的測度等級(數據類型
2、)分為:類別(非 測量型)變量,數值型(測量型)變量3 )按分析模型的屬性分為:因果模型,相依模型4 )按模型中因變量的數量分為:單因變量模型, 多因變量模型,多層因果模型第二講:計算均值、協差陣、相關陣;相互獨立性第三講:主成分定義、應用及基本思想,主成分性質,主成分分析步驟主成分定義:何謂主成分分析 就是將原來的多個指標 (變量)線性組合成幾個新的相互無關的綜合指標(主成分),并使新的綜合指標盡可能多地反映原來的指標信息。主成分分析的應用:(1)數據的壓縮、結構的簡化; (2)樣品的綜合評價,排序主成分分析概述一一思想:( 1)把給定的一組變量 X1,X2,XP,通過線性變換,轉換為一組不
3、相關的變量Y1,Y2,YPo (2)在這種變換中,保持變量的總方差(X1,X2,Xp的方差之和)不變,同時,使 Y1具有最大方差,稱為第一主成分;Y2具有次大方差,稱為第二主成分。依次類推,原來有P個變量,就可以轉換出P個主成分(3)在實際應用中,為了簡化問題,通常找能夠反映原來P個變量的絕大部分方差的q (q<p)個主成分。主成分性質:1)性質1 :主成分的協方差矩陣是對角陣:(2)性質2:主成分的總方差等于原始變量的總方差(3)性質3:主成分Yk與原始變量Xi的相關系數為:P( YK,Xi ) ,tki,并稱之為因子負荷量(或因子載荷量)。主成分分析的具體步驟:將原始數據標準化;建立
4、變量的相關系數陣;求的特征根為:L P 0,相應的特征向量為T;,T*丄,T;:由累積方差貢獻率確定主成分的個數(m ),并寫出主成分為 Y (T*) X*, i 1,2,L ,m第四講:因子分析定義,因子載荷統計意義,因子分析模型及假設,因子旋轉因子分析定義:因子分析就是通過對多個變量的相關系數矩陣的研究,找出同時影 響或支配所有變量的共性因子的多元統計方法。因子載荷統計意義:1 因子載荷aj的統計意義對于因子模型Xi ai1F1 ai2F2 Laij Fj LaimFmi i 1,2,L , p我們可以得到,Xi與Fj的協方差為:mCov( Xi,Fj) Cov(aik Fki? Fj )
5、k 1mCOV(aik Fk > Fj ) COV( i,Fj)=k 1= aij那么,從上面的分析,我們知道對于標準化后的Xi , aij是Xi與Fj的相關系數,它方面表示Xi對Fj的依賴程度,絕對值越大,密切程度越高;另一方面也反映了aij()Cov(Xi,Fj)cov(Xi,Fj)j D(Xi) D(Fj)變量Xi對公共因子Fj的相對重要性。了解這一點對我們理解抽象的因子含義有非 常重要的作用。22變量共同度hi的統計意義 設因子載荷矩陣為 A,稱第i行元素的平方和,即mhi2a'i 1,2, L,p()j i為變量Xi的共同度。由因子模型,知D(XJ a:D(Fi) a:
6、D(F2)amD(Fm) D( i)a2a22 L2aimD ( i)()h22ii這里應該注意,()式說明變量X i的方差由兩部分組成:第一部分為共同度描述了全部公共因子對變量Xi的總方差所作的貢獻,反映了公共因子對變量Xi的影響程度。第二部分為特殊因子i對變量Xi的方差的貢獻,通常稱為個性方差。 如果對Xi作了標準化處理,有2 2()1 hiiF23、公因子 j的方差貢獻gj的統計意義設因子載荷矩陣為 A,稱第j列元素的平方和,即2 2gj 可 J 1,2,L ,mi 1為公共因子FJ對X的貢獻,2即gj表示同一公共因子FFj對各變量所提供的方差貢獻之總和,它是衡量每一個公共因子相對重要性
7、的一個尺度。因子分析模型及假設數學模型:每一個變量都可以表示成公共因子的線性函數與特殊因子之和,即:Xi=ai1*F1+a12*F2+ +aim*Fm+£ i (i=1,2,p)式中的 F1,F2,Fm稱為公共因子,t i稱為Xi的特殊因子。該模型可用矩陣表示為:X=AF+ |,且滿足:(1) m菸p(2)Cov(F, )=0,即公共因子與特殊因子是不相關的;(3)1,0,000,1,00DF=D(F)= 0,°,°1 =Im,即各個公共因子不相關且方差為1 ;( 4 )21,0,0.020, 2,0.020,0,0.D =D( )=p,即各個特殊因子不相關,方差
8、不要求相等。因子旋轉 因子旋轉的目的:初始因子的綜合性太強,難以找出因子的實際意義,因此需要通過坐標旋轉,使因子負荷兩極分化,要么接近于0,要么接近于于1,從而降低因子的綜合性,使其實際意義凸現出來,以便于解釋因子。3種,常用最大方因子旋轉的基本方法:一類是正交旋轉(保持因子間的正交性, 差旋轉),一類是斜交旋轉(因子間不一定正交)公共因子提取個數:(1)選特征值大于等于 1的因子(主成分)作為初始因子,通過求響應的標準化正交特征向量來計算因子載荷(2)碎石圖: 刪去特征值變平緩的那些因子( 3)累計方差貢獻率大于 85%第五講:聚類類型,系統聚類、 K- 均值聚類思想及步驟,系統聚類方法,相
9、似性測度方法聚類類型:根據分類的對象可將聚類分析分為:系統Q型與R型(即樣品聚類與變量聚類)系統聚類、K-均值聚類思想及步驟:系統聚類的基本思想:距離相近的樣本(或 變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量) 總能聚到合適的類中。 聚類過程及步驟:假設總共有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有 n 類;第二步根據所確定的樣品(或變量) “距離”公式,把距 離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類, 共聚成n-1類;第三步將“距離”最近的兩個類進一步聚成一類,共聚成n-2類;,以上步驟一直進行下去,最后將所
10、有的樣品(或變量)全聚成一類。最后可以畫譜 系圖分析。 快速聚類的基本思想,步驟:(也稱為K-均值法,逐步聚類,迭代聚類),基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法步驟如下:(1)將所有的樣品分成 K個初始類;(2)通過歐氏距離將某個樣品劃入離中心最近的類中, 并對獲得樣品與失去樣品的類,重新計算重心坐標。( 3)重復步驟 2,直到所有的樣品都不能再分配時為止。系統聚類方法: 最短距離法(單連接) ,最長距離法(完全連接) ,中間距離法, 類 平均法(組間平均連接法) ,可變類平均法, 重心法 ,可變法, 離差平方和法相似性測度方法: 不同樣本相似性度量:距離測度里包括:
11、明氏,馬氏,和蘭式不同變量相似度的度量:包括:夾角余弦,相關系數。第六講:判別分析及各判別方法思想,判別分析假設條件,距離判別與貝葉斯判別關系判別分析定義: 一種進行統計判別和分組的技術手段。它可以就一定數量案例的一 個分組變量和相應的其他多元變量的已知信息,確定分組與其他多元變量之間的數 量關系,建立判別函數 (discriminant Function ) 。然后便可以利用這一數量關系 對其他已知多元變量信息、但未知分組類型所屬的案例進行判別分組。各判別方法思想:距離判別:求新樣品 X到G的距離與到G2的距離之差,如果其值為正,X屬于G;否則X屬于G Bayes判別:由于k個總體出現的先驗
12、概率分別為qi,qs, ,qk,則用規則R來進行判別所造成的總平均損失為kk kg(R)qir(i,R)qi C(j|i)P(j |i,R)iii i ji()所謂 Bayes 判別法則,就是要選擇,使得()式表示的總平均損失 g(R) 達到極小。 Fisher判別的基本思想和步驟:從K個總體中抽取具有p個指標的樣品觀測數據,借助方差分析的思想構造一個線性判別函數:U(X)= 1X12X2 . PXP 'X ,其中系數(i, 2,p)'確定的原則是使得總體之間區別最大,而使每個總體內部的離差最小。有了線性判別函數后,對于一個新的樣品,將它的 P 個指標值代入線性判別函數式中 求
13、出U(X)值,然后根據判別一定的規則,就可以判別新的樣品屬于哪個總體。 判別分析假設條件: 判別分析的假設之一,是每一個判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問題。判別分析的假設之二,是各組變量的協方差矩陣相等。判別分析最簡單和最常用的 形式是采用線性判別函數,它們是判別變量的簡單線性組合。在各組協方差矩陣相 等的假設條件下,可以使用很簡單的公式來計算判別函數和進行顯著性檢驗。判別分析的假設之三,是各判別變量之間具有多元正態分布,即每個變量對于所有 其他變量的固定值有正態分布。在這種條件下可以精確計算顯著性檢驗值和分組歸 屬的概率。當違背該假設時,計算的概率將非常
14、不準確。距離判別與貝葉斯判別關系:XG1,如果W(X)0距離判別中兩個總體的距離判別規則為:如果,而貝XG2,W(X)0x G1 ,當 V(x)d葉斯判別規則為:二者唯一差別僅在于閥值點,從某種x G2 ,當 V (x)d意義上講,距離判別是貝葉斯判別的特殊情形。題型及分數:一、判斷對錯并改正( 4題, 8分)二、不定項選擇( 10題, 20 分)三、簡答題( 4 題, 32 分) (六選四)主成分基本思想 ,系統聚類 ,K- 均值聚類基本思想及過程, 判別分析及費希爾基本思想, 比較聚類與回歸、判別,因子分析及因子旋轉聚類與回歸、判別:判別與回歸:聯系:都是根據已有數據判別未來趨勢。區別:多
15、元回歸的因變量是數值型變量,且自變量可是 0-1 變量;判別分析的因變量是類別型變量,而自變量不是 0-1變量判別與聚類:聚類分析:類別未知,利用樣本確定分組數及所屬類別;判別分析:類別數及意義已知,還能“預測”新樣本所屬類別;聚類中加進一個變量需要對類進行更新, 重新計算與其他類的距離, 而判別對新樣本進行判別后,不更新所屬的類。四、計算題( 1 題, 10 分) 計算樣本均值、協差陣、相關陣五、分析題( 2 題, 30 分) (四選二)1 )主成分分析的SPSS實例分析(主成分個數確定,主成分表達式,主成分分析步驟)2 )因子分析的SPSS實例分析(因子分析模型,公因子的解釋命名分析)(二
16、選一)3)聚類分析的SPSS實例分析(分類數確定,聚類結果命名分析,優缺點及改進策略 ) 分類數確定 樹狀圖,確定原則是組內距離小,組間距離大。 聚合系數圖:在曲線開始變得平緩的點選擇合適的分類樹 任何類都必須在鄰近各類中是突出的,即各類重心間的距離必須大 各類所包含的元素都不要過分地多 分類數目應符合使用的目的 若采用幾種不同的聚類法,則在各自的聚類圖上應發現相同的類 對聚類過程中聚合系數分類數的變化(曲線)進行分析,可以輔助確定 合理的分類數聚類分析的缺點層次聚類法的結果容易受奇異值的影響,而快速聚類法受奇異值、相似測度和不適合的聚類變量的影響較小。層次聚類法可以得到一系列的聚類數,而快速聚類只能得到指定類數的聚類數。層次聚類法在數據比較多時計算量比較大,需要占據非常大的計算機內存空間,而快速聚類法計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業廢水處理技術與方法
- 工業機器人技術與發展趨勢
- 工業廢水處理技術創新研究
- 工業污染防治與綠色技術創新
- 工業機器人動力學設計與應用
- 工業綠色化轉型策略與方案
- 工業節能與新能源技術應用
- 工業燃氣管網的智能化管理研究
- 工業節能減排的先進技術與方法
- 工作中的自我激勵方法探討
- 老年常見技術之熱水袋使用護理課件
- 2024年真空泵行業技術趨勢分析
- prp技術治療骨關節疼痛
- 木材的聲學與振動特性
- 醫療機構污水管理培訓護理課件
- 4D廚房區域區間管理責任卡
- 2023年衡陽市中級人民法院聘用制書記員招聘考試試題及答案
- 區塊鏈原理與實踐全套教學課件
- 軍事訓練傷的防治
- 動物藥理課件
- 國開《化工安全技術》形考任務1-4答案
評論
0/150
提交評論