




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多元統計分析
統計學院杜子芳課程內容描述統計典型相關主成分和因子分析聚類分析判別和logistic回歸推薦參考書目張堯庭,方開泰,《多元統計分析引論》,北京:科學出版社,1982。高惠璇,《應用多元統計分析》,北京:北京大學出版社,2005。陳峰,《醫用多元統計分析方法》,北京:中國統計出版社,2000。[美]RichardA.Johnson,DeanW.Wichern著,陸璇葉俊譯,《實用多元統計分析》(第6版),北京:清華大學出版社,2008。多元統計分析的數據結構n個樣品p個變量的數據n個樣品(樣本點/case)p個變量(指標/variable)多元統計分析的數據結構(續)
變量1變量2…
變量p樣品1樣品2……樣品n變量的分類性質分類順序數值——定量(quantitative)功能自變量因變量定性(qualitative)三類變量三類變量的舉例分類:姓名,性別,民族,籍貫順序:學歷,“成份”,職稱數值:身高,收入,年齡變量對應的數據容許的最高計算等級分類
順序
數值
三種數據的變化升級變化手段:編碼后果:計算高級化信息可能扭曲降級變化手段:分組后果:計算低級化信息可能減少一個降級的例子學生成績原本是數值數據:0~100分分組后成順序數據:優,良,中,及格,差后果:無法進行加減計算了。信息減少,95與100分的差異不見了。課程框架自變量之間的關系聚類分析主成分分析因子分析自變量與因變量之間的關系
因變量自變量分類型數值型分類型列聯分析、對應分析方差分析、聯合分析數值型判別分析、Logistic回歸分析回歸分析、結構方程模型多元分析的描述統計描述統計量均值向量方差和協方差矩陣相關系數矩陣圖形散點矩陣圖三維曲面圖輪廓圖閃電圖雷達圖調和曲線圖切爾謝夫臉譜圖一元分析的描述統計量分類變量的數字特征集中性趨勢:眾數分散性趨勢:異眾比例順序變量的數字特征集中性趨勢:中位數分散性趨勢:四分位數數值變量的數字特征集中性趨勢:平均值分散性趨勢:標準差多元的描述統計量——均值向量集中趨勢,平均水平第一個變量的平均值第k個變量的平均值p個變量的均值向量多元的描述統計量——方差和協方差矩陣方差表示變量離散程度,協方差變量間的協同關系變量k的方差變量i和變量k的協方差變量i越大,變量k越大,則協方差為正數;變量i越大,變量k越小,則協方差為負數;若兩個變量關系不大,則協方差接近0當i=k時多元的描述統計量——方差和協方差矩陣多元的描述統計量——相關系數矩陣第i個和第k個變量的相關系數為相關系數是協方差的標準化形式;相關系數的取值在-1到+1之間;相關系數衡量的是變量間線性關系的強度多元的描述統計量——相關系數矩陣圖形散點矩陣圖——多個變量之間的關系三維曲面圖——兩個變量的聯合分布輪廓圖閃電圖雷達圖調和曲線圖切爾謝夫臉譜圖n很小,p比較大可以很直觀進行樣品間的比較,并且可以用于樣品的初步分組和驗證聚類分析的結果散點圖矩陣——多個變量間的關系p=2時,可以用散點圖表示兩個變量之間的關系p>2時,對p個變量兩兩配對生成散點圖矩陣散點圖矩陣——多個變量間的關系三維曲面圖輪廓圖橫坐標取p個點,表示p個變量;對于某一樣品,縱坐標表示每個變量的取值,將p個點用直線連起來;依次畫n個樣品的圖。輪廓圖閃電圖類似于輪廓圖旋轉90度直觀上便于各樣品之間的比較柱形圖vs條形圖12345購票方便準時等待時間短舒適物有所值方便安全可靠性高配套設施齊全座位寬敞有空調注:紅線代表地鐵,藍線代表公交車。購票不方便不準時等待時間長不舒適物非所值不方便安全可靠性低配套設施不齊全座位擁擠無空調地鐵公交服務優劣比較生均占地面積生均建筑面積百生均計算機數生均設備價值師生比生均圖書冊數生均占地面積生均建筑面積百生均計算機數生均設備價值師生比生均圖書冊數國家標準60㎡50㎡70㎡16.5㎡18㎡15㎡10臺5臺15臺5000元4500元5500元1:161:201:2580冊,35元/冊70冊,30元/冊80冊,40元/冊推薦方案投資方案雷達圖作一圓,將圓周p等分;連接圓心和各分點,這p條半徑即為p個坐標軸;將每一個樣品的p個變量取值分別標注在p個坐標軸上,用直線連接成p邊形;n個樣品即有n個p邊形。調和曲線圖Andrews,1972提出用二維空間的一條曲線表示多維空間的點各變量數值懸殊時,要先標準化同類的曲線擰在一起,不同類擰成不同的束切爾諾夫臉譜圖每個樣品用一個臉譜表示用臉部特征如臉的長度、高度、眼睛大小、發型等表示各變量的值可以根據臉的相似程度,將樣品分組無法在同一框架下進行比較Chernoff,H.“UsingFacestoRepresentPointsinK-DimensionalSpaceGraphically.”(1973)多元統計學的應用——文學《紅樓夢》作者研究(文本挖掘)選定數十個與情節無關的虛詞,把《紅樓夢》120回作為120個樣品,統計每一回選定的這些虛詞出現的頻數作為變量方法:聚類分析李賢平,“紅樓夢成書新說”,《復旦學報》社會科學版,1987年第5期多元統計學的應用——營銷消費者偏好研究消費者對具有不同屬性的各種產品進行打分,用聯合分析確定具有哪種屬性組合的產品最受歡迎,消費者最看重哪種屬性……屬性水平系統(system)WindowsXPWindowsVista顏色(color)黑紅CPUAMD羿龍Intel酷睿雙核多元統計學的應用——醫學胃癌的鑒別事先有一些經手術后病理化驗確診的病理資料,如三個總體,胃癌患者、萎縮性胃炎患者、非胃炎患者,每人化驗了4項生化指標(血清銅蛋白、藍色反應、尿吲哚乙酸、中性硫化物),根據這些資料可以建立診斷準則。以后對來就診的病人,就可以根據這幾項生化指標的結果以及之前建立的準則判斷病人的疾病種類。方法:判別分析多元統計學的應用——工業設計服裝定型問題服裝公司希望生產的成衣能適應大多數顧客的要求。首先做抽樣調查,測量身體身高、坐高、胸圍、腰圍、褲長、袖長等指標,確定服裝的每種型號是由身體的哪幾個主要尺寸決定的方法:主成分分析典型相關---統計相關的集大成有兩組變量(x1,x2,…xp),(y1,y2,…,yq),我們對兩組變量之間的關系感興趣。兩組共p+q個變量,如果進行兩兩相關分析可以得到p×q或(p+q)(p+q-1)/2個相關系數。但是這兩組變量或兩個隨機向量之間的“整體”相關關系是什么呢?典型相關分析的思想兩組隨機變量的相關系數我們并未接觸,以前接觸的是一對一的:分類之間,順序之間,數值之間一對多的:數值對分類(方差),數值對數值(回歸)多對多的:數值對數值如何反映多對多的相關呢?多元統計分析最重要的框架更細的分類典型相關分析的思想每組變量都進行線性組合,生成代表性變量;計算不同組任意兩個代表性變量的相關系數;找到相關系數最大對應的兩個代表性變量作為一對“典型”,將“典型”之間的相關系數用來代表兩組變量的線性相關程度,乘為典型相關系數,又稱廣義相關系數。廣義相關系數典型相關系數的檢驗廣義相關系數的性質所有廣義相關系數除滿足對稱性外還具有以下性質:時,代表U和V不相關,從而任一與任一中的隨機變量都不相關時,代表U和V可以相互線性表出時,等于Pearson相關系數的平方時,等于復相關系數的平方或決定系數。典型相關分析的數學表達對于兩組變量和,尋找系數向量和使得新的綜合變量(稱典型變量)
有盡可能大的相關關系。令典型相關分析的數學表達典型相關分析的數學表達典型變量的性質:1.X的典型變量U1,U2,…Up不相關,Y的典型變量W1,W2,…Wq不相關;2.X和Y的同一對典型變量Ui和Wi之間的相關系數為,不同對的Ui和Wi之間不相關。典型相關(續5)
注意點:
在實際例子中一般并不知道。因此在只有樣本數據的情況下,只要把用樣本協差陣或樣本相關陣代替就行了。但是這時的特征根可能不在0和1的范圍,因此會出現軟件輸出中的特征根(比如大于1)不等于相關系數的平方的情況,這時,各種軟件會給出調整后的相關系數。證明(1)證明(2)分類對分類相關的例子:
受訪者性別與種族的相關關系的測度不相關
完全相關完全相關的另一種情形列聯表的結構行合計列合計合計列標題行標題分類對分類相關的原理事件相關程度事件相關程度?變量相關程度?變量相關程度?最終的類類相關系數分類對數值相關的例子:
受訪者性別與姊妹數的相關關系的測度普通情形線性無關情形完全線性相關情形分類對數值的相關關系總平方和=組間平方和+組內平方和
證明兩種組間平方和的關系兩種證明證明1證明21對1之數值與數值的線性相關原理
1對1之數值與數值的線性相關原理典型相關分析的程序INCLUDE'C:\ProgramFiles\SPSS\Canonicalcorrelation.sps'.CANCORRSET1=salarysalbegin/SET2=jobtimeprevexpeduc.因子與主成分分析—簡化之至因子與主成分分析的思想在多元條件下,一些變量彼此存在很高的相關關系,其本質是所含信息具有重疊性。在回歸分析里,對這些相關程度很高(多重共線性)的變量其處置方式之一是去除一部分變量,只保留極少的變量做代表;另一種處置思路是用這些變量的線性組合替代原有變量(同時認為這些組合表征的是深層的原因—稱為因子),而盡量不減少它們所包含的信息。不僅如此,在不怎么減少原來變量所含信息的前提下,還要達成三個目標:減少變量個數;新變量彼此之間不再線性相關,最好正交;新變量與原變量之間的關系清晰容易判斷。三個關鍵問題以何表示原來變量所含信息?如何尋找達成上述目標的線性組合(即新變量)?此處線性組合與回歸分析和判別分析里的組合有何區別?第一節主成份分析回歸分析
判別分析主成份分析主成份分析主成份分析(續)類似判別分析那樣,應用拉格朗日方法求極值將所有特征根降序排隊,條件極值求法主成份分析(續)將最大特征根代入方程,求得,然后求得稱為的第一主成份(實際上是變換后的第一個新變量),而類似得到的稱為第i個主成份,最多有r個主成份。。主成份的個數通常有兩種取法(1)取為(2)特征根>1主成份的性質主成份(新變量)是原變量的線性變換彼此獨立(源于何種原因?)方差遞減(是什么原因?)方差總和守恒(又是什么原因?)主成分分析(續1)找出…向量ai主成分分析(續2)因此,
一般情況下,取使得總方差中累積的解釋比例達到85%的前幾個主成分。因子分析基本思想
很多變量間存在著某種相似性(彼此之間相關系數較高),本質上影響這些變量觀測值結果的可能是其背后看不到的共同原因所致。因子分析就是要從彼此相關的變量中找出這些原因。作法用較少數個公共因子的線性組合與特殊因子的之和來表示原觀察變量,以便達到降維的目的,并清楚暴露新變量與原變量間的相關關系。主成份分析是尋求因子的一種方法。因子分析(續1)因子分析(續2)共性方差
因子載荷aik是Xi與fk的協方差特殊方差表示m個公共因子對Xi的方差貢獻相當于回歸中的什么指標?因子分析(續3)
雖然該式表示的很精確,但后面p-m個特征值較小的并不是很有用,可以近似略去因子分析(續4)因子分析的參數估計極大似然法主成分估計法(迭代)主因子估計法因子旋轉原理因子得分加權最小二乘法巴特萊特極大似然法最小二乘法湯普森回歸法聚類分析分布的兩種表達方式給定的、整齊數表達的組限配以非整齊的頻數(率)給定的、整齊數表達的頻數(率)配以非整齊的組限(分位點)分類的常規作法依據先驗的、專業的給定標準(界限)分類聚類的作法根據后驗的、統計的邏輯上的標準劃定類別譜系聚類的步驟定義點間距;定義類間距;所有樣品看成n類;計算點間距并將距離最小者歸為一類,其余不變;確定各類之間的類間距,并將距離最小者歸為一類,其余不變;以此類推,直至所有樣品歸為一類。點間距絕對值距離歐式距離歐式平方距離馬氏(標準歐式平方)距離契氏距離蘭氏距離明氏距離組間距最短距離法最遠距離法中間距離法重心距離法類平均距離法可變類平均距離法可變距離法Ward距離法(離差平方和法)動態聚類的過程選凝聚點選點間距初始聚類計算各類重心做為新凝聚點計算其余樣本點到各凝聚點的距離計算各樣本點到各凝聚點的距離重新聚類確定類數合理?結束是否標準與想法標準與想法標準與想法(一分為二)分解法聚類的過程1、將所有個樣品做為一類;2、首先找到一個樣品,劃入中,使最大;3、再找到一個樣品,劃入中,使最大,依此下去直至只剩一個樣品未歸入第二類;4、求使為最大,則所有樣品分為兩類;5、對兩類分別重復上述步驟,并求使最大者。有序聚類的過程定義并計算類的直徑:定義并計算目標函數為各類直徑之和對所有可能的組合求最小目標函數寫出與最小目標函數對應的分類和類數判別分析假設早先依據訓練樣本的信息得到了某種隱含的標準,那么就可以據此標準對待判樣品進行判別:將待判樣品歸到不同的“類”中。這種判別本質上是一種預測行為,所不同的是預測依據的是公式化的模型,判別依據的是非公式化的隱含關系(訓練樣品的分類結果與其判別變量值之間的對應關系)。常見判別方法距離判別/Fisher判別/Bayes判別
距離判別距離判別(續1)兩母體時判別規則距離判別(續2)判別函數設兩類G1,G2的均值和協方差分別為,;
,則建立在馬氏距離基礎上的距離判別函數為相應的判別規則為Fisher判別設k個母體G1,G2,…Gk
相應的均值和方差分別為。任給一個樣品,考慮它的線性函數,則在y是來自Gi
的條件下,W(y)的均值和方差為投影Fisher判別(續1)類間離差平方和類內離差平方和
各類內部盡可能接近,各類間盡可能分開Fisher判別(續2)將E-1B的特征值按大小排列先把待判樣品y左乘,即將y投影到以為法線的方向上;再計算y與各類中心(已投影)間的距離,看y與哪類距離最近就歸為哪類。若投影后,仍不能確定其歸類,則繼續將y投影到為法線的方向上,依次下去,直到y能被確定歸為某類。Bayes判別假設條件Bayes判別(續)Wj(y)極小時,y就歸入對應的Gj
由訓練樣本得出Logistic回歸模型一.模型的引進二.Logistic回歸模型估計三.Logistic回歸模型的評價四.Logistic回歸系數的統計推斷五.Logistic回歸診斷一.模型的引進因變量是二分類定性變量時,考慮簡單線性模型:其中yi服從兩點分布:可知針對,有以下幾點問題
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫院科研過程管理制度
- 完善機關飯堂管理制度
- 公司門禁密碼管理制度
- 大漢集團薪酬管理制度
- 單位涉案財物管理制度
- 小區綠化水泵管理制度
- 員工設備工具管理制度
- 壓鑄行業安全管理制度
- 計算機三級考試新思潮試題及答案
- 嵌入式軟件測試方法試題及答案
- 2024年海南省普通高中學業水平合格性考試歷史試題(原卷版+解析版)
- 2025年先進技術并購協議
- ISO9001:2015、ISO22000、HACCP三合一內審檢查表2023版
- 檢驗與臨床溝通的主要內容
- 《律政俏佳人》課件
- 2025年度企業內部員工保密協議(新修訂)5篇
- 毽球運動在校園文化中的推廣計劃
- 《我有友情要出租》
- 服裝業品牌“波司登”調查問卷
- 2025人教版道法七年級下冊《第二單元 煥發青春活力》大單元整體教學設計2022課標
- 2025新外研社版英語七年級下單詞默寫表
評論
0/150
提交評論