多元統(tǒng)計分析及R語言建模全書教學(xué)課件完整版全套教學(xué)教程最全電子教案教學(xué)設(shè)計_第1頁
多元統(tǒng)計分析及R語言建模全書教學(xué)課件完整版全套教學(xué)教程最全電子教案教學(xué)設(shè)計_第2頁
多元統(tǒng)計分析及R語言建模全書教學(xué)課件完整版全套教學(xué)教程最全電子教案教學(xué)設(shè)計_第3頁
多元統(tǒng)計分析及R語言建模全書教學(xué)課件完整版全套教學(xué)教程最全電子教案教學(xué)設(shè)計_第4頁
多元統(tǒng)計分析及R語言建模全書教學(xué)課件完整版全套教學(xué)教程最全電子教案教學(xué)設(shè)計_第5頁
已閱讀5頁,還剩328頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第1章 多元統(tǒng)計分析概述多元統(tǒng)計分析及R語言建模 - 1- 多元統(tǒng)計分析及R語言建模1 多元統(tǒng)計分析概述內(nèi)容與要求內(nèi)容: 多元分析基本內(nèi)容,以及本課程的主要安排。相關(guān)的補充知識和將要涉及的計算軟件程序。要求: 要求學(xué)生了解多元分析的基本內(nèi)容及應(yīng)用領(lǐng)域,并掌握一些基本概念。對統(tǒng)計分析軟件有一個基本認識。多元統(tǒng)計分析及R語言建模 多元統(tǒng)計分析概述1.1 多元統(tǒng)計分析的歷史1 多元統(tǒng)計分析概述多元統(tǒng)計分析的歷史 現(xiàn)實生活中,受多種指標共同作用和影響的現(xiàn)象大量存在。 在經(jīng)濟生活中,受多種指標(隨機變量)共同作用和影響的現(xiàn)象大量存在。 多元統(tǒng)計分析是運用數(shù)理統(tǒng)計方法來研究解決多指標問題的理論和方法。1.

2、2 多元統(tǒng)計分析的用途多元統(tǒng)計分析的用途進行數(shù)值分類,構(gòu)造分類模式3變量之間相依性分析1構(gòu)造預(yù)測模型,進行預(yù)報控制2簡化系統(tǒng)結(jié)構(gòu),探討系統(tǒng)內(nèi)核4 如何選擇適當?shù)姆椒▉斫鉀Q實際問題,需要對問題進行綜合考慮。1 多元統(tǒng)計分析概述多元統(tǒng)計分析的內(nèi)容多元數(shù)據(jù)的數(shù)學(xué)表示1多元數(shù)據(jù)的直觀分析2多元線性相關(guān)分析3多元線性回歸分析4廣義和一般線性模型5判別分析6聚類分析7主成分分析8因子分析9對應(yīng)分析10典型相關(guān)分析11多維標度法12綜合評價法131.3 多元統(tǒng)計分析的內(nèi)容1 多元統(tǒng)計分析概述1.4 統(tǒng)計分析軟件及應(yīng)用S-PLUSSASSPSS著名統(tǒng)計分析軟件組合軟件系統(tǒng)入門比較困難操作簡單無須編程方便的數(shù)據(jù)

3、接口靈活的功能模塊組合操作界面簡單全面的統(tǒng)計模型和分析手段很強的圖形處理能力兼容性極好1強大的統(tǒng)計分析軟件 1 多元統(tǒng)計分析概述3 多元數(shù)據(jù)直觀表示及R使用1.4 統(tǒng)計分析軟件及應(yīng)用MATLAB數(shù)值分析數(shù)值和符號計算工程與科學(xué)繪圖控制系統(tǒng)的設(shè)計與仿真數(shù)字圖像處理技術(shù)數(shù)字信號處理技術(shù)通訊系統(tǒng)設(shè)計與仿財務(wù)與金融工程2完整的數(shù)值計算軟件 02031.4 統(tǒng)計分析軟件及應(yīng)用R3免費的數(shù)據(jù)分析軟件 01功能強大免費,開源前景廣闊1 多元統(tǒng)計分析概述1.5 R語言系統(tǒng)的設(shè)置優(yōu)點缺點自由軟件,統(tǒng)計功能強大,可以看作Splus的免費版本,是統(tǒng)計研究的首選初學(xué)較為麻煩,需一定編程經(jīng)驗1 多元統(tǒng)計分析概述R軟件優(yōu)

4、缺點1.5 R語言系統(tǒng)的設(shè)置1 多元統(tǒng)計分析概述 調(diào)整窗體位置 #三窗口排列語句編程窗口命令結(jié)果窗口圖形顯示窗口#Rstudio界面R里面有什么? Packages (每個都有大量數(shù)據(jù)和可以讀寫修改的函數(shù)/程序)base The R base packageboot Bootstrap R (S-Plus) Functions (Canty)class Functions for classificationcluster Functions for clustering (by Rousseeuw et al.)ctest Classical Testseda Exploratory Dat

5、a Analysisforeign Read data stored by Minitab, SAS, SPSS, .grid The Grid Graphics PackageKernSmooth Functions for kernel smoothing for Wand & Jones (1995)lattice Lattice Graphicslqs Resistant Regression and Covariance EstimationMASS Main Library of Venables and Ripleys MASSmethods Formal Methods and

6、 Classesmgcv Multiple smoothing parameter estimation and GAMs by GCVPackages (繼續(xù)) modreg Modern Regression: Smoothing and Local Methodsmva Classical Multivariate Analysisnlme Linear and nonlinear mixed effects modelsnls Nonlinear regressionnnet Feed-forward neural networks and multinomial log-linear

7、 modelsrpart Recursive partitioningspatial functions for kriging and point pattern analysissplines Regression Spline Functions and Classes stepfun Step Functions, including Empirical Distributionssurvival Survival analysis, including penalised likelihood.tcltk Interface to Tcl/Tktools Tools for Pack

8、age Development and Administrationts Time series functions所有這些Packages都是在base package上添加的 Base包含所有固有的應(yīng)用和數(shù)據(jù)而其他的packages包含各統(tǒng)計學(xué)家自己發(fā)展的方法和數(shù)據(jù)。希望你是下一個加盟這些packages的作者之一。第2章 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用多元統(tǒng)計分析及R語言建模 多元統(tǒng)計分析及R語言建模2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用內(nèi)容與要求內(nèi)容: 多元數(shù)據(jù)的基本格式,如何收集和整理多元統(tǒng)計分析資料、數(shù)據(jù)的數(shù)學(xué)表達、數(shù)據(jù)矩陣及R表示、數(shù)據(jù)的R語言表示、R調(diào)用多元的數(shù)據(jù)和多元的數(shù)據(jù)的簡單R語言分

9、析。要求: 要求學(xué)生熟練如何收集和整理多元統(tǒng)計分析資料、數(shù)據(jù)的數(shù)學(xué)表達、掌握多元數(shù)據(jù)的數(shù)字特征的解析表達式、數(shù)字特征的基本性質(zhì)。熟悉有關(guān)統(tǒng)計軟件。利用統(tǒng)計軟件來練習(xí)矩陣的有關(guān)計算。練習(xí)在已給數(shù)據(jù)下,求樣本均值、樣本離差陣、樣本協(xié)差陣等。多元統(tǒng)計分析及R語言建模2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用2.1 如何收集和整理多元分析資料2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用 多元分析資料的一般格式 矩陣化表示2.1 如何收集和整理多元分析資料2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用 舉例【例2.1】為了了解股民的投資狀況,研究股民的股票投資特征,我們在2002年組織統(tǒng)計系本科生進行小范圍的“股民投資狀況抽樣調(diào)查”。本次調(diào)查的

10、抽樣框主要涉及廣東省的6個城市(廣州、深圳、珠海、中山、佛山和東莞,其中,廣州、深圳各100份,其他城市各80份),共發(fā)放問卷520份,回收有效問卷514份。問卷中設(shè)計了18個問題。為了簡化分析,本例只考慮:年齡、性別、風險意識、是否專兼職、職業(yè)狀況、教育程度和投資結(jié)果共7個變量進行分析。#本例性別、風險、專兼職、職業(yè)、教育和結(jié)果為定性變量,年齡是定量變量,有時為了分析問題方便,也可將其定量化,例如年齡(age):19歲以下(1);20至29歲(2);30 至39歲(3);40至49歲(4);50至59歲(5);60歲 及以上(6);缺失(*)。性別(sex): 男(1),女(2)。風險(ri

11、sk):有(1);無(2)。專兼職(post):專職(1);業(yè)余(2)。職業(yè)(career):干部(1);管理(2);3科教(3);金融(4);工人(5);農(nóng)民(6);個體(7);無業(yè)(8)。教育(edu):文盲(1);小學(xué)(2);中學(xué)(3);高中(4);中專(5);大專(6);大學(xué)(7);研究生(8)。投資結(jié)果(result):賺錢(1);不賠不賺(2);賠錢(3)。2.2 數(shù)據(jù)的表達2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用方差樣本均值和方差一元數(shù)據(jù)多元數(shù)據(jù)期望期望協(xié)方差數(shù)據(jù)的表達2.3 數(shù)據(jù)矩陣2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用在R中可以用函數(shù)c()來創(chuàng)建向量:在R中結(jié)果輸出如下:2.3 數(shù)據(jù)矩陣2 多

12、元數(shù)據(jù)的數(shù)學(xué)表達及R使用#將向量按列和并rbind(x1,x2) #利用x1數(shù)據(jù)創(chuàng)建矩陣matrix(x1,nrow=3,ncol=4) #創(chuàng)建按照行排列的矩陣matrix(x1,nrow=3,ncol=4,byrow=T)2.3 數(shù)據(jù)矩陣2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#創(chuàng)建兩個相同的矩陣A=B=matrix(1:12,nrow=3,ncol=4) #矩陣轉(zhuǎn)置t(A) #矩陣加法A+B #矩陣加法A+B 2.3 數(shù)據(jù)矩陣2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#矩陣相乘A=matrix(1:12,nrow=3,ncol=4) B=matrix(1:12,nrow=4,ncol=3)A%in%B#獲取對角

13、線元素A=matrix(1:16,nrow=4,ncol=4)diag(A) #利用對角線元素創(chuàng)建對角矩陣diag(diag(A)#創(chuàng)建3階單位矩陣diag(3)2.3 數(shù)據(jù)矩陣2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#求逆矩陣A=matrix(rnorm(16),4,4)solve(A)#求矩陣特征根與特征向量A=diag(4)+1A.e=eigen(A,symmetric=T)#矩陣的Choleskey分解A.c=chol(A)2.3 數(shù)據(jù)矩陣2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#矩陣奇異值分解A=matrix(1:18,3,6)A.s=svd(A)#矩陣的維數(shù)A=matrix(1:12,3,4)dim(

14、A)#矩陣的行數(shù)nrow(A)#矩陣的行數(shù)ncol(A)2.3 數(shù)據(jù)矩陣2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#矩陣按行求和rowSums(A)#矩陣按行求均值colSums(A)#矩陣按列求和colSums(A)#矩陣按列求均值colSums(A)apply()函數(shù)apply(X, MARGIN, FUN, .)#矩陣按行求和apply(A,1,sum)#矩陣按行求均值apply(A,1,mean)#矩陣按行求和rowSums(A)#矩陣按行求均值colSums(A)2.3 數(shù)據(jù)矩陣2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#矩陣按列求和apply(A,2,sum)#矩陣按列求均值aplly(A,2,mean)

15、#矩陣按列求方差A(yù)=matrix(rnorm(100),20,5)aplly(A,2,var)#矩陣按列求函數(shù)結(jié)果B=matrix(1:12,3,4)apply(B,2,function(x,a) x*a, a=2)注意:apply(B,2,function(x,a) x*a,a=2)與B*2效果相同,此處旨在說明如何應(yīng)用apply函數(shù)。2.4 數(shù)據(jù)的R語言表示數(shù)據(jù)框2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用數(shù)據(jù)框(data frame)是一種矩陣形式的數(shù)據(jù),但數(shù)據(jù)框中各列可以是不同類型的數(shù)據(jù)。分量必須是向量(數(shù)值,字符,邏輯)、因子、數(shù)值矩陣、列表或者其他數(shù)據(jù)框。矩陣、列表和數(shù)據(jù)框為新的數(shù)據(jù)框提供了盡可

16、能多的變量,因為它們各自擁有列、元素或者變量。數(shù)值向量、邏輯值、因子保持原有格式,而字符向量會被強制轉(zhuǎn)換成因子并且它的水平就是向量中出現(xiàn)的獨立值。在數(shù)據(jù)框中以變量形式出現(xiàn)的向量長度必須一致,矩陣結(jié)構(gòu)必須有一樣的行數(shù)。數(shù)據(jù)框錄入限制條件數(shù)據(jù)框2.4 數(shù)據(jù)的R語言表示數(shù)據(jù)框2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#由x1和x2構(gòu)建數(shù)據(jù)框X=data.frame(x1,x2)#賦予數(shù)據(jù)框新的列標簽X=data.frame(身高=x1,體重=x2)2.5 多元數(shù)據(jù)的R語言調(diào)用 2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用從剪切板讀取選擇需要進行計算的數(shù)據(jù)塊(比如上例中名為UG的數(shù)據(jù)),拷貝之。在R中使用dat - read.

17、table(clipboard,header=T)01022.5 多元數(shù)據(jù)的R語言調(diào)用 2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用從文本文件讀取#讀取名為textdata的txt格式文檔X=read.table(textdata.txt)X=read.table(textdata.txt,header=T)第一行作為標題時 2.5 多元數(shù)據(jù)的R語言調(diào)用 2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用讀取csv格式和excel格式讀取csv格式讀取excel格式X=read.csv(textdata.csv) 1.下載讀取excel文件的包“readxl”2. 調(diào)用包:library(readxl)3. 讀取文件:X=re

18、ad_excel(“data.xls”)2.6 多元數(shù)據(jù)的簡單R語言分析 2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#身高的直方圖hist(x1)#身高與體重散點圖plot(x1,x2)定量變量分析2.6 多元數(shù)據(jù)的簡單R語言分析 2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#將剪切板數(shù)據(jù)讀入數(shù)據(jù)框d2.1中d2.1=read.table(clipboard,header=T)#顯示數(shù)據(jù)前6行head(d2.1)定性變量分析#綁定數(shù)據(jù)attach(d2.1)#一維列聯(lián)表table(年齡)2.6 多元數(shù)據(jù)的簡單R語言分析 2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#條形圖barplot(table(年齡),col=1:7)#餅圖pi

19、e(table(結(jié)果)定性變量分析(單因素)2.6 多元數(shù)據(jù)的簡單R語言分析 2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#以性別分組的年齡條圖barplot(table(年齡,性別), beside =T, col = 1:7)#以年齡分組的性別條圖barplot(table(性別,年齡), beside=T,col =1:2)定性變量分析(雙因素)2.6 多元數(shù)據(jù)的簡單R語言分析 2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#以年齡、性別排列的結(jié)果頻數(shù)三維列聯(lián)表ftable(年齡,性別,結(jié)果)#以性別、年齡排列的結(jié)果頻數(shù)三維列聯(lián)表ftable(性別,年齡,結(jié)果)定性變量分析(三因素)2.6 多元數(shù)據(jù)的簡單R語言分析

20、2 多元數(shù)據(jù)的數(shù)學(xué)表達及R使用#ft=ftable(性別,結(jié)果,年齡)#求ft的行和rowSums(ft)定性變量分析(三因素)#求ft的列和colSums(ft)#整理得注意detach(d2.1)當數(shù)據(jù)框不使用時,解除綁定!第3章 多元數(shù)據(jù)直觀表示及R使用多元統(tǒng)計分析及R語言建模 - 41- 多元統(tǒng)計分析及R語言建模3 多元數(shù)據(jù)直觀表示及R使用內(nèi)容與要求內(nèi)容: 包括條圖、箱尾圖、星相圖、臉譜圖、調(diào)和曲線圖等圖形及R語言使用。要求: 要求學(xué)生了解多元數(shù)據(jù)的直觀表示方法及多變量圖形的一些特點,并掌握一些復(fù)雜的多元數(shù)據(jù)的圖示技術(shù)。多元統(tǒng)計分析及R語言建模第3章 多元數(shù)據(jù)直觀表示及R使用3.1 數(shù)

21、據(jù)直觀分析簡述3 多元數(shù)據(jù)直觀表示及R使用說明與舉例 說明: 圖形有助于對所研究數(shù)據(jù)的直觀了解,如果能把一些多元數(shù)據(jù)直接繪圖顯示,便可從圖形一目了然看出多元變量之間的關(guān)系。 舉例: 【例 3-1】為了研究全國31個省、市、自治區(qū)2007年城鎮(zhèn)居民生活消費的分布規(guī)律,根據(jù)調(diào)查資料做區(qū)域消費類型劃分。3.1 數(shù)據(jù)直觀分析簡述3 多元數(shù)據(jù)直觀表示及R使用 指標:食品:人均食品支出(元/人) 衣著:人均衣著商品支出(元/人) 設(shè)備:人均家庭設(shè)備用品及服務(wù)支出(元/人) 醫(yī)療:人均醫(yī)療保健支出(元/人) 交通:人均交通和通訊支出(元/人) 教育:人均娛樂教育文化服務(wù)支出(元/人) 居住:人均居住支出(元

22、/人) 雜項:人均雜項商品和服務(wù)支出(元/人) 數(shù)據(jù): 數(shù)據(jù)來源: 2008中國統(tǒng)計年鑒 數(shù)據(jù)存儲: 電子表格mvstats4.xls 之【d3.1】 3.1 數(shù)據(jù)直觀分析簡述3 多元數(shù)據(jù)直觀表示及R使用 數(shù)據(jù)輸入:數(shù)據(jù)R語言讀取 #在mvstats4.xls:d3.1中選取A1:I32,拷貝 數(shù)據(jù)輸出: X=read.table(clipboard,header=T);X 直觀分析:圖示法 對上述數(shù)據(jù)直接做條圖意義不大,通常需要對其統(tǒng)計量(如均值、中位數(shù)等)做直觀分析。3.2 均值條圖及R使用3 多元數(shù)據(jù)直觀表示及R使用 條圖: (1)樣品(行)均值條圖#按行做均值條形圖barplot(ap

23、ply(X,1,mean) #修改橫坐標位置barplot(apply(X,1,mean),las=3) 3.2 均值條圖及R使用3 多元數(shù)據(jù)直觀表示及R使用 條圖: (2)變量(列)均值條圖#按列做均值圖條形barplot(apply(X,2,mean) #按列做彩色均值圖條形圖barplot(apply(X,2,mean),col=1:8)3.2 均值條圖及R使用3 多元數(shù)據(jù)直觀表示及R使用 條圖:(2)變量(列)中位數(shù)條圖#按列做中位數(shù)條形圖 barplot(apply(X,2,median),col=1:8)#按列做均值餅圖pie(apply(X,2,mean) 餅圖: (2)變量(列

24、)圓圖3.3 箱尾圖及R使用3 多元數(shù)據(jù)直觀表示及R使用 箱尾圖 用途: Tukey提出的箱尾圖由箱子和其上引出的兩個尾組成,這種圖用來表示在一定時間內(nèi)一個班成績的變化、物體位置的變化、原材料的變化、產(chǎn)品標準的變化等。 特征: 箱尾圖可以比較清晰地表示數(shù)據(jù)的分布特征,它由4部分組成。 R語言函數(shù): boxplot(X,.)3.3 箱尾圖及R使用3 多元數(shù)據(jù)直觀表示及R使用boxplot(X) #按列做垂直箱線圖boxplot(X,horizontal=T)#水平箱線圖3.4 星相圖及R使用3 多元數(shù)據(jù)直觀表示及R使用 星相圖 用途: 它將每個變量的各個觀察單位的數(shù)值表示為一個圖形,個觀察單位就

25、有個圖,每個圖的每個角表示每個變量。 特征: 星相圖是雷達圖的多元表示形式。 R語言函數(shù): stars(X, draw.segments = FALSE,key.loc = NULL,.)3.4 星相圖及R使用3 多元數(shù)據(jù)直觀表示及R使用#簡單星相圖stars(X) 3.4 星相圖及R使用3 多元數(shù)據(jù)直觀表示及R使用 #帶圖例的星相圖 stars(X,key.loc=c(17,7) 3.4 星相圖及R使用3 多元數(shù)據(jù)直觀表示及R使用#帶圖例度彩色星相圖stars(X,key.loc=c(17,7), draw.segments=T) #加載aplpack包library(aplpack) #按

26、每行7個做臉譜圖faces(X,ncol.plot=7) 臉譜圖:運用樣本各變量值構(gòu)造臉的各部位,通過分析臉部位大小或形狀來 分析各樣本數(shù)據(jù)特征3.4 星臉譜圖及R使用3 多元數(shù)據(jù)直觀表示及R使用#加載mvstats包library(mvstats) plot.andrews(X) 調(diào)和曲線圖:使用高維空間中的一個樣本對應(yīng)于二維平面上的一條曲線的方法 分析數(shù)據(jù)特征3.6 調(diào)和曲線圖及R使用3 多元數(shù)據(jù)直觀表示及R使用直觀表示圖均值條圖均值、中位數(shù)箱尾圖調(diào)和曲線圖分位數(shù)曲線特征多元數(shù)據(jù)直觀表示-小結(jié)星相圖星相凸角臉譜圖臉譜特征第4章 多元相關(guān)與回歸分析及R使用多元統(tǒng)計分析及R語言建模 - 59-

27、 多元統(tǒng)計分析及R語言建模4 多元相關(guān)與回歸分析及R使用內(nèi)容與要求內(nèi)容: 變量間的關(guān)系分析與回歸分析。多元相關(guān)回歸分析的目的和基本思想,回歸變量選擇及逐步回歸分析方法。要求: 在學(xué)生已具有的(一元)相關(guān)與回歸分析的基礎(chǔ)知識上,掌握和應(yīng)用多元線性相關(guān)與回歸分析。多元統(tǒng)計分析及R語言建模第4章 多元相關(guān)與回歸分析及R使用本節(jié)內(nèi)容4.1 變量間的關(guān)系分析1 簡單相關(guān)分析的R計算2 一元線性回歸分析的R計算4 多元相關(guān)與回歸分析及R使用4.1 變量間的關(guān)系分析4 多元相關(guān)與回歸分析及R使用兩變量線性相關(guān)系數(shù) 樣本的線性相關(guān)系數(shù): 離均差平方和與離均差積和:4.1 變量間的關(guān)系分析4 多元相關(guān)與回歸分析

28、及R使用說明與舉例 舉例: 【例 4-1】(續(xù)例2-2)身高與體重的相關(guān)關(guān)系分析。下面以例2-2的身高與體重數(shù)據(jù)分析。 先建立一個離均差積和函數(shù):4.1 變量間的關(guān)系分析4 多元相關(guān)與回歸分析及R使用 數(shù)據(jù)輸入:讀取身高與體重的數(shù)據(jù) 數(shù)據(jù)輸出: plot(x1,x2) 直觀分析:圖示法 通過散點圖看身高與體重的關(guān)系x1=c(171,175,159,155,152,158,154,164,168,166,159,164)x2=c(57,64,41,38,35,44,41,51,57,49,47,46)4.1 變量間的關(guān)系分析4 多元相關(guān)與回歸分析及R使用 建立離均差乘積和函數(shù): 數(shù)據(jù)輸出: lx

29、yF) x 1 712077 712077 27427 |t|) (Intercept) -1.19660 1.16126 -1.03 0.311 x 1.11623 0.00674 165.61 |t|) (Intercept) 23.5321088 4.5990714 5.117 2.47e-05 *x1 -0.0033866 0.0080749 -0.419 0.678 x2 1.1641150 0.0404889 28.751 2e-16 *x3 0.0002919 0.0085527 0.034 0.973 x4 -0.0437416 0.0092638 -4.722 7.00e-0

30、5 *Signif. codes: 0*0.001 *0.01 *0.05 .0.1 1Residual standard error: 2.79 on 26 degrees of freedomMultiple R-squared: 0.9997,Adjusted R-squared: 0.9997 F-statistic: 2.289e+04 on 4 and 26 DF, p-value: 2.2e-16summary(fm)#多元線性回歸系數(shù)t檢驗lm(formula=yx1+x2+x3+x4, data = yX)Residuals: Min 1Q Median 3Q Max -5.

31、0229 -2.1354 0.3297 1.2639 6.9690 多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析 在相關(guān)分析中,研究較多的是兩個變量之間的關(guān)系,稱為簡單相關(guān);當涉及到的變量為三個或者三個以上時,稱為偏相關(guān)或復(fù)相關(guān)。實際上,偏相關(guān)和復(fù)相關(guān)是對簡單相關(guān)的一種推廣。多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析設(shè)樣本矩陣為:多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析此時任意兩個變量間相關(guān)系數(shù)構(gòu)成的矩陣為:多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析其中r

32、ij為任意兩變量之間的簡單相關(guān)系數(shù):多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析舉例與說明(續(xù)例4.4)財政收入與其他變量間的相關(guān)分析。計算財政收入和國民生產(chǎn)總值及稅收、進出口貿(mào)易總額、經(jīng)濟活動人口兩兩之間相關(guān)系數(shù),表4.9給出了相關(guān)系數(shù)的假設(shè)檢驗統(tǒng)計量。首先我們計算變量兩兩間的相關(guān)系數(shù)多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析#多元數(shù)據(jù)相關(guān)系數(shù)矩陣cor(yX) R語言代碼數(shù)據(jù)輸出多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析函數(shù)說明由于沒有現(xiàn)成的進行相關(guān)系數(shù)矩陣的假設(shè)檢驗,下面編寫計算相關(guān)系數(shù)的值和值的函數(shù)corr.test()。多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析library(

33、mvstats)#多元數(shù)據(jù)相關(guān)系數(shù)檢驗corr.test(yX) R語言代碼數(shù)據(jù)輸出從結(jié)果可以看出,財政收入和國民生產(chǎn)總值及稅收、進出口貿(mào)易總額、經(jīng)濟活動人口之間的關(guān)系都非常密切,財政收入與稅收之間的關(guān)系最為密切。多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析復(fù)相關(guān)分析 在實際分析中,一個變量的變化往往要受到多種變量的綜合影響,這時就需要采用復(fù)相關(guān)分析方法。所謂復(fù)相關(guān),就是研究多個變量同時與某個變量之間的相關(guān)關(guān)系,度量復(fù)相關(guān)程度的指標是復(fù)相關(guān)系數(shù)。多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析假定回歸模型為:復(fù)相關(guān)系數(shù)多元統(tǒng)計分析及R語言建模4.3 多元

34、相關(guān)分析多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析復(fù)相關(guān)系數(shù)計算公式為:復(fù)相關(guān)系數(shù)多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析復(fù)相關(guān)系數(shù):決定系數(shù)決定系數(shù):多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析#顯示多元線性回歸模型決定系數(shù)(R2=summary(fm)$r.sq) R語言代碼數(shù)據(jù)輸出#顯示多元數(shù)據(jù)復(fù)相關(guān)系數(shù)(R=sqrt(R2)1 0.99971 0.9999多元統(tǒng)計分析及R語言建模4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模多元回歸分析主要用途用于描述解釋現(xiàn)象, 這時希望回歸方程中所包含的自變量盡可能少一些用于預(yù)測, 這時希望預(yù)測的

35、均方誤差較小用于控制,這時希望各回歸系數(shù)具有較小的方差和均方誤差多元統(tǒng)計分析及R語言建模4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模變量太多,容易引起的問題變量多增加了模型的復(fù)雜計算量增大估計和預(yù)測的精度下降模型應(yīng)用費用增加多元統(tǒng)計分析及R語言建模4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模解決方法全部子集法向后刪除法向前引入法逐步回歸法4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模全局最優(yōu)法從理論上說,自變量選擇最好的方法是所有可能回歸法,即建立因變量和所有自變量全部子集組合的回歸模型,也稱全部子集法。對于每個模型,在實用上,從數(shù)據(jù)與模型擬合優(yōu)劣的直觀考慮出發(fā),基于殘差(誤差

36、)平方和的變量選擇準則使用的最多。多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析舉例與說明【例4.6】(續(xù)例4.4)在“財政收入”數(shù)據(jù)中,有4個自變量:x1,x2,x3,x4。所有可能的模型可分為5組子集:多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析舉例與說明例4.4數(shù)據(jù)的RSS與R2準則回歸子集:多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析library(leaps) #加載leaps包varsel=regsubsets(yx1+x2+x3+x4,data=yX) result=summary(varsel) data.frame(resultoutmat,RSS=resultrss,R2=r

37、esult$rsq) R語言代碼數(shù)據(jù)輸出多元統(tǒng)計分析及R語言建模4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模R2和RSS準則優(yōu)缺點具有較大R2的對較少自變量的模型應(yīng)該是好的選擇,較大的意味著有好的擬合效果,而較少的變量個數(shù)可減輕信息的收集和控制。對于有個自變量的回歸模型來說,當自變量子集在擴大時,殘差平方和隨之減少。因此,如果按RSS“愈小愈好”和按R2”愈大愈好”的原則來選擇自變量子集,則毫無疑問應(yīng)該選全部自變量多元統(tǒng)計分析及R語言建模4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模變量選擇的常用準則平均殘差平方和最小準則誤差均方根MSE最小準則校正復(fù)相關(guān)系數(shù)平方(Adjusted

38、R2)準則Cp準則AIC準則BIC準則多元統(tǒng)計分析及R語言建模舉例與說明表4.10例4.4數(shù)據(jù)的Cp與BIC準則回歸子集4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模4.3 多元相關(guān)分析data.frame(resultoutmat,adjR2=resultadjr2,Cp=resultcp,BIC=result$bic)R語言代碼數(shù)據(jù)輸出多元統(tǒng)計分析及R語言建模4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模全局擇優(yōu)法的缺陷如果自變量個數(shù)為4,則所有的回歸有15個,當自變量個數(shù)為10時,所有可能的回歸為1023個,當自變量數(shù)個數(shù)為50時,所有可能的回歸為1015個,當p很大時,數(shù)字2p

39、大得驚人,有時計算是不可能的,于是就提出了所謂逐步回歸的方法.4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模逐步回歸分析在作實際多元線性回歸時常有這樣情況, 變量x1,x2,.xp相互之間常常是線性相關(guān)的,即在x1,x2,.xp中任何兩個變量是完全線性相關(guān)的, 即相關(guān)系數(shù)為1,則矩陣XTX的秩小于p,XTX就無解。當變量x1,x2,.xp中任有兩個變量存在較大的相關(guān)性時, 矩陣XTX處于病態(tài), 會給模型帶來很大誤差。因此作回歸時, 應(yīng)選變量x1,x2,.xp中的一部分作回歸, 剔除一些變量。逐步回歸法就是尋找較優(yōu)子空間的一種變量選擇方法。多元統(tǒng)計分析及R語言建模4.4 回歸變量的選擇方法多

40、元統(tǒng)計分析及R語言建模逐步變量選擇的方法向前引入法向后剔除法逐步篩選法多元統(tǒng)計分析及R語言建模fm=lm(yx1+x2+x3+x4, data=yX) fm.step=step(fm,direction=forward) #向前引入法變量選擇結(jié)果R語言代碼數(shù)據(jù)輸出4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模fm.step=step(fm,direction=backward) #向后剔除法變量選擇結(jié)果R語言代碼數(shù)據(jù)輸出4.4 回歸變量的選擇方法多元統(tǒng)計分析及R語言建模fm.step=step(fm,direction=both) #逐步篩選法變量選擇結(jié)果R語言代碼數(shù)據(jù)輸出4.4 回歸變量

41、的選擇方法多元統(tǒng)計分析及R語言建模 第5章 廣義與一般線性模型及R使用 多元統(tǒng)計分析及R語言建模第5章 廣義與一般線性模型及R使用多元統(tǒng)計分析及R語言建模第5章 廣義與一般線性模型及R使用基本內(nèi)容:數(shù)據(jù)的分類與模型選擇、廣義線性模型概述、Logistic回歸模型、對數(shù)線性模型、一般線性模型的計算?;疽螅阂髮W(xué)生針對因變量和解釋變量的取值性質(zhì),了解統(tǒng)計模型的類型。掌握數(shù)據(jù)的分類與模型選擇方法,并對廣義線性模型和一般線性模型有初步的了解。內(nèi)容與要求5.1 數(shù)據(jù)的分類與模型選擇5廣義與一般線性模型及R使用5.1 數(shù)據(jù)的分類與模型選擇5廣義與一般線性模型及R使用2.模型選擇方式:基本公式 yX連續(xù)

42、變量0-1變量有序變量多分類變量連續(xù)伴有刪失連續(xù)變量線性回歸方程logistic回歸模型累積比數(shù)模型對數(shù)線性模型對數(shù)線性模型多分類logistic回歸模型cox比例風險模型分類變量 實驗設(shè)計模型(方差分析模型)連續(xù)變量分類變量協(xié)方差分析模型5.2 廣義線性模型5廣義與一般線性模型及R使用表5.1 廣義線性模型中的常用分布族5.2 廣義線性模型5廣義與一般線性模型及R使用5.2 廣義線性模型5廣義與一般線性模型及R使用說明與舉例 說明: 2、Logistic模型:函數(shù)形式其中參數(shù)估計采用極大似然估計。 舉例:對45名駕駛員的調(diào)查結(jié)果,其中四個變量的含義為:x1:表示視力狀況,它是一個分類變量,1

43、表示好,0表示有問題;x2:年齡,數(shù)值型;x3:駕車教育,它也是一個分類變量,1表示參加過駕車教育,0表示沒有;y:分類變量(去年是否出過事故,1表示出過事故,0表示沒有)。5.2 廣義線性模型5廣義與一般線性模型及R使用d5.1=read.table(clipboard,header=T) #讀取例5.1數(shù)據(jù) logit.glm-glm(yx1+x2+x3,family=binomial,data=d5.1) #Logistic回歸模型summary(logit.glm) #Logistic回歸模型結(jié)果得到初步的logistic回歸模型:(1)建立全變量logistic回歸模型:程序與結(jié)果5

44、.2 廣義線性模型5廣義與一般線性模型及R使用logit.step-step(logit.glm,direction=both) #逐步篩選法變量選擇由此得到新的logistic回歸模型:(2)逐步篩選變量logistic回歸模型:summary(logit.step) #逐步篩選法變量選擇結(jié)果程序與結(jié)果5.2 廣義線性模型5廣義與一般線性模型及R使用pre1-predict(logit.step,data.frame(x1=1) #預(yù)測視力正常司機Logistic回歸結(jié)果p1-exp(pre1)/(1+exp(pre1) #預(yù)測視力正常司機發(fā)生事故概率pre2-predict(logit.s

45、tep,data.frame(x1=0) #預(yù)測視力有問題的司機Logistic回歸結(jié)果p2-exp(pre2)/(1+exp(pre2) #預(yù)測視力有問題的司機發(fā)生事故概率c(p1,p2) #結(jié)果顯示(3):預(yù)測發(fā)生交通事故的概率程序與結(jié)果5.2 廣義線性模型5廣義與一般線性模型及R使用說明與舉例 說明: 3、對數(shù)線性模型:函數(shù)形式 式2含有交叉效應(yīng) 舉例: 某企業(yè)想了解顧客對其產(chǎn)品是否滿意,同時還想了解不同收入的人群對其產(chǎn)品的滿意程度是否相同。滿意不滿意合計高533891中434108542低11148159合計598194792在R語言中,數(shù)據(jù)需變形為:用y表示頻數(shù),x1表示收入人群,x

46、2表示滿意程度5.2 廣義線性模型5廣義與一般線性模型及R使用程序與結(jié)果(1)建立Poisson對數(shù)線性模型:從檢驗結(jié)果可看出,p1=0.00310.01,p20.01,說明收入和滿意程度對產(chǎn)品有重要影響5.3 一般線性模型5廣義與一般線性模型及R使用說明與舉例 舉例: 設(shè)有3臺機器,用來生產(chǎn)規(guī)格相同的鋁合金薄板?,F(xiàn)從3臺機器生產(chǎn)出的薄板中各隨機抽取5塊,測出厚度值,見下表,試分析各機器生產(chǎn)的薄板厚度有無顯著差異?機器12.362.382.482.452.472.43機器22.572.532.552.542.562.61機器32.582.642.592.672.662.625.2 廣義線性模型

47、5廣義與一般線性模型及R使用d5.3=read.table(clipboard,header=T) #讀取例5.3數(shù)據(jù) anova(lm(Yfactor(A),data=d5.3) #完全隨機設(shè)計模型方差分析 P0.05,說明各種燃料A對火箭射程有無顯著影響,PB0.05,說明各種推進器B對火箭射程也無顯著影響。(1)數(shù)據(jù)格式為:程序與結(jié)果案例分析 廣義線性模型及其應(yīng)用5廣義與一般線性模型及R使用關(guān)于40個不同年齡(age,定量變量)和性別(sex,定性變量,用0和1代表女和男)的人對某項服務(wù)產(chǎn)品的觀點(y,二水平定性變量,用1和0代表認可與不認可)的數(shù)據(jù)。一、數(shù)據(jù)管理二、R語言操作 擬合的模

48、型為:Case4=read.table(clipboard,header=T);Case4fm=glm(ysex+age,family=binomial,data=Case4)fmsummary(fm)attach(Case4)Pr=predict(fm,data.frame(list(sex,age) #模型預(yù)測p=exp(Pr)/(1+exp(Pr)cbind(sex,age,y,p)plot(age,Pr)detach(Case4)謝謝!第6章 判別分析及R使用多元統(tǒng)計分析及R語言建模 多元統(tǒng)計分析及R語言建模6 判別分析及R使用多元統(tǒng)計分析及R語言建模6 判別分析及R使用基本要求理解判

49、別分析的目的及其統(tǒng)計思想了解并熟悉判別分析的三種類型掌握不同判別方法的判別規(guī)則和判別函數(shù)利用R語言程序,實際計算教材中的習(xí)題多元統(tǒng)計分析及R語言建模6 判別分析及R使用主要內(nèi)容判別分析的目的和意義幾種判別分析準則和性質(zhì) 包括Fisher判別法、距離判別法、Bayes判別法R語言程序中有關(guān)判別分析的算法6 判別分析及R使用6.1 判別分析的概念概念和方法判別分析概念判別分析方法 是在已知的分類之下,對新的樣本,可以利用此法選定一判別標準,以判定將該新樣品放置于哪個類中。 判別分析(Discriminat Analysis)是多元分析中用于判別樣本所屬類型的一種統(tǒng)計分析方法。6 判別分析及R使用6

50、.1 判別分析的概念判別分析的種類一、確定性判別:Fisher型判別 (1)線性型 (2)距離型 (3)非線性型二、概率性判別:Bayes型判別 (1)概率型 (2)損失型6 判別分析及R使用6.2 線性判別分析 6 判別分析及R使用6.2 線性判別分析 一、求Fisher線性判別函數(shù)二、計算判別界值三、建立判別標準6 判別分析及R使用6.2 線性判別分析【例6.1】今天和昨天濕溫差 x1及氣溫差x2是預(yù)報明天 下雨否的其中兩個重要因子, 試建立Fisher線性判別函數(shù)如測得今天 x1=8.1, x2=2.0試報明天是雨天還是晴天?6 判別分析及R使用6.2 線性判別分析一、基本統(tǒng)計分析6 判

51、別分析及R使用6.2 線性判別分析二、Logistic模型分析6 判別分析及R使用6.2 線性判別分析三、Fisher判別分析6 判別分析及R使用6.2 線性判別分析6 判別分析及R使用6.3 距離判別法6.3.1 兩總體距離判別馬氏距離:判別準則:6 判別分析及R使用6.3 距離判別法6.3.1 兩總體距離判別一、等方差陣:直線判別6 判別分析及R使用6.3 距離判別法6.3.1 兩總體距離判別二、異方差陣:曲線判別6 判別分析及R使用6.3 距離判別法【例6.2】對例6.1天氣數(shù)據(jù)做距離判別分析6 判別分析及R使用6.3 距離判別法6.3.2 多總體距離判別一、協(xié)方差矩陣相同:線性判別6

52、判別分析及R使用6.3 距離判別法6.3.2 多總體距離判別二、協(xié)方差矩陣不同:非線性判別6 判別分析及R使用6.3 距離判別法【例6.3】電視機品牌調(diào)查分析20 個電視機 5 種暢銷 8 種平銷 7 種滯銷試建立判別函數(shù),當一新產(chǎn)品其質(zhì)量評分為8.0, 功能評分為7.5, 銷售價格為65百元,問該廠產(chǎn)品的銷售前景如何?6 判別分析及R使用6.3 距離判別法6 判別分析及R使用6.3 距離判別法1. 線性判別(等方差)1 0.96 判別分析及R使用6.3 距離判別法6 判別分析及R使用6.3 距離判別法2. 二次判別(異方差)1 0.956 判別分析及R使用6.4 Bayes 判別法6.4.1

53、 Bayes判別準則Fisher判別缺點Bayes判別準則一是判別方法與各總體出現(xiàn)的概率無關(guān)二是判別方法與錯判后造成的損失無關(guān)以個體歸屬于某類的概率(或判別值)最大或錯判總平均損失最小為標準6 判別分析及R使用6.4 Bayes 判別法6.4.1 Bayes判別準則一、概率判別k個總體的先驗概率密度函數(shù)分別為x來自第j類的后驗概率為 (Bayes公式) 6 判別分析及R使用6.4 Bayes 判別法6.4.1 Bayes判別準則二、損失判別 x錯判為第g總體的平均損失6 判別分析及R使用6.4 Bayes 判別法6.4.2 正態(tài)總體的Bayes判別一、Bayes判別函數(shù)求解k個總體的先驗概率密

54、度函數(shù)分別為6 判別分析及R使用6.4 Bayes 判別法6.4.2 正態(tài)總體的Bayes判別二、協(xié)方差陣相等情形6 判別分析及R使用6.4 Bayes 判別法6.4.2 正態(tài)總體的Bayes判別三、后驗概率的計算6 判別分析及R使用6.4 Bayes 判別法【例6.4】對例6.3數(shù)據(jù)應(yīng)用Bayes判別法進行判別(1)先驗概率相等:6 判別分析及R使用6.4 Bayes 判別法【例6.4】對例6.3數(shù)據(jù)應(yīng)用Bayes判別法進行判別(2)先驗概率不等6 判別分析及R使用6.4 Bayes 判別法兩種結(jié)果比較:兩種結(jié)果比較6 判別分析及R使用6.4 Bayes 判別法兩種結(jié)果比較6 判別分析及R使

55、用小結(jié)1. 判別分析方法是按已知所屬組的樣本確定判別函數(shù),制定判別規(guī)則,然后再判斷每一個新樣品應(yīng)屬于哪一類。2. 常用的判別方法有Fisher判別、距離判別、貝葉斯判別等,每個方法根據(jù)其出發(fā)點不同各有其特點。3. Fisher類判別對判別變量的分布類型并無要求,而Bayes類判別要變量的分布類型。因此,F(xiàn)isher類判別較Bayes類判別簡單一些。4. 當兩個總體時,若它們的協(xié)方差矩陣相同,則距離判別和Fisher判別等價。當變量服從正態(tài)分布時,它們還和Bayes判別等價。5. 判別分析中的各種誤判的后果允許看作是相同的,通常將犯第一類錯誤的后果看得更嚴重些,但本章對此關(guān)注的不夠。6 判別分析

56、及R使用第六章講到這里就結(jié)束了歡迎大家繼續(xù)學(xué)習(xí)第七章!第7章 聚類分析及R使用多元統(tǒng)計分析及R語言建模 多元統(tǒng)計分析及R語言建模7 聚類分析及R使用多元統(tǒng)計分析及R語言建模7 聚類分析及R使用內(nèi)容與要求聚類分析的目的和意義聚類分析中所使用的幾種尺度的定義初步掌握選用聚類方法與對應(yīng)距離的原則六種系統(tǒng)聚類方法的定義及其基本性質(zhì)R語言程序中有關(guān)聚類分析的算法基礎(chǔ)掌握R語言中kmeans聚類的方法和用法多元統(tǒng)計分析及R語言建模7 聚類分析及R使用基本要求理解聚類分析的目的意義及統(tǒng)計思想了解變量類型的幾種尺度定義熟悉Q型和R型聚類分析的統(tǒng)計量的定義了解六種系統(tǒng)聚類方法及它們的統(tǒng)一公式掌握R語言中六種方法

57、的具體使用步驟了解R語言中kmeans聚類的基本思想和用法7 聚類分析及R使用7.1 聚類分析的概念和類型概念和方法基本概念聚類分析法(Cluster Analysis)是研究“物以類聚”的一種現(xiàn)代統(tǒng)計分析方法,在眾多的領(lǐng)域中,都需要采用聚類分析作分類研究。差異方法7 聚類分析及R使用7.1 聚類分析的概念和類型 7 聚類分析及R使用7.1 聚類分析的概念和類型 【例7.1】兩個變量、九個樣品數(shù)據(jù)及其散點圖7 聚類分析及R使用7.2 聚類統(tǒng)計量7 聚類分析及R使用7.2 聚類統(tǒng)計量相關(guān)系數(shù)矩陣:cor(X)7 聚類分析及R使用7.2 聚類統(tǒng)計量D=dist(X); D R=cor(X); R7

58、 聚類分析及R使用7.3 系統(tǒng)聚類法首先將個樣品分成類,每個樣品自成一類,然后每次將具有最小距離的兩類合并,合并后重新計算類與類之間的距離,這個過程一直繼續(xù)到所有的樣品歸為一類為止,并把這個過程做成一張系統(tǒng)聚類圖。系統(tǒng)聚類法的基本思想7 聚類分析及R使用7.3 系統(tǒng)聚類法類間距離計算方法(1)最短距離法(single)(2)最長距離法(complete)(3)中間距離法(median)(4)類平均法(average)(5)重心法(centroid)(6)離差平方和法(Ward)類間距離計算公式7 聚類分析及R使用7.3 系統(tǒng)聚類法7 聚類分析及R使用7.3 系統(tǒng)聚類法基本步驟:計算n個樣品兩兩

59、間的距離構(gòu)造n個類,每類包含1個樣品合并距離最近的兩類為1個新類計算新類與當前各類的距離,若類個數(shù)為1,轉(zhuǎn)到第5步,否則回到第3步繪制系統(tǒng)聚類圖確定類的個數(shù)和樣品名稱例7-1數(shù)據(jù)的系統(tǒng)聚類最短距離法(采用歐氏距離)例7-1數(shù)據(jù)的系統(tǒng)聚類最長距離法(采用歐氏距離)例7-1數(shù)據(jù)的系統(tǒng)聚類7 聚類分析及R使用7.3 系統(tǒng)聚類法2.Ward法(采用歐氏距離)hc-hclust(dist(X),ward) #ward距離法 cbind(hc$merge,hc$height) #分類過程plot(hc) #聚類圖7 聚類分析及R使用7.3 系統(tǒng)聚類法【例7.2】續(xù)例3.1,為了研究全國31個省、市、自治區(qū)

60、2007年城鎮(zhèn)居民生活消費的分布規(guī)律,根據(jù)調(diào)查資料做區(qū)域消費類型劃分。指標名及原始數(shù)據(jù)見表3.1 自編系統(tǒng)聚類函數(shù)H.clust()的用法H.clust-function(X,d=euc,m=comp,proc=F,plot=T)X數(shù)值矩陣或數(shù)據(jù)框,d 距離計算方法(見上),m系統(tǒng)聚類方法(見上)proc是否輸出聚類過程,plot 是否輸出聚類圖#在mvstats.xls:d7.2中選取A1:I32區(qū)域,然后拷貝plot(d7.2)結(jié)果輸出:7 聚類分析及R使用7.3 系統(tǒng)聚類法library(mvstats)H.clust(d7.2,euclidean,single,plot=T) #最短距

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論