相關分析與回歸分析教案_第1頁
相關分析與回歸分析教案_第2頁
相關分析與回歸分析教案_第3頁
相關分析與回歸分析教案_第4頁
相關分析與回歸分析教案_第5頁
已閱讀5頁,還剩46頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

相關分析與回歸分析教案第1頁,課件共51頁,創作于2023年2月章節提綱:1.相關分析概論2.相關關系的測定3.一元線性回歸分析4.多元線性回歸分析學習目標

1、了解相關關系的概念及種類、相關分析的概念和內容

2、重點掌握簡單相關系數的計算方法

3、掌握回歸分析的概念及建立線性回歸方程的方法

4、掌握相關參數的統計檢驗,能對統計軟件回歸計算的結第2頁,課件共51頁,創作于2023年2月第一、二節-相關分析概述-相關關系測定第3頁,課件共51頁,創作于2023年2月變量間關系血壓~年齡動物死亡率~毒物劑量體重~身高肺活量~體重相關:血壓和年齡關聯的程度如何?

動物死亡率與毒物劑量關聯的程度如何?回歸:人群中,平均而言,血壓如何隨年齡變化?

毒性實驗中,動物死亡率如何隨劑量變化?

兩個隨機變量之間的關系回歸:如何-即定量的聯系,從一個變量來預測另外一個變量。給定劑量,動物的死亡率,能不能做出預測。都是描述兩個隨機變量之間的關系。回歸回答如何第4頁,課件共51頁,創作于2023年2月散點圖Fig.

7.1收縮壓和舒張壓

(mmHg)(665名6至10歲女孩)收縮壓舒張壓他兩的關系都是此長彼長。所以總體趨勢看得出是向前的。但是給定了一個舒張壓,但是收縮壓可以是高也可以是低。第5頁,課件共51頁,創作于2023年2月指數函數對數函數正弦函數Y和X之間的函數關系

對應于給定的X值,相應的Y值是確定的.

但現在給定一個X值,Y可能是不確定的。(是上頁)第6頁,課件共51頁,創作于2023年2月

分散集中x不論怎么變,Y都是在一個范圍走動,那么X和Y沒有什么相關性。燒餅,給定一個X,就是一個水平上,X變,y也是一個水平上,也沒有關系香蕉,x變大,y從小到到,去曲線關系,不是線性關系。線性相關也幾乎是零,雖然是曲線關系下前三沒有相關性上面都是線性相關一三是正線性相關,3圖相關性好。2,4是負先關性,4負的絕對值比2好一些。相關性好就是絕對值好些一下研究的都是線性相關,簡稱相關第7頁,課件共51頁,創作于2023年2月三、相關關系

相關系數是度量兩個變量之間線性相關的方向和強度的測度,常用的度量指標是皮爾遜(Pearson)相關系數【專欄】在相關分析中,定性分析或經濟理論分析重要嗎?correlationcoefficient第8頁,課件共51頁,創作于2023年2月

相關系數(CorrelationCoefficient)

1.總體相關系數(Populationcorrelationcoefficient)

Pearson’s

乘積-矩線性相關系數:“兩個標準化變量之乘積”的總體平均

----簡單相關系數(simplecorrelationcoefficient)--X

和Y

的總體協方差相關系數也有總體和樣本,但一般我們只掌握樣本X舒張壓Y收縮壓x標準化X標準化*Y標準化相乘,然后取總得平均,在總體里面去平均??傮w里面全部人去求平均是總體相關系數。如果去簡化sigamax、y是常數,拿出來外面。X-μx是離均差,上面就是兩個離均差相乘,E是期望。期望就是求平均的意思,在總體里面的平均的意思總體里面的協方差算在一塊、舒張壓離開平均值多遠,收縮壓離開平均值都遠,相乘一塊有多遠,也叫監督相關系數一定介于-1和1之間總體均數Roρ第9頁,課件共51頁,創作于2023年2月去掉n,公式如下:第10頁,課件共51頁,創作于2023年2月2.樣本相關系數(Samplecorrelationcoefficient)需要用樣本來估計相關系數怎么定義,類似剛才的X(Y)-樣本的觀察值減去樣本的均數,然后相乘。乘積統統加起來。下面不求平均,不然就約掉了-離均差的平方求和乘以離均差的平方求和。樣本的離均差乘積求和離均差平方之和介于-1和1之間。有可能發生-1和1,但生活中很少發生第11頁,課件共51頁,創作于2023年2月

度量線性關系的強度和方向:1)r=0--無線性關系,或很弱

2)若絕對值較大

--線性關系較強

3)符號正負

--線性關系的方向

4)+1or-1--完全相關,實踐中少見P181第12頁,課件共51頁,創作于2023年2月研究父子之間身高的關聯性為什么這么來定義?樣本-判斷關聯性,求r樣本的離均差乘積之和X本身的離均差平方之和Xbar計算出來例子8-1

第13頁,課件共51頁,創作于2023年2月第三節一元線性回歸分析第14頁,課件共51頁,創作于2023年2月第三節一元線性回歸分析

回歸分析實質就是通過建立數學方程,研究因變量與自變量之間的變動關系,如果分析一個自變量與一個因變量的線性關系,稱為一元線性回歸分析,如果分析兩個或兩個以上的自變量與一個因變量的線性關系,則稱為多元線性回歸。第15頁,課件共51頁,創作于2023年2月一、一元線性回歸理論模型一元線性回歸模型是用于分析一個自變量x與一個因變量y之間線性關系的數學方程,在變量x與y的直角坐標平面上,可以繪制散點圖,可以看出所有的散點大致呈線性關系or在一元線性回歸之中,因變量由兩個部分組成,一個是,其解釋了自變量x變動引發的線性變化。另一部分為剩余變動,反映了不能為自變量x和因變量y之間的線性關系所解釋的其他剩余變動。第16頁,課件共51頁,創作于2023年2月根據剛才的那組表。是不是最后會呈這樣的圖形板書那么我們回到線性方程的知識里面去。用公式來代表,其實就是一個求極值的問題。左邊就是Min(Y-Yheand)^2。y-yhead的縱向距離的和最小。y-yhead就是殘差,是一個剩余的部分,是一個估計值。實際的是y,希望你估計值yhead盡量接近你實際得到的指標y,這是最好的。所以殘差(剩余的部分)最小。而yhead=(a+bx)帶進去,求偏導-最小二乘法拓展但兩個自變量呢?是不是一個平面。不,是一個三維空間。三個自變量?四維。多變量和一個y,多維。其實只要知道殘差最小就行。同樣的原理。二、普通最小二乘估計(ols)第17頁,課件共51頁,創作于2023年2月最小平方法是測定長期趨勢最常用的的方法。它是通過建立數學方程,對元時間序列配合一條較為理想的趨勢線,使得原序列中的各實際值和趨勢值的離差平方最小。一般最小平方法的統計表達式是:式中:采用這種趨勢要配合直線,也可以配合曲線,這需要跟原序列所反映的現象變動的特點來確定。趨勢形態判斷方法比較多,最為簡單的就是畫散點圖。若散點大致在某一條直線周圍波動,就配合趨勢直線;若散點大致在某一條曲線周圍波動,就配合趨勢曲線。首先介紹直線趨勢的配合。第18頁,課件共51頁,創作于2023年2月(一)直線方程適用條件:現象發展的各期逐期增長量大體相等。年份199019911992199319941995199619971998糧食產量100112125140155168180194206逐期增長量--1213151513121412第19頁,課件共51頁,創作于2023年2月即趨勢值【(2X+1)2】'=2(2x+1)*2=8x+4畫圖,這邊,x對應的是時間序號,而Y帽子代表的是發展水平。直線方程公式表示為:上述直線方程式中,a、b為兩個未定參數,根據最小平方法的要求第20頁,課件共51頁,創作于2023年2月求方程組:例-某省1991~1998年人口資料如表所示,要求擬合時點的趨勢方程,并以此趨勢預測1999年末的人口數。8763n=8b求出來都代入到a公式里面yx就是第幾年第21頁,課件共51頁,創作于2023年2月橫軸表示時間,縱軸表示元數列的指標數值,坐標原點定在1990年,其序號0用來表示,擬合直線趨勢方程。根據上述公式:將1999年時間序列號9帶入配合的趨勢方程,可得到1999年末某省人口數的趨勢值(預測值)既,1999年末該省人口數將達到9402.94萬人。1990是原點畫圖第22頁,課件共51頁,創作于2023年2月上述方程中的x為時間。為了計算方便,可對其進行假設:當時間項數為奇數時,可假設x的中間項為0,這時時間項依次排列為:…,-3,-2,-1,0,1,2,3,…;當時間項數為偶數時,可假設原點0在數列正中相另兩個時間的中點,這時時間項依次排列為:…,-5,-3,-1,1,3,5,…這種設x的方法是要使時間項的正負相抵消,使x=0,則上述聯立方程組可簡化為:為了方便手工計算,可以把原數列的重點移至坐標原點,使得”x=0“,此時,標準方程可以化為:-3,-2,-1,0,1,2,3相加等于零畫圖第23頁,課件共51頁,創作于2023年2月例如;用簡便的方法來計算上面例子。1999年的時間序號應該為9.第24頁,課件共51頁,創作于2023年2月年份199019911992199319941995199619971998糧食產量100112125140155168180194206逐期增長量--1213151513121412本例中各期的逐期增長量大體相同,可以配合直線趨勢方程。Practic-某地區各年的糧食產量為:Tip:首先判斷一下,趨勢是怎么樣的。第25頁,課件共51頁,創作于2023年2月案例:某地區糧食產量直線趨勢方程計算年份xyxy1990-4100-400161991-3112-33691992-2125-25041993-1140-140119940155001995116816811996218036041997319458291998420682416合計--138080860第26頁,課件共51頁,創作于2023年2月(i)已知:n對觀察值(X1,Y1),(X2,Y2),…,(Xn,Yn);(ii)作散點圖(scatterdiagram)(iii)若散點圖呈直線趨勢,則配一條直線:

求出直線的方程式

剛才是X對父子哪怕是有些分散的下面看怎么計算線性回歸三步驟··第27頁,課件共51頁,創作于2023年2月什麼是回歸?找出反映平均水平的那條直線的方程100120140160180200220100120140160180200220Father’sheight(cm)Son’sheight(cm)Y的平均值是如何依賴X第28頁,課件共51頁,創作于2023年2月

給定X的數值,Y的數值取在在一個平均值

(y|x)附近對應與不同的X值,Y

的平均值座落在一條直線上

----回歸直線.

y|x

和X的關系可用一個線性方程描寫.這樣的回歸線用方程來表示第29頁,課件共51頁,創作于2023年2月三、一元回歸的統計檢驗統計檢驗包括線性關系檢驗和回歸系數檢驗,具體包括擬合優度檢驗、參數顯著性檢驗以及回歸總體線性的顯著性檢驗1、經濟意義檢驗:就是根據模型中各個參數的經濟含義,分析各參數的值是否與分析對象的經濟含義相符。2、回歸標準差檢驗3、擬合優度檢驗4、回歸系數的顯著性檢驗第30頁,課件共51頁,創作于2023年2月3.估計標準誤差用來反映回歸直線代表性大小的統計分析指標。回歸的殘差平方和除以它的自由度來表示,稱為剩余方差。標準誤差為剩余方差的開方:P318例9-7第31頁,課件共51頁,創作于2023年2月接下來的內容只做拓展第32頁,課件共51頁,創作于2023年2月相關系數計算檢驗的步驟根據公式計算相關系數r值根據給定的顯著性水平α,查相關系數檢驗表,自由度為n-2,得到臨界值統計決策4.相關性檢驗(r檢驗)判決系數R2是對變量x與y變量進行回歸時做出的,用來衡量回歸的擬合優度;相關系數r是對變量x與y變量進行相關分析時做出的,用以判定變量x與y的線性相關程度。與r的區別:P319例9-8第33頁,課件共51頁,創作于2023年2月r

隨樣本變化而變化,是一個隨機變量

總體的回歸系數

r→

問題:=0嗎?

假定:X

和Y

服從二元正態分布3.相關系數的統計檢驗相關系數是從樣本里面選出來。用樣本的相關系數去推出總體的樣本相關系數總體如果樣本里r非零(0.幾),退出是零或是零,但樣本里面非零,所以假設檢驗平面上有x軸和y軸xy服從二元正態分布的話,x本身服從一元真該分布,同理forY剛才看的是樣本,那么我怎么知道這個樣本可否推斷出總體?第34頁,課件共51頁,創作于2023年2月1、離差平方和的分解P316=0總離差平方和TSS回歸平方和ESS殘差平方和RSS再回到第一個的擬合優度判斷第35頁,課件共51頁,創作于2023年2月離差平方和的分解

TSS=RSS+ESS擬合優度檢驗(判決系數R2)

也叫判決系數,數值范圍為0~1之間。若R2=1,說明全部樣本觀察值均在估計的回歸直線上,觀察值yi與回歸值(估算值)完全擬合。若R2-0,完全不擬合,線性模型完全不能解釋因變量yi的變動。R2越接近于1,擬合程度越好,反之越差。

P317例子9-6第36頁,課件共51頁,創作于2023年2月t檢驗:是對回歸系數的顯著性檢驗

t檢驗的基本步驟提出假設構造t檢驗統計量,并由樣本數據計算t檢驗值根據顯著性水平α,查t分布表,得到臨界值統計決策5.參數的顯著性檢驗(t檢驗)P320~t(n-2)顯著性檢驗包括兩個方面:回歸系數(參數)整個回歸方程第37頁,課件共51頁,創作于2023年2月

b

隨樣本變化而變化,是一個隨機變量

總體的回歸系數

b→

問題:=0嗎?

2.關于回歸的統計推斷

20對父子,找出來的規律,不完全等同于客觀上父子身高的規律,再測20對父子,可能出來就邊了,所以b隨著樣本變化而變化我們關心不是b是β,有了b推測β最關系的是,β是不是零的。是零的話,線是水平的,代表那就沒有辦法推測出兒子身高。還有去推斷β是否為零第38頁,課件共51頁,創作于2023年2月統計量回歸系數的標準差殘差的標準差回歸系數的t檢驗

α=0.05

樣本里面的斜率減去理論上的斜率(H0),β=0so涉及到Sb樣本標準誤b怎么有標準差?換另外一批數值,有另外一個,隨機(樣本變動)變動理論上可以推出b隨機變動的標準差t如果太大,不太可能太大,一般2.幾,3.幾就很大了。H0成立的話,t就跑到尾巴里面去了,所以不太可能,拒絕H0因此要涉及計量范圍,X的范圍要設計得大一些,那么b的變化(Sb)就小些,就不是要做很多分樣本,一份就夠了,那更能就近真是的β(b變異性大師很不好的)。s是反映散點,沒有辦法改變。能改變的只有Sb的分母(X軸分散度)就像實驗和溫度,溫度散開點,會更好參照。設計回歸的時候:b的變異性s反應散點下一頁解釋第39頁,課件共51頁,創作于2023年2月殘差的標準差放在分子,散點分布情況,分母是X的離均差平方之和,反映了父親身高的變異性,父親如果有高高唉唉,那么(離均差的平方值)變異性就大。所以b的變異性是和兩者有關。b在這里就是斜率,斜率怎么會變,翹起來,或者壓下去,樣本變了。斜率的變異性跟兩個因素有關,散點的分散性,同時和估計身高的分散性(X軸上的分散性)有關。若父親的高矮千遍一律,斜率變異性怎么樣,翹得就低,相反就高(上下兩點拉大)敲高。如果是X軸分散,(左右拉大),換一份樣本,變化小一些。斜率的離異程度s就是殘差平方治和最小的那個殘差平方之和(已經達到最小)。(分子)再去除以自由度。n-2?推導方程的時候已經用了a和b,用了兩個參數。S平方就是方差-殘差的變異性S就是殘差的標準差,描述去大小,與散點有關,分散度。分散大,殘差平方和就大。理論上可以推出b隨機變動的標準差s反應散點回歸系數的標準差殘差的標準差b的變異性s反應散點第40頁,課件共51頁,創作于2023年2月P320例子9-9第41頁,課件共51頁,創作于2023年2月F檢驗是對回歸總體線性關系是否顯著的一種假設檢驗F檢驗的基本步驟提出假設構造F檢驗統計量,并由樣本數據計算F檢驗值根據顯著性水平α,查F分布表,得到臨界值統計決策6.回歸總體線性的顯著性檢驗(F檢驗)P321例子9-10第42頁,課件共51頁,創作于2023年2月F檢驗是對整個模型而已的,看是不是自變量系數不全為0,而t檢驗則是分別針對某個自變量的,看每個自變量是否有顯著預測效力。在回歸分析中,F檢驗和t檢驗各有什么作用?在一元回歸里面,F檢驗與t檢驗是等價的。其實一樣多元則不一樣了。P322第43頁,課件共51頁,創作于2023年2月

3.

回歸方程的應用估計平均值的范圍

--平均值的置信區間(CI)(2)估計個體值Y

的范圍

--個體值的預測區間(PI)預測,有兩個東西需要預測:1'假定給了父親身高,這類孩子的將來的平均水平(不是針對這個父親他的孩子,而是針對170的這樣的父親,他們的孩子將來平均有多高。(樣本量是20個)2.這個父親,他的兒子將來在于什么范圍內,這個比較難,特定他的兒子。先說第一件事情樣本平均值是有波動的,跟兩者有關,一個是樣本量,n越大,中間黑線穩定。方差問題。第二個就是自變量拉得開不開。第三個就是x0,例如1米7,你給的身高離開平均身高遠不遠。如文問我的父親是兩米,離開均值一米六八的大,根號里面大,差異性就大了。X0越靠近xbar,效果越好S和原來散點的分散程度有關confidentintervel,平均值的置信區間如果把置信區間畫到圖上,確定一個x0就可以確定一個y0,就可以出來一個置信區間,再改動一個x0,又有一個y0,又有一個置信區間。圖上,換一個x0,就在直線的上下,有一個區間再直線的上下。換一個x0,又可以在直線的上下有一個區間。這個區間,整個的連起來,就可以是里面的虛線,兩條虛線像喇叭,中間窄,兩頭寬。why?X0離開xbar近就窄,遠就寬。兩條虛線就反映了CI,就是平局值的置信區間。你給我數值父親180,帶勁CI的公式,得到平均兒子有多高,然后不是就這么高了,要加減一個ta,v乘以s根號內的范圍,所以就有了這么一個寬度,若是給我1米9,就會再外外,寬一些。我1米7,幫我估算下我的兒子身高多少?怎么考慮?你170,你兒子可能很高,你兒子的身高是在平均值的上下,也可能比較低,在下面的曲線??傃灾?,如果在上面,會圍繞著平均值有一個波動。如果是下線,也是樣道理,但范圍是更寬。在外邊大喇叭口。特定從公式上來說,要估計某個特定個體的y值呢,里邊除了剛才(1)的兩項,多了一個1.(圍繞平均值有三點的分散性)既是根號里面比它還要寬,多了1.整個就寬一些??偣灿袃蓚€區間,一個是估計平均值的范圍,另一個是估計個體值得范圍。平均值范圍稱為,均數的CI。個體值范圍為了區別它,稱為預測區間PI。對比一下發現,范圍區別(寬度)第44頁,課件共51頁,創作于2023年2月第四節-多元回歸分析第45頁,課件共51頁,創作于2023年2月四、非線性趨勢的測定當現象的發展呈曲線變動的時候,仍然可以使用最小平方法配合趨勢曲線方程。曲線有多樣,常見的有二次曲線(拋物線)和指數曲線。(一)二次曲線趨勢測定當時間序列中的二級增長量大致相同時(也就是時間序列數據的逐期增長絕對量近似為一常量時,可選擇二次曲線模型),皆可以配合二次曲線方程,二次曲線方程一般形式為方程中a,b,c三個三個待定參數,根據最小方法。代入之后各自求導等于零,可以得到:年份199019911992199319941995199619971998產品產量98810121043108011261179123913071382逐期增長量--2431374653606875二級增長量----7697787第46頁,課件共51頁,創作于2023年2月年份199019911992199319941995199619971998產品產量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論