




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 第十章第十章 線性相關與回歸線性相關與回歸( (Linear Correlation & Regression ) )要求:要求: 掌握:掌握:直線相關的概念、相關系數的意義、直線相關的概念、相關系數的意義、相關系數假設檢驗的意義;直線回歸的概念、相關系數假設檢驗的意義;直線回歸的概念、回歸系數假設檢驗的意義;相關與回歸的區回歸系數假設檢驗的意義;相關與回歸的區別;直線相關與回歸的注意事項。別;直線相關與回歸的注意事項。 了解:了解:相關系數及相關系數假設檢驗的計相關系數及相關系數假設檢驗的計算方法;回歸方程建立的方法與回歸系數假算方法;回歸方程建立的方法與回歸系數假設檢驗的方法。設
2、檢驗的方法。 一、線性相關的基本概念一、線性相關的基本概念二、線性相關系數二、線性相關系數三、相關系數的顯著性檢驗三、相關系數的顯著性檢驗四、進行線性相關分析的注意事項四、進行線性相關分析的注意事項第一節第一節 線性相關(線性相關(linear correlation) ) 例例 從男青年總體中隨機抽取從男青年總體中隨機抽取1111名男青年組成樣本,名男青年組成樣本,分別測量每個男青年的身高和前臂長分別測量每個男青年的身高和前臂長編號編號身高(身高(cmcm)前臂長(前臂長(cmcm)XYXYX X2 2Y Y2 2( (X X) )( (Y Y) )1 1 170170 4747 79907
3、990 2890028900220922092 2 173173 4242 72667266 2992929929176417643 3 160160 4444 70407040 2560025600193619364 4 155155 4141 63556355 2402524025168116815 5 173173 4747 81318131 2992929929220922096 6 188188 5050 94009400 3534435344250025007 7 178178 4747 83668366 3168431684220922098 8 183183 4646 8418
4、8418 3348933489211621169 9 180180 4949 88208820 3240032400240124011010 165165 4343 70957095 2722527225184918491111 166166 4444 31743174 285612856121162116合計合計1891189150050086185861853260813260812281022810一、線性相關的基本概念一、線性相關的基本概念 為直觀地判斷兩個變量之間的關系,可在直角坐標系中把每為直觀地判斷兩個變量之間的關系,可在直角坐標系中把每對(對(X Xi i,Y,Yi i)值所代
5、表的點繪出來,形成散點圖。例如)值所代表的點繪出來,形成散點圖。例如1212名男名男青年身高與前臂長資料繪制的散點圖如圖所示:青年身高與前臂長資料繪制的散點圖如圖所示: 身高190180170160150前臂長52504846444240 若一個變量若一個變量X X由小到大(或由大到小),另由小到大(或由大到小),另一變量一變量Y Y亦相應地由小到大或由大到小,則兩個亦相應地由小到大或由大到小,則兩個變量的散點圖呈直線趨勢,我們稱這種現象為變量的散點圖呈直線趨勢,我們稱這種現象為共變,也就是這兩個變量之間有共變,也就是這兩個變量之間有“相關關系相關關系”。 男青年身高與前臂長散點呈直線趨勢,即
6、男青男青年身高與前臂長散點呈直線趨勢,即男青年身材高,前臂亦長,說明身高與前臂長之間存年身材高,前臂亦長,說明身高與前臂長之間存在線性相關關系,我們把這種關系稱為直線相關。在線性相關關系,我們把這種關系稱為直線相關。 線性相關用于雙變量正態資料。它的性質可由散點圖線性相關用于雙變量正態資料。它的性質可由散點圖直觀地說明。散點圖中點的分布即線性相關的性質和相關直觀地說明。散點圖中點的分布即線性相關的性質和相關之間的密切程度,可分為以下幾種情況:之間的密切程度,可分為以下幾種情況: 1.1.正相關正相關 2.2.負相關負相關 3.3.無相關無相關 二、線性相關系數二、線性相關系數 在分析兩個變量在
7、分析兩個變量X X與與Y Y之間關系時,常常要了解之間關系時,常常要了解X X與與Y Y之之間有無相關關系,相關是否密切,是呈正相關還是負相間有無相關關系,相關是否密切,是呈正相關還是負相關。相關系數就是說明具有直線關系的兩個變量間相關關。相關系數就是說明具有直線關系的兩個變量間相關密切程度和相關方向的統計量。密切程度和相關方向的統計量。 皮爾森皮爾森(Pearson)(Pearson)相關系數的計算公式為:相關系數的計算公式為: YYXXXYiiXYLLLYYXXYYXXrr.)()()(22 相關系數相關系數r r沒有測量單位,其數值為沒有測量單位,其數值為-1 -1 r 11 相關系數的
8、計算方法相關系數的計算方法 計算時分別可用下面公式帶入相關系數計算時分別可用下面公式帶入相關系數r r的計的計算公式中算公式中 NYXXYYYXXNYYYYNXXXX222222 例例 從男青年總體中隨機抽取從男青年總體中隨機抽取1111名男青年組成樣本,名男青年組成樣本,分別測量每個男青年的身高和前臂長,身高和前臂長分別測量每個男青年的身高和前臂長,身高和前臂長均以均以cmcm為單位,測量結果如下表所示,試計算身高與前為單位,測量結果如下表所示,試計算身高與前臂長之間的相關系數。臂長之間的相關系數。 編號編號身高(身高(cmcm)前臂長(前臂長(cmcm)XYXYX X2 2Y Y2 2(
9、(X X) )( (Y Y) )1 1 170170 4747 79907990 2890028900220922092 2 173173 4242 72667266 2992929929176417643 3 160160 4444 70407040 2560025600193619364 4 155155 4141 63556355 2402524025168116815 5 173173 4747 81318131 2992929929220922096 6 188188 5050 94009400 3534435344250025007 7 178178 4747 83668366 3
10、168431684220922098 8 183183 4646 84188418 3348933489211621169 9 180180 4949 88208820 3240032400240124011010 165165 4343 70957095 2722527225184918491111 166166 4444 31743174 285612856121162116合計合計1891189150050086185861853260813260812281022810三、相關系數的顯著性檢驗 與前面講的其它統計量一樣,根據樣本資料計與前面講的其它統計量一樣,根據樣本資料計算出來的相關
11、系數同樣存在抽樣誤差。即假設在算出來的相關系數同樣存在抽樣誤差。即假設在一個一個X X與與Y Y無關總體中作隨機抽樣,由于抽樣誤差無關總體中作隨機抽樣,由于抽樣誤差的影響,所得的樣本相關系數也常常不等于零。的影響,所得的樣本相關系數也常常不等于零。 因此要判斷兩個變量因此要判斷兩個變量X X與與Y Y是否真的存在相關關是否真的存在相關關系,仍需根據作總體相關系數系,仍需根據作總體相關系數 是否為零的假設檢是否為零的假設檢驗。驗。 常用的檢驗方法有兩種常用的檢驗方法有兩種: : 1.1.按自由度直接查附表按自由度直接查附表1111的界值表,得到的界值表,得到P P 值。值。2nr10rt2r2
12、n2.2.用假設檢驗法,計算統計量用假設檢驗法,計算統計量 ,其公式為:,其公式為: 例例10.110.1所得的所得的 r r 值檢驗男青年身高與值檢驗男青年身高與前臂長之間是否存在相關關系前臂長之間是否存在相關關系? ?四、進行線性相關分析的注意事項四、進行線性相關分析的注意事項 線性相關表示兩個變量之間的相互關系是雙向的,分線性相關表示兩個變量之間的相互關系是雙向的,分析兩個變量之間到底有無相關關系可首先繪制散點圖,析兩個變量之間到底有無相關關系可首先繪制散點圖,散點圖呈現出直線趨勢時,再作分析。散點圖呈現出直線趨勢時,再作分析。 相關分析要求相關分析要求x x、y y是來自雙變量正態總體
13、的隨機變量,是來自雙變量正態總體的隨機變量,一個變量的數值人為選定時不能作相關。一個變量的數值人為選定時不能作相關。四、進行線性相關分析的注意事項四、進行線性相關分析的注意事項 依據公式計算出的相關系數僅是樣本相關系依據公式計算出的相關系數僅是樣本相關系數,它是總體相關系數的一個估計值,與總體數,它是總體相關系數的一個估計值,與總體相關系數之間存在著抽樣誤差,要判斷兩個事相關系數之間存在著抽樣誤差,要判斷兩個事物之間有無相關及相關的密切程度,必須作假物之間有無相關及相關的密切程度,必須作假設檢驗。設檢驗。四、進行線性相關分析的注意事項四、進行線性相關分析的注意事項 相關分析是用相關系數來描述兩
14、個變量間相相關分析是用相關系數來描述兩個變量間相互關系的密切程度和方向,而兩個事物之間的互關系的密切程度和方向,而兩個事物之間的關系既可能是依存因果關系,也可能僅是相互關系既可能是依存因果關系,也可能僅是相互伴隨的數量關系。決不可因為兩事物間的相關伴隨的數量關系。決不可因為兩事物間的相關系數有統計學意義,就認為兩者之間存在著因系數有統計學意義,就認為兩者之間存在著因果關系,要證明兩事物間確實存在因果關系,果關系,要證明兩事物間確實存在因果關系,必須憑借專業知識加以闡明。必須憑借專業知識加以闡明。 出現異常值時慎用相關出現異常值時慎用相關分層資料盲目合并易出假象分層資料盲目合并易出假象一、線性回
15、歸的基本概念一、線性回歸的基本概念二、線性回歸方程的計算二、線性回歸方程的計算三、線性回歸方程的顯著性檢驗三、線性回歸方程的顯著性檢驗四、進行線性回歸分析的注意事項四、進行線性回歸分析的注意事項第二節第二節 線性回歸(線性回歸(linear regression) )一、線性回歸的基本概念一、線性回歸的基本概念 相關是分析兩個正態變量相關是分析兩個正態變量X X與與Y Y之間的互相關系。在之間的互相關系。在相關分析中,分不清相關分析中,分不清X X與與Y Y何者為自變量,何者為因何者為自變量,何者為因變量。現在假設兩個變量變量。現在假設兩個變量X X 、Y Y 中,當一個變量中,當一個變量X
16、X 改變時,另一個變量改變時,另一個變量 Y Y 也相應地改變,當這樣的兩也相應地改變,當這樣的兩個變量之間存在著直線關系時,不僅可以用相關系個變量之間存在著直線關系時,不僅可以用相關系數數 r r 表示變量表示變量Y Y與與X X線性關系的密切程度,也可以線性關系的密切程度,也可以用一個直線方程來表示用一個直線方程來表示 Y Y 與與 X X 的線性關系。的線性關系。根據大量實測數據,尋找出其規律性,尋求一個直根據大量實測數據,尋找出其規律性,尋求一個直線方程來線方程來描述兩個變量間依存變化的數量關系描述兩個變量間依存變化的數量關系,即,即線性回歸關系,這樣得出的直線方程叫做線性回歸線性回歸
17、關系,這樣得出的直線方程叫做線性回歸方程方程linear regression equation。a 為回歸直線在 Y 軸上的截距 x 取0時,y 的平均估計值 a 0,表示直線與縱軸的交點在原點的上方 a 0,直線從左下方走向右上方,直線從左下方走向右上方,Y 隨隨 X 增大而增大增大而增大 b0,直線從左上方走向右下方,直線從左上方走向右下方,Y 隨隨 X 增大而減小增大而減小 b=0,表示直線與表示直線與 X 軸平行,軸平行,X 與與Y 無無直線關系直線關系b 的統計學意義是:的統計學意義是:X 每增加每增加(減減)一個單位,一個單位,Y 平均改變平均改變b個單位個單位 Method o
18、f least square使計算出的回歸直線最能代表實測數據所反映出的直線趨勢使計算出的回歸直線最能代表實測數據所反映出的直線趨勢二、線性回歸方程的計算二、線性回歸方程的計算 例例10.3 10.3 有人研究了溫度對蛙的心率的影響,得到了有人研究了溫度對蛙的心率的影響,得到了表表10-210-2中所示的資料,試進行回歸分析中所示的資料,試進行回歸分析。對象對象溫度(溫度(X X) 心率(心率(Y Y) XY XY X X2 2Y Y2 21 1 2 2 5 5 1010 4 4 25252 2 4 4 1111 4444 1616 1211213 3 6 6 1111 6666 3636 1
19、211214 4 8 8 1414 112112 6464 1961965 51010 2222 220220 100100 4844846 61212 2323 276276 144144 5295297 71414 3232 448448 196196102410248 81616 2929 464464 256256 8418419 91818 3232 576576 3243241024102410102020 3434 680680 4004001156115611112222 3333 726726 48448410891089合計合計13213224624636223622202
20、42024661066101.1.根據表根據表10-210-2數據繪制散點圖,如下圖所示數據繪制散點圖,如下圖所示:溫度3020100蛙心律4030201002.2.計算回歸系數與常數項計算回歸系數與常數項 在本例中: 132X 20242X12X 246Y26610Y 22.363Y 3622XY222()()(132)(246)3622670111.523()132440202411XYXXXYXYlnbXlXn22.3631.523124.087aYbX4.0871.523YX則,回歸方程為3. 3. 作回歸直線作回歸直線溫度3020100蛙心律4030201004.087 1.523Y
21、X三、線性回歸方程的顯著性檢驗三、線性回歸方程的顯著性檢驗 對線性回歸方程要進行假設檢驗,就是要檢驗對線性回歸方程要進行假設檢驗,就是要檢驗b b是否為是否為 =0=0的總體中的一個隨機樣本。該假的總體中的一個隨機樣本。該假設檢驗通常用方差分析或者設檢驗通常用方差分析或者t t檢驗,兩者的檢檢驗,兩者的檢驗效果等價。驗效果等價。 HH0 0: : 0 0(兩變量之間無直線關系)(兩變量之間無直線關系) HH1 1:0 0 0.050.05 bsbt xxxyxyblsxxss.2.)(2) (2.nyysxy2222)()()()(xxyyxxyybllyyxyyyn2對例對例10.310.3
22、的回歸方程用的回歸方程用t t 檢驗進行假設檢驗檢驗進行假設檢驗(1 1)建立假設檢驗)建立假設檢驗 =0=0 00 =0.05 =0.05(2 2)計算統計量)計算統計量88.313.139Y Xs3.130.149440bs 1.523 010.220.149tV V =11=112=92=9 (3 3)確定)確定P P值作結論值作結論根據根據 V V =9=9, 0.01/2(9)t3.250, 3.250, P P 0.010.01,拒絕拒絕HH0 0,直線回歸方程的應用直線回歸方程的應用1. 1. 描述兩個變量之間的數量依存關系。描述兩個變量之間的數量依存關系。2. 2. 利用回歸方
23、程進行預測利用回歸方程進行預測(1 1)由現在已知的變量值預測將來未知的變)由現在已知的變量值預測將來未知的變量值量值 (父母身高預測子女身高)(父母身高預測子女身高)(2 2)由易測的變量值估算難測的變量值)由易測的變量值估算難測的變量值 (體重預測體表面積)(體重預測體表面積)3. 3. 利用回歸方程進行控制利用回歸方程進行控制 利用回歸方程進行逆估計利用回歸方程進行逆估計 四、進行線性回歸分析的注意事項四、進行線性回歸分析的注意事項 只有將兩個內在有聯系的變量放在一起進行回歸分析才是只有將兩個內在有聯系的變量放在一起進行回歸分析才是有意義的。有意義的。 作回歸分析時,如果兩個有內在聯系的
24、變量之間存在的是一作回歸分析時,如果兩個有內在聯系的變量之間存在的是一種依存因果的關系,那么應該以種依存因果的關系,那么應該以“因因”的變量為的變量為X X , ,以以“果果”的變量為的變量為Y Y 。如果變量之間并無因果關系,則應以易于測定、。如果變量之間并無因果關系,則應以易于測定、較為穩定或變異較小者為較為穩定或變異較小者為X X 。 在回歸分析中,因變量是隨機變量,自變量既可以是隨機變在回歸分析中,因變量是隨機變量,自變量既可以是隨機變量(量(II II型回歸模型,兩個變量應該都服從正態分布),也可型回歸模型,兩個變量應該都服從正態分布),也可以是給定的量(以是給定的量(I I型回歸模
25、型,這時,與每個型回歸模型,這時,與每個X X 取值相對應取值相對應的變量的變量Y Y必須服從正態分布),如果數據不符合要求,在進必須服從正態分布),如果數據不符合要求,在進行回歸分析前,必須先進行變量的變換。行回歸分析前,必須先進行變量的變換。四、進行線性回歸分析的注意事項四、進行線性回歸分析的注意事項 回歸方程建立后必須作假設檢驗,只有經假回歸方程建立后必須作假設檢驗,只有經假設檢驗拒絕了無效假設,回歸方程才有意義。設檢驗拒絕了無效假設,回歸方程才有意義。 使用回歸方程計算估計值時,不可把估計的使用回歸方程計算估計值時,不可把估計的范圍擴大到建立方程時的自變量的取值范圍之范圍擴大到建立方程
26、時的自變量的取值范圍之外。外。 第三節第三節線性相關和回歸的區別與聯系線性相關和回歸的區別與聯系 1. 應用情況不同應用情況不同 說明兩變量依存變化的數量關系用回歸說明兩變量依存變化的數量關系用回歸 說明兩變量間的相關關系用相關說明兩變量間的相關關系用相關區別區別2.資料要求不同資料要求不同回歸:回歸:型回歸型回歸 y是隨機正態變量,是隨機正態變量, x是一般變量,可以精確測量和控制是一般變量,可以精確測量和控制的變量的變量 型回歸型回歸 雙變量均為隨機正態變量,雙變量均為隨機正態變量, 可計算兩個回歸方程可計算兩個回歸方程 由由x推推y的回歸方程的回歸方程 由由y推推x的回歸方程的回歸方程相
27、關:雙變量均為隨機正態變量相關:雙變量均為隨機正態變量y.xy.xx.yx.yyab xxab y= =+ += =+ +區別區別3.意義:意義: b表示表示X每增(減)一個單位時,每增(減)一個單位時,Y平均平均改變改變b個單位;個單位;r說明具有直線關系的兩個說明具有直線關系的兩個變量間關系的密切程度與相關方向。變量間關系的密切程度與相關方向。4.計算:計算:5.取值范圍:取值范圍: b; 1r1; XYXYXXXX YYllbrlll=區別區別1.假設檢驗等價假設檢驗等價 對同一樣本,對同一樣本,r和和b的假設檢驗得到的的假設檢驗得到的t值是相等的,實際應用中常以值是相等的,實際應用中常以r的假設檢驗的假設檢驗代替代替b的假設檢驗。的假設檢驗。2.方向一致方向一致 對一組數據,若同時計算對一組數據,若同時計算b、r,則它們的正負號是一致的則它們的正負號是一致的聯系聯系一、線性相關與回歸的區別一、線性相關與回歸的區別 相關系數的計算只適
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新質生產力政策
- 人教高中物理必修三第九章靜電場及其應用第一節電荷教學設計教案2份
- 2025屆湖南省長沙市大附中博才實驗中學數學七下期末綜合測試模擬試題含解析
- 肌纖維瘤的臨床護理
- 北師大版六年級數學下冊反比例的意義教學設計
- 服裝銷售總結模版
- 醫院護士面試試題及答案
- 一級消防試題及答案案例
- 2025年蘇教版數學五年級下冊期末檢測題及答案(一)
- 美妝品牌購物中心美妝專區綜合委托經營合作協議
- 生產交接班記錄表
- 《活著》作品簡介名著導讀PPT
- 山西洗煤廠安全管理人員機考題庫大全-上(單選、多選題)
- 硅酸鈣板、含鋯型硅酸鋁纖維棉、高鋁型硅酸鋁纖維棉技術規格
- 小學二年級下冊道德與法治《小水滴的訴說》教學教案
- 2018年可行性研究報告投資估算及財務分析全套計算表格共14個附表excle帶公式只更改標紅部分即可帶說明
- 企業落實安全生產主體責任重點事項清單(20項要點)
- 護士分層級培訓與管理課件
- 《人機工程學》第5章人的作業能力與疲勞課件
- 彩鋼產品合格證
- 人臉識別外文文獻(共9頁)
評論
0/150
提交評論