




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第07章 回歸分析回歸分析與相關分析的區別回歸分析中,變量Y稱為因變量,處于被解釋的地位。而在相關分析中,X與Y處于平等地位;相關分析中,X和Y全是隨機變量,而在回歸分析中,因變量Y是隨機變量,自變量X可以是隨機變量,也可以是非隨機的。通常回歸模型中假定X是非隨機的精確變量;相關分析的研究是為了刻畫兩變量間線性相關的密切程度。而回歸分析不僅可以揭示X對Y的影響大小,還可以由回歸方程進行預測和控制。2Outline第一節 回歸分析的基本原理第二節 一元線性回歸分析第三節 多元線性回歸分析第四節 路徑分析31.相關和回歸1.1 散點圖 scatter diagram4學習分數和行為分數的關系012
2、345678012345678行為分數學習分數r 0.78*0.78*均值以上均值以上均值以下均值以下均值以上均值以上7 71 1均值以下均值以下2 21010行為分數行為分數學習學習兒童兒童行為行為學習學習快樂快樂1 12 21 12 22 22 22 23 33 32 23 34 44 42 24 45 55 52 24 47 76 63 33 33 37 73 34 45 58 84 42 23 39 94 43 34 410104 44 45 511114 45 56 612125 54 44 413135 55 55 514145 56 66 615156 64 44 416166
3、66 65 517176 66 66 618186 67 77 719197 76 64 420207 77 77 7M ean4.254.254.34.34.754.755快樂分數和行為分數的關系012345678012345678行為分數快樂分數r 0.380.38均值以上均值以上 均值以下均值以下均值以上均值以上6 65 5均值以下均值以下3 36 6行為分數行為分數快樂快樂兒童兒童行為行為學習學習快樂快樂1 12 21 12 22 22 22 23 33 32 23 34 44 42 24 45 55 52 24 47 76 63 33 33 37 73 34 45 58 84 42
4、23 39 94 43 34 410104 44 45 511114 45 56 612125 54 44 413135 55 55 514145 56 66 615156 64 44 416166 66 65 517176 66 66 618186 67 77 719197 76 64 420207 77 77 7M ean4.254.254.34.34.754.751.2 平方和、積矩和、協方差sum of squares sum of products covariance62222cov1 1covXxxXYxyXYXYXXXYXYXSSXXXlNXYSPXXYYXYlNSPNSSSN
5、rS S 第一節 回歸分析的基本原理一、回歸分析的意義二、回歸分析的基本原理三、回歸分析的主要內容一、回歸分析的意義 regression analysis 回歸分析:確定變量之間數量關系的可能形式,并用一個數學模型來表示這種關系形式 它可以從一個變量的變化來預測或估計另一個變量的變化 只有一個自變量的線性回歸叫一元線性回歸或簡單線性回歸 尋找一條最佳擬合直線best-fitting line,使得預測值predicted value和觀測值observed value之間的誤差最小8二、回歸分析的基本思想(一)回歸分析的數學模型(二)最佳擬合回歸線 the regression line10
6、的值)時(截距對應的變化量)變化一個單位時(回歸線的斜率的預測值YXaYXbYYbXaY0interceptslope從行為分數預測學習分數012345678012345678行為學習學習預測 學習最佳擬合直線 best-fitting line1120,residualYY-YY-YXYY-最小二乘估計:的直線,對所有經過:殘差之間的誤差最小目標:預測值和觀測值第二節 一元線性回歸分析一、一元線性回歸的模型及性質二、一元線性回歸方程的建立三、一元線性回歸方程的有效性檢驗四、回歸方程有效性的指標五、一元線性回歸分析的估計與預測二、一元線性回歸的數學模型 從X預測YY=0+1X+Y=a+bX+e
7、 Y與X的關系分為兩部分 0+1X是由于X的變化引起線性變化的部分; 是全體一切隨機因素造成的部分 N(0, s2)13一元線性回歸的基本假設 X與Y在總體上具有線性關系 變量X沒有測量誤差(看成精確變量) (Xi,Yi) 和 (Xj,Yj) 彼此獨立; 與某一個Xi值對應的Y值構成變量Y上一個子總體,這樣的子總體服從正態分布,且它們的方差相等 i 是Xi對應Y的子總體的平均數的無偏估計14小結15尋找一條最佳擬合直線尋找一條最佳擬合直線bXaY最小使2YYSSe用方差分析用方差分析檢驗回歸方程有效性檢驗回歸方程有效性有效性高低指標:有效性高低指標:決定系數決定系數r2回歸估計的標準誤回歸估計
8、的標準誤SYX回歸線的求解16 XYXXYeeeeSSrSXXNYXXYNbXbYNXbYaXYYaXbYXbNaXYYaXbYaXYXbYaXYXbaXXYbXbSSYXbNaXbYNaXbYNabXYaaSSabXbXYaYXbaYbXaYYYSSYYSSbXaY222222222222222cov0022222200222222222 ;令令正規方程組正規方程組 normal equationsQ17XYNXbYaXXNYXXYNb7532. 00987. 10987. 120857532. 0867532. 08541920868540920222 從行為分數預測學習分數0123456
9、78012345678行為學習學習預測 學習兒童兒童行為行為X學習學習YXYX*X1 12 21 12 24 42 22 22 24 44 43 32 23 36 64 44 42 24 48 84 45 52 24 48 84 46 63 33 39 99 97 73 34 412129 98 84 42 28 816169 94 43 31212161610104 44 41616161611114 45 52020161612125 54 42020252513135 55 52525252514145 56 63030252515156 64 42424363616166 66 636
10、36363617176 66 63636363618186 67 74242363619197 76 64242494920207 77 749494949Mean4.254.254.34.3Total85858686409409419419對回歸系數的解釋180tcoefficien regression edStandardiz0 , 1slopecov0intercept 2arbYXSSYXYYXSSrSbYXXbYabXaYXYXYXXY此時系數表示),稱為標準回歸(一般改用此時都轉化成標準分數后,和當的變化率的估計的變化量,即對變化一個單位時回歸線的斜率的值)時(截距2.4 從給定
11、的X來估計對應的Y 無窮大的樣本 取給定X對應的所有Y的均值作為估計值 對應于某個X的所有Y稱為Y的條件分布conditional distribution 有限樣本 19從行為分數預測學習分數012345678012345678行為學習學習預測 學習YY估計用五、一元線性回歸的估計與預測(一)估計因變量主值和主值區間(二)單個因變量實測值的預測五、預測的準確性 如果需要你去猜測某個班的每個學生的某次考試的成績,而只告訴你該班的平均分,怎樣猜才能誤差最小? 標準差作為誤差的度量2122211YYYYYSNYYSSSNdf估計的標準誤 standard error of estimate22re
12、sidualerrorXYXYerrorXYSSSSbaNdfSYXSdfSSNYYS也被表示成有時都是從樣本數據估計的和,因為或誤差方差稱為殘差方差的標準差預測的其下標表明為從22anceerror vari varianceresidual22三、回歸有效性的檢驗(一)誤差平方和(二)因變量變異的分解誤差平方和 相關越高,誤差越小 相關越高,從X預測Y就越準確,誤差就越小24221rSSYYSSYe222222121121121112rSNNrSSNNrSNNNrSSNSSSYYXYYYeXY因變量變異的分解25無關與有關與XXSSSSrSSrSSSSeYYYe221對r的顯著性的檢驗26
13、22212212100rNrNrrSrtNrSrrr來估計其標準誤可用的正態分布,近似服從均值為時,當對回歸的有效性檢驗 22212121XYrerXYeeerrrrreYereYYSSSMSMSFSdfSSMSSSdfSSMSNNdfNdfNdfQUSSSSSSSSrSS27對r的顯著性檢驗28 2222222212212 , 1 , 1trNrNSSrSSrNSSSSrSSSMSMSFntnFFntnYYeYXYrer檢驗量,即為自由度的以檢驗量的平方等于為自由度的以四、回歸有效性的指標- -決定系數(測定系數)r2coefficient of determination 衡量回歸方程有效
14、性高低的指標 回歸平方和在總離差平方和中所占的比例 因變量的變異中可以從自變量的變異來解釋的比例29YX SSrSS2 YeYYYSSSSSSSSSSr2五、一元線性回歸的估計與預測(一)估計因變量主值和主值區間(二)單個因變量實測值的預測五、預測的準確性 如果需要你去猜測某個班的每個學生的某次考試的成績,而只告訴你該班的平均分,怎樣猜才能誤差最小? 標準差作為誤差的度量3122211YYYYYSNYYSSSNdf估計的標準誤 standard error of estimate32residualerrorXYXYerrorXYSSSSbaNdfSYXSdfSSNYYS也被表示成有時都是從樣
15、本數據估計的和,因為或誤差方差稱為殘差方差的標準差預測的其下標表明為從22anceerror vari varianceresidual22六、可化為線性回歸的一元曲線回歸第三節 多元線性回歸分析一、多元線性回歸分析的意義二、多元線性回歸方程的建立三、多元線性回歸方程解題步驟四、多元線性回歸方程的有效性檢驗五、自變量顯著性檢驗六、逐步回歸法多元線性回歸的數學模型 從X1, X2, , Xk(憑經驗選取)預測YY=0+1X1+ 2X2 + + kXk+ N(0, s2) 根據樣本數據建立的回歸方程 =b0+b1X1+ b2X2 + + bkXk bi稱為(偏)回歸系數 偏回歸系數表示其它自變量假
16、設不變時,某一個自變量變化而引起因變量變化的比率35標準回歸方程、標準偏回歸系數 把所有原始數據轉換成標準分數,以標準分數建立的回歸方程為標準回歸方程Y = 1Z1+ 2Z2 + + kZk 標準回歸方程的回歸系數稱為標準(偏)回歸系數,其大小可直接反映對應的變量在預測時做的貢獻 bi=iSY/SXi36偏回歸系數的計算 基本原理 最小二乘法:預測值和觀測值的誤差平方和最小 一般借助于計算機 Excel SPSS SAS Minitab37多元測(決)定系數r2 其中 r 稱為復相關系數 multiple correlation coefficient r 實際上就是預測值和觀測值Y之間的相關
17、系數38222YYYYr多元線性回歸方程的檢驗 方差分析39ereeerrrerterrYtMSMSFdfSSMSdfSSMSkNdfSSSSYYSSkkdfYYSSYYSSSS1 , ,222為自變量個數)(偏回歸系數的顯著性檢驗 回歸方程顯著并不意味著所有的回歸系數都顯著 某個偏回歸系數不顯著意味著對應的自變量在回歸方程中沒什么貢獻 可以去掉該變量,重新建立回歸方程 檢驗方法401kNtSbtjbj選擇有效自變量的方法 逐步回歸 stepwise regression 對不顯著變量,只剔除對回歸貢獻最小的那個變量;然后重新建立新的回歸方程,如仍有不顯著變量,仍僅剔除對回歸貢獻最小的那個變量
18、,重新建立新的回歸方程,直至所有變量都顯著 前進法 forward regression 逐步加入自變量,檢驗顯著就保留 后退法 backward regression 將所有自變量引入回歸方程,逐漸剔除那些對回歸方程作用不大的自變量41工具-數據分析-回歸42Excel的多元回歸結果43SUMMARY OUTPUT回歸統計Multiple R0.94121828R Square0.885891851Adjusted R Square0.864496573標準誤差0.241797772觀測值20方差分析dfSSMSFSignificance F回歸分析3 7.262541 2.420847 4
19、1.405959.09596E-08殘差16 0.935459 0.058466總計198.198Coefficients 標準誤差t StatP-valueLower 95%Upper 95%Intercept-1.612500394 0.182461 -8.83749 1.49E-07-1.999300963 -1.2256998能力層次X10.283697977 0.066146 4.288935 0.0005640.143473729 0.42392223內容深度X20.205023121 0.063563 3.225529 0.0052860.070276398 0.33976984
20、題目類型X30.004764564 0.040131 0.1187270.90697-0.080308309 0.08983744應用多元回歸的注意事項 多重共線性 Multi-collinearity X1, X2, , Xk之間存在密切的線性關系,稱它們之間存在著多重共線性。此時對回歸系數的估計不穩定 因果關系 回歸分析能表現出變量彼此關聯或有聯系,但不能證明其因果關系 回歸系數的大小 計量單位相同或數據標準化時才能直接比較 樣本容量 r2 受 n 對于自變量個數 k 的影響。一般觀測數n至少等于自變量個數 k 的1015倍。44第四節 路徑分析一、基本原理二、案例分析2.7 樣本回歸線和
21、總體回歸線 根據樣本數據的回歸分析結果為樣本回歸線 = a + bX 不同的樣本對應于不同的樣本回歸線 所有樣本回歸線都是總體回歸線 = a X 的一個估計 所有樣本回歸線會在總體回歸線附近波動 對給定X,對應的總體回歸線的也稱為主值,而某條樣本回歸線對應的i只是的一個點估計 所有i的平均值將為4647iX2.8 回歸分析的應用 預測 已知X0,預測總體回歸線對應的0(主值) 已知X0,預測新的觀測值Y0 控制 已知Y的范圍,控制X的范圍483.3 偏回歸系數的計算 基本原理 最小二乘法:預測值和觀測值的誤差平方和最小 一般借助于計算機 Excel SPSS SAS Minitab493.4
22、多元測(決)定系數r2 其中 r 稱為復相關系數 multiple correlation coefficient r 實際上就是預測值和觀測值Y之間的相關系數50222YYYYr3.5 多元線性回歸方程的檢驗 方差分析51ereeerrrerterrYtMSMSFdfSSMSdfSSMSkNdfSSSSYYSSkkdfYYSSYYSSSS1 , ,222為自變量個數)(3.6 偏回歸系數的顯著性檢驗 回歸方程顯著并不意味著所有的回歸系數都顯著 某個偏回歸系數不顯著意味著對應的自變量在回歸方程中沒什么貢獻 可以去掉該變量,重新建立回歸方程 檢驗方法521kNtSbtjbj3.7 選擇有效自變量
23、的方法 逐步回歸 stepwise regression 對不顯著變量,只剔除對回歸貢獻最小的那個變量;然后重新建立新的回歸方程,如仍有不顯著變量,仍僅剔除對回歸貢獻最小的那個變量,重新建立新的回歸方程,直至所有變量都顯著 前進法 forward regression 逐步加入自變量,檢驗顯著就保留 后退法 backward regression 將所有自變量引入回歸方程,逐漸剔除那些對回歸方程作用不大的自變量533.8 Excel:工具-數據分析-回歸54Excel的多元回歸結果55SUMMARY OUTPUT回歸統計Multiple R0.94121828R Square0.8858918
24、51Adjusted R Square0.864496573標準誤差0.241797772觀測值20方差分析dfSSMSFSignificance F回歸分析3 7.262541 2.420847 41.405959.09596E-08殘差16 0.935459 0.058466總計198.198Coefficients 標準誤差t StatP-valueLower 95%Upper 95%Intercept-1.612500394 0.182461 -8.83749 1.49E-07-1.999300963 -1.2256998能力層次X10.283697977 0.066146 4.288
25、935 0.0005640.143473729 0.42392223內容深度X20.205023121 0.063563 3.225529 0.0052860.070276398 0.33976984題目類型X30.004764564 0.040131 0.1187270.90697-0.080308309 0.089837443.9 應用多元回歸的注意事項 多重共線性 Multi-collinearity X1, X2, , Xk之間存在密切的線性關系,稱它們之間存在著多重共線性。此時對回歸系數的估計不穩定 因果關系 回歸分析能表現出變量彼此關聯或有聯系,但不能證明其因果關系 回歸系數的大小
26、 計量單位相同或數據標準化時才能直接比較 樣本容量 r2 受 n 對于自變量個數 k 的影響。一般觀測數n至少等于自變量個數 k 的1015倍。56P229第1題57SUMMARY OUTPUTSUMMARY OUTPUT回歸統計回歸統計Multiple RMultiple R0.9407380270.940738027R SquareR Square0.8849880360.884988036Adjusted R SquareAdjusted R Square0.8799875160.879987516標準誤差標準誤差4.3541672164.354167216觀測值觀測值2525方差分析方
27、差分析dfdfSSSSMSMSF FSignificance FSignificance F回歸分析回歸分析1 1 3355.3083355.308 3355.3083355.308 176.9792176.9792 2.75E-122.75E-12殘差殘差2323 436.0518436.0518 18.9587718.95877總計總計24243791.363791.36CoefficientsCoefficients標準誤差標準誤差t Statt StatP-valueP-value Lower 95%Lower 95%Upper 95%Upper 95%InterceptIntercept-8.95230433-8.95230433 5.7634035.763403-1.5533-1.5533 0.1340040.134004 -20.8748-20.8748 2.9701882.970188校內英語成績X校內英語成績X0.99256
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藝術品市場藝術市場風險識別與評估考核試卷
- 外貿英語函電保險課件
- 酸堿反應全解析
- 塑造健康生活
- 碩士論文寫作指導
- 天津中德應用技術大學《再生醫學》2023-2024學年第一學期期末試卷
- 江蘇省連云港市海州區市級名校2025屆初三第一次調研考試(生物試題理)試卷含解析
- 山東服裝職業學院《中醫推拿與養生》2023-2024學年第二學期期末試卷
- 天津醫學高等專科學校《教學方案設計技能訓練》2023-2024學年第二學期期末試卷
- 江西中醫藥大學《大學生職業發展與就業指導》2023-2024學年第一學期期末試卷
- 人工智能訓練師理論知識考核要素細目表五級
- 2024年貴州省中考理科綜合試卷(含答案)
- 110kV變電站專項電氣試驗及調試方案
- DL-T901-2017火力發電廠煙囪(煙道)防腐蝕材料
- GB/T 3428-2024架空導線用鍍鋅鋼線
- ISO 15609-1 金屬材料焊接工藝規程及評定-焊接工藝規范中文版
- MOOC 英語語法與寫作-暨南大學 中國大學慕課答案
- 2024年山東省濟南市歷下區中考二模地理試題
- 電子書 -《商業的底層邏輯》
- 人居環境科學市公開課一等獎省賽課微課金獎課件
- 4.2 應對挫折提升抗逆力(高效教案)-【中職專用】中職思想政治《心理健康與職業生涯》(高教版2023·基礎模塊)
評論
0/150
提交評論