




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 一、復(fù)習(xí)回顧:一、復(fù)習(xí)回顧: 1 1、求線性回歸方程、求線性回歸方程 2 2、線性相關(guān)關(guān)系強(qiáng)弱的判斷:、線性相關(guān)關(guān)系強(qiáng)弱的判斷: 相關(guān)系數(shù)相關(guān)系數(shù)r r 例例1:1:從某大學(xué)中隨機(jī)選取從某大學(xué)中隨機(jī)選取8 8名女大學(xué)生名女大學(xué)生, ,其其 身高和體重?cái)?shù)據(jù)如下表身高和體重?cái)?shù)據(jù)如下表, ,求根據(jù)女大學(xué)生求根據(jù)女大學(xué)生 的身高預(yù)報(bào)體重的回歸方程的身高預(yù)報(bào)體重的回歸方程, ,并預(yù)報(bào)一名并預(yù)報(bào)一名 身高為身高為172cm172cm的女大學(xué)生的體重的女大學(xué)生的體重. . 編號(hào)編號(hào) 1 12 23 34 45 56 67 78 8 身高身高 cmcm 165165 165165 157157 170170
2、 175175 165165 155155 170170 體重體重 kgkg 48485757505054546464616143435959 線性回歸模型:線性回歸模型: y=0.849x-85.712+ey=0.849x-85.712+e 身高、隨機(jī)誤差對(duì)體重有沒(méi)有影響?身高、隨機(jī)誤差對(duì)體重有沒(méi)有影響? y = 0.8485x - 85.712 0 10 20 30 40 50 60 70 150155160165170175180 身高 體重 二、新概念引入:二、新概念引入: n n 1 1i i 2 2 i iT T ) )y y( (y yS SS S1 1. .總總偏偏差差平平方方
3、和和 計(jì)算例計(jì)算例1 1中總偏差平方和中總偏差平方和 SSSST T=354=354 思考:預(yù)報(bào)變量(體重)與實(shí)際值有偏思考:預(yù)報(bào)變量(體重)與實(shí)際值有偏 差即總偏差平方和,這個(gè)偏差變化在多差即總偏差平方和,這個(gè)偏差變化在多 大程度上與解釋變量(身高)有關(guān)?在大程度上與解釋變量(身高)有關(guān)?在 多大程度上與隨機(jī)變量有關(guān)?多大程度上與隨機(jī)變量有關(guān)? y = 0.8485x - 85.712 0 10 20 30 40 50 60 70 150155160165170175180 身高 體重 n n 1 1i i 2 2 i ii iE E ) )y y( (y yS SS S 作用作用:表示隨機(jī)
4、誤差的效應(yīng):表示隨機(jī)誤差的效應(yīng) 殘差平方和:殘差平方和:樣本值與回歸值差的平方和樣本值與回歸值差的平方和 2.2.殘差:殘差:樣本值與回歸值差即樣本值與回歸值差即 i ii i y yy y 例例1 SS1 SSE E=128.361=128.361 y = 0.8485x - 85.712 0 10 20 30 40 50 60 70 150155160165170175180 身高 體重 思考:若體重僅受身高的影響,散點(diǎn)圖又如何?思考:若體重僅受身高的影響,散點(diǎn)圖又如何? 3.3.回歸平方和回歸平方和:相應(yīng)回歸值與樣本均值差的:相應(yīng)回歸值與樣本均值差的 平方和,即:平方和,即: n n 1
5、 1i i 2 2 i iR R ) )y yy y( (S SS S SSSST T=SS=SSR R+SS+SSE E 作用:表示解釋變量的效應(yīng)作用:表示解釋變量的效應(yīng) 例例1 SS1 SSR R=225.639=225.639 即刻畫了預(yù)報(bào)變量的變化中由解釋變量通過(guò)即刻畫了預(yù)報(bào)變量的變化中由解釋變量通過(guò) 線性回歸模型所引起的那部分變化程度線性回歸模型所引起的那部分變化程度 y = 0.8485x - 85.712 0 10 20 30 40 50 60 70 150155160165170175180 身高 體重 注:當(dāng)總偏差平方和相對(duì)固定時(shí),殘差平方注:當(dāng)總偏差平方和相對(duì)固定時(shí),殘差平
6、方 和越小,則回歸平方和越大,此時(shí)模型的擬和越小,則回歸平方和越大,此時(shí)模型的擬 合效果越好合效果越好 . . SSSST T=SS=SSR R+SS+SSE E y = 0.8485x - 85.712 0 10 20 30 40 50 60 70 150155160165170175180 身高 體重 4.4.有沒(méi)有其他方法來(lái)刻劃模型的擬合程度?有沒(méi)有其他方法來(lái)刻劃模型的擬合程度? 相關(guān)指數(shù):相關(guān)指數(shù): n n 1 1i i 2 2 i i n n 1 1i i 2 2 i ii i 2 2 ) )y y(y(y ) )y y(y(y 1 1R R 1 1)R R2 2越大,說(shuō)明殘差平方和
7、越小,回歸平方越大,說(shuō)明殘差平方和越小,回歸平方 和越大,則模型擬合效果越好。和越大,則模型擬合效果越好。 2 2)R R2 2表示解釋變量對(duì)預(yù)報(bào)變量變化的貢獻(xiàn)率表示解釋變量對(duì)預(yù)報(bào)變量變化的貢獻(xiàn)率 3 3)R R2 211,模型擬合效果越好,表示解釋變量,模型擬合效果越好,表示解釋變量 和預(yù)報(bào)變量的相關(guān)性越強(qiáng)。和預(yù)報(bào)變量的相關(guān)性越強(qiáng)。 例例1 1 相關(guān)指數(shù)相關(guān)指數(shù)R R2 2=0.64,=0.64,說(shuō)明了什么?說(shuō)明了什么? 解釋變量對(duì)總效應(yīng)約貢獻(xiàn)了解釋變量對(duì)總效應(yīng)約貢獻(xiàn)了64%64%,隨機(jī)誤差,隨機(jī)誤差 貢獻(xiàn)了剩余的貢獻(xiàn)了剩余的36%36%。 4 4)若采用了幾種不同回歸方程進(jìn)行回歸分)若采用
8、了幾種不同回歸方程進(jìn)行回歸分 析,通過(guò)比較析,通過(guò)比較R R2 2值作出選擇,即選擇值作出選擇,即選擇R R2 2大的大的 模型作為這組數(shù)據(jù)的模型。模型作為這組數(shù)據(jù)的模型。 問(wèn):有些時(shí)候,樣本數(shù)據(jù)中難免混有錯(cuò)誤問(wèn):有些時(shí)候,樣本數(shù)據(jù)中難免混有錯(cuò)誤 數(shù)據(jù),通過(guò)何種方法把它剔除?數(shù)據(jù),通過(guò)何種方法把它剔除? 5 5、殘差分析:、殘差分析: 判斷原始數(shù)據(jù)中是否存在可判斷原始數(shù)據(jù)中是否存在可 疑數(shù)據(jù),這方面的工作稱為疑數(shù)據(jù),這方面的工作稱為 殘差分析。殘差分析。 步驟:步驟:1 1)計(jì)算每組數(shù)據(jù)的殘差)計(jì)算每組數(shù)據(jù)的殘差 2 2)畫殘差圖??v坐標(biāo)為殘差,橫坐標(biāo)為自)畫殘差圖。縱坐標(biāo)為殘差,橫坐標(biāo)為自
9、變量。變量。 3 3)分析殘差圖)分析殘差圖 4 4)找異常值)找異常值練:例練:例1 1作出殘差分析作出殘差分析 即樣本值減預(yù)測(cè)值即樣本值減預(yù)測(cè)值) )y y( (y y i ii i -8 -6 -4 -2 0 2 4 6 8 0123456789 編號(hào) 殘差 殘差比較均勻地落在帶狀區(qū)域內(nèi),殘差比較均勻地落在帶狀區(qū)域內(nèi), 說(shuō)明選用的模型比較合適。說(shuō)明選用的模型比較合適。 但第但第1 1個(gè)點(diǎn)與第個(gè)點(diǎn)與第6 6個(gè)點(diǎn)殘差較大,需要分析。個(gè)點(diǎn)殘差較大,需要分析。 -2-2 0 0 2 2 -4-4 0 0 5 5 -5-5 0 0 5 5 -5-5 0 0 -50-50 回歸模型合理回歸模型合理回
10、歸模型不是最好回歸模型不是最好 回歸模型不是最好回歸模型不是最好回歸模型不是最好回歸模型不是最好 例例1 1用身高預(yù)測(cè)體重要注意的問(wèn)題:用身高預(yù)測(cè)體重要注意的問(wèn)題: (1 1)回歸方程所適用樣本的總體)回歸方程所適用樣本的總體 (2 2)回歸方程所適用的時(shí)間性)回歸方程所適用的時(shí)間性 (3 3)回歸方程所適用的范圍)回歸方程所適用的范圍 (4 4)回歸方程得到的是預(yù)報(bào)變量可能取)回歸方程得到的是預(yù)報(bào)變量可能取 值的平均值值的平均值 編號(hào)編號(hào)1 12 23 34 45 56 6 X Xx x1 1x x2 2x x3 3x x4 4x x5 5x x6 6 Y Yy y1 1y y2 2y y3
11、 3y y4 4y y5 5y y6 6 據(jù)據(jù)R2大小大?。ㄗ鳉埐畋砘驁D作殘差表或圖)殘差分析殘差分析 據(jù)據(jù) r 的大小判定相關(guān)性的大小判定相關(guān)性 應(yīng)應(yīng) 用用(解釋變量解釋變量) e ea ab bx xy y n n 1 1i i n n 1 1i i 2 2 i i 2 2 i i i i n n 1 1i i i i ) )y y( (y y) )x x( (x x ) )y y( (y y) )x x( (x x r r 相關(guān)性判相關(guān)性判 定定 公公 式式 1 2 1 ()() () n ii i n i i xxyy xx b b i n n 2 2 i i 2 2 i i 1 1
12、n n 2 2 i i i i 1 1 ( ( y yy y ) ) R R1 1 ( ( y yy y ) ) 殘差分析殘差分析 公式公式 例例1 1 小結(jié)小結(jié) 建立回歸模型的步驟:建立回歸模型的步驟: (1 1)明確研究對(duì)象,設(shè)好變量)明確研究對(duì)象,設(shè)好變量 (2 2)畫出散點(diǎn)圖)畫出散點(diǎn)圖 (3 3)選定回歸方程類型)選定回歸方程類型 (4 4)求回歸方程中的參數(shù))求回歸方程中的參數(shù) (5 5)作殘差圖,進(jìn)行殘差分析)作殘差圖,進(jìn)行殘差分析 例例2 2 關(guān)于關(guān)于x x與與y y有如下數(shù)據(jù):有如下數(shù)據(jù): x x2 24 45 56 68 8 y y30304040606050507070
13、為了對(duì)為了對(duì)x x、y y兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析,現(xiàn)有以兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析,現(xiàn)有以 下兩種線性模型:下兩種線性模型:y=6.5x+17.5y=6.5x+17.5,y=7x+17y=7x+17, 試比較哪一個(gè)模型擬合的效果更好試比較哪一個(gè)模型擬合的效果更好. . 1 1)總偏差平方和)總偏差平方和= =回歸平方和回歸平方和+ +殘差平方和殘差平方和 2 2)判斷兩個(gè)模型擬合程度:相關(guān)指數(shù))判斷兩個(gè)模型擬合程度:相關(guān)指數(shù)R R2 2 3 3)如何進(jìn)行殘差分析?)如何進(jìn)行殘差分析? 4 4)求回歸模型的步驟。)求回歸模型的步驟。 小結(jié)小結(jié) 例例1 從某大學(xué)中隨機(jī)選取從某大學(xué)中隨機(jī)選取8名女大學(xué)生,其
14、身高和體重?cái)?shù)據(jù)如表名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表1-1所示。所示。 編號(hào)12345678 身高/cm165165 157 170 175 165 155 170 體重/kg4857505464614359 求根據(jù)一名女大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名身高為求根據(jù)一名女大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名身高為 172cm的女大學(xué)生的體重。的女大學(xué)生的體重。 案例案例1:女大學(xué)生的身高與體重:女大學(xué)生的身高與體重 解:解:1、選取身高為自變量、選取身高為自變量x,體重為因變量,體重為因變量y,作散點(diǎn)圖:,作散點(diǎn)圖: 2、由散點(diǎn)圖知道身高和體重有比較好的、由散點(diǎn)圖知道身高
15、和體重有比較好的 線性相關(guān)關(guān)系,因此可以用線性回歸方程線性相關(guān)關(guān)系,因此可以用線性回歸方程 刻畫它們之間的關(guān)系??坍嬎鼈冎g的關(guān)系。 3、從散點(diǎn)圖還看到,樣本點(diǎn)散布在某一條、從散點(diǎn)圖還看到,樣本點(diǎn)散布在某一條 直線的附近,而不是在一條直線上,所以直線的附近,而不是在一條直線上,所以 不能用一次函數(shù)不能用一次函數(shù)y=bx+a描述它們關(guān)系。描述它們關(guān)系。 我們可以用下面的我們可以用下面的線性回歸模型線性回歸模型來(lái)表示:來(lái)表示: y=bx+a+e,其中,其中a和和b為模型的未知參數(shù),為模型的未知參數(shù), e稱為隨機(jī)誤差稱為隨機(jī)誤差。 思考思考P3 產(chǎn)生隨機(jī)誤差項(xiàng)產(chǎn)生隨機(jī)誤差項(xiàng)e 的原因是什么?的原因是
16、什么? 思考思考P3 產(chǎn)生隨機(jī)誤差項(xiàng)產(chǎn)生隨機(jī)誤差項(xiàng)e的原因是什么?的原因是什么? 隨機(jī)誤差隨機(jī)誤差e e的來(lái)源的來(lái)源( (可以推廣到一般):可以推廣到一般): 1、其它因素的影響:影響身高 y 的因素不只是體重 x,可能 還包括遺傳基因、飲食習(xí)慣、生長(zhǎng)環(huán)境等因素; 2、用線性回歸模型近似真實(shí)模型所引起的誤差; 3、身高 y 的觀測(cè)誤差。 函數(shù)模型與回歸模型之間的差別函數(shù)模型與回歸模型之間的差別 函數(shù)模型: abxy 回歸模型: eabxy 可以提供 選擇模型的準(zhǔn)則 函數(shù)模型與回歸模型之間的差別函數(shù)模型與回歸模型之間的差別 函數(shù)模型: abxy 回歸模型: eabxy 線性回歸模型線性回歸模型y
17、=bx+a+e增加了隨機(jī)誤差項(xiàng)增加了隨機(jī)誤差項(xiàng)e,因變量,因變量y的值由自變量的值由自變量x和和 隨機(jī)誤差項(xiàng)隨機(jī)誤差項(xiàng)e共同確定,即共同確定,即自變量自變量x只能解析部分只能解析部分y的變化的變化。 在統(tǒng)計(jì)中,我們也把自變量在統(tǒng)計(jì)中,我們也把自變量x稱為解析變量,因變量稱為解析變量,因變量y稱為預(yù)報(bào)變量。稱為預(yù)報(bào)變量。 例例1 從某大學(xué)中隨機(jī)選取從某大學(xué)中隨機(jī)選取8名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表1-1所示。所示。 編號(hào)12345678 身高/cm165165 157 170 175 165 155 170 體重/kg4857505464614359 求根據(jù)一名
18、女大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名身高為求根據(jù)一名女大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名身高為 172cm的女大學(xué)生的體重。的女大學(xué)生的體重。 案例案例1:女大學(xué)生的身高與體重:女大學(xué)生的身高與體重 解:解:1、選取身高為自變量、選取身高為自變量x,體重為因變量,體重為因變量y,作散點(diǎn)圖:,作散點(diǎn)圖: 2、由散點(diǎn)圖知道身高和體重有比較好的、由散點(diǎn)圖知道身高和體重有比較好的 線性相關(guān)關(guān)系,因此可以用線性回歸方程線性相關(guān)關(guān)系,因此可以用線性回歸方程 刻畫它們之間的關(guān)系。刻畫它們之間的關(guān)系。 3、從散點(diǎn)圖還看到,樣本點(diǎn)散布在某一條、從散點(diǎn)圖還看到,樣本點(diǎn)散布在某一條 直線的附
19、近,而不是在一條直線上,所以直線的附近,而不是在一條直線上,所以 不能用一次函數(shù)不能用一次函數(shù)y=bx+a描述它們關(guān)系。描述它們關(guān)系。 我們可以用下面的我們可以用下面的線性回歸模型線性回歸模型來(lái)表示:來(lái)表示: y=bx+a+e,其中,其中a和和b為模型的未知參數(shù),為模型的未知參數(shù), e稱為隨機(jī)誤差稱為隨機(jī)誤差。 例例1 從某大學(xué)中隨機(jī)選取從某大學(xué)中隨機(jī)選取8名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表1-1所示。所示。 5943616454505748體重/kg 170155165175170157165165身高/cm 87654321編號(hào) 求根據(jù)一名女大學(xué)生的身高預(yù)報(bào)她
20、的體重的回歸方程,并預(yù)報(bào)一名身高為求根據(jù)一名女大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名身高為 172cm的女大學(xué)生的體重。的女大學(xué)生的體重。 根據(jù)最小二乘法估計(jì) 和 就是未知參數(shù)a和b的最好估計(jì), ab 制表 xi2 xi yi yi xi 7 8 合計(jì)654321i 2 iii xyxx y nn i=1i=1 , , , . 例例1 從某大學(xué)中隨機(jī)選取從某大學(xué)中隨機(jī)選取8名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表1-1所示。所示。 5943616454505748體重/kg 170155165175170157165165身高/cm 87654321編號(hào) 求根據(jù)
21、一名女大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名身高為求根據(jù)一名女大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名身高為 172cm的女大學(xué)生的體重。的女大學(xué)生的體重。 根據(jù)最小二乘法估計(jì) 和 就是未知參數(shù)a和b的最好估計(jì), ab 于是有b= 1 2 2 1 0.849 n ii i n i i x ynx y xnx 85.712aybx 所以回歸方程是0.84985.712yx 所以,對(duì)于身高為所以,對(duì)于身高為172cm的女大學(xué)生,由回歸方程可以預(yù)報(bào)其體重為的女大學(xué)生,由回歸方程可以預(yù)報(bào)其體重為 0.849 7285.71260.316()ykg ( , )x y 稱為 樣本點(diǎn)的中心 探
22、究探究P4: 身高為身高為172cm的女大學(xué)生的體重一定是的女大學(xué)生的體重一定是60.316kg嗎?嗎? 如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎? 探究探究P4: 身高為身高為172cm的女大學(xué)生的體重一定是的女大學(xué)生的體重一定是60.316kg嗎?嗎? 如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎? 答:身高為答:身高為172cm的女大學(xué)生的體重不一定是的女大學(xué)生的體重不一定是60.316kg, 但一般可以認(rèn)為她的體重在但一般可以認(rèn)為她的體重在60.316kg左右。左右。 函數(shù)模型與回歸模型之間的差別函數(shù)模型與回歸模型之間的差別 函數(shù)模型: abxy 回歸模
23、型: eabxy 如何描述兩個(gè)變量之間線性相關(guān)關(guān)系的強(qiáng)弱?如何描述兩個(gè)變量之間線性相關(guān)關(guān)系的強(qiáng)弱? 在數(shù)學(xué)3中,我們學(xué)習(xí)了用相關(guān)系數(shù)r來(lái)衡量?jī)蓚€(gè)變量 之間線性相關(guān)關(guān)系的方法。 相關(guān)系數(shù)相關(guān)系數(shù)r 1 22 11 ()() . ()() n ii i nn ii ii xxyy xxyy 0.751, 1, 0.75, 0 25,0.25, r r r 當(dāng), 表明兩個(gè)變量正相關(guān)很強(qiáng); 當(dāng)表明兩個(gè)變量負(fù)相關(guān)很強(qiáng); 當(dāng).表明兩個(gè)變量相關(guān)性較弱。 相關(guān)關(guān)系的測(cè)度相關(guān)關(guān)系的測(cè)度 (相關(guān)系數(shù)取值及其意義) 對(duì)回歸模型進(jìn)行統(tǒng)計(jì)檢驗(yàn)對(duì)回歸模型進(jìn)行統(tǒng)計(jì)檢驗(yàn) 思考思考P6: 如何刻畫預(yù)報(bào)變量(體重)的變化?這個(gè)變
24、化在多大程度上如何刻畫預(yù)報(bào)變量(體重)的變化?這個(gè)變化在多大程度上 與解析變量(身高)有關(guān)?在多大程度上與隨機(jī)誤差有關(guān)?與解析變量(身高)有關(guān)?在多大程度上與隨機(jī)誤差有關(guān)? 假設(shè)身高和隨機(jī)誤差的不同不會(huì)對(duì)體重產(chǎn)生任何影響,那么所有人的體重將相假設(shè)身高和隨機(jī)誤差的不同不會(huì)對(duì)體重產(chǎn)生任何影響,那么所有人的體重將相 同。同。在體重不受任何變量影響的假設(shè)下,設(shè)在體重不受任何變量影響的假設(shè)下,設(shè)8名女大學(xué)生的體重都是她們的平均值,名女大學(xué)生的體重都是她們的平均值, 即即8個(gè)人的體重都為個(gè)人的體重都為54.5kg。 54.554.554.554.554.554.554.554.5體重/kg 1701551
25、65175170157165165身高/cm 87654321編號(hào) 54.5kg 在散點(diǎn)圖中,所有的點(diǎn)應(yīng)該落在同一條在散點(diǎn)圖中,所有的點(diǎn)應(yīng)該落在同一條 水平直線上,但是觀測(cè)到的數(shù)據(jù)并非如水平直線上,但是觀測(cè)到的數(shù)據(jù)并非如 此。此。這就意味著這就意味著預(yù)報(bào)變量(體重)的值預(yù)報(bào)變量(體重)的值 受解析變量(身高)或隨機(jī)誤差的影響受解析變量(身高)或隨機(jī)誤差的影響。 5943616454505748體重/kg 170155165175170157165165身高/cm 87654321編號(hào) 例如,編號(hào)為例如,編號(hào)為6的女大學(xué)生的體重并沒(méi)有落在水平直線上,她的體重為的女大學(xué)生的體重并沒(méi)有落在水平直線上
26、,她的體重為61kg。解析。解析 變量(身高)和隨機(jī)誤差共同把這名學(xué)生的體重從變量(身高)和隨機(jī)誤差共同把這名學(xué)生的體重從54.5kg“推推”到了到了61kg,相差,相差6.5kg, 所以所以6.5kg是解析變量和隨機(jī)誤差的是解析變量和隨機(jī)誤差的組合效應(yīng)組合效應(yīng)。 編號(hào)為編號(hào)為3的女大學(xué)生的體重并也沒(méi)有落在水平直線上,她的體重為的女大學(xué)生的體重并也沒(méi)有落在水平直線上,她的體重為50kg。解析。解析 變量(身高)和隨機(jī)誤差共同把這名學(xué)生的體重從變量(身高)和隨機(jī)誤差共同把這名學(xué)生的體重從50kg“推推”到了到了54.5kg,相差,相差-4.5kg, 這時(shí)解析變量和隨機(jī)誤差的組合效應(yīng)為這時(shí)解析變量
27、和隨機(jī)誤差的組合效應(yīng)為-4.5kg。 用這種方法可以對(duì)所有預(yù)報(bào)變量計(jì)算組合效應(yīng)。用這種方法可以對(duì)所有預(yù)報(bào)變量計(jì)算組合效應(yīng)。 數(shù)學(xué)上,把每個(gè)效應(yīng)(觀測(cè)值減去總的平均值)的平方加起來(lái),即用數(shù)學(xué)上,把每個(gè)效應(yīng)(觀測(cè)值減去總的平均值)的平方加起來(lái),即用 2 1 () n i i yy 表示總的效應(yīng),稱為表示總的效應(yīng),稱為總偏差平方和總偏差平方和。 在例在例1中,總偏差平方和為中,總偏差平方和為354。 5943616454505748體重/kg 170155165175170157165165身高/cm 87654321編號(hào) 那么,在這個(gè)總的效應(yīng)(總偏差平方和)中,有多少來(lái)自于解析變量(身高)?那么,
28、在這個(gè)總的效應(yīng)(總偏差平方和)中,有多少來(lái)自于解析變量(身高)? 有多少來(lái)自于隨機(jī)誤差?有多少來(lái)自于隨機(jī)誤差? 假設(shè)隨機(jī)誤差對(duì)體重沒(méi)有影響,也就是說(shuō),體重僅受身高的影響,那么散點(diǎn)圖 中所有的點(diǎn)將完全落在回歸直線上。但是,在圖中,數(shù)據(jù)點(diǎn)并沒(méi)有完全落在回歸 直線上。這些點(diǎn)散布在回歸直線附近,所以一定是隨機(jī)誤差把這些點(diǎn)從回歸直線上這些點(diǎn)散布在回歸直線附近,所以一定是隨機(jī)誤差把這些點(diǎn)從回歸直線上 “推推”開了開了。 在例在例1中,殘差平方和約為中,殘差平方和約為128.361。 因此,數(shù)據(jù)點(diǎn)和它在回歸直線上相應(yīng)位置的差異因此,數(shù)據(jù)點(diǎn)和它在回歸直線上相應(yīng)位置的差異 是隨機(jī)誤差的效應(yīng),是隨機(jī)誤差的效應(yīng),
29、稱稱 為為殘差殘差。 ) ii yy( i ii eyy = 例如,編號(hào)為例如,編號(hào)為6的女大學(xué)生,計(jì)算隨機(jī)誤差的效應(yīng)(殘差)為:的女大學(xué)生,計(jì)算隨機(jī)誤差的效應(yīng)(殘差)為: 61 (0.849 16585.712)6.627 對(duì)每名女大學(xué)生計(jì)算這個(gè)差異,然后分別將所得的值平方后加起來(lái),用數(shù)學(xué)符號(hào)對(duì)每名女大學(xué)生計(jì)算這個(gè)差異,然后分別將所得的值平方后加起來(lái),用數(shù)學(xué)符號(hào) 2 1 () n ii i yy 稱為稱為殘差平方和殘差平方和,它代表了隨機(jī)誤差的效應(yīng)。它代表了隨機(jī)誤差的效應(yīng)。 表示為:表示為: 由于解析變量和隨機(jī)誤差的總效應(yīng)(總偏差平方和)為由于解析變量和隨機(jī)誤差的總效應(yīng)(總偏差平方和)為35
30、4,而隨機(jī)誤差的效應(yīng)為,而隨機(jī)誤差的效應(yīng)為 128.361,所以解析變量的效應(yīng)為,所以解析變量的效應(yīng)為 解析變量和隨機(jī)誤差的總效應(yīng)(總偏差平方和)解析變量和隨機(jī)誤差的總效應(yīng)(總偏差平方和) =解析變量的效應(yīng)(回歸平方和)解析變量的效應(yīng)(回歸平方和)+隨機(jī)誤差的效應(yīng)(殘差平方和)隨機(jī)誤差的效應(yīng)(殘差平方和) 354-128.361=225.639 這個(gè)值稱為這個(gè)值稱為回歸平方和?;貧w平方和。 我們可以用我們可以用相關(guān)指數(shù)相關(guān)指數(shù)R2來(lái)刻畫回歸的效果,其計(jì)算公式是來(lái)刻畫回歸的效果,其計(jì)算公式是 2 2 1 2 1 () 11 () n ii i n i i yy R yy 殘差平方和 。 總偏差平
31、方和 22 2 11 2 1 ()() () nn iii ii n i i yyyy R yy 總偏差平方和殘差平方和回歸平方和 總偏差平方和總偏差平方和 離差平方和的分解離差平方和的分解 (三個(gè)平方和的意義) 1.總偏差平方和總偏差平方和(SST) q反映因變量的反映因變量的 n 個(gè)觀察值與其均值的總離差個(gè)觀察值與其均值的總離差 2.回歸平方和回歸平方和(SSR) q反映自變量反映自變量 x 的變化對(duì)因變量的變化對(duì)因變量 y 取值變化的影響,取值變化的影響, 或者說(shuō),是由于或者說(shuō),是由于 x 與與 y 之間的線性關(guān)系引起的之間的線性關(guān)系引起的 y 的的 取值變化,也稱為可解釋的平方和取值變
32、化,也稱為可解釋的平方和 3.殘差平方和殘差平方和(SSE) q反映除反映除 x 以外的其他因素對(duì)以外的其他因素對(duì) y 取值的影響,也稱為取值的影響,也稱為 不可解釋的平方和或剩余平方和不可解釋的平方和或剩余平方和 樣本決定系數(shù)樣本決定系數(shù) (判定系數(shù) r2 ) 1.回歸平方和占總離差平方和的比例 我們可以用我們可以用相關(guān)指數(shù)相關(guān)指數(shù)R2來(lái)刻畫回歸的效果,其計(jì)算公式是來(lái)刻畫回歸的效果,其計(jì)算公式是 2 2 1 2 1 () 11 () n ii i n i i yy R yy 殘差平方和 。 總偏差平方和 顯然,顯然,R2的值越大,說(shuō)明殘差平方和越小,也就是說(shuō)模型擬合效果越好。的值越大,說(shuō)明殘
33、差平方和越小,也就是說(shuō)模型擬合效果越好。 在線性回歸模型中,在線性回歸模型中,R2表示解析變量對(duì)預(yù)報(bào)變量變化的貢獻(xiàn)率表示解析變量對(duì)預(yù)報(bào)變量變化的貢獻(xiàn)率。 R2越接近1,表示回歸的效果越好(因?yàn)镽2越接近1,表示解析變量和預(yù)報(bào)變量的 線性相關(guān)性越強(qiáng))。 如果某組數(shù)據(jù)可能采取幾種不同回歸方程進(jìn)行回歸分析,則可以通過(guò)比較如果某組數(shù)據(jù)可能采取幾種不同回歸方程進(jìn)行回歸分析,則可以通過(guò)比較R2的值的值 來(lái)做出選擇,即來(lái)做出選擇,即選取選取R2較大的模型作為這組數(shù)據(jù)的模型較大的模型作為這組數(shù)據(jù)的模型。 總的來(lái)說(shuō):總的來(lái)說(shuō): 相關(guān)指數(shù)相關(guān)指數(shù)R2是度量模型擬合效果的一種指標(biāo)。是度量模型擬合效果的一種指標(biāo)。 在
34、線性模型中,它在線性模型中,它代表自變量刻畫預(yù)報(bào)變量的能力代表自變量刻畫預(yù)報(bào)變量的能力。 我們可以用我們可以用相關(guān)指數(shù)相關(guān)指數(shù)R2來(lái)刻畫回歸的效果,其計(jì)算公式是來(lái)刻畫回歸的效果,其計(jì)算公式是 2 2 1 2 1 () 11 () n ii i n i i yy R yy 殘差平方和 。 總偏差平方和 1354總計(jì) 0.36128.361殘差變量 0.64225.639隨機(jī)誤差 比例平方和來(lái)源 表表1-3 從表從表3-1中可以看出,解析變量對(duì)總效應(yīng)約貢獻(xiàn)了中可以看出,解析變量對(duì)總效應(yīng)約貢獻(xiàn)了64%,即,即R2 0.64,可以敘述為,可以敘述為 “身高解析了身高解析了64%的體重變化的體重變化”,
35、而隨機(jī)誤差貢獻(xiàn)了剩余的,而隨機(jī)誤差貢獻(xiàn)了剩余的36%。 所以,身高對(duì)體重的效應(yīng)比隨機(jī)誤差的效應(yīng)大得多。所以,身高對(duì)體重的效應(yīng)比隨機(jī)誤差的效應(yīng)大得多。 表表1-4列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)。列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)。 在研究?jī)蓚€(gè)變量間的關(guān)系時(shí),首先要根據(jù)散點(diǎn)圖來(lái)粗略判斷它們是否線性相關(guān),在研究?jī)蓚€(gè)變量間的關(guān)系時(shí),首先要根據(jù)散點(diǎn)圖來(lái)粗略判斷它們是否線性相關(guān), 是否可以用回歸模型來(lái)擬合數(shù)據(jù)。是否可以用回歸模型來(lái)擬合數(shù)據(jù)。 殘差分析與殘差圖的定義:殘差分析與殘差圖的定義: 然后,我們可以通過(guò)殘差然后,我們可以通過(guò)殘差 來(lái)判斷模型擬合的效果,判斷原始
36、來(lái)判斷模型擬合的效果,判斷原始 數(shù)據(jù)中是否存在可疑數(shù)據(jù),數(shù)據(jù)中是否存在可疑數(shù)據(jù),這方面的分析工作稱為殘差分析這方面的分析工作稱為殘差分析。 12,ne ee 編號(hào)編號(hào)12345678 身高身高/cm165165157170175165155170 體重體重/kg4857505464614359 殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我們可以利用圖形來(lái)分析殘差特性,作圖時(shí)縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本我們可以利用圖形來(lái)分析殘差特性,作圖時(shí)縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本 編號(hào),或身高數(shù)據(jù),或體重估計(jì)值等,這樣作出的圖形稱為編號(hào),或身高數(shù)據(jù),或體重估計(jì)值等,這樣作出的圖形稱為殘差圖殘差圖。 殘差圖的制作及作用。殘差圖的制作及作用。 坐標(biāo)縱軸為殘差變量,橫軸可以有不同的選擇;坐標(biāo)縱軸為殘差變量,橫軸可以有不同的選擇; 若模型選擇的正確,殘差圖中的點(diǎn)應(yīng)該分布在以若模型選擇的正確,殘差圖中的點(diǎn)應(yīng)該分布在以 橫軸為心的帶形區(qū)域橫軸為心的帶形區(qū)域; 對(duì)于遠(yuǎn)離橫軸的點(diǎn),要特別注意對(duì)于遠(yuǎn)離橫軸的點(diǎn),要特別注意。 身高與體重殘差圖 異常點(diǎn) 錯(cuò)誤數(shù)據(jù) 模型問(wèn)題
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國(guó)羽絨服市場(chǎng)深度調(diào)研及發(fā)展策略研究報(bào)告
- 2025-2030年中國(guó)男士運(yùn)動(dòng)襪行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國(guó)焦亞硫酸鉀行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國(guó)注入激光二極管行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 科技賦能高質(zhì)量發(fā)展的策略及實(shí)施路徑
- 2025年中國(guó)火力發(fā)電設(shè)備行業(yè)市場(chǎng)發(fā)展監(jiān)測(cè)及投資戰(zhàn)略咨詢報(bào)告
- 工匠精神在高職思政課程中的實(shí)踐與探索
- 畫眼睛教學(xué)課件
- 甲醇汽油項(xiàng)目安全風(fēng)險(xiǎn)評(píng)價(jià)報(bào)告
- 護(hù)理技能操作課件模板
- 廣東省深圳市寶安區(qū)2023-2024學(xué)年二年級(jí)下冊(cè)期末測(cè)試數(shù)學(xué)試卷(含答案)
- 北京市順義區(qū)2023-2024學(xué)年五年級(jí)下學(xué)期數(shù)學(xué)期末試卷(含答案)
- 2025年高考真題-英語(yǔ)(全國(guó)一卷) 含答案
- 2025公基題庫(kù)(附答案解析)
- 2024年佛山市順德區(qū)龍江社區(qū)衛(wèi)生服務(wù)中心招聘真題
- 2025年寧夏銀川靈武市選聘市屬國(guó)有企業(yè)管理人員招聘筆試沖刺題(帶答案解析)
- 三大監(jiān)測(cè)培訓(xùn)試題及答案
- 兩辦意見(jiàn)宣貫考試題及答案
- 2025年汽車駕照考試科目一考試題庫(kù)及參考答案
- 2025年防范和打擊非法金融活動(dòng)競(jìng)賽題庫(kù)300題(含答案)
- 北京2025年04月中國(guó)工程院戰(zhàn)略咨詢中心招考10名勞動(dòng)合同制人員筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
評(píng)論
0/150
提交評(píng)論