11回歸分析的基本思想及其初步應(yīng)用ppt課件_第1頁
11回歸分析的基本思想及其初步應(yīng)用ppt課件_第2頁
11回歸分析的基本思想及其初步應(yīng)用ppt課件_第3頁
11回歸分析的基本思想及其初步應(yīng)用ppt課件_第4頁
11回歸分析的基本思想及其初步應(yīng)用ppt課件_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1.1回歸分析的基本思想及其初步應(yīng)用回歸分析的基本思想及其初步應(yīng)用例例1 從某大學(xué)中隨機(jī)選取從某大學(xué)中隨機(jī)選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如表名女大學(xué)生,其身高和體重數(shù)據(jù)如表1-1所示。所示。編號12345678身高/cm 165 165 157 170 175 165 155 170體重/kg4857505464614359求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重。的女大學(xué)生的體重。案例案例1:女大學(xué)生的身高與體重:女大學(xué)生的身高與體重解:解:1、選取身高為自變量、選取身高為自

2、變量x,體重為因變量,體重為因變量y,作散點(diǎn)圖:,作散點(diǎn)圖:2、從散點(diǎn)圖還看到,樣本點(diǎn)成條狀分布,、從散點(diǎn)圖還看到,樣本點(diǎn)成條狀分布,身高和體重有比較好的線性相關(guān)關(guān)系,因此可身高和體重有比較好的線性相關(guān)關(guān)系,因此可以用線性回歸方程以用線性回歸方程y=bx+a來近似的來近似的刻畫它們之間的關(guān)系。刻畫它們之間的關(guān)系。由數(shù)學(xué)三的知識可知根據(jù)最小二乘法估計 和 就是未知參數(shù)a和b的最好估計,ab根據(jù)最小二乘法估計 和 就是未知參數(shù)a和b的最好估計,ab于是有b=12210.849niiiniix ynx yxnx85.712aybx 所以回歸方程是0.84985.712yx所以,對于身高為所以,對于身

3、高為172cm的女大學(xué)生,由回歸方程可以預(yù)報其體重為的女大學(xué)生,由回歸方程可以預(yù)報其體重為 0.849 7285.71260.316()ykg( , )x y 稱為樣本點(diǎn)的中心探求:探求:身高為身高為172cm的女大學(xué)生的體重一定是的女大學(xué)生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎?探求:探求:身高為身高為172cm的女大學(xué)生的體重一定是的女大學(xué)生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎?答:身高為答:身高為172cm的女大學(xué)生的體重不一定是的女大學(xué)生的體重不一定是60.316kg, 但

4、一般可以認(rèn)為她的體重在但一般可以認(rèn)為她的體重在60.316kg左右。左右。從散點(diǎn)圖還看到,樣本點(diǎn)散布在某一條直線的附近,而不是在一條直線從散點(diǎn)圖還看到,樣本點(diǎn)散布在某一條直線的附近,而不是在一條直線上,所以不能用一次函數(shù)上,所以不能用一次函數(shù)y=bx+a描述它們關(guān)系。描述它們關(guān)系。 我們可以用線性回歸模型來表示:我們可以用線性回歸模型來表示:y=bx+a+e,其中,其中a和和b為模型的未知為模型的未知參數(shù),參數(shù),e稱為隨機(jī)誤差。稱為隨機(jī)誤差。 顯然身高為顯然身高為172cm的女大學(xué)生的體重不一定是的女大學(xué)生的體重不一定是60.316kg,但一般可以,但一般可以認(rèn)為她的體重在認(rèn)為她的體重在60.

5、316kg左右,散點(diǎn)圖中的樣本點(diǎn)和回歸直線的相互位置左右,散點(diǎn)圖中的樣本點(diǎn)和回歸直線的相互位置說明了這一點(diǎn)說明了這一點(diǎn):思索思索產(chǎn)生隨機(jī)誤差項(xiàng)產(chǎn)生隨機(jī)誤差項(xiàng)e的原因是什么?的原因是什么?隨機(jī)誤差隨機(jī)誤差e e的來源的來源( (可以推廣到一般):可以推廣到一般):1 1、其它因素的影響:影響身高、其它因素的影響:影響身高 y y 的因素不只是體的因素不只是體重重 x x,能夠,能夠 還包括遺傳基因、飲食習(xí)慣、還包括遺傳基因、飲食習(xí)慣、生長環(huán)境等因素;生長環(huán)境等因素;2 2、用線性回歸模型近似真實(shí)模型所引起的誤差;、用線性回歸模型近似真實(shí)模型所引起的誤差;3 3、身高、身高 y y 的觀測誤差。的

6、觀測誤差。函數(shù)模型與回歸模型之間的差別函數(shù)模型與回歸模型之間的差別函數(shù)模型:abxy回歸模型:eabxy 線性回歸模型y=bx+a+e增加了隨機(jī)誤差項(xiàng)e,因變量y的值由自變量x和隨機(jī)誤差項(xiàng)e共同確定,即自變量x只能解析部分y的變化。 在統(tǒng)計中,我們也把自變量x稱為解析變量,因變量y稱為預(yù)報變量。(1, 2,. )iiiiiiybxa inyyybxaiiiii隨 機(jī) 誤 差 e其 估 計 值 為 : ee 稱 為 相 應(yīng) 點(diǎn) (x ,y )的 殘 差思索:如何發(fā)現(xiàn)數(shù)據(jù)中的錯誤?如何衡思索:如何發(fā)現(xiàn)數(shù)據(jù)中的錯誤?如何衡量模型的擬合效果?量模型的擬合效果?在實(shí)際應(yīng)用中,我們用回歸方程在實(shí)際應(yīng)用中,

7、我們用回歸方程 中的中的 估計估計1中的中的bx+a,由于隨,由于隨機(jī)誤差機(jī)誤差e=y-(bx+a) ,所以所以 ,對樣本點(diǎn)而言對樣本點(diǎn)而言 axbyyyye對回歸模型進(jìn)行統(tǒng)計檢驗(yàn)對回歸模型進(jìn)行統(tǒng)計檢驗(yàn)表表1-4列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)。列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)。 在研究兩個變量間的關(guān)系時,首先要根據(jù)散點(diǎn)圖來粗略判斷它們是否線性相關(guān),在研究兩個變量間的關(guān)系時,首先要根據(jù)散點(diǎn)圖來粗略判斷它們是否線性相關(guān),是否可以用回歸模型來擬合數(shù)據(jù)。是否可以用回歸模型來擬合數(shù)據(jù)。殘差分析與殘差圖的定義:殘差分析與殘差圖的定義: 然后,我們可以通過殘差然后,

8、我們可以通過殘差 來判斷模型擬合的效果,判斷原始來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),這方面的分析工作稱為殘差分析。數(shù)據(jù)中是否存在可疑數(shù)據(jù),這方面的分析工作稱為殘差分析。12,ne ee 編號編號12345678身高身高/cm165165157170175165155170體重體重/kg4857505464614359殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我們可以利用圖形來分析殘差特性,作圖時縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本我們可以利用圖形來分析殘差特性,作圖時縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本編號,或身高數(shù)據(jù),或體重估計

9、值等,這樣作出的圖形稱為殘差圖。編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為殘差圖。殘差圖的制作及作用。殘差圖的制作及作用。坐標(biāo)縱軸為殘差變量,橫軸可以有不同的選擇;坐標(biāo)縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘差圖中的點(diǎn)應(yīng)該分布在以橫軸為若模型選擇的正確,殘差圖中的點(diǎn)應(yīng)該分布在以橫軸為心的帶形區(qū)域;心的帶形區(qū)域;對于遠(yuǎn)離橫軸的點(diǎn),要特別注意。對于遠(yuǎn)離橫軸的點(diǎn),要特別注意。身高與體重殘差圖異常點(diǎn) 錯誤數(shù)據(jù) 模型問題 幾點(diǎn)說明:幾點(diǎn)說明: 第一個樣本點(diǎn)和第第一個樣本點(diǎn)和第6個樣本點(diǎn)的殘差比較大,需要確認(rèn)在采集過程中是否有人為個樣本點(diǎn)的殘差比較大,需要確認(rèn)在采集過程中是否有

10、人為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。 另外,殘差點(diǎn)比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型計較合適,這另外,殘差點(diǎn)比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型計較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高。樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高。思索:思索:如何刻畫預(yù)報變量體重的變化?這個變化在多大程度上如何刻畫預(yù)報變

11、量體重的變化?這個變化在多大程度上與解析變量身高有關(guān)?在多大程度上與隨機(jī)誤差有關(guān)?與解析變量身高有關(guān)?在多大程度上與隨機(jī)誤差有關(guān)? 那么,在這個總的效應(yīng)總偏差平方和中,有多少來自于解析變量身高)?有多少來自于隨機(jī)誤差? 假設(shè)隨機(jī)誤差對體重沒有影響,也就是說,體重僅受身高的影響,那么散點(diǎn)圖中所有的點(diǎn)將完全落在回歸直線上。但是,在圖中,數(shù)據(jù)點(diǎn)并沒有完全落在回歸直線上。這些點(diǎn)散布在回歸直線附近,所以一定是隨機(jī)誤差把這些點(diǎn)從回歸直線上“推開了。在例在例1中,殘差平方和約為中,殘差平方和約為128.361。 因此,數(shù)據(jù)點(diǎn)和它在回歸直線上相應(yīng)位置的差異 是隨機(jī)誤差的效應(yīng),稱 為殘差。)iiyy(iiiey

12、y=例如,編號為例如,編號為6的女大學(xué)生,計算隨機(jī)誤差的效應(yīng)殘差為:的女大學(xué)生,計算隨機(jī)誤差的效應(yīng)殘差為:61 (0.849 16585.712)6.627對每名女大學(xué)生計算這個差異,然后分別將所得的值平方后加起來,用數(shù)學(xué)符號對每名女大學(xué)生計算這個差異,然后分別將所得的值平方后加起來,用數(shù)學(xué)符號21()niiiyy稱為殘差平方和,它代表了隨機(jī)誤差的效應(yīng)。稱為殘差平方和,它代表了隨機(jī)誤差的效應(yīng)。表示為:表示為: 由于解析變量和隨機(jī)誤差的總效應(yīng)總偏差平方和為354,而隨機(jī)誤差的效應(yīng)為128.361,所以解析變量的效應(yīng)為解析變量和隨機(jī)誤差的總效應(yīng)總偏差平方和)解析變量和隨機(jī)誤差的總效應(yīng)總偏差平方和)

13、 =解析變量的效應(yīng)回歸平方和)解析變量的效應(yīng)回歸平方和)+隨機(jī)誤差的效應(yīng)殘差平方和)隨機(jī)誤差的效應(yīng)殘差平方和)354-128.361=225.639 這個值稱為回歸平方和。這個值稱為回歸平方和。我們可以用我們可以用R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和。總偏差平方和2221121()()()nniiiiiniiyyyyRyy總偏差平方和殘差平方和回歸平方和總偏差平方和總偏差平方和顯然,顯然,R2的值越大,說明殘差平方和越小,也就是說模型擬的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。合效果越好。在線性

14、回歸模型中,在線性回歸模型中,R2表示解析變量對預(yù)報變量變化的貢獻(xiàn)率。表示解析變量對預(yù)報變量變化的貢獻(xiàn)率。 R2越接近越接近1,表示回歸的效果越好因?yàn)椋硎净貧w的效果越好因?yàn)镽2越越接近接近1,表示解析變量和預(yù)報變量的線性相關(guān)性,表示解析變量和預(yù)報變量的線性相關(guān)性越強(qiáng))。越強(qiáng))。 如果某組數(shù)據(jù)可能采取幾種不同回歸方程進(jìn)行回歸分析,則可以通過比較R2的值來做出選擇,即選取R2較大的模型作為這組數(shù)據(jù)的模型。總的來說:總的來說:R2是度量模型擬合效果的一種指標(biāo)。是度量模型擬合效果的一種指標(biāo)。在線性模型中,它代表自變量刻畫預(yù)報變量的能力。在線性模型中,它代表自變量刻畫預(yù)報變量的能力。1354總計0.3

15、6128.361殘差變量0.64225.639隨機(jī)誤差比例平方和來源 從表中可以看出,解析變量對總效應(yīng)約貢獻(xiàn)了從表中可以看出,解析變量對總效應(yīng)約貢獻(xiàn)了64%,即,即R20.64,可以敘述為可以敘述為“身高解析了身高解析了64%的體重變化的體重變化”,而隨機(jī)誤差貢獻(xiàn)了剩余的,而隨機(jī)誤差貢獻(xiàn)了剩余的36%。 所以,身高對體重的效應(yīng)比隨機(jī)誤差的效應(yīng)大得多。所以,身高對體重的效應(yīng)比隨機(jī)誤差的效應(yīng)大得多。用身高預(yù)報體重時,需要注意下列問題:用身高預(yù)報體重時,需要注意下列問題:1、回歸方程只適用于我們所研究的樣本的總體;、回歸方程只適用于我們所研究的樣本的總體;2、我們所建立的回歸方程一般都有時間性;、我

16、們所建立的回歸方程一般都有時間性;3、樣本采集的范圍會影響回歸方程的適用范圍;、樣本采集的范圍會影響回歸方程的適用范圍;4、不能期望回歸方程得到的預(yù)報值就是預(yù)報變量的精確值。、不能期望回歸方程得到的預(yù)報值就是預(yù)報變量的精確值。 事實(shí)上,它是預(yù)報變量的可能取值的平均值。事實(shí)上,它是預(yù)報變量的可能取值的平均值。這些問題也使用于其他問題。這些問題也使用于其他問題。涉及到統(tǒng)計的一些思想:涉及到統(tǒng)計的一些思想:模型適用的總體;模型適用的總體;模型的時間性;模型的時間性;樣本的取值范圍對模型的影響;樣本的取值范圍對模型的影響;模型預(yù)報結(jié)果的正確理解。模型預(yù)報結(jié)果的正確理解。一般地,建立回歸模型的基本步驟為

17、:一般地,建立回歸模型的基本步驟為:(1確定研究對象,明確哪個變量是解析變量,哪個變量是預(yù)報變量。確定研究對象,明確哪個變量是解析變量,哪個變量是預(yù)報變量。(2畫出確定好的解析變量和預(yù)報變量的散點(diǎn)圖,觀察它們之間的關(guān)系畫出確定好的解析變量和預(yù)報變量的散點(diǎn)圖,觀察它們之間的關(guān)系 (如是否存在線性關(guān)系等)。(如是否存在線性關(guān)系等)。(3由經(jīng)驗(yàn)確定回歸方程的類型如我們觀察到數(shù)據(jù)呈線性關(guān)系,則選用線性由經(jīng)驗(yàn)確定回歸方程的類型如我們觀察到數(shù)據(jù)呈線性關(guān)系,則選用線性 回歸方程回歸方程y=bx+a).(4按一定規(guī)則估計回歸方程中的參數(shù)如最小二乘法)。按一定規(guī)則估計回歸方程中的參數(shù)如最小二乘法)。(5得出結(jié)果

18、后分析殘差圖是否有異常個別數(shù)據(jù)對應(yīng)殘差過大,或殘差呈現(xiàn)得出結(jié)果后分析殘差圖是否有異常個別數(shù)據(jù)對應(yīng)殘差過大,或殘差呈現(xiàn) 不隨機(jī)的規(guī)律性,等等),過存在異常,則檢查數(shù)據(jù)是否有誤,或模型是不隨機(jī)的規(guī)律性,等等),過存在異常,則檢查數(shù)據(jù)是否有誤,或模型是 否合適等。否合適等。.,317.2之間的回歸方程與試建立中觀察數(shù)據(jù)列于表組現(xiàn)收集了有關(guān)和溫度一只紅鈴蟲的產(chǎn)卵數(shù)例xyxy31表325115662421117/y35322927252321C/0個個產(chǎn)產(chǎn)卵卵數(shù)數(shù)溫溫度度41 . 1圖溫度溫度產(chǎn)卵數(shù)產(chǎn)卵數(shù).41 . 1據(jù)作散點(diǎn)圖根據(jù)收集的數(shù)解所以不能相關(guān)關(guān)系線性個變量不呈線因此兩帶狀區(qū)域內(nèi)某個布在有分并

19、沒樣本點(diǎn)在散點(diǎn)圖中,.cc,ecy,.21xc12是待定參數(shù)和其中的周圍指數(shù)函數(shù)曲線某一條可以發(fā)現(xiàn)樣本點(diǎn)分布在根據(jù)已有的函數(shù)知識系立兩個變量之間的關(guān)建來直接利用線性回歸方程 .xy,.)cb,clna(abxz, ylnz.cc,2121了間的非線性回歸方程之和型來建立就可以利用線性回歸模這樣的周圍直線換后樣本點(diǎn)應(yīng)該分布在則變令系變?yōu)榫€性關(guān)過對數(shù)變換把指數(shù)關(guān)系我們可以通和參數(shù)問題變?yōu)槿绾喂烙嫶ìF(xiàn)在 .,abxy線線性性回回歸歸方方程程我我們們稱稱之之為為非非時時當(dāng)當(dāng)回回歸歸方方程程不不是是形形如如圖的樣本數(shù)據(jù)表的數(shù)據(jù)可以得到變換后由表, 4131.,51 . 1.4151 . 1用線性回歸方

20、程來擬合因此可以一條直線的附近變換后的樣本點(diǎn)分布在看出中可以從圖中數(shù)據(jù)的散點(diǎn)圖給出了表784.5745.4190.4178.3045.3398.2946.1z35322927252321x41表產(chǎn)卵數(shù)的對數(shù)溫度51 . 1圖.843. 3272. 041xz到線性回歸方程中的數(shù)據(jù)得由表回歸方程為數(shù)對溫度的非線性因此紅鈴蟲的產(chǎn)卵 6ey 843.3x272.01.,.,41 . 1,243423非線性回歸方程之間的與從而得到之間的線性回歸方程與立然后建即令變換因此可以對溫度變量做數(shù)為待定參和其中的附近次曲線中樣本點(diǎn)集中在某二可以認(rèn)為圖另一方面xytyxtcccxcy.61 . 1,51是相應(yīng)的散

21、點(diǎn)圖圖應(yīng)的溫度的平方是紅鈴蟲的產(chǎn)卵數(shù)和對表325115662421117y12251024841729625529441t51表.,61 . 1423下面介紹具體方法到還可以通過殘差分析得這個結(jié)論之間的關(guān)系與來擬合二次曲線即不宜用合它回歸方程來擬此不宜用線性因直線的周圍不分布在一條的散點(diǎn)圖并與可以看出中從圖xycxcyty溫度的平方數(shù)卵產(chǎn)61 . 1圖中用線性回歸模型擬合表的二次回歸方程關(guān)于下面建立的指數(shù)回歸方程關(guān)于前面已經(jīng)建立了方程歸需要建立兩個相應(yīng)的回殘差為比較兩個不同模型的51.,.,xyxy 7.54.202x367.0y xy,54.202t367.0y ty,222的二次回歸方程為關(guān)于即的線性回歸方程關(guān)于得到的數(shù)據(jù) 的殘差計算公式分別為和則回歸方程列的數(shù)據(jù)行第第表示表用的擬合效果和個回歸方程可以通過殘差來比較兩76,1151.76ixi ; 7 , 2 , 1i ,eyy ye 843.3x272.0i1ii1i .7 , 2 , 1i ,54.202x367.0yy ye 2ii2ii2i .76,76.61的擬合效果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論