11回歸分析的基本思想及其初步應用ppt課件_第1頁
11回歸分析的基本思想及其初步應用ppt課件_第2頁
11回歸分析的基本思想及其初步應用ppt課件_第3頁
11回歸分析的基本思想及其初步應用ppt課件_第4頁
11回歸分析的基本思想及其初步應用ppt課件_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1.1回歸分析的基本思想及其初步應用回歸分析的基本思想及其初步應用例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數據如表名女大學生,其身高和體重數據如表1-1所示。所示。編號12345678身高/cm 165 165 157 170 175 165 155 170體重/kg4857505464614359求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重。案例案例1:女大學生的身高與體重:女大學生的身高與體重解:解:1、選取身高為自變量、選取身高為自

2、變量x,體重為因變量,體重為因變量y,作散點圖:,作散點圖:2、從散點圖還看到,樣本點成條狀分布,、從散點圖還看到,樣本點成條狀分布,身高和體重有比較好的線性相關關系,因此可身高和體重有比較好的線性相關關系,因此可以用線性回歸方程以用線性回歸方程y=bx+a來近似的來近似的刻畫它們之間的關系。刻畫它們之間的關系。由數學三的知識可知根據最小二乘法估計 和 就是未知參數a和b的最好估計,ab根據最小二乘法估計 和 就是未知參數a和b的最好估計,ab于是有b=12210.849niiiniix ynx yxnx85.712aybx 所以回歸方程是0.84985.712yx所以,對于身高為所以,對于身

3、高為172cm的女大學生,由回歸方程可以預報其體重為的女大學生,由回歸方程可以預報其體重為 0.849 7285.71260.316()ykg( , )x y 稱為樣本點的中心探求:探求:身高為身高為172cm的女大學生的體重一定是的女大學生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎?探求:探求:身高為身高為172cm的女大學生的體重一定是的女大學生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎?答:身高為答:身高為172cm的女大學生的體重不一定是的女大學生的體重不一定是60.316kg, 但

4、一般可以認為她的體重在但一般可以認為她的體重在60.316kg左右。左右。從散點圖還看到,樣本點散布在某一條直線的附近,而不是在一條直線從散點圖還看到,樣本點散布在某一條直線的附近,而不是在一條直線上,所以不能用一次函數上,所以不能用一次函數y=bx+a描述它們關系。描述它們關系。 我們可以用線性回歸模型來表示:我們可以用線性回歸模型來表示:y=bx+a+e,其中,其中a和和b為模型的未知為模型的未知參數,參數,e稱為隨機誤差。稱為隨機誤差。 顯然身高為顯然身高為172cm的女大學生的體重不一定是的女大學生的體重不一定是60.316kg,但一般可以,但一般可以認為她的體重在認為她的體重在60.

5、316kg左右,散點圖中的樣本點和回歸直線的相互位置左右,散點圖中的樣本點和回歸直線的相互位置說明了這一點說明了這一點:思索思索產生隨機誤差項產生隨機誤差項e的原因是什么?的原因是什么?隨機誤差隨機誤差e e的來源的來源( (可以推廣到一般):可以推廣到一般):1 1、其它因素的影響:影響身高、其它因素的影響:影響身高 y y 的因素不只是體的因素不只是體重重 x x,能夠,能夠 還包括遺傳基因、飲食習慣、還包括遺傳基因、飲食習慣、生長環境等因素;生長環境等因素;2 2、用線性回歸模型近似真實模型所引起的誤差;、用線性回歸模型近似真實模型所引起的誤差;3 3、身高、身高 y y 的觀測誤差。的

6、觀測誤差。函數模型與回歸模型之間的差別函數模型與回歸模型之間的差別函數模型:abxy回歸模型:eabxy 線性回歸模型y=bx+a+e增加了隨機誤差項e,因變量y的值由自變量x和隨機誤差項e共同確定,即自變量x只能解析部分y的變化。 在統計中,我們也把自變量x稱為解析變量,因變量y稱為預報變量。(1, 2,. )iiiiiiybxa inyyybxaiiiii隨 機 誤 差 e其 估 計 值 為 : ee 稱 為 相 應 點 (x ,y )的 殘 差思索:如何發現數據中的錯誤?如何衡思索:如何發現數據中的錯誤?如何衡量模型的擬合效果?量模型的擬合效果?在實際應用中,我們用回歸方程在實際應用中,

7、我們用回歸方程 中的中的 估計估計1中的中的bx+a,由于隨,由于隨機誤差機誤差e=y-(bx+a) ,所以所以 ,對樣本點而言對樣本點而言 axbyyyye對回歸模型進行統計檢驗對回歸模型進行統計檢驗表表1-4列出了女大學生身高和體重的原始數據以及相應的殘差數據。列出了女大學生身高和體重的原始數據以及相應的殘差數據。 在研究兩個變量間的關系時,首先要根據散點圖來粗略判斷它們是否線性相關,在研究兩個變量間的關系時,首先要根據散點圖來粗略判斷它們是否線性相關,是否可以用回歸模型來擬合數據。是否可以用回歸模型來擬合數據。殘差分析與殘差圖的定義:殘差分析與殘差圖的定義: 然后,我們可以通過殘差然后,

8、我們可以通過殘差 來判斷模型擬合的效果,判斷原始來判斷模型擬合的效果,判斷原始數據中是否存在可疑數據,這方面的分析工作稱為殘差分析。數據中是否存在可疑數據,這方面的分析工作稱為殘差分析。12,ne ee 編號編號12345678身高身高/cm165165157170175165155170體重體重/kg4857505464614359殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數據,或體重估計

9、值等,這樣作出的圖形稱為殘差圖。編號,或身高數據,或體重估計值等,這樣作出的圖形稱為殘差圖。殘差圖的制作及作用。殘差圖的制作及作用。坐標縱軸為殘差變量,橫軸可以有不同的選擇;坐標縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘差圖中的點應該分布在以橫軸為若模型選擇的正確,殘差圖中的點應該分布在以橫軸為心的帶形區域;心的帶形區域;對于遠離橫軸的點,要特別注意。對于遠離橫軸的點,要特別注意。身高與體重殘差圖異常點 錯誤數據 模型問題 幾點說明:幾點說明: 第一個樣本點和第第一個樣本點和第6個樣本點的殘差比較大,需要確認在采集過程中是否有人為個樣本點的殘差比較大,需要確認在采集過程中是否有

10、人為的錯誤。如果數據采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數的錯誤。如果數據采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數據;如果數據采集沒有錯誤,則需要尋找其他的原因。據;如果數據采集沒有錯誤,則需要尋找其他的原因。 另外,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型計較合適,這另外,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型計較合適,這樣的帶狀區域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。樣的帶狀區域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。思索:思索:如何刻畫預報變量體重的變化?這個變化在多大程度上如何刻畫預報變

11、量體重的變化?這個變化在多大程度上與解析變量身高有關?在多大程度上與隨機誤差有關?與解析變量身高有關?在多大程度上與隨機誤差有關? 那么,在這個總的效應總偏差平方和中,有多少來自于解析變量身高)?有多少來自于隨機誤差? 假設隨機誤差對體重沒有影響,也就是說,體重僅受身高的影響,那么散點圖中所有的點將完全落在回歸直線上。但是,在圖中,數據點并沒有完全落在回歸直線上。這些點散布在回歸直線附近,所以一定是隨機誤差把這些點從回歸直線上“推開了。在例在例1中,殘差平方和約為中,殘差平方和約為128.361。 因此,數據點和它在回歸直線上相應位置的差異 是隨機誤差的效應,稱 為殘差。)iiyy(iiiey

12、y=例如,編號為例如,編號為6的女大學生,計算隨機誤差的效應殘差為:的女大學生,計算隨機誤差的效應殘差為:61 (0.849 16585.712)6.627對每名女大學生計算這個差異,然后分別將所得的值平方后加起來,用數學符號對每名女大學生計算這個差異,然后分別將所得的值平方后加起來,用數學符號21()niiiyy稱為殘差平方和,它代表了隨機誤差的效應。稱為殘差平方和,它代表了隨機誤差的效應。表示為:表示為: 由于解析變量和隨機誤差的總效應總偏差平方和為354,而隨機誤差的效應為128.361,所以解析變量的效應為解析變量和隨機誤差的總效應總偏差平方和)解析變量和隨機誤差的總效應總偏差平方和)

13、 =解析變量的效應回歸平方和)解析變量的效應回歸平方和)+隨機誤差的效應殘差平方和)隨機誤差的效應殘差平方和)354-128.361=225.639 這個值稱為回歸平方和。這個值稱為回歸平方和。我們可以用我們可以用R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和。總偏差平方和2221121()()()nniiiiiniiyyyyRyy總偏差平方和殘差平方和回歸平方和總偏差平方和總偏差平方和顯然,顯然,R2的值越大,說明殘差平方和越小,也就是說模型擬的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。合效果越好。在線性

14、回歸模型中,在線性回歸模型中,R2表示解析變量對預報變量變化的貢獻率。表示解析變量對預報變量變化的貢獻率。 R2越接近越接近1,表示回歸的效果越好因為,表示回歸的效果越好因為R2越越接近接近1,表示解析變量和預報變量的線性相關性,表示解析變量和預報變量的線性相關性越強)。越強)。 如果某組數據可能采取幾種不同回歸方程進行回歸分析,則可以通過比較R2的值來做出選擇,即選取R2較大的模型作為這組數據的模型。總的來說:總的來說:R2是度量模型擬合效果的一種指標。是度量模型擬合效果的一種指標。在線性模型中,它代表自變量刻畫預報變量的能力。在線性模型中,它代表自變量刻畫預報變量的能力。1354總計0.3

15、6128.361殘差變量0.64225.639隨機誤差比例平方和來源 從表中可以看出,解析變量對總效應約貢獻了從表中可以看出,解析變量對總效應約貢獻了64%,即,即R20.64,可以敘述為可以敘述為“身高解析了身高解析了64%的體重變化的體重變化”,而隨機誤差貢獻了剩余的,而隨機誤差貢獻了剩余的36%。 所以,身高對體重的效應比隨機誤差的效應大得多。所以,身高對體重的效應比隨機誤差的效應大得多。用身高預報體重時,需要注意下列問題:用身高預報體重時,需要注意下列問題:1、回歸方程只適用于我們所研究的樣本的總體;、回歸方程只適用于我們所研究的樣本的總體;2、我們所建立的回歸方程一般都有時間性;、我

16、們所建立的回歸方程一般都有時間性;3、樣本采集的范圍會影響回歸方程的適用范圍;、樣本采集的范圍會影響回歸方程的適用范圍;4、不能期望回歸方程得到的預報值就是預報變量的精確值。、不能期望回歸方程得到的預報值就是預報變量的精確值。 事實上,它是預報變量的可能取值的平均值。事實上,它是預報變量的可能取值的平均值。這些問題也使用于其他問題。這些問題也使用于其他問題。涉及到統計的一些思想:涉及到統計的一些思想:模型適用的總體;模型適用的總體;模型的時間性;模型的時間性;樣本的取值范圍對模型的影響;樣本的取值范圍對模型的影響;模型預報結果的正確理解。模型預報結果的正確理解。一般地,建立回歸模型的基本步驟為

17、:一般地,建立回歸模型的基本步驟為:(1確定研究對象,明確哪個變量是解析變量,哪個變量是預報變量。確定研究對象,明確哪個變量是解析變量,哪個變量是預報變量。(2畫出確定好的解析變量和預報變量的散點圖,觀察它們之間的關系畫出確定好的解析變量和預報變量的散點圖,觀察它們之間的關系 (如是否存在線性關系等)。(如是否存在線性關系等)。(3由經驗確定回歸方程的類型如我們觀察到數據呈線性關系,則選用線性由經驗確定回歸方程的類型如我們觀察到數據呈線性關系,則選用線性 回歸方程回歸方程y=bx+a).(4按一定規則估計回歸方程中的參數如最小二乘法)。按一定規則估計回歸方程中的參數如最小二乘法)。(5得出結果

18、后分析殘差圖是否有異常個別數據對應殘差過大,或殘差呈現得出結果后分析殘差圖是否有異常個別數據對應殘差過大,或殘差呈現 不隨機的規律性,等等),過存在異常,則檢查數據是否有誤,或模型是不隨機的規律性,等等),過存在異常,則檢查數據是否有誤,或模型是 否合適等。否合適等。.,317.2之間的回歸方程與試建立中觀察數據列于表組現收集了有關和溫度一只紅鈴蟲的產卵數例xyxy31表325115662421117/y35322927252321C/0個個產產卵卵數數溫溫度度41 . 1圖溫度溫度產卵數產卵數.41 . 1據作散點圖根據收集的數解所以不能相關關系線性個變量不呈線因此兩帶狀區域內某個布在有分并

19、沒樣本點在散點圖中,.cc,ecy,.21xc12是待定參數和其中的周圍指數函數曲線某一條可以發現樣本點分布在根據已有的函數知識系立兩個變量之間的關建來直接利用線性回歸方程 .xy,.)cb,clna(abxz, ylnz.cc,2121了間的非線性回歸方程之和型來建立就可以利用線性回歸模這樣的周圍直線換后樣本點應該分布在則變令系變為線性關過對數變換把指數關系我們可以通和參數問題變為如何估計待定現在 .,abxy線線性性回回歸歸方方程程我我們們稱稱之之為為非非時時當當回回歸歸方方程程不不是是形形如如圖的樣本數據表的數據可以得到變換后由表, 4131.,51 . 1.4151 . 1用線性回歸方

20、程來擬合因此可以一條直線的附近變換后的樣本點分布在看出中可以從圖中數據的散點圖給出了表784.5745.4190.4178.3045.3398.2946.1z35322927252321x41表產卵數的對數溫度51 . 1圖.843. 3272. 041xz到線性回歸方程中的數據得由表回歸方程為數對溫度的非線性因此紅鈴蟲的產卵 6ey 843.3x272.01.,.,41 . 1,243423非線性回歸方程之間的與從而得到之間的線性回歸方程與立然后建即令變換因此可以對溫度變量做數為待定參和其中的附近次曲線中樣本點集中在某二可以認為圖另一方面xytyxtcccxcy.61 . 1,51是相應的散

21、點圖圖應的溫度的平方是紅鈴蟲的產卵數和對表325115662421117y12251024841729625529441t51表.,61 . 1423下面介紹具體方法到還可以通過殘差分析得這個結論之間的關系與來擬合二次曲線即不宜用合它回歸方程來擬此不宜用線性因直線的周圍不分布在一條的散點圖并與可以看出中從圖xycxcyty溫度的平方數卵產61 . 1圖中用線性回歸模型擬合表的二次回歸方程關于下面建立的指數回歸方程關于前面已經建立了方程歸需要建立兩個相應的回殘差為比較兩個不同模型的51.,.,xyxy 7.54.202x367.0y xy,54.202t367.0y ty,222的二次回歸方程為關于即的線性回歸方程關于得到的數據 的殘差計算公式分別為和則回歸方程列的數據行第第表示表用的擬合效果和個回歸方程可以通過殘差來比較兩76,1151.76ixi ; 7 , 2 , 1i ,eyy ye 843.3x272.0i1ii1i .7 , 2 , 1i ,54.202x367.0yy ye 2ii2ii2i .76,76.61的擬合效果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論