




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選文檔一、什么是回歸分析回歸分析(Regression Analysis)是研究變量之間作用關系的一種統計分析方法,其基本組成是一個(或一組)自變量與一個(或一組)因變量。回歸分析研究的目的是通過收集到的樣本數據用一定的統計方法探討自變量對因變量的影響關系,即原因對結果的影響程度。回歸分析是指對具有高度相關關系的現象,根據其相關的形態,建立一個適當的數學模型(函數式),來近似地反映變量之間關系的統計分析方法。利用這種方法建立的數學模型稱為回歸方程,它實際上是相關現象之間不確定、不規則的數量關系的一般化。二、回歸分析的種類1.按涉及自變量的多少,可分為一元回歸分析和多元回歸分析一元回歸分析是對
2、一個因變量和一個自變量建立回歸方程。多元回歸分析是對一個因變量和兩個或兩個以上的自變量建立回歸方程。2.按回歸方程的表現形式不同,可分為線性回歸分析和非線性回歸分析若變量之間是線性相關關系,可通過建立直線方程來反映,這種分析叫線性回歸分析。若變量之間是非線性相關關系,可通過建立非線性回歸方程來反映,這種分析叫非線性回歸分析。三、回歸分析的主要內容1.建立相關關系的數學表達式。依據現象之間的相關形態,建立適當的數學模型,通過數學模型來反映現象之間的相關關系,從數量上近似地反映變量之間變動的一般規律。2.依據回歸方程進行回歸預測。由于回歸方程反映了變量之間的一般性關系,因此當自變量發生變化時,可依
3、據回歸方程估計出因變量可能發生相應變化的數值。因變量的回歸估計值,雖然不是一個必然的對應值(他可能和系統真值存在比較大的差距),但至少可以從一般性角度或平均意義角度反映因變量可能發生的數量變化。3.計算估計標準誤差。通過估計標準誤差這一指標,可以分析回歸估計值與實際值之間的差異程度以及估計值的準確性和代表性,還可利用估計標準誤差對因變量估計值進行在一定把握程度條件下的區間估計。四、一元線性回歸分析1.一元線性回歸分析的特點 1)兩個變量不是對等關系,必須明確自變量和因變量。 2)如果x和 y兩個變量無明顯因果關系,則存在著兩個回歸方程:一個是以x為自變量,y為因變量建立的回歸方程;另一個是以y
4、為自變量,x為因變量建立的回歸方程。若繪出圖形,則是兩條斜率不同的回歸直線。3)直線回歸方程中,回歸系數b可以是正值,也可以是負值。若 0 b > ,表示直線上升,說明兩個變量同方向變動;若 0 b < ,表示直線下降,說明兩個變量是反方向變動。2.建立一元線性回歸方程的條件任何一種數學模型的運用都是有前提條件的, 配合一元線性回歸方程應具備以下兩個條件:1)兩個變量之間必須存在高度相關的關系。兩個變量之間只有存在著高度相關的關系,回歸方程才有實際意義。2)兩個變量之間確實呈現直線相關關系。兩個變量之間只有存在直線相關關系,才能配合直線回歸方程。3.建立一元線性回歸方程的方法一元線
5、性回歸方程是用于分析兩個變量(一個因變量和一個自變量)線性關系的數學表達式,一般形式為:yc=a+bx式中:x代表自變量; yc代表因變量y的估計值(又稱理論值);ab為回歸方程參數。其中,a是直線在y軸上的截距,它表示當自變量x等于 0 時,因變量所達到的數值;b是直線的斜率,在回歸方程中亦稱為回歸系數,它表示當自變量x每變動一個單位時,因變量y平均變動的數值。一元線性回歸方程應根據最小二乘法原理建立,因為只有用最小二乘法原理建立的回歸方程才可以同時滿足兩個條件:1)因變量的實際值與回歸估計值的離差之和為零;2)因變量的實際值與回歸估計值的離差平方和為最小值。 只有滿足這兩個條件,建立的直線
6、方程的誤差才能最小,其代表性才能最強。現在令要建立的一元線性回歸方程的標準形式為yc=a+bx,依據最小二乘法原理,因變量實際值y與估計值yc的離差平方和為最小值,即Q=(y-yc)2取得最小值。為使Q=(y-yc)2=最小值 根據微積分中求極值的原理,需分別對a,b求偏導數,并令其為0,經過整理,可得到如下方程組:y=an+bxxy=ax+bx2解此方程組,可求得a,b兩個參數4. 計算估計標準誤差回歸方程只反映變量x和y之間大致的、平均的變化關系。因此,對每一個給定的x值,回歸方程的估計值yc與因變量的實際觀察值y之間總會有一定的離差,即估計標準誤差。估計標準誤差是因變量實際觀察值 y與估
7、計值yc離差平方和的平均數的平方根,它反映因變量實際值y與回歸直線上各相應理論值yc之間離散程度的統計分析指標。估計標準誤差:式中:sy估計標準誤差;y因變量實際觀察值;yc因變量估計值;n-2自由度如何描述兩個變量之間線性相關關系的強弱?利用相關系數r來衡量當r>0時,表示x與y為正相關; 當r<0時,表示x與y為負相關。5.殘差分析與殘差圖: 殘差是指觀測值與預測值(擬合值)之間的差,即是實際觀察值與回歸估計值的差在研究兩個變量間的關系時,a) 要根據散點圖來粗略判斷它們是否線性相關; b) 判斷是否可以用回歸模型來擬合數據; c) 可以通過殘差來判斷模型擬合的效果,判斷原始數
8、據中是否存在可疑數據,這方面的分析工作就稱為殘差分析。6.殘差圖的制作及作用。坐標縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘差圖中的點應該分布在以橫軸為心的帶狀區域,帶狀區域的寬度越窄精度越高。對于遠離橫軸的點,要特別注意。7.幾點注解: 第一個樣本點和第 6 個樣本點的殘差比較大, 需要確認在采集過程中是否有人為的錯誤。如果數據采集有錯誤,就應該予以糾正,然后再重新利用線性回歸模型擬合數據;如果數據采集沒有錯誤,則需要尋找其他的原因。另外,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型計較合適,這樣的帶狀區域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。還可
9、以用判定系數r2來刻畫回歸的效果,該指標測度了回歸直線對觀測數據的擬合程度,其計算公式是:其中:SSR -回歸平方和; SSE -殘差平方和; Sst=ssr+sse總離差平方和。由公式知,R(相關指數)的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。在含有一個解釋變量的線性模型中r2恰好等于相關系數r的平方,即R2=r2在線性回歸模型中,R2表示解釋變量對預報變量變化的貢獻率。R2越接近1,表示回歸的效果越好(因為R2越接近1,表示解釋變量和預報變量的線性相關性越強)。如果某組數據可能采取幾種不同回歸方程進行回歸分析,則可以通過比較R2的值來做出選擇,即選取R2較大的模型作為這組數據
10、的模型。總的來說:相關指數R2是度量模型擬合效果的一種指標。在線性模型中,它代表自變量刻畫預報變量的能力。五、多元線性回歸分析在一元線性回歸分析中,因變量y只受某一個因素的影響,即只由一個自變量x來估計。但對于復雜的自然界中的問題,影響因素往往很多,在這種情況下,因變量y要用多個自變量同時進行估計。例如,某種產品的總成本不僅受原材料價格的影響,而且也與產品產量、管理水平等因素有關;農作物產量的髙低受品種、氣候、施肥量等多個因素的影響。描述因變量與兩個或兩個以上自變量之間的數量關系的回歸分析方法稱為多元線性回歸分析。它是一元線性回歸分析的推廣,其分析過程相對復雜一些,但基本原理與一元線性回歸分析
11、類似。多元線性回歸方程的一般表達式為:為便于分析,當自變量較多時可選用兩個主要的自變量x1和x2。其線性回歸方程標準式為:其中:yc為二元回歸估計值;a為常數項;b1和b2分別為y對x1和x2的回歸系數,b1表示當自變量x2為一定時,由于自變量x1變化一個單位而使y平均變動的數值,b2表示當自變量x1為一定時,由于自變量x2變化一個單位而使y平均變動的數值,因此,b1和b2稱為偏回歸系數。要建立二元回歸方程,關鍵問題是求出參數a,b1和b2的值,求解方法仍用最小二乘法,即分別對a,b1和b2求偏導數,并令函數的一階導數等于零,可得如下方程組:(二)在回歸分析中,通常稱自變量為回歸因子,一般用表
12、示,而稱因變量為指標,一般用表示。預測公式:,稱之為回歸方程。回歸模型,按照各種原則可以分為各種模型:1. 當n =1 時,稱為一元(單因子)回歸;當n 2時,稱為多元(多因子)回歸。 2. 當 f 為線性函數時,稱為線性回歸;當 f 為非線性函數時,稱為非線性(曲線)回歸。最小二乘準則: 假設待定的擬合函數為,另據m個數據點,相當于求解以下規劃問題:即使得總離差平方和最小。具體在線性擬合的過程中,假設擬合函數為y=a+bx,a與b為待定系數,已知有m個數據點,分別為,應用最小二乘法,就是要使:達到最小值。把S 看成自變量為a和b的連續函數,則根據連續函數達到及致電的必要條件,于是得到:因此,
13、當S 取得最小值時,有:可得方程組為:稱這個方程組為正規方程組,解這個二元一次方程組,得到:如果把已有數據描繪成散點圖,而且從散點圖中可以看出,各個數據點大致分布在一條直線附近,不妨設他們滿足線性方程:其中,x為自變量,y為因變量,a與b為待定系數;成為誤差項或者擾動項。這里要對數據點做線性回歸分析,從而a和b就是待定的回歸系數,為隨機誤差。不妨設得到的線性擬合曲線為: 這就是要分析的線性回歸方程。一般情況下,得到這個方程以后,主要是描繪出回歸曲線,并且觀測擬合效果和計算一些誤差分析指標,例如最大點誤差、總方差和標準差等。這里最缺乏的就是一個統一的評價系統,以下說明從概率角度確立的關于線性回歸
14、的一套評價系統。在實際的線性回歸分析中, 除了估計出線性回歸系數a和b, 還要計算y和x的相關程度,即相關性檢驗。相關性檢驗主要通過計算相關系數來分析,相關系數的計算公式為:其中n為數據點的個數,為原始數據點,r的值能夠很好地反映出線性相關程度的高低,一般來說,存在以下一些標準:1. 當 r 1 或者 r 1時,表示 y與x高度線性相關,于是由原始數據描繪出的散點圖中所有數據點都分布在一條直線的附近,分別稱為正相關和負相關; 2. 當 r 0 時,表示 y與x不相關,由原始數據描繪出的散點圖的數據點一般呈無規律的特點四散分布;3. 當1<r < 0或者0<r<1 時,y
15、與x的相關程度介于1與2之間; 4. 如果r 1,則y與x線性相關程度越高;反之,如果r 0 ,則y與x線性相關程度越低。實際計算r值的過程中,長列表計算,即:在實際問題中,一般要保證回歸方程有最低程度的線性相關。因為許多實際問題中,兩個變量之間并非線性的相關關系,或者說線性相關程度不高,此時硬給他建立線性回歸方程,顯然沒有太大意義,也沒有什么實用價值。一般來說,把這個最低限度的值記為臨界值,稱之為相關性檢驗標準。因此,如果計算出r的值,并且滿足,則符合相關性要求,線性回歸方程作用顯著。反之,如果,則線性回歸方程作用不顯著,就盡量不要采用線性回歸方程。臨界值的數值表如下:其中,自由度可以由原始
16、數據點的個數減去相應的回歸方程的變量個數,例如線性回歸方程中有兩個變量,而數據點的個數為n個,則自由度為n 2.自由度一般記為 f ,但不要與一般的函數發生混淆。顯著性水平一般取為 0.01,0.02,0.05等,利用它可以計算y與x之間相關關系的可信程度或者稱為置信水平,計算公式為: (這里取顯著性水平為 =0.05 ) 現在介紹置信區間的問題,由于實際誤差的存在,由線性擬合得到的計算值跟實際值之間必然存在一定的差距,其差值就是計算誤差。假設原始數據點為,計算得到的數據點為,再給定附近的一個區間:則實際值yi可能落在這個區間內,也可能落在這個區間外。如果所有的這些區間(以為中心,長度為)包含
17、實際值的個數占總數的比例達到95%或者以上,則稱這些區間的置信水平不少于95%根據以上的分析,可以知道置信區間的概念,如果確定了置信水平為95%,從而可以找到相應的最小的t值,使得 95%以上的實際值落在區間內, 則稱為預測值滿足置信水平95%的置信區間。一般情況下,如果不做特別說明,置信區間的相應置信水平默認為95%,置信區間反映了回歸方程的適用范圍和精確度,特別的,當所有離散數據分布在回歸曲線的附件,大致呈現為正態分布時,置信區間為:其中S 為該回歸模型的標準差,計算公式為: 或者為: 那么,如果回歸方程為 y=a+bx,則有兩條控制直線分別為和,他們代表了置信區間的上限和下限,如下圖所示: 那么,可以預料實際的數據點幾乎全部(至少95%)落在上圖兩條虛線所夾的區域內。這里對回歸方程的應
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 跨文化團隊管理方案計劃
- 品牌跨界合作的成功案例分析計劃
- 城市交通設施設計重點基礎知識點
- 年度獎懲機制的合理設定計劃
- 未來計算技術考試考題及答案解析
- 2024年珠海市第三人民醫院招聘筆試真題
- 2024年青海省廣播電視局下屬事業單位真題
- 2024年內江市市中區事業單位招聘工作人員真題
- 2024年西林縣交通運輸局招聘筆試真題
- 2024年西安市雁塔區第四小學招聘筆試真題
- 中國的耕地與糧食安全課件高二下學期地理魯教版(2019)選擇性必修3
- 完形填空15篇(答案解析)-2025年中考英語分類專練(深圳專用)
- 2025年服裝進貨合同范本下載8篇
- 2025年事業單位e類考試真題及答案
- 2024年江蘇省寶應縣事業單位公開招聘緊缺人才37名筆試題帶答案
- 《急性冠狀動脈綜合征》課件
- 武漢市2025屆高中畢業生四月調研考試 試卷與解析
- 2025北京各區高三一模數學分類匯編解析 答案
- 第18課《井岡翠竹》 課件
- (四調)武漢市2025屆高中畢業生四月調研考試 英語試卷
- 廣西壯族自治區2025年4月高三畢業班診斷學考試英語試卷(廣西三模)
評論
0/150
提交評論