




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 第 七 章 相關與回歸分析第一節 相關分析第二節 一元線性回歸分析第三節 線性回歸的顯著性檢驗與 回歸預測第四節 多元線性回歸分析第 一 節相 關 分 析一、函數關系與相關關系 變量之間的依存關系是嚴格的,它們的關系是固定不變的,對于某一種變量的取值,另一變量都有一完全確定的值與之相對應;這種關系,我們稱之為函數關系。 確定性的函數關系 Y = f(X) 在這種關系中,變量之間的關系值是隨機的,當一個(或幾個)變量的值確定以后,另一變量的值雖然與它(們)有關,但卻不能完全確定。然而,它們之間又遵循一定的統計規律。不確定性的統計關系 相關關系 Y= f(X)+ (為隨機變量) 相關關系的例子商
2、品的消費量(y)與居民收入(x) 之間的關系商品銷售額(y)與廣告費支出(x) 之間的關系糧食畝產量(y)與施肥量(x1) 、降雨量(x2) 、溫度(x3)之間的關系收入水平(y)與受教育程度(x)之間的關系父親身高(y)與子女身高(x)之間的關系二、相關關系的種類1、按相關的方向分為正相關和負相關 若相關關系表現為因變量與自變量的數量變動方向一致,稱為正相關(positive association);反之,如果相關關系表現為因變量與自變量的數量變動方向相反,就稱為負相關(negative association) 。2、按研究變量多少分為單相關和復相關 單相關即一元相關,亦稱簡單相關,是指
3、一個因變量與一個自變量之間的依存關系。復相關又稱多元相關,是指一個因變量與兩個或兩個以上自變量之間的復雜依存關系。3、按相關形式分為線性相關和非線性相關 從相關圖上觀察:觀察的樣本點的分布近似表現為直線形式,即觀察點近似地分布于一直線的兩邊,則稱此種相關為直線相關或線性相關。如果這些樣本點近似地表現為一條曲線,則稱這種相關為曲線相關或非線性相關(curved relationship). 4、按相關性質可分為真實相關和虛假相關相關關系的圖示不相關負線性相關正線性相關非線性相關完全負線性相關完全正線性相關三、相關分析與回歸分析回歸的古典意義: 高爾頓遺傳學的回歸概念 父母身高與子女身高的關系:
4、無論高個子或低個子的子 女都有向人的平均身高回 歸的趨勢回歸的來由 “回歸”這個術語是英國著名統計學家Francis Galton 在19 世紀末期研究孩子及他們的父母的身高時提出來的。Galton 發現身材高的父母,他們的孩子較高。但是這些孩子平均起來并不象他們的父母那樣高。對于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。正是因為子代的身高有回到父輩平均身高的這種趨勢,才使人類的身高在一定時間內相對穩定,沒有出現父輩個子高其子女更高,父輩個子矮其子女更矮的兩極分化現象。 這個規律解決了為何天才無法全部遺傳給其后代的問題. 這個規律是公正的:無論好
5、的方面還是壞的方面的遺傳都會打相同的折扣。如果它使一些有天賦的父母期待其子女也很有天賦的愿望化為泡影,那么它同樣也會使另一些父母減少擔心,因為他們的子女同樣也不會全部繼承他們的缺陷和疾病。 正是為了描述這種有趣的現象,F.Galton 引進了“回歸(regression)”這個詞來描述父輩身高X 與子代身高Y 的關系,他發展的研究兩個數值變量的方法稱為回歸分析 回歸的現代意義一個因變量對若干解釋變量依存關系的研究 回歸的目的(實質): 由固定的自變量去估計因變量的平均值樣本總體自變量固定值估計因變量平均值什么是回歸分析?從一組樣本數據出發,確定變量之間的數學關系式對這些關系式的可信程度進行各種
6、統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關系式,根據一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度(一)回歸分析與相關分析的關系 回歸分析與相關分析是研究現象之間相互關系的兩種基本方法。區別: 1、相關分析研究兩個變量之間相關的方向和相關的密切程度。但是相關分析不能指出兩變量相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化關系。 回歸方程則是通過一定的數學方程來反映變量之間相互關系的具體形式,以便從一個已知量來推測另一個未知量。為估算預測提供一個重要的方法。 2、相關分析不必確定兩變量中誰是自變
7、量,誰是因變量。而回歸分析是研究兩變量具有因果關系的數學形式,因此回歸分析必須事先確定變量中自變量與因變量的地位。 3、計算相關系數的兩變量是對等的,可以都是隨機變量,各自接受隨機因素的影響,改變兩變量的地位并不影響相關系數的數值。 在回歸分析中因變量是隨機的,自變量是可控制的解釋變量,不是隨機變量。因此回歸分析只能用自變量來估計因變量,而不允許由因變量來推測自變量。 聯系: 1、回歸和相關都是研究兩個變量相互關系的分析方法。回歸分析和相關分析是互相補充、密切聯系的。 2、相關分析需要回歸分析來表明現象數量相關的具體形式,而回歸分析則應該建立在相關分析的基礎上,依靠相關分析表明現象的數量變化具
8、有密切相關,進行回歸分析求其相關的具體形式才有意義。在相關程度很低的情況下,回歸函數的表達式代表性就很差(二)相關表與相關圖 相關表:將某一變量按其取值大小排列,將與其相關的另一變量的對應值平行排列而成的統計表。 相關圖(散點圖scatterplot):將兩個變量間相對應的變量值用坐標點的形式描繪出來,用來反映兩變量間相關關系的圖形。編號銷售額利潤額1239235153473046530587456953571105081327691506010176801118010012195110(三)相關與回歸分析的主要內容 1、確定現象間有無關系存在,若有關系,計算其相關程度,并進行檢驗 2、確定相
9、關關系的表現形式及其技術模型 3、判斷因變量一般值的代表 4、顯著性檢驗 5、回歸預測第 二 節簡單線性相關與回歸分析一、簡單線性相關系數及檢驗二、總體回歸函數與樣本回歸函數三、回歸系數的估計四、簡單線性回歸模型的檢驗 五、簡單線性回歸模型預測 一、簡單線性相關系數及檢驗 總體相關系數(參數) 對于所研究的總體,表示兩個相互聯系變量相關程度 的總體相關系數為: 總體相關系數反映總體兩個變量X和Y的線性相關程度。 特點:對于特定的總體來說,X和Y的數值是既定的 總體相關系數是客觀存在的特定數值。 (一)相關系數(correlation)的定義 一般用 表示總體相關系數,用r 表示樣本相關系數。樣
10、本相關系數是用協方差進行定義與計算的,其公式如下: 實際計算時,相關系數r也可采用下列等價公式計算:相關系數具有如下性質: (1)當 =1時,x與y完全線性相關,y與x之間存在著確定的函數關系。 (2)當 時,表示y與x之間存在著一定的線性相關關系。 的數值愈大,愈接近于1時,表示y與x之間的線性相關程度愈高;反之, 的數值愈小,愈接近于0時,表示y與x之間的線性相關的程度愈低。 通常,判斷的標準是: ,稱為微弱相關; ,稱為低度相關; ,稱為顯著相關; ,稱為高度相關。 (3)當r=0時,表示y與x之間沒有直接的線性相關關系,即y與x的變化無關。 (4)從定性上講,r0表示y與x為正相關,即
11、兩者變化方向相同;r0表示y與x之間是負相關,兩者變化方向相反。使用相關系數的注意事項:X和Y 都是相互對稱的隨機變量,所以相關系數只反映變量間的線性相關程度,不 能說明非線性相關關系。相關系數不能確定變量的因果關系,也不能 說明相關關系具體接近于哪條直線。 例題1: 經驗表明:商場利潤額與其銷售額之間存在相關關系。下表為某市12家百貨公司的銷售額與利潤額統計表,試計算其相關系數。編號銷售額利潤額1239235153473046530587456953571105081327691506010176801118010012195110銷售額x利潤額y xy2392075298135155251
12、2252254730141022099006530195042259008745391575692025953533259025122511050550012100250013276100321742457761506090002250036001768014080309766400180100180003240010000195110214503802512100合計12956408939417820745732 練習1: 家庭儲蓄與家庭收入之間有一定關系。現從某城市家庭中抽取12個家庭,所得月收入與月儲蓄的樣本數據如下表:計算其相關系數。家庭編號月收入(百元)月儲蓄(百元)19321353
13、1544176518762697228820792310102811113010123312xyxy9327819135651692515460225161761022893618712632449269234676812281764846420714040049231023052910028113087841213010300900100331239610891442549221645950794 在研究我國人均消費水平的問題中,把全國人均消費額記為y,把人均國民收入記為x。我們收集到19811993年的樣本數據(xi ,yi),i =1,2,,13,數據見表,計算相關系數。練習2: 我國人
14、均國民收入與人均消費金額數據 單位:元年份人均國民收入人均消費金額年份人均國民收入人均消費金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148 解:根據樣本相關系數的計算公式有 故:人均國民收入與人均消費金額之間的相關系數為 0.99891.檢驗兩個變量之間是否存在線性相關關系2. 采用 t 檢驗3. 檢驗的
15、步驟為提出假設:H0: ;H1: 0 計算檢驗的統計量: 確定顯著性水平,并作出決策 若tt,拒絕H0 若tt(13-2)=2.201,拒絕H0,人均消費金額與人均國民收入之間的相關關系顯著 思考: 若相關系數通過顯著性檢驗,且數值很大,意味著兩變量之間的關系很強,從散點圖和趨勢線看,希望找到一條直線近似代替二者之間的關系,于是引入回歸方程(模型)回歸模型的類型:一個自變量兩個及兩個以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸二、標準的一元線性回歸模型 ( 簡單線性回歸模型)(一)總體回歸函數: 是回歸系數是隨機誤差項總體回歸直線:若假定:(二)樣本回歸函數 根據樣本
16、數據擬合的直線,稱為樣本回歸直線: 樣本回歸函數: 稱為殘差(residual) 三、回歸系數的估計回歸系數估計的思想:為什么只能對未知參數作估計? 參數是未知的、不可直接觀測的、不能精確計算 的,能夠得到的只是變量的樣本觀測值結論:只能通過變量樣本觀測值選擇適當方法去近似 地估計回歸系數。前提: u是隨機變量其分布性質不確定,必須作某些 假定,其估計才有良好性質,其檢驗才可進行。原則: 使參數估計值“盡可能地接近”總體參數真實值(一)簡單線性回歸的基本假定:假定1:零均值假定。假定2:同方差假定。假定3:無自相關假定。 假定4:隨機擾動 與自變量 不相關。假定5:正態性假定 (二)回歸系數的
17、估計 (最小平方法)(least-squares regression estimation) 通常采用殘差平方和作為衡量總偏差的尺度。樣本回歸方程:通常我們使用最小二乘法估計,即使殘差平方和:達到最小!樣本回歸模型:最小二乘法(圖示)xy(xn , yn)(x1 , y1)(x2 , y2)(xi , yi)ei = yi-yi使Q值最小,只需對上式的 求偏導數,并令其為零解上式(1),得到參數的估計值: 根據練習2中的數據,配合人均消費金額對人均國民收入的回歸方程根據 和 的求解公式得:樣本回歸方程: 人均消費金額對人均國民收入的回歸方程為:y = 54.22289+ 0.52638 x
18、例題2: 經驗表明,商場利潤額與其銷售額之間存在相關關系。下表為某市12家百貨公司的銷售額與利潤額統計表,試以銷售額為自變量,利潤額為因變量建立直線回歸模型。編號銷售額利潤額1239235153473046530587456953571105081327691506010176801118010012195110合計1295640 所求回歸直線方程為: 回歸直線方程表明,百貨公司的銷售額為零時,利潤額為-0.371萬元;百貨公司的銷售額每增加1萬元,利潤額就增加0.5286萬元. 練習1: 家庭儲蓄與家庭收入之間有一定關系。現從某城市家庭中抽取12個家庭,所得月收入與月儲蓄的樣本數據如下表:
19、擬合居民家庭月儲蓄與家庭月收入的直線方程,并解釋回歸系數的意義。家庭編號月收入(百元)月儲蓄(百元)193213531544176518762697228820792310102811113010123312 x y xy9327811356516915460225176102289187126324269234676228176484207140400231023052928113087843010300900331239610892549221645950合計 其回歸系數的意義為家庭月收入為零時,家庭月儲蓄將減少0.328百元;家庭月收入每增加1百元,居民家庭月儲蓄就增加0.3777百元。 檢驗包括:擬合優度的檢驗回歸方程是否顯著(是否有效) 回歸系數是否顯著(是否有效) 四、線性回歸模型的檢驗(一)擬合程度的檢驗:先對離差平方和的進行分解 計算可決系數(判定系數)-用以測定擬合程度離差平方和分解圖示:xyy離差分解圖離差平方和的分解:總變差平方和:可以分解為: TSS=RSS+ESS回歸平方和:殘差平方和:三個平方和的意義 總平方和(TSS)反映因變量的 n 個觀察值與其均值的總離差 回歸平方和(RSS)反映自變量 x 的變化對因變量 y 取值變化的影響,或者說,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公開課怎么講數學試卷
- 心肌梗賽培訓課件
- 廣東8年級下冊數學試卷
- 高中二輪復習數學試卷
- 離職訪談培訓課件模板
- 東海縣新高一數學試卷
- 德州初中中考數學試卷
- 高職高考15年數學試卷
- 肉毒素課件論文范文
- 2025年04月浙江縉云縣衛生健康系統引進高層次人才和緊缺人才人員筆試歷年專業考點(難、易錯點)附帶答案詳解
- 車工考評員培訓課件
- 站姿走姿坐姿禮儀培訓
- 小規模稅務視頻教學課件
- 苗木種植專項方案(3篇)
- 監督檢查酒店管理制度
- 河南省鄭州市鞏義市2023-2024學年六年級下學期科學6月期末試卷(含答案)
- 業務外包費用管理制度
- 痛風的康復護理課件
- 2024年山西特崗教師招聘筆試真題
- 【英語 北京版】2025年普通高等學校招生選擇性考試含答案
- 黑龍江省哈爾濱市第九中學校2024-2025學年高一下學期6月月考化學試題(含答案)
評論
0/150
提交評論