




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統計學基礎 第八章 相關與回歸分析【教學目的】1.掌握相關系數的測定和性質2.明確相關分析與回歸分析的特點3.建立回歸直線方程,掌握估計標準誤差的計算【教學重點】1.相關關系、相關分析和回歸分析的概念2.相關系數計算3.回歸方程的建立和依此進行估計和預測【教學難點】1.相關分析和回歸分析的區別2.相關系數的計算3.回歸系數的計算4.估計標準誤的計算【教學時數】教學學時為8課時【教學內容參考】第一節 相關關系一、相關關系的含義宇宙中任何現象都不是孤立地存在的,而是普遍聯系和相互制約的。這種現象間的相互聯系、相互制約的關系即為相關關系。相關關系因其依存程度的不同而表現出相關程度的差別。有些現象間存
2、在著嚴格的數據依存關系,比如,在價格不變的條件下銷售額量之間的關系,圓的面積與半徑之間的關系等等,均具有顯著的一一對應關系。這些關系可由數學中的函數關系來確切的描述,因而也可以認為是一種完全相關關系。有些現象間的依存關系則沒有那么嚴格。當一種現象的數量發生變化時,另一種現象的數量卻在一定的范圍內發生變化,比如身高與體重的關系就是如此。一般來說,身高越高,體重越重,但二者之間的關系并非嚴格意義上的對應關系,身高1.75米的人,對應的體重會有多個數值,因為影響體重的因素不只身高而已,它還會受遺傳、飲食習慣等因素的制約和影響。社會經濟現象中大多存在這種非確定的相關關系。在統計學中,這些在社會經濟現象
3、之間普遍存在的數量依存關系,都成為相關關系。在本章,我們主要介紹那些能用函數關系來描述的具有經濟統計意義的相關關系。二、相關關系的特點1.現象之間確實存在數量上的依存關系 如果一個現象發生數量上的變化,則另一個現象也會發生數量上的變化。在相互依存的兩個變量中,可以根據研究目的,把其中的一個變量確定為自變量,把另一個對應變量確定為因變量。例如,把身高作為自變量,則體重就是因變量。2.現象之間數量上的關系是不確定的相關關系的全稱是統計相關關系,它屬于變量之間的一種不完全確定的關系。這意味著一個變量雖然受另一個(或一組)變量的影響,卻并不由這一個(或一組)變量完全確定。例如,前面提到的身高和體重之間
4、的關系就是這樣一種關系。三、相關關系的種類 現象之間的相互關系很復雜,它們涉及的變動因素多少不同,作用方向不同,表現出來的形態也不同。相關關系大體有以下幾種分類: (一)正相關與負相關按相關關系的方向分,可分為正相關和負相關。當兩個因素(或變量)的變動方向相同時,即自變量值增加(或減少),因變量值也相應地增加(或減少),這樣的關系就是正相關。如家庭消費支出隨收入增加而增加就屬于正相關。如果兩個因素(或變量)變動的方向相反,即自變量值增大(或減小),因變量值隨之減小(或增大),則稱為負相關。如商品流通費用率隨商品經營的規模增大而逐漸降低就屬于負相關。 (二)單相關與復相關 按自變量的多少分,可分
5、為單相關和復相關。單相關是指兩個變量之間的相關關系,即所研究的問題只涉及到一個自變量和一個因變量,如職工的生活水平與工資之間的關系就是單相關。復相關是指三個或三個以上變量之間的相關關系,即所研究的問題涉及到若干個自變量與一個因變量,如同時研究成本、市場供求狀況、消費傾向對利潤的影響時,這幾個因素之間的關系是復相關。 (三)線性相關與非線性相關按相關關系的表現形態分,可分為線性相關與非線性相關。線性相關是指在兩個變量之間,當自變量值發生變動時,因變量值發生大致均等的變動,在相關圖的分布上,近似地表現為直線形式。比如,商品銷售額與銷售量即為線性相關。非線性相關是指在兩個變量之間,當自變量值發生變動
6、時,因變量值發生不均等的變動,在相關圖的分布上,表現為拋物線、雙曲線、指數曲線等非直線形式。比如,從人的生命全過程來看,年齡與醫療費支出呈非線性相關。 (四)完全相關、不完全相關與不相關按相關程度分,可分為完全相關、不完全相關和不相關。完全相關是指兩個變量之間具有完全確定的關系,即因變量值完全隨自變量值的變動而變動,它在相關圖上表現為所有的觀察點都落在同一條直線上,這時,相關關系就轉化為函數關系。不相關是指兩個變量之間不存在相關關系,即兩個變量變動彼此互不影響。自變量值變動時,因變量值不隨之作相應變動。比如,家庭收入多少與孩子多少之間不存在相關關系。不完全相關是指介于完全相關和不相關之間的一種
7、相關關系。比如,農作物產量與播種面積之間的關系。不完全相關關系是統計研究的主要對象。 第二節 相關分析一、相關分析的主要內容相關分析是指對客觀現象的相互依存關系進行分析、研究,這種分析方法叫相關分析法。相關分析的目的在于研究相互關系的密切程度及其變化規律,以便作出判斷,進行必要的預測和控制。相關分析的主要內容包括:(一)確定現象之間有無相關關系這是相關與回歸分析的起點,只有存在相互依存關系,才有必要進行進一步的分析。(二)確定相關關系的密切程度和方向確定相關關系密切程度主要是通過繪制相關圖表和計算相關系數。只有對達到一定密切程度的相關關系,才可配合具有一定意義的回歸方程。(三)確定相關關系的數
8、學表達式為確定現象之間變化上的一般關系,我們必須使用函數關系的數學公式作為相關關系的數學表達式。如果現象之間表現為直線相關,我們可采用配合直線方程的方法;如果現象之間表現為曲線相關,我們可采用配合曲線方程的方法。(四)確定因變量估計值誤差程度使用配合直線或曲線的方法可以找到現象之間一般的變化關系,也就是自變量變化時,因變量將會發生多大的變化。根據得出的直線方程或曲線方程我們可以給出自變量的若干數值,球的因變量的若干個估計值。估計值與實際值是有出入的,確定因變量估計值誤差大小的指標是估計標準誤差。估計標準誤差大,表明估計不太精確;估計標準誤差小,表明估計較精確。二、相關關系的測定 相關分析的主要
9、方法有相關表、相關圖和相關系數三種。現將這三種方法分述如下:(一)相關表在統計中,制作相關表或相關圖,可以直觀地判斷現象之間大致存在的相關關系的方向、形式和密切程度。在對現象總體中兩種相關變量作相關分析,以研究其相互依存關系時,如果將實際調查取得的一系列成對變量值的資料順序地排列在一張表格上,這張表格就是相關表。相關表仍然是統計表的一種。根據資料是否分組,相關表可以分為簡單相關表和分組相關表。1.簡單相關表簡單相關表是資料未經分組的相關表,它是把自變量按從小到大的順序并配合因變量一一對應平行排列起來的統計表。【案例】為研究分析產量()與單位產品成本()之間的關系,從30個同類型企業調查得到的原
10、始資料并將產量按從小到大的順序排列,可編制簡單相關表,結果見表8-2所示。表8-2 產量和單位產品成本原始資料產量(件)202020202020202020303030303040單位產品成本(元)151616161618181818151516161614產量(件)404040405050505050506060606060單位產品成本(元)151515161414151515161414141415從表8-2中可以看出,隨著產量的提高,單位產品成本卻有相應降低的趨勢,盡管在同樣產量的情況下,單位產品成本存在差異,但是兩者之間仍然存在一定的依存關系。2.分組相關表在大量觀察的情況下,原始資料
11、很多,運用簡單相關表表示就很難使用。這時就要將原始資料進行分組,然后編制相關表,這種相關表稱為分組相關表。分組相關表包括單變量分組相關表和雙變量分組相關表兩種。(1)單變量分組表。在原始資料很多時,對自變量數值進行分組,而對應的因變量不分組,只計算其平均值,根據資料具體情況,自變量可以是單項式,也可以是組距式。【案例】以上例原始資料為例,將同類型30個企業的產量()與單位產品成本()原始資料,按產量分組編制單變量分組表,結果見表8-3。表8-3 產量和單位產品成本簡單相關表產量 (件)企業數 (個)單位產品成本 (元)20916.830515.640515.050614.860514.2從表8
12、-3中可以較明顯地看出二者之間存在正相關關系。(2)雙變量分組表。對兩種有關變量都進行分組,交叉排列,并列出兩種變量各組間的共同次數,這種統計表稱為雙變量分組相關表。這種表格形似棋盤,故又稱棋盤式相關表。 【案例】 仍以原始資料為例,將同類型30個企業的產量()與單位產品成本()原始資料,編制雙變量分組相關表,結果見表8-4。表8-4 產量和單位產品成本雙變量分組相關表單位產品成本 (元)產量 (件)合計2030405060184-4164311-915123311014-1247合計9556530從表8-4看出,產量集中在左上角到右下角的對角斜線上,表明產量與單位產品成本是負相關關系。制作雙
13、變量分組相關表,須注意自變量為縱欄標題,按變量值從小到大自左向右排列,因變量為橫行標題,按變量值從大到小自上而下排列。這樣做的目的是將相關表與相關圖結合起來,便于一致性判斷相關關系的性質。(二)相關圖相關圖又稱散點圖。它是以直角坐標系的橫軸代表自變量,縱軸代表因變量,將兩個變量間相對應的變量值用坐標點的形式描繪出來,用來反映兩變量之間相關關系的圖形。相關圖可以按未經分組的原始資料來編制,也可以按分組的資料,包括按單變量分組相關表和雙變量分組相關表來編制。通過相關圖將會發現,當對是函數關系時,所有的相關點都會分布在某一條線上;在相關關系的情況下,由于其他因素的影響,這些點并非處在一條線上,但所有
14、相關點的分布也會顯示出某種趨勢。所以相關圖會很直觀地顯示現象之間相關的方向和密切程度。【案例】 以上例原始資料中編制的產量與單位產品成本單變量分組相關表為例,繪制相關圖,結果見圖8-1。從圖8-1中可以看出,單位產品成本隨著產量增加而降低,并且散布點的分布近似地表現為一條直線。由此可以判斷產量與單位產品成本兩個變量之間存在著直線負相關關系。(三)相關系數 相關表和相關圖大體說明變量之間有無關系,但它們的相關關系的緊密程度卻無法表達,因此,需運用數學解析方法,構建一個恰當的數學模型來顯示相關關系及其密切程度。對現象之間的相關關系的緊密程度做出確切的數量說明,就需要計算相關系數。 1.相關系數的計
15、算 相關系數是在直線相關條件下,說明兩個現象之間關系密切程度的統計分析指標,記為。相關系數的計算公式為式中 資料項數; 變量的算術平均數;變量的算術平均數變量的標準差;變量的標準差; 變量的協方差。在實際問題中,如果根據原始資料計算相關系數,可運用相關系數的簡捷法計算,其計算公式為 【案例】根據教材中表8-5中的資料,已知居民家庭月收入與消費支出之間為直線相關,計算居民家庭月收入與消費支出的相關系數(見表8-6)。 表8-3編 號月收入x(百元)消費支出y(百元)x2y2xy115122251441802181532422527032018400324360425206254005005302
16、890078484064036160012961440762423844176426048755356252809397598860774436005280109265846442255980合計465349297511557121429 2.相關系數的分析 明晰相關系數的性質是進行相關系數分析的前提。現將相關系數的性質總結如下: (1)相關系數的數值范圍,是在-1和+1之間,即:-11。 (2)計算結果,當>0時,表示與為正相關;當<0時,與為負相關。 (3)相關系數的絕對值越接近于1,表示相關關系越強;越接近于0,表示相關關系越弱。如果|=1,則表示兩個現象完全直線相關。如果|
17、=0,則表示兩個現象完全不相關(不是直線相關)。(4)相關系數的絕對值在0.3以下是無直線相關,0.3以上是有直線相關,0.30.5是低度直線相關,0.50.8是顯著相關,0.8以上是高度相關。【案例】上例中計算的相關系數為0.99,說明消費支出與居民家庭月收入呈高度正相關,也就是家庭收入越高,消費支出也越高。 第三節 回歸分析一、回歸分析的含義就一般意義而言,相關分析包括回歸和相關兩方面內容,因為回歸與相關都是研究兩變量相互關系的分析方法。但就具體方法而言,回歸分析和相關分析是有明顯差別的。相關圖表、相關系數能判定兩變量之間相關的方向和密切程度,但不能指出兩變量相互關系的具體表現形式,也無法
18、從一個變量的變化來推測另一個變量的變化情況。回歸分析就是對具有相關關系的兩個或兩個以上變量的數量變化規律進行測定,確立一個相應的數學表達式,并進行估算和預測的一種統計方法。回歸分析和相關分析是互相補充、密切聯系的。相關分析需要回歸分析來表明數量關系的具體表現形式,而回歸分析則應該建立在相關分析的基礎上。只有依靠相關分析,對現象的數量變化規律判明具有密切相關關系后,再進行回歸分析,求其相關的具體表現形式,這樣才具有實際意義。 回歸分析建立的數學表達式稱為回歸方程(或回歸模型)。回歸方程為線性方程的,稱為線性回歸;回歸方程為非線性方程的稱為非線性回歸。兩個變量之間的回歸稱為一元回歸(簡單回歸);三
19、個或三個以上變量之間的回歸稱為多元回歸。本章只介紹一元線性回歸,即簡單線性回歸分析方法。二、回歸分析的主要內容(一)建立相關關系的回歸方程利用回歸分析方法,配合一個表明變量之間數量上相關的方程式,而且根據自變量的變動,來預測因變量的變動。(二)測定因變量的估計值與實際值的誤差程度通過計算估計標準誤差指標,可以反映因變量估計值的準確程度,從而將誤差控制在一定范圍內。三、回歸分析的特點 回歸分析與相關分析比較具有以下特點: 1.在相關分析中,各變量都是隨機變量;而回歸分析中,因變量是隨機變量,自變量不是隨機的,而是給定的數值。 2.在相關分析中,各變量之間是對等關系,調換變量的位置,不影響計算的結
20、果;而在回歸分析中,自變量與因變量之間不是對等的關系,調換其位置,將得到不同的回歸方程。因此,在進行回歸分析時,必須根據研究目的,先確定哪一個是自變量,哪一個是因變量。3.相關分析計算的相關系數是一個絕對值在0與1之間的抽象系數,其數值的大小反映變量之間相關關系的程度;而回歸分析建立的回歸方程反映的是變量之間的具體變動關系,不是抽象的系數。根據回歸方程,利用自變量的給定值可以估計或推算出因變量的數值。四、一元線性回歸方程的擬合回歸分析中,最簡單、最基本的形式就是一元線性回歸,也就是通常所說的配合直線方程式的問題。若通過觀察或實驗,得到對數據的相關圖上的散布點接近分布在一條直線上,就可以認為變量
21、與之間存在著線性關系,可設經驗公式為式中,與為待定參數,也就是需要根據實際資料求解的數值,為直線的截距,為直線的斜率,也稱回歸系數,表示自變量每變動一個單位時,因變量的平均變動量。值確定了直線的位置,一旦確定,這條直線就被惟一確定了。但用于描述這組數據的直線有許多條,究竟用哪條直線來代表兩個變量之間的關系,需要一個明確的原則。我們希望選擇距離各散布點最近的一條直線來代表與之間的關系,以便更好地反映變量之間的關系。根據這一思想確定未知參數的方法,稱為最小二乘法,也就是通過使得為最小值來確定的方法。可見,用最小二乘法得到的直線與所有數據的離差平方和為最小。要使為最小值,就要用數學中對二元函數求極值
22、的原理,求關于和的偏導數,并令其等于0,整理得出直線回歸方程中求解參數的標準方程組為解方程組得【案例】根據表8-2中的數據,擬合某社區居民家庭月收入水平(x)與消費支出(y)的回歸直線方程。 根據表8-3中的計算結果,得 將a和b代入回歸方程式得 式中代表消費支出,x代表家庭月收入。回歸系數b=0.6398,表示家庭月收入每提高1個單位(百元),消費支出平均增加0.6398個單位(百元)。a=5.1493代表即使月收入為0的情況下,消費支出也需要5.1493(百元)。利用直線方程可以進行預測。如某家庭月收入為150(百元),在其他條件相對穩定時,可以預測其消費支出為五、估計標準誤差(一)估計標
23、準誤差的意義回歸方程的一個重要作用在于根據自變量的已知值推算因變量的可能值,這個可能值或稱估計值、理論值、平均值,它和真正的實際值可能一致,也可能不一致,因而就產生了估計值的代表性問題。當值與值一致時,表明推斷準確;當值與值不一致時,表明推斷不夠準確。顯而易見,將一系列值與值加以比較,可以發現其中存在著一系列離差,有的是正差,有的是負差,還有的為零。而回歸方程的代表性如何,一般是通過計算估計標準誤差指標來加以檢驗的。估計標準誤差指標是用來說明回歸方程代表性大小的統計分析指標,也簡稱為估計標準差或估計標準誤差,其計算原理與標準差基本相同。估計標準誤差說明理論值(回歸直線)的代表性。若估計標準誤差
24、小,說明回歸方程準確性高,代表性大;反之,估計不夠準確,代表性小。 (二)估計標準誤差的計算 估計標準誤差,是指因變量實際值與理論值離差的平均數。其計算公式為式中 估計標準差,其下標代表依而回歸的方程; 根據回歸方程推算出來的因變量的估計值; 因變量的實際值; 數據的項數。 估計標準誤差的簡化計算公式為 【案例】依據表8-6的資料,計算估計標準誤差。(三)估計標準誤差與相關系數的關系二者在數量上具有如下的關系:式中 相關系數; 因變量數列的標準差; 估計標準誤差。從上面的計算公式中可以看出和的變化方向是相反的。當越大時,越小,這時相關密切程度較高,回歸直線的代表性較大;當越小時,越大,這時相關密切程度較低,回歸直線的代表性較小。附錄 應用Excel進行相關與回歸分析單元實訓 相關與回歸分析在經濟中的運用 【實訓目的】 相關和回歸分析是研究現象之間相關關系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 橙色可愛卡通節約糧食模板
- 股權轉讓協議
- 產品業務提成合同范例
- 人事部經理工作總結模版
- 醫療健康大數據驅動的個性化醫療解決方案
- 2025年小學體育教師年度考核個人工作總結模版
- 運輸新質生產力
- 預留、預埋、防雷等施工技術總結
- 中藥柜銷售合同范例
- 醫院科室質控工作總結模版
- 2024年建設工程承包合同范本(通用)-(帶附加條款)
- 2024年網絡安全攻防知識考試題庫(含答案)
- 四年級下冊數學運算定律簡便計算200題及答案
- 培養學生關注國家大事的意識
- Goulin 20180519 中國建筑股份有限公司-財務一體化平臺建設系統實施項目-技術部分-v1.0
- 廢舊材料回收加工項目可行性研究報告
- 單板硬件調試與單元測試方案報告
- 臺球比賽贊助方案(7篇)
- 公共事業管理 五 科技管理
- 計算機硬件組成及工作原理PPT
- 籃球場工程量清單與計價表-
評論
0/150
提交評論