




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、三 相關與回歸分析(1) 相關分析的基本概念辯證唯物主義認為物質世界是一個普遍聯系的統一整體。這說明,世界上的事物或多或少存在著某種聯系。例如:身高與體重之間,就存在著聯系,一般情況下,身體越高體重也越大;投資與利潤之間也存在著類似的聯系。研究這種聯系無論是在經營決策還是在科學研究中都必不可少,比如:投資方只有在考慮了投資和利潤的關系后,才能大致預測出一定水平的投資能帶來多少利潤;又如,在工程技術中,對于混凝土的抗壓強度和抗拉強度的研究,有助于應對不同的施工要求。要研究這些變量之間的關系,可以通過統計的方法進行,而這種統計的方法主要是相關分析和回歸分析兩種。1 相關關系如前所述,變量之間存在著
2、相互的聯系,如果進一步考察,可以發現,這些聯系又具體的可以分為兩種不同的類型。1)函數關系它反映現象之間存在著嚴格的依存關系。其特點:變量之間的數值以確定的關系相對應這種關系中,對于某一變量的每一個數值,都有另一個變量的確定的值與之相對應。變量間的關系可以用一個確定的公式來反映例如,圓的面積隨著半徑而變動;,產值和產量、單位生產成本之間也是確定的函數關系。2)相關關系它是指現象之間確實存在依存關系,但這種關系不確定不嚴格。這種關系的特點:變量之間確實存在數量上的依存關系如前所述的身高與體重之間,投資與利潤之間都存在著某種依存關系。數量依存關系的具體關系值是不固定的在這種關系中,對于某個變量的某
3、個數值,另一個變量可以有若干個數值與之對應,這些數值表現出一定的波動性。例如:身高與體重之間,存在一定的依存關系。但是體重除了與身高有關外,還受年齡、性別、區域、種族等因素影響。身高與體重并無嚴格的對應關系,同一身高的人,體重大多數情況下是不相等的。但即便如此,這兩個變量之間仍舊存在一定的規律性,在一般條件下,身高越高,體重越大。統計在研究變量的相關關系時,應當首先根據有關的科學理論,通過觀察和實驗,才能建立這種聯系,并且還要通過理論與實踐的檢驗。只有這樣,才能得出科學的有意義的結論。2 相關關系的種類變量之間的相關關系是很復雜的,它們各以不同的方式和程度相互作用,表現出不同的類型和形態。1)
4、 按相關關系涉及的變量多少來劃分,可分為單相關和復相關兩個變量之間的相關關系叫做單相關(也稱一元相關),即只涉及一個自變量和一個因變量。三個或三個以上的變量之間的相關關系叫做復相關(也稱多元相關),即研究涉及一個因變量和兩個或兩個以上的自變量。2) 按相關的方向分,可分為正相關和負相關自變量的數值增加,因變量的數值也基本隨之增加,即為正相關,例如:商品價格上升,供給也上升。而相反的即為負相關,如商品價格上升,商品的需求下降。3)按相關的表現形式分,分為線性相關(直線相關)和非線性相關(曲線相關)變量間的相關關系近似地表現為直線即稱為直線相關。其特點是當一個變量增減1個單位時,另一個變量也按一個
5、大致固定的量變化。若這種相關關系近似為曲線時,即稱為曲線相關,按具體形態又可分為:拋物線、指數曲線、雙曲線等。在實際應用中,變量之間究竟采取哪種形態,要根據具體情況進行理論分析,并根據實際經驗,才能得到較好的解決。4) 按照相關的密切程度分,分為完全相關、不完全相關和無相關(b)不完全相關yx(a)完全相關yx當一個變量的值完全由另一個變量的值所決定,即稱為完全相關,即前述的函數關系,如;兩個變量各自獨立,互不影響,稱為無相關,如股票價格和氣溫之間,一般是無相關的。介于這二者之間,稱為不完全相關,通常相關分析是指對不完全相關的分析。以上相關關系的種類,如圖1所示。(d)曲線相關xy(c)無相關
6、xy(f)負相關xy(e)正相關xy圖1 相關關系類型需要注意的是,現實的相關關系一般是以組合形態出現,如圖1(a)為完全線性正相關,圖1(b)為不完全線性正相關。而相應的完全線性負相關和不完全線性負相關如圖2(a)和圖2(b)。(b)不完全線性負相關xy(a)完全線性負相關xy圖2 相關關系的組合類型此外,線性關系還有其他的組合類型,在此不一一列舉。3 相關分析的主要內容相關分析的目的在于分析現象間相關關系的形式和密切程度以及依存變動的規律性,在實際工作中,有非常廣泛的應用。主要內容如下:1) 確定變量之間有無相關關系,以及相關關系的表現形式這是相關分析的出發點,由相關關系才能用相應的方法去
7、分析,否則,只會得出錯誤的結論。相關關系表現為何種形式就用什么樣的方法分析,若把本屬于直線相關的變量用曲線的方法來分析,就會產生認識上的偏差。2) 確定相關關系的密切程度對于這個問題,直線相關用相關系數表示,曲線相關用相關指數表示,相關系數的用途很廣泛。3)選擇合適的數學方程式確定了變量之間確實有相關關系和及其密切程度,就要選擇合適的數學方程式來對變量之間的關系近似描述,并用自變量的數值去推測因變量的數值,稱之為回歸分析。如果變量之間為直線相關,則采用直線方程,稱之為線性回歸;如果變量之間為曲線相關,則采用曲線方程,稱之為非線性回歸。4)測定變量估計值的準確程度在相關分析中,第三步建立了數學方
8、程式,并用方程式對因變量進行估值。因變量的估計值和實際值之間進行對比,因變量估計值的準確程度可以用估計標準誤差來衡量。5)對回歸方程進行顯著性檢驗對前幾步變量之間建立的回歸方程,要進行顯著性檢驗。檢驗變量之間是否真的具備這樣的關系,這種關系是不是因為數據的選取而偶然形成的。(2)簡單線性相關分析1 散點圖和相關表進行相關分析,和許多其它的統計研究一樣,基本都是采用定性和定量相結合的方法,即先作定性分析,再作定量分析。所謂定性分析,是要根據有關專業知識和實際經驗,來判斷變量之間是否存在一定的相關性。如果確實存在關系再通過編制散點圖和相關表,對變量之間的相關關系的類型做出大致判斷。上述工作完成后,
9、再進行定量分析,即可以計算相關系數,以精確反映相關關系的方向和程度。1) 繪制散點圖【例1】在某個地區抽取了9家生產同類產品的企業,其月產量和單位產品成本的資料如表1,現在來分析月產量和單位成本的關系。表1 9家企業的月產量和單位產品成本資料企業編號123456789月產量(千件)(x)4.16.35.47.63.28.59.76.82.1單位產本(元)(y)807271588650426391根據規模經濟理論,可以判斷產品的產量和單位成本之間存在著相關關系,再繪制散點圖,我們可以比較直觀地看出這兩個變量間的關系。如圖3所示。圖3 9家企業的月產量和單位產品成本散點圖從圖3看出,月產量和單位成
10、本是負相關,而且有形成一條直線的傾向。如果與某個變量相關的因素不止一個,可以分別繪制許多相關圖。從許多相關圖的對比中,大致可以看出與各因素關系的密切程度,從中判斷哪個是主要因素,哪個是次要因素。2) 相關表根據總體單位的原始數據可以編制相關表,根據例1的數據,將月產量按照升序排列,即得相關表,見表2。表2 9家企業的月產量和單位產品成本相關表序 號月產量(千件)(x)單位產本(元)(y)92.19153.28614.18035.47126.37286.86347.65868.55079.742合計53.7613從相關表中可以看出,月產量和單位成本之間存在著明顯的負相關關系。3) 分組相關表在實
11、際的統計工作中,原始數據是非常多的,如果直接編制相關表會很長,而由于數據點過多,散點圖也不好繪制,這時常常編制分組相關表。根據分組情況不同,分組表有兩種:單變量分組表和雙變量分組表,而在實際操作中,單變量應用最為廣泛。單變量分組表在有相關關系的兩個變量中,只根據一個變量進行分組,另一個不進行分組,只是計算其頻數和平均值。如表3所示。表3 380名女大學生的體重和身高相關表按體重分組()人數(人)每組平均身高(m)60以上41.760-6261.6555-60721.6350-55641.647-501101.5845-471211.5645以下31.53合計38011.25圖8-4 380名女
12、大學生的體重和身高散點圖從表3和圖4可以看出,這380名女大學生的身高和體重之間存在著明顯的正相關關系。雙變量分組表如果對表3中的兩個變量都進行分組,可以得到雙變量分組表,但由于這種分組后的相關表,加權的方法比較復雜,而且并不實用,所以在實際中已很少采用,從略。2 相關系數的計算通過前述相關表和散點圖,可以基本判斷變量間相關關系的方向和程度,但這只是相關分析的開始。如果通過散點圖發現變量間基本是線性相關,那么如何判定其線性關系的密切程度呢?這可以用相關系數來衡量。1) 相關系數1890年英國統計學家卡爾皮爾遜(Karl Pearson)便提出了相關系數的公式。-式中:r-相關系數-變量x與變量
13、y的協方差;-變量x的標準差-變量y的標準差需要說明的是,為正意味著變量x與變量y為正相關,為負意味著變量x與變量y為負相關。r與同符號,也意味著r為正意味著變量x與變量y為正相關,r為負意味著變量x與變量y為負相關。2)未分組資料的相關系數將以上各式代入的定義式,可得:-式為相關系數的基本計算公式。經推算,還可形成相關系數的簡便計算公式:-或者:-現用表2的數據來說明相關系數的計算過程。表4 相關系數計算表序 號月產量 x(千件)單位成本 y(元)14.18016.81640032826.37239.695184453.635.47129.165041383.447.65857.763364
14、440.853.28610.247396275.268.55072.25250042579.74294.091764407.486.86346.243969428.492.1914.418281191.1合計53.7613370.65438993332.9在已有平均值的情況下,還可以用式計算,即:,注:協方差正負的意義。為正,則說明,或者和多數情況下符號相同,即和基本上同時大或同時小,即兩個變量之間為正相關;同理,為負,則說明兩個變量之間為負相關。3)分組資料的相關系數計算當原始數據較多,已分組編成二元頻數分布表時,就用各組頻數加權計算相關系數,公式為:-式中:-的頻數-的頻數-的聯合頻數3
15、相關系數的密切程度可以證明,相關系數 1。0,表明變量之間正相關;0,表明變量之間負相關。那么,相關關系的強弱如何通過體現?=1,表明變量之間為完全的線性相關關系;=0,表明變量之間沒有線性關系,但要注意,有可能是曲線關系。當01時,變量之間有不同程度的線性關系。由此可以確定一個對相關程度評價的標準。00.3為弱相關;0.30.5為低度相關0.50.8為顯著相關0.81為高度相關。4 相關系數的顯著性檢驗測算兩個變量的相關系數,是從二元總體中隨機抽取一個樣本,再用樣本的相關系數去推斷,因為推斷誤差的存在,不可能保證百分之百的可靠。也就是說,因為樣本是隨機抽取的,根據其計算出的相關系數雖然很大,
16、但總體卻可能并不具備相關性。那么總體到底有沒有線性相關性,在得出結論前,就必須要做假設檢驗。檢驗樣本(相關系數為)是否會來自于一個無線性關系的總體(總體的相關系數為),可以采用費舍()的t檢驗法。1)原假設:;備擇假設:。2)檢驗統計量為:,其中為自由度。3)若顯著性水平為,查表的臨界值:4)若,則拒絕原假設,接受備擇假設,即認為樣本的相關系數顯著,可以說明總體兩個變量間存在著線性相關,檢驗通過。若,則結論相反。【例2】用上述方法,對【例1】中9家企業的月產量和單位成本的樣本相關系數做顯著性檢驗。已知:,提出如下假設:; :設顯著性水平。查t表得,表明總體相關系數的可能性小于。所以拒絕原假設:
17、,認為樣本的相關關系具有顯著性,即不能否認總體(全部的同類企業)的兩變量存在線性相關。(3)回歸分析1 回歸分析的概念通過相關分析可以說明變量之間相關關系的方向和程度,但是卻不能說明變量之間具體的數量因果關系。當自變量給出一個數值時,因變量可能取值是多少,這是相關分析不能解決的。這需要通過新的方法,即回歸分析。回歸分析:就是建立一個數學方程來反映變量之間具體的相互依存關系,并最終通過給定的自變量數值來估計或預測因變量可能的數值,該數學方程稱為回歸模型。“回歸”意思源于19世紀英國生物學家葛爾登(Francis Galton)對人體遺傳學的研究,他發現子女有回歸或回復到上一代原有特性的傾向。葛爾
18、登的學生統計學家皮爾遜把這一概念和數理統計方法結合,最終形成了回歸分析的理論體系。2 線性回歸分析在回歸分析中,如果變量之間的回歸模型是直線方程,則這類回歸分析為線性回歸分析(直線回歸),該直線方程成為線性回歸方程。具體的:如果直線方程中只有一個自變量和一個因變量,稱之為簡單線性回歸分析;若存在一組自變量和多個因變量,稱之為多元線性回歸分析。線性回歸分析是整個回歸分析的基礎。1)簡單線性回歸分析主要任務是在唯一的自變量和因變量之間建立一個直線函數,其表現形式為:需要指出的是:是自變量,是因變量的估計值,又稱理論值。實際觀測值和理論值的關系是:,式中稱為離差,反映了因各種偶然因素、觀察誤差以及被
19、忽略的其他影響因素帶來的隨機誤差。一般簡單線性回歸方程確定,主要是確定和,那么如何選擇最為滿意的和呢?最小平方法給出了解決方案,其基本思想是讓,又稱最小二乘法。將代入。令根據微分求極值的原理,分別對和求偏導,令其為零。得:整理得:求解方程組,可得和:-則可得直線回歸方程 。【例3】根據【例1】中的數據,建立月產量和單位產品成本之間的直線方程。并估計當月產量(千件)時,單位產品成本的數值。表5 直線回歸方程計算表序 號月產量 x(千件)單位成本 y(元)14.18016.81640032826.37239.695184453.635.47129.165041383.447.65857.76336
20、4440.853.28610.247396275.268.55072.25250042579.74294.091764407.486.86346.243969428.492.1914.418281191.1合計53.7613370.65438993332.9將表5有關數據代入式,得:,所以回歸方程為:當(千件),(元)。直線如圖5所示。圖5 月產量和單位成本的直線回歸方程圖當時間為解釋變量時的簡單線性回歸方程若自變量為時間,則用t表示,此時,直線方程為:由最小平方原理可得:若,則: ,-那么,怎樣使得呢?年編(序)號: 奇數 偶數1990 -2 -51991 -1 -31992 0 -1199
21、3 1 +11994 2+31995 +5【例8.4】某游覽點歷年觀光游客的數量如下表,用最小平方法建立直線方程,并預測2010年的游客數量年份時間序號游客(萬人)19981-310019100-30019992-211244224-22420003-112591375-125200140140160560020025115525177515520036216836410083362004731804991260540合計280980140284302382萬人若,則萬人2) 多元線性回歸簡單線性回歸反映的是一個自變量和一個因變量之間的關系,但是客觀事物非常復雜,許多現象的變動牽扯到多個影響因
22、素。例如:一個企業的利潤,受產值、成本、價格等多個因素的影響;再如,糧食產量受施肥量,同時也受溫度、播種量、土壤的酸堿性、降雨量的影響。所以在現實中,經常要進行一個變量和多個自變量的多元線性回歸分析。其一般形式為:。為了敘述方便,本書以二元線性回歸為例。即一個因變量和兩個自變量得線性回歸,方程為:。利用最小二乘原理,可以得出如下的方程組:- 解該方程組可得。【例8.5】某服裝企業有十家銷售公司分布在不同的城市,決策者通過反復調查分析后認為,影響該企業總銷售額的因素為:當地的人均月收入和廣告投入,經過一年的統計,有關數據如表6。表6 企業銷售額與廣告投入和人均收入(千元)城市銷售額廣告投入人均月
23、收入155401922.63 254392102.42342901461.71 455022003.12 548711302.63 647081102.70 746271032.30 84110902.39 94122981.78 1042301321.96 合計47439141123.65多元線性回歸方程也可以按照上述的最小二乘法通過求解方程組得出,但在實際操作中不要求手算,可用EXCEL“數據分析”中的“回歸”求解。得出結果如下:如果廣告投入,人均月收入,則銷售額的估計值為。上面的方法可以推廣到n個自變量的情況,對回歸方程:同樣可用最小平方法,建立一個階方程組(式),解該方程組可求出有關參
24、數。-(3) 曲線回歸分析若回歸模型表現為曲線形式,則這就是曲線回歸分析,曲線模型種類多樣,不過在統計研究中常用的曲線模型主要有:1)二次拋物線:2)指數曲線:3)雙曲線:在建立曲線回歸方程時,最重要的問題是合適的曲線類型,解決這個問題,主要是通過作圖,然后憑借經驗從圖形顯示的曲線形狀來判斷應當擬合的曲線。圖6至8給出了以上三種曲線的圖形。yxyx在多數情況下,曲線回歸問題,可以通過變量代換,將其化成線性回歸問題,然后再用前面介紹的線性回歸的方法來解決。yxyx圖6 拋物線圖8-7 指數曲線xyyx圖8 雙曲線1 雙曲線回歸令,則有【例6】兩個變量的數據如下表,建立這兩個變量的回歸方程。9.3
25、10.412.615.417.519.621.723.425.327.517.124.231.337.943.346.247.550.151.151.3做出散點圖如下:從圖中可以看出這兩個變量之間的變動關系基本上是一個遞增的雙曲線,則用雙曲線模型去分析兩個變量的關系,計算表如表7表7 x和y雙曲線回歸方程計算表序號19.317.1 0.1080.0580.0120.006288210.424.2 0.0960.0410.0090.003973312.631.3 0.0790.0320.0060.002536415.437.9 0.0650.0260.0040.001713517.543.3 0
26、.0570.0230.0030.00132619.646.2 0.0510.0220.0030.001104721.747.5 0.0460.0210.0020.00097823.450.1 0.0430.020.0020.000853925.351.1 0.040.020.0020.0007731027.551.3 0.0360.0190.0010.000709合計182.74000.6210.2830.0440.02024將表中數據代入以下公式:得:于是有:將,代入后,得:在實際操作中,一元曲線回歸不用手工來完成,都是先將數據進行變換,再按照線性回歸添加趨勢線的方法來擬合曲線。2 指數曲線
27、回歸和拋物線回歸1)指數曲線:兩邊取對數:令:,則得到一元線性回歸模型:2)二次拋物線:令,原方程轉化為二元線性回歸模型:(4)線性回歸分析的評價和檢驗通過以上的學習,我們可以得出回歸方程,但變量之間的回歸方程畢竟是根據隨即抽取的樣本來計算的一個“經驗公式”,根據回歸模型計算的值只是一個“估計值”,和實際的值之間存在差異。因而這時又出現了兩個問題:1)如何去評價回歸模型的準確性?2)如何去檢驗回歸模型的可靠性?對以上兩個問題的說明,就是本節的主要內容。線性回歸分析是各類回歸分析的基礎,所以本節以線性回歸分析為例來進行說明。1 判定系數和估計標準誤差要評價回歸模型的精確性,主要是用判定系數和估計
28、標準誤差這兩個統計量。1)判定系數回歸方程的準確性又稱為擬合優度,判定系數是測定回歸方程擬合優度的一個重要指標,為此要先引入幾個概念:總變差:,記作。回歸變差:,記作。殘余變差:,記作。可以證明:-判定系數的定義為:-結合公式和公式,可以看出越大,則意味著回歸變差在總變差中占的比重越大,因而越小,即與的差距越小,對的擬合程度高,也就是說該回歸模型的準確度越強。可以證明:01,即越接近于1,回歸模型的“擬合憂度”越好。簡單線性回歸方程的用式計算會非常繁瑣,可以證明若一元線性回歸方程的相關系數,有這樣的結論:。對【例3】 中的數據來計算其判定系數,其相關系數=0.9886,所以。計算結果表明,單位
29、成本的總變差中,有97.73%可以由回歸變差來解釋,這說明月產量和單位成本的回歸方程對真實的值有很好的擬合效果。多元線性回歸方程的多元線性回歸的不需要手算,在EXCEL的“回歸”結果中會給出。2) 估計標準誤差在前面,用判定系數對回歸模型的準確度作了評價,而還可以通過來衡量回歸模型的準確度,在SSE的基礎上形成了估計標準誤差的概念。簡單線性回歸方程的估計標準誤差定義:估計標準誤差:-估計標準誤差越小說明與越接近。將代入式,可得如下計算公式:-同樣將【例3】中的數據(表6)代入式,可得:二元線性回歸方程的定義:-多元線性回歸的估計標準誤差也不需要手算,在EXCEL的“回歸”結果中也會給出。2 線性回歸方程的顯著性檢驗1)簡單線性回歸方程的顯著性檢驗對于變量和,一元直線方程根據樣本的數據計算,帶有樣本抽取的隨機性,根據一個樣本計算的結果是否具有代表性?是否真正描述了在總體中變量和之間的關系,即和之間的關系是否真的是直線函數?這都需要檢驗,這個問題就稱之為對的顯著性檢驗。根據樣本,得出變量和之間的回歸直線為:,而總體變量和之間的回歸直線為:。因此,可以認為、是、的估計值,如何檢驗估計的可靠性,主要有兩種辦法:-檢驗和-檢驗。如果總體變量和之間不存在直線關
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 地鐵工程檔案資料集中管理措施
- 小學普通話節慶活動推廣計劃
- 網球培訓機構教學計劃
- 裝飾工程施工技術質量保證體系及措施
- 小學乒乓球社團多樣化訓練計劃
- 科技企業人力資源部創新激勵計劃
- 金融行業風險資源配備計劃
- 腫瘤科輸血流程與規范管理
- 綜藝節目腳本策劃書范文
- 拆除施工塵土污染防治文明措施
- 2025年高考數學全國新課標Ⅱ卷試卷評析及備考策略(課件)
- 黑龍江司法警官職業學院2025年招生政治考察表
- (正式版)CB∕T 4549-2024 船舶行業企業加油-駁油作業安全管理規定
- 公司扣款單據模板
- 文獻檢索與閱讀方法課件
- 髂內動脈解剖特點PPT
- 螺旋槳加工與安裝工藝
- 校長競聘試題
- LED顯示屏合同范本
- 初中化學實驗探究教學方法講座
- 燃機發電機轉子一點接地保護全部校驗作業指導書
評論
0/150
提交評論