




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
關于相關分析與回歸分析第1頁,共47頁,2023年,2月20日,星期五概述相關分析和回歸分析都是分析客觀事物之間相關性的數量分析方法。相互關系:函數關系與統計關系統計關系:不完全確定的隨機關系,當一個或幾個相互聯系的變量取一定值時,與其相對應的另一個變量取值雖不確定,但會按照某種規律在一定范圍內變化。線性相關:正/負非線性相關第2頁,共47頁,2023年,2月20日,星期五相關分析-散點圖將數據以點的形式畫在直角平面上?;静僮鳎簣D形-舊對話框-散點/點狀第3頁,共47頁,2023年,2月20日,星期五相關系數兩個步驟:計算樣本相關系數r;對樣本來自的兩總體是否存在顯著線性關系進行推斷。提出零假設,即兩總體無線性相關性;選擇檢驗統計量;計算檢驗統計量的觀測值和對應的概率p值;決策第4頁,共47頁,2023年,2月20日,星期五相關系數的分類
Pearson簡單相關系數(皮爾遜):用來度量正態分布的定距變量間的線性相關關系,Pearson簡單相關系數不能用于度量變量之間的非線性關系Spearman秩相關系數(斯皮爾曼):采用非參數檢驗方法來度量定序變量間的線性相關關系,由于數據為非定距變量,因此不能直接采用原始數據,而是利用數據的秩Kendallτ秩相關系數(肯德爾):采用非參數檢驗方法來度量定序變量間的線性相關關系第5頁,共47頁,2023年,2月20日,星期五連續變量的相關分析Pearson簡單相關系數:其中為協方差,為標準差。x和y是對稱的,說明x與y的相關系數等同于y和x和相關系數;簡單相關系數是無量綱的;x和y做線性變換后可能改變相關系數的符號,但不會改變值;只能度量線性關系,不能度量非線性關系的。第6頁,共47頁,2023年,2月20日,星期五對相關關系的顯著性進行檢驗,該檢驗原假設是:兩總體相關系數等于0。t統計量:,服從自由度為n-2的t分布。第7頁,共47頁,2023年,2月20日,星期五定序變量的相關分析-Spearmanui和vi分別表示變量x和y的秩變量,用di=ui-vi表示第i個樣本對應于兩變量的秩之差。Spearman秩相關公式:兩變量正相關,秩變化有同步性,r趨向于1;兩變量完全正線性相關,ui和vi相等,r=1;完全負相關,ui+vi=n+1,r=-1;檢驗系數,原假設為:兩變量不相關。小樣本,服從Spearman分布;大樣本,服從標準正態分布。第8頁,共47頁,2023年,2月20日,星期五定序變量的相關分析-Kendall秩相關系數設在v1后面有R1個秩大于v1,v2后面有R2個秩大于v2,.....在vn-1后面有Rn-1個秩大于vn-1,令顯然,變量x和y相關性越強,則R越大。Kendall秩相關系數:第9頁,共47頁,2023年,2月20日,星期五舉例—kendall秩相關系數假如我們設一組8人的身高和體重在那里A的人是最高的,第三重,等等:注意,A最高,但體重排名為3,比體重排名為4,5,6,7,8的重,貢獻5個同序對,即AB,AE,AF,AG,AH。同理,我們發現B、C、D、E、F、G、H分別貢獻4、5、4、3、1、0、0個同序對,因此,R=5+4+5+4+3+1+0+0=22.因而rk=(88/56)-1=0.57。第10頁,共47頁,2023年,2月20日,星期五定類變量的相關分析卡方檢驗離散變量的相關性,稱為列聯表分析。用多行多列縱橫交錯形成一個表體。Eij為聯合觀察頻數;ni.為第i行觀察頻數之和,n.j為第j列觀察頻數之和。Pearson卡方統計量:該檢驗的原假設為:兩變量相互獨立。第11頁,共47頁,2023年,2月20日,星期五舉例:列聯表分析第12頁,共47頁,2023年,2月20日,星期五第13頁,共47頁,2023年,2月20日,星期五第14頁,共47頁,2023年,2月20日,星期五第15頁,共47頁,2023年,2月20日,星期五第16頁,共47頁,2023年,2月20日,星期五第17頁,共47頁,2023年,2月20日,星期五案例6.1雙變量相關分析案例6.1.sav的資料給出了杭州市2006年市區分月統計的平均溫度和日照時數。試據此分析平均溫度和日照時數的相關性。第18頁,共47頁,2023年,2月20日,星期五偏相關分析很多情況下,需要進行相關分析的變量的取值會同時受到其他變量的影響,這時候就需要把其他變量控制住,然后輸出控制其他變量影響后的相關系數。SPSS的偏相關分析(Partial)過程就是為解決這一問題而設計的??刂谱兞總€數為一時,偏相關系數稱為一階偏相關,為2則是二階偏相關。第19頁,共47頁,2023年,2月20日,星期五步驟:計算樣本的偏相關系數對樣本來自兩總體是否存在顯著凈相關進行推斷:提出零假設:兩總體的偏相關系數與零無顯著差異;選擇檢驗統計量t;計算檢驗統計量的觀測值和對應的概率p值;決策。第20頁,共47頁,2023年,2月20日,星期五案例6.2案例6.2.sav的資料給出了隨機抽取的山東省某學校的12名學生的IQ值、語文成績和數學成績。因為語文成績和數學成績都受IQ的影響,所以試用偏相關分析研究學生語文成績和數學成績的相關關系。第21頁,共47頁,2023年,2月20日,星期五案例6.3距離分析SPSS的距離分析(Distances)也屬于相關分析的范疇,其基本功能是對樣本觀測值之間差異性或者相似程度進行度量,從而對數據形成一個初步的了解。這種分析方法主要應用在分析之前對數據背后的專業知識不夠充分了解,進行探索性研究的情形。案例6.3.sav的資料給出了沈陽、大連和鞍山2006年各月的平均氣溫情況。試用距離分析方法研究這三個地區月平均氣溫的相似程度。第22頁,共47頁,2023年,2月20日,星期五回歸分析回歸分析是研究兩個變量或多個變量之間因果關系的統計方法。基本思想:在進行相關分析的基礎上,對確定具有相關關系的兩個或多個變量之間數量變化的一般關系進行測定,確定一個合適的數學模型,以便從已知量來推斷未知量。第23頁,共47頁,2023年,2月20日,星期五相關分析與回歸分析的區別相關分析研究的變量之間關系是對等的,回歸分析研究的變量有解釋和被解釋之分;相關分析研究的是隨機變量,回歸分析被解釋變量是隨機變量,而解釋變量非隨機;相關分析不能指出變量間相互關系的具體形式,回歸分析可以通過一個數學表達式來確定變量之間相關情況的具體形式。第24頁,共47頁,2023年,2月20日,星期五一般步驟:確定回歸方程中的解釋變量和被解釋變量確定回歸模型建立回歸方程對回歸方程進行各種檢驗利用回歸方程進行預測第25頁,共47頁,2023年,2月20日,星期五線性回歸數學模型:使用最小二乘法對模型中的回歸系數進行估計,得到樣本回歸函數:
是的估計值,是與其擬合值之間的離差,稱為殘差。第26頁,共47頁,2023年,2月20日,星期五線性回歸建立在以下基本假設之上對于所有的i,存在:不同的隨機擾動項之間不存在序列相關,即:解釋變量是非隨機的,與隨機擾動項不相關K個解釋變量不存在共線性第27頁,共47頁,2023年,2月20日,星期五線性回歸模型的檢驗一級檢驗統計學檢驗二級檢驗經濟計量學檢驗擬合優度評價顯著性檢驗異方差檢驗序列相關檢驗第28頁,共47頁,2023年,2月20日,星期五1)模型擬合優度評價是指樣本觀測值聚集在樣本回歸線周圍的緊密程度,也反應了回歸方程對被解釋變量的解釋程度。SST=SSR+SSE(總變差,解釋變差,剩余變差)可決系數:R2=SSR/SST=1-SSE/SST(一元線性回歸方程)調整的可決系數:(多元線性回歸方程)解釋變量增多時,SSE減少,R2增加;有重要“貢獻”的解釋變量出現。第29頁,共47頁,2023年,2月20日,星期五2)回歸方程整體顯著性檢驗包含回歸方程的顯著性檢驗和回歸系數的顯著性檢驗兩個部分。回歸方程的顯著性檢驗:檢驗線性關系是否顯著(1)建立原假設:,即回歸方程整體不顯著;,即回歸方程整體顯著。(2)構造F統計量:(3)計算F統計量和對應的p值(4)對比p值和ɑ。第30頁,共47頁,2023年,2月20日,星期五3)回歸系數的顯著性檢驗(1)建立原假設:,即第j個回歸系數不顯著;,即第j個回歸系數顯著。(2)構造t統計量:(3)計算t統計量和對應的p值(4)對比p值和ɑ。第31頁,共47頁,2023年,2月20日,星期五4)殘差分析殘差:殘差序列:多個ei出發點:如果回歸方程能較好地反映被解釋變量的特征和變化規律,那么殘差序列中應不包含明顯的規律性和趨勢性。(1)殘差均值為0的正態性分析;(2)殘差的獨立性分析:繪制殘差序列的序列圖;計算殘差的自相關系數;DW檢驗。(零假設:總體的自相關系數ρ與0無顯著差異。)第32頁,共47頁,2023年,2月20日,星期五當隨機擾動項存在序列相關時,進行Durbin-Watson檢驗:0<DW<dL:隨機擾動項存在一階正序列相關;4-dL<DW<4:隨機擾動項存在一階負序列相關;dU<DW<4-dU:隨機擾動項不存在序列相關;dL<DW<dU或者4-dU<DW<4-dL:不能確定是否存在序列相關。第33頁,共47頁,2023年,2月20日,星期五正相關不相關負相關第34頁,共47頁,2023年,2月20日,星期五如果殘差序列存在自相關,說明回歸方程沒能充分說明被解釋變量的變化規律,還留有一些規律性沒有被解釋,也就是方程中遺漏了一些較為重要的的解釋變量;或者,變量存在滯后性;或者,回歸模型選擇不合適。第35頁,共47頁,2023年,2月20日,星期五(3)異方差(heteroscedasticity)分析:總體回歸函數中的隨機誤差項滿足同方差性,即它們都有相同的方差。如果這一假定不滿足,則稱線性回歸模型存在異方差性。兩種方式:繪制殘差圖(p193圖)等級相關分析(得到殘差序列后對其取絕對值,分別計算出殘差和解釋變量的秩,最后計算Spearman等級相關系數,進行等級相關分析。)第36頁,共47頁,2023年,2月20日,星期五5)多元回歸分析的其他問題(1)變量的篩選問題:向前篩選—解釋變量不斷進入回歸方程的過程,最高線性相關系數的變量最先進入;向后篩選—變量不斷剔除出回歸方程的過程,先全部引入,把最不顯著的一個或多個變量剔除;逐步篩選—向前和向后的綜合,在引入變量的每個階段提供剔除不顯著變量的機會。第37頁,共47頁,2023年,2月20日,星期五(2)變量的多重共線性問題:指各個解釋變量之間存在線性相關關系的現象。容忍度:方差膨脹因子:,大于10時,存在多重共線性條件指數:,在10以下,多重共線性比較弱,大于100時,存在嚴重的多重共線性。方差比例:幾個不同解釋變量,某個特征根能夠解釋的方差比例超過50%,則認為存在較強共線性。第38頁,共47頁,2023年,2月20日,星期五案例6.4簡單線性回歸分析菲利普斯曲線表明,失業率和通貨膨脹率之間存在著替代關系。下面的資料給出了我國1998-2007年的通貨膨脹率和城鎮登記失業率。試用簡單回歸分析方法研究這種替代關系在我國是否存在。第39頁,共47頁,2023年,2月20日,星期五結果分析回歸模型:R(失業率)=3.601+0.157*I(通貨膨脹率)調整后R平方為0.326,模型的擬合優度,也就是對數據的解釋能力一般;因方差分析顯著性為0.049,小于0.05,故模型整體是顯著的;兩個參數是顯著的。但通貨膨脹和失業的替代關系在我國并不存在。第40頁,共47頁,2023年,2月20日,星期五案例6.5多重線性回歸分析為了檢驗美國電力行業是否存在規模經濟,Nerlove(1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 殘聯安置協議書
- 車輛交割協議書模板
- 實習協議與保密協議
- 國有企業借款合同
- 公司股份制合同協議書
- 環境工程污水處理技術應用試題集
- 商務往來文書與合同樣本集
- 比賽授權協議書
- 產品授權經銷協議書
- 無線接口協議書
- 2024年中國光大銀行招聘考試真題
- 房地產公司2025年度項目開發計劃
- 物業保盤計劃制作與實施指導
- 2025年儲能項目可行性分析報告
- 2025年北京市海淀區九年級初三一模英語試卷(含答案)
- 2025年山西焦煤集團國際發展股份有限公司招聘筆試參考題庫附帶答案詳解
- DB32T 4793-2024球墨鑄鐵管排水系統應用技術規程
- 八年級音樂上冊校園的早晨省公開課一等獎新課獲獎課件
- 5.3基本經濟制度 同步教案 -2024-2025學年統編版道德與法治八年級下冊
- 聯合實驗室共建合作協議
- 《食品生產經營企業落實食品安全主體責任監督管理規定》解讀與培訓
評論
0/150
提交評論