應用統計學-緒論2015課件_第1頁
應用統計學-緒論2015課件_第2頁
應用統計學-緒論2015課件_第3頁
應用統計學-緒論2015課件_第4頁
應用統計學-緒論2015課件_第5頁
已閱讀5頁,還剩40頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、馬昕經濟學教研室電話mail: maxin應用統計學教學目的:信息時代是數據時代。決策已從過去以經驗為主轉變到科學決策。如何從大量數據中發現盡可能多的有用信息,從而把握事物特征,為科學決策提供依據,這是本課程要解決的問題。本課程是在學生掌握統計分析的基本知識和技能之后,以進一步深化學生的量化分析能力為宗旨、以多元統計為中心的一門應用性課程。課程內容:第一章 緒論第二章 向量、矩陣與多維正態分布第三章 方差分析第四章 回歸分析第五章 聚類分析第六章 判別分析第七章 主成分分析第八章 因子分析第九章 對應分析第十章 結構方程模型教材:Jams M Lattin等著,多元數

2、據分析(英文版),機械工業出版社參考書何曉群多元統計分析(第三版),中國人民大學出版社,2012王學民應用多元分析,上海財經大學出版社理查德約翰遜實用多元統計分析,清華大學出版社,2008(英文版)考核方法:讀書報告:30分(考試前交)期末考試(開卷) :70分教學資源位于: (key:ncepuedu2013):網盤課件課件例題數據一、多元數據分析的必要性數據分析從大量數據中發現盡可能多的有用信息,從而把握事物特征的過程事物特征的描述:變量/指標每個變量/指標數據:反映事物某一方面的特征一般來說事物通常具有多面性,即有多方面特征例:學生的能力、物種、國家經濟實力、企業競爭力僅從一個方面往往不

3、足以反映事物特性或個體之間的差異必須全面考慮事物的各個方面,才能對其正確認識。統計學:單變量/雙變量分析描述統計集中趨勢離散趨勢變量分布異常點推斷統計:從樣本統計量推斷總體參數參數估計:樣本均值估計總體均值,假設檢驗:總體均值或方差的檢驗,兩總體均值/方差相等的檢驗雙變量:相關分析:兩個隨機變量間的(線性)相關程度一元回歸:一個隨機變量對另一變量間的依存關系Simpsons ParadoxNo relationship between sex and acceptance for either programmeSo no evidence of discriminationWhy?More

4、females apply for the English programme, but it it hard to get intoMore males applied to Engineering, which has a higher acceptance rate than EnglishMust look deeper than single cross-tab to find this outEngineeringMaleFemaleAccept3010Refuse entry3010Total6020EnglishMaleFemaleAccept510Refuse entry15

5、30Total2040兩變量分析有時會得到虛假結果Simpsons ParadoxIn this example, the bivariate analysis (cross-tabulation or correlation) gave misleading resultsIntroducing another variable gave a better understanding of the dataIt even reversed the initial conclusions性別錄取率專業?Some Common Patterns in Point Clouds planes fi

6、laments clusters outliersData Analysis:Finding and Interpreting such Patterns具體方法聚類分析:按距離遠近分類判別分析:給定樣本定類親疏判別主成分分析、因子分析、對應分析:找出主要因素,化簡數據方差分析多元回歸分析結構方程模型GroupingDiscriminating Principle Component, Factoring,CorrespondenceInferring推斷exploring探索數據模式Structural Equation Model課程重點強調方法的應用而非理論推導強調方法的內涵與幾何解釋強

7、調SPSS軟件的應用和結果的解釋牢記:從數據中獲取信息沒有確定的方法具體問題具體分析:把握機理三、多元數據的描述數據的計量尺度(measurement scale):告訴我們從數據中可獲得哪些信息。品質數據:計算無意義定類尺度:按窮盡和互斥原則將對象某種特征歸類通常用虛擬變量表示:定序尺度對象特征等級或順序差別的測度三、多元數據的描述數值數據定距尺度:測度對象特征的間距,不能做絕對比較。定比尺度:即可測度間距,又可做絕對比較。數值數據的矩陣表示: 樣本數n,變量數p數據的矩陣描述注:若無特別說明,向量均指列向量四、統計基本知識回顧:單變量分析描述統計參數估計假設檢驗異常點均值的代表性目的:描述

8、數據分布與正態分布的可能偏離正態分布具有許多有利于統計的特性一般獨立隨機事件的分布都服從正態分布人的身高,產品質量偏度:用來度量對稱性的指標峰度:刻畫一個分布陡峭或平緩程度的指標正態右偏左偏正態比正態更陡比正態平緩分布的偏度與峰度基本概念2、參數估計總體樣本變量觀測值華北電大的所有學生華北電大的所有學生中所有抽取的100名學生基本概念(續)參數統計量精確度準確度偏誤標準差:小標準誤:小標準差:大標準誤:小標準誤差standard error標準差standard deviation抽樣推斷:從樣本統計量推斷總體參數參數估計:在未知總體參數的情況下,利用樣本統計量來估計總體參數的方法。參數點估計

9、參數區間估計假設檢驗:先對總體參數作一個假設,然后通過搜集樣本數據,用樣本統計量判斷對總體參數的假設是否成立參數估計:總體參數的點估計假設在總體X中, 為未知參數(均值、方差、成數等)。由樣本(x1、x2xn )構造統計量 來估計未知參數,稱 為的點估計量。 將某次抽樣的樣本觀測值,代入即得該估計量的一個點估計值 。方法 矩估計法 極大似然估計法 最小二乘法設為待估計的總體參數, 為樣本統計量,則的優良標準為:點估計量的優良性標準指樣本統計量抽樣分布的平均值等于被估計的總體指標無偏性設 和 是總體指標的兩個無偏估計量,有效性若,則稱為比 更有效的估計量如果隨著樣本容量n的增大,樣本估計量在概率

10、意義下越來越接近于總體真實值,則稱該估計量是待估參數的一致估計量。一致性一致性是對一個估計量的最起碼要求?!叭绻阍趎趨于無窮大時還不能正確地得到它,那你就不應該做這件事”葛蘭杰n1n2n3n1n2n3置信度(1-)反映了估計的可靠程度。根據樣本指標和抽樣極限誤差可以得到滿足一定置信度的總體指標的可能范圍定義設總體參數為,L、U為由樣本確定的兩個統計量,對于給定的(01),有P(LU)=1-,則稱(L, U)為參數的置信度為1-的置信區間參數估計:參數的區間估計可靠度精確度為什么要做區間估計?任意抽出一個婦女,試猜測其體重,猜對贏50元,猜錯輸50元如何猜?輸贏概率如何?例:20個婦女的體重資

11、料如表, 平均體重:123.6pound,標準差:15.5猜均值上下一個標準差:贏的概率?輸的概率猜均值上下兩個標準差:輸贏概率?目的前提條件 置信度的置信區間估計總體均值正態總體方差已知估計總體均值正態總體方差未知(小樣本)估計總體均值 置信區間估計方法一覽表總體分布知,正態總體方差未知(大樣本)區間估計原理0.6827落在范圍內的概率為68.27%樣本抽樣分布曲線原總體分布曲線置信度1-=0.6827區間估計原理0.9545落在范圍內的概率為95.45%樣本抽樣分布曲線原總體分布曲線置信度1-=0.9545例 某保險公司從投保人中隨機抽取36人,計算出此36人平均年齡為39.5歲,已知投保

12、人年齡近似正態分布,標準差7.2歲,試以99%的可靠度求所有投保人平均年齡的置信區間。如果將可靠度降低到95%的水平呢?解:求所有投保人平均年齡的置信區間。現有一個點估計量在點估計量基礎上,構造投保人平均年齡的置信區間關鍵是置信區間的寬度是多少。置信區間寬度取決于置信度和抽樣平均誤差:根據置信度查表得到在99%的置信度下,投保人年齡總體均值的置信區間為: (39.5-3.1, 39.5+3.1)36.442.6置信度95%,Z/2=1.96, =1.96*1.2=2.35, 置信區間(37.2,41.9)3、假設檢驗采用邏輯上的反證法先認為假設為真,觀察在此前提下所抽到樣本的出現是否合理。若合

13、理則判斷假設可接受,反之拒絕假設。判斷是否合理的依據統計上的小概率原理(即這里的反證法是基于一定概率的反證法)。 假設檢驗的步驟提出原假設和備擇假設:收集樣本數據,確定適當的檢驗統計量及其分布規定顯著性水平,確定拒絕域和接受域計算檢驗統計量的值作出統計決策假設的三種形式:Z臨界點Z/2接受域-Z/2ZZ/2Z臨界點-Z拒絕域Z -ZZ臨界點Z拒絕域ZZ接受域Z Z在原假設為真的前提下,出現觀察到的樣本以及更極端樣本的概率。P值(P-value):拒絕原假設的最小顯著性水平。如果檢驗的統計量為t,c是從樣本得到的統計量的值。左側檢驗時,P值= ptc右側檢驗時,P值= ptc雙側檢驗中,P值=單側P值的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論