應用統計分析_第1頁
應用統計分析_第2頁
應用統計分析_第3頁
已閱讀5頁,還剩12頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、應用統計分析局部第一章:抽樣分布與設計一、抽樣分布1、抽樣的特點抽樣的目的是用被抽取局部個體所求得的數值推斷總體的數量特征。其中,抽取局部個體稱為總體的一個樣本 。特別樣本個數就是樣本容量;樣本取值就是樣本觀察值。抽樣是對所研究的總體,按照隨機原那么抽取局部個體進行的調查。 抽樣的特點:隨機原那么:每個元素或個體有同等抽中的時機具有代表性 推斷總體特征:樣本的數值特征總體數量特征。推斷的精確性:把推斷的誤差控制在一定的精確度內可靠性要求2、樣本平均數的分布正態總體分布: 如果從正態分布總體 N,;2 中隨機抽取樣本,那么樣本平均數X的分布具有如下性質:a:樣本的平均數x的分布也是正態分布。b:

2、樣本的平均數X的平均數Jx等于總體的平均數c:當從無限總體抽樣或從有限總體采用放回抽樣時,樣本平均數X 分布的方差 鳥2CT 2等于總體的方差除以樣本容量。即:.X =n特別:當從有限總體不放回抽樣時,樣本平均數X分布方差為:22N -1;簡記(1-N)總結:樣本平均數服從正態分布: Xn,- 2X分布性質那么由中心極限定理非正態總體分布: 如果總體不服從正態分布時,樣本平均數 來解釋如下:2a:只要數學期望 "和方差二 存在,從總體中隨機相互獨立抽取n個樣本,那么樣本平均數X二1: Xi是隨機變量;n b :當n夠大一般n>30時,那么XN ,:X c:特別總體服從二點分布p

3、x=i=p ,px=0=1-p時,那么期望p方差p1-p故放回抽樣時NP ,匹巴;不放回抽樣時NP , 1-丄巴上巴。nN n樣本平均數之差的分布:如果總體1: XNS,2,抽 m個樣本,Xi4 y如果總體2: YN2,/,抽n2個樣本,y二丄v Yin2 722J2, 樣本平均數i組:xi2)nin2抽樣設計簡單隨機抽樣: 總體全部編號事前編好隨機數據表"'標簽混合用手隨機模取抽樣2、類型抽樣分層抽樣或分類抽樣:總體按特征標志分組L:、組1 隨機抽樣組k 一機抽樣分配原那么:等數;等比例;最優設:總體為N總體樣本為n;分成等數:nr=n2= .= nk=kk組,第i組包含N

4、 i個單位,樣本為nj等比例:ni二Nin2N2njNi二 n -N最優:標志變動程度為;i,ni樣本數ninNj ;i7 Xj上 (i =1,2.k.);總體:x樣本平均數總體方差全樣本平均數的方差礙是各類型方差的加權綜合樣本平均數i組方差:21 k N2、2xi2Ni i# ni3、整群抽樣:總體(按標志分成假設干群)隨機抽取r個群樣本總體分為R個群,每群含為個單位。設Xj為第i個群中的第j個單位的標志值。i群平均數:總體平均數:總體方差:1 mXiXiji=1, 2,rm jr mr二工 XijXiij 4y rmr22二X(Xi -X) /R樣本平均數的群間方差其中,Xi為總體各群的平

5、均數;2 2X為總體的總平均數樣本萬差:、X =為(Xi -X) /r樣本的群間方差其中,Xi為抽樣各群的樣本平均數;X為抽樣各群全體樣本的平均數莊2 r _ r整群不放回抽樣樣本平均數的方差 :二I =( )r R -1注:等距抽樣;多階段抽樣;雙相抽樣;穿插抽樣(略)。第二章:參數估計與假設檢驗一、參數估計問題隨機變量特征(概率分布;均值;方差)如何? 解決方式:根據樣本來估計所要的 信息;具體思路:用樣本統計量估計總體參數。1參數點估計量優劣的判別準那么和常用的估計量點估計:用樣本統計量估計總體參數一個明確的估計值準那么:無偏性-令/為被估計參數; 紅為二的無偏估計量;那么 E (訶&q

6、uot;一致性:樣本容量越大,估計量的值越接近于被估計總體參數有效性:E(?)=日,E&2)=日,如果函的方差比 覓的方差小,那么 閔比碼有效常用估計量:1 n 用樣本的平均數X二丄 xi估計總體平均數 J,即卩E(X) = Jn i =i1 n 用樣本方差s2 = 二(xi - x)2和標準差s估計總體方差匚2和標準差匚即n T i#E(s2) =;" = E(X 一 E(x) f) = E(x2) 一 E(x) 2 ; E(s)=;a 用樣本中具有某特征單位的比例0=估計總體比率p,即E(?)=pn2、參數區間估計問題區間估計:用樣本估計總體參數可能取值的區間(給出了點估

7、計可靠性的一種描述,是點估計的補充)選擇兩個統計量 二1和二2 估計 P(v1vrvr 2) = 1< (事先給定的正數)| >E($)=日,E()=日且日1<日2,日1,日2稱為置信水平為1口的置信區間;1 - a置信概率(置信水平或置信系數);實有意義:有100 (1八)%把握斷定在廣1,二2內。(1)總體平均數的區間估計假設:總體服從正態分布 N (巴2);隨機變量X的概率密度函數:1_0嚴f(x)= 2b ;記作:X N (巴 CT 2 ) J2“如果令:Z = X"(統計量)CT那么 E( Z)= E( = )= E(X" l = 0CTCT-E

8、(=)CJ4)2 )rX -"D (z) = E(Z -E(Z)2 = E -A E ( X _亠)2=1所以:ZN (0,1)標準正態分布f(x)=屮2兀¥e2分布函數2dx2(-x) =1- Q (x), P(a<zw b)=P(Z < b)-P(Z < a) 第一種情況:樣本取自總體方差(即 二)的正態分布, 計對總體期望值卩的區間估:總體隨機變量 XN®,匚2),那么X N(卩,:二2/n),其中2/n“(放回),那么 ZN(0,1)令:Z =5-x查正態分布表:P| Z M =P (- r w Z w r) =2 (r) -1如果令 P

9、 (| Z |w r)= 0.955貝U (r)= 0.9775(標準正態表得:r = 2)即 P (-2wxw 2) =0.955也就是:P 卩一2、岷wx w才2、;x= 0.955 x值落在總體平均數正負兩個標 準差之內的概率為 95.5%可得 P x 2、, wx + 2= 0.955對的一個區間估計總體平均數有95.5%的可能性位于樣本平均數的正負兩個標準差之內一般令:P | Z | _ Z-.=鳥,0 v : <1 2那么P|Z|EZ空稱為概率密度=1 - : , (0 v : <1 ),一般:=0.05 或 0.01置信水平估計量的標準差與概率度的乘積故卩的區間估計般

10、記為:x ± L或x ± ZT2 x2. n放回稱為置信區間有100 1- a %的把握說明總體平均卩例:P|Z|玉2> =0.99PZZ:2=0.995Z1=2.5815-2.58 6 w w 15+2.586寸36V3612.42W 卩 w 17.58第二種情況:樣本取自總體方差 二的非正態分布中心極限定理n> 30例:P|Z 戶 Zq 1 = 0.95 1=>=0.975 =Z 二=1.96第三種情況:x = (3 未知)- n估計計='用樣本標準差OS估計總體標準差即:6 x的估計值為X _ » 令:Z = x 一 為變量6 /

11、J nxP_ x4_引進新變量t=x =-X(討論t值的概率度;t的自由度為n-1)SxS/.n的區間估計一般計為:X_t 一.S/、n (總體分布對正態總體偏離不大時)2例:P175 (例 8.3):S= 0.08 ; n=16;X =1 求解 95%的置信區間(a =0.05 a /2=0.025)求解:查自由度 n-1=15的t分布(n個樣本知道X僅有n-1是獨立的)得: t -.(n-1)= t0.025(15) =2.132(2)正態總體方差的區間估計方差.-構造統計量 0 =(n1)S2/ §d證明(衡量變量偏離總體平均數的尺度)*在正態分布的條件下,02 (n-1) (

12、n-1為自由度)2分布的形狀由自度確定,它是非對稱的。當自由度為n時,概率度為2.(n)時 2(n)2 :(n) ?= a給定置信水平 1八:計算- (n - 1)s2 /二2,查2 (n - 1)找出 二./2 ;2/2使得:P: 2(n-1K 2/爲匚2; P25-1)二/2心)二二-(n -1)s2/;2 的 100(1-a )%的置信區間為2q<(n-1)S2/;二 2< 冷即:P( 21于 <(n-1)S2/;2<冷)=1- a(» 宀(n-1) S2212所以:標準差=1- a2心2-的100(1- a )%的置信區間為:(n -1)S221_:-

13、2查:/2 =0.025 , n=14 得:1/2(1426.119 ;21_./2(14) =5.629(n -1)S2,22 .例 P181(例 8.7):求 95%的置信區間:a =0.05, n=14故 19.45 二290.26、假設檢驗問題總體參數的假設 '原假設零假設記作H。替代假設備擇假設記作Hi要求原假設和替代假設相互獨立性。即H。真實=Hi不真實;或:Hi真實=Ho不真實;也就是講:否認Ho接受Hi;或否認Hi接受Ho假設的類型:i: Ho:卩=0; Hi :訐雙邊檢驗* 2: Ho:卩3比;Hi :卩oi單邊檢驗3: Ho: 蘭Mo; Hi :中單邊檢驗假設檢驗:

14、以樣本為依據構造適宜的檢驗統計量分析樣本統計值與參數假設值的差 .距就是原假設的顯著性檢驗檢驗統計量=樣本統計量-被假設的參數統計量的標準差結論:差距大假設值的真實性小差距小假設值的真實性大例:Z= X-,標準正態分布統計量6/JnX -t= t分布的統計量S/、n假設檢驗的步驟: 根據題意提出原假設H。和備擇假設Hi 選擇顯著性水平 a o.o5和o.oi 選擇檢驗統計量及其分布 根據顯著性水平確定統計量的否認域或臨界值注意是雙邊還是單邊檢驗 根據樣本數據計算統計量的數值并作出推斷:如果統計量的值落在否認域內=否認原假設如果統計量的值落在接受域內=差異不顯著接受原假設1總體平均數的假設檢驗:

15、假設:Ho: 1 = o;Hi: i式由雙邊檢驗例:方差:o' = 5o,n=25, X =7o ,a =o.o5 ,po=9oX-卩7o9。檢驗:Z=廠一=2坊/Jn5o/5構造!充計量P 1 Z | 込=a,Zo.o5 =i.96;Z o.o5 =-i.96222Z 芒-i.96, i.96否認原假設假設:Ho:Hi:Mo單邊檢驗例 Pi9o 例 8.ii2、總體方差的假設檢驗例 198 例 8.17第三章:回歸相關分析為了研究分析各種經濟現象, 就需要尋找能說明這些經濟現象的各種經濟變量, 這些變量之間的因果關系,探索這些變量之間的數量變化規律。這就是回歸相關分析 一、建立回歸分

16、析模型的步驟:理論模型設計 選擇模型中將包含的變量 選擇某變量作為經濟系統的的變量。 按照經濟行為理論和樣本數據顯示出變量之間關系 關系的數學表述式。 擬定模型中待估參數的符號及其大小的理論期望值范圍。樣本數據的收集 常用的樣本數據:時間序列數據,截面數據,虛變量數據政策變量取值: 選擇樣本數據的出發點:可得性和可用性。 樣本數據的質量:實整性,準確性,可比性數據的口徑問題和一致性樣本和母體必 須一致。模型參數的估計樣本數據估計整體參數的具體取值。模型檢驗 經濟意義檢驗 模型參數估計值的可靠性檢驗R2-擬合優度檢驗,t-變量顯著性檢驗;F-方程顯著性檢驗 應用檢驗樣本容量變化的靈敏度分析進行穩

17、定性檢驗,精度檢驗,預測能力檢驗、多元回歸分析模型綜述:1、理論模型設定: Y =場+ 2X2+ 3X3+似Xk+ £ 其中,丫為被解釋變量果;3l ,滋.k待估的參數未知參數X1 , X2, X3.Xk 為解釋變量因;名為隨機擾動項 抽取樣本代入設定模型得:樣本容量:1、2、3、4、n>30(最低:3并確定“果,正確地選擇作為“因Yi= 3l + 役X2i+ 03X3i+ 3kXki+ £ n>3k 或 n>k)=構造描述變量之間0和1i = 1,2,nX=11X 21X 22X31X32Xk1Xk2X 2n X 3nXkn那么樣本模2.根本假設(1)

18、隨機性:&為隨機變量(2) 零均值:E(£ )=02 2同方差:=7(總體方差) 無序列相關性:COV(£i, j)=0(解釋變量相互獨立)n協方差:COV(X,Y)八 Pi(Xi -X)(yy)pi為(Xi y)出現的概率i 4相關系數:CORR(x,y)= C0V(X, y)冠x,云yXji與q不相關:解釋變量Xj (j=2,k在反復隨機抽樣中是選定的變量,故矩陣X的階數不變Xji之間不相關:即秩(X)=k<n 正態性:iN(O,劃.f yN(E(yi), 2U)即E(Y i)=供32X2i+ 3X3i+ %Xki樣本回歸超平面3、多元回歸分析的參數估計(

19、O L S(0rdinary least square)(1)參數B的最小二乘法估計令:?是參數B的估計量;?是Y的估計量。得:? = X ?選擇參數 ?的估計方法:估計值 ?與實際值y之間的殘差,在所有樣本點上差值的平方 和最小。即令:ei =% ?(i= 1,2,3,n)得:e=y-X 俘<en丿<Ynl?nn要求:w=、e2=e e= (y-X ?) ' -(y ?)最小i =4-:W:?(y x?) (y x?)(y - ?x ) (y-x ?)(yy - ?xy _ yx? ?xx?):?(yy -2?xy ?xx?=_2xy 2xx?令 a = o= i? =X

20、 X' x y ?具有以下性質:i)線性性:?表示被解釋變量樣本值的線性組合2 )無偏性:E(?j)j3)最正確性:在 訂的一切線性無偏估計中?j方差最小2(2)參數.一.的最小二乘估計e = y 一 ? = x ; - x(x x) ' x (x,亠)=I -x(xx)'x L令:m= I - x(x x)x 丨; 得 m 二 m2 = m所以:ee=.;:m;E(ee) = 3詁rm = &計rI 一sx(xx)n-k)其中,rm表示矩陣m主對角線元素之和那么:/-迪一 n _ k令:? I.為!的方差估計量,那么、?:=ee/n k4、模型檢驗擬合優度檢驗

21、(R2檢驗):檢驗樣本回歸超平面與變量觀測值的樣本點接近的程度。n、Y?-Y22 i三R =2為Y -Yi =1t檢驗:檢驗變量Xji(j=1,2,k)解釋能力的強弱等價于對假設(? = 0進行檢驗。其中:R2為似合優度系數,分子為回歸平方和,分母為總平方和。構造t統計量:?jeeCjjn-k其中,Cjj為矩陣(XX)'主對角線上的元素,n-k為殘差Y -Y?平方和的自由度,即t統計量服從自由度為 n-k的t分布。假設:原假設 H 0 : S = 0 ,替代假設H“ : X = 0在給定顯著性水平:的情況下檢驗步驟第一步:計算不同三的上統計量,記為t ?j ,j=2,3,k第二步:根據

22、:和自由度n-k,查出臨界值t-.n - k第三步:作推斷:假設%"黑n- k干 A 在顯著性水平o上拒絕Ho ,即最 小二乘估計 ?j在統計上是可靠的Xjj對Y的影響是顯著的。nx (Y? -Y)2/(k -1)n' e2 /(n -k)i =1R2. n -k1-R2k -1F檢驗:檢驗全部解釋變量對被解釋變量的聯合影響是否顯著。假設:H。: :2 = :3 = : k = 0, H1 : :2 = 0, : k = 0構造F統計量:F服從自由度為k-1,n-k 的F分布。 檢驗步驟:計算F統計量記為F "以樣本數據以值查出臨界值F:.k -1, n -k 作推

23、斷:假設 F F:.k-1, n- k I二,在顯著性水平:上拒絕H。獲得全部解釋變量的聯合影響是顯著的。 D.W 檢驗:檢驗隨機項;是否具有一階自回歸形式的序列相關即上期對下期數據 有直接影響。構造D.W統計量:2 e_enD W 7 (eii -2(1)(2)(3)n'e2_ i 2注:n較大時,2 ei 二n存在完全一階正相關:即存在完全一階負相關:完全不相關:檢驗步驟:計算D W的統計量記為以和解釋變量個數,查作推斷:假設:大致相等L ei ei _1i=2n、e2i 4n二.e ei =2 &n 2eiidnej ej _j i -2n' e2i呂-1D W分

24、布表,得臨界值di 和 dv0 : D : dv存在正自相關dl : D W - dv不能確定dv : D W : 4 dv無自相關4 -dv < DW4 - di 不能確定4 - di DW4 存在負自相關注:對于利用滯后被解釋變量作解釋變量的模型檢驗失效D AN 值在2左右無需查檢驗表。三、具體應用舉例:例如,對于一個具有三個解釋變量的線性經濟計量模型,樣本容量n=25,應用OLS估計參數,顯示結果如下:Y=0.4150+0.4243X i+0.0184X 2+0.5212X 3t=8.0t=1.4t=1.92R =0.94F=1251.4 D W=1.41對顯示的結果進行判斷:1R

25、2=0.94,說明回歸方程具有良好的擬合優度2顯著性水平=0.01,查 F 分布表得臨界值 Fo.o13,21=4.87,而 F=1251.4>>4.87, 說明該方程在99%的顯著水平下仍是顯著成立的。3顯著性水平a =0.05,查t分布表得臨界值 “2521=2.080,顯然腳|=8>2.080 ;|t2|=1.4<2.080;|t3|=1.9<2.080,這說明解釋變量 X1在95%的概率水平下顯著;X,X3那么在該概率水平下不顯著。顯著性水平a =0.10,查t分布表得臨界值t°.0521=1.721,顯然|t3|=1.9>1.721,說明

26、解釋 變量X3在90%的概率水平下顯著。顯著性水平-rO.20,查t分布表得臨界值t0.1021=1.323,顯然|t2|=1.4>1.323,說明解釋 變量X2在80%的概率水平下顯著。由此可見,決定是否剔除某個解釋變量需持慎重態度,在該模型中,三個解釋變量都可以保存。4 顯著性水平二=0.05,查 D *W 分布表得:d1=1.12,dv=1.66 而 di< D *W=1.41<d v, 根據檢驗,在95%的概率水平下,不能判斷模型的自相關狀態。第四章:模擬分析問題:線性規劃動態規劃【都假設所有數據是事先確定的的,不包含概率因素網絡理論的。實際情況很少有符合分析模型的假

27、設,環境不確定性離散決策i和復雜性,使現實中這些現象極為少見。模擬:可以解決問題不滿足分析建模的標準方法所規定的假設模擬的定義:是建立系統或決策問題的數學或邏輯模型,并以該模型進行試檢,以獲得對 系統行為的認識或幫助解決決策問題的過程。定義中的兩個要素:一是模型:它將問題或系統的任何適當假設模型化模型是對實際系統思想或客體的抽象描述;二是模擬:用模型進行試驗并分析結果。模型的不同分類:模型分類l 規定型模型:它決定著最優策略或最正確行動過程|描述型模型:直接描述關系和提供評價信息,它用于解釋系統行為,預測輸入規劃過程的未來事件,并幫助決策者選擇滿意方案和系統設計確定性:數據或假設模型分類:Y概

28、率型:數據由概率分布決定模型分類:離散型:變量隨時間跳躍的變動連續型:變量隨時間連續的變動模擬模型的類型:蒙特卡洛模擬模型(Monte Carlo simulatio n)" 系統模擬模型(System simulation)蒙特卡洛模擬模型:根本上是抽樣試驗,其目的是估計以假設干概率輸入變量而獲得結果變量 的分布。它常被用于估計謀略變動的預期影響和決策所涉風險。例:Monte Carlo VAR 模擬法Monte Carlo模擬法是基于歷史數據或既定分布的條件下的參數特征,借助 隨機數產生的模擬方法模擬出大量的資產組合收益的數值,然后構造資產組合收 益的經驗分布函數,通過對經驗分布函數的逆變換可求得VAR值。假定丫是絕對連續累積分布函數的隨機變量,對于0<q<1,令Yq表示唯一的值,使得:Fy(yq)=P 丫一yq,= q即就是:Yq是丫的分位點。當Fy連續時,Yq=F-1(q)即Yq的統計量通過對 隨機變量Y的經驗分布的逆變換求得。假定Y1, 丫2,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論