




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.天馬行空官方博客: ;QQ:1318241189;QQ群:175569632應用統計分析部分第一章:抽樣分布與設計一、抽樣分布1、抽樣的特點抽樣的目的是用被抽取部分個體所求得的數值推斷總體的數量特征。其中,抽取部分個體稱為總體的一個樣本 。特別樣本個數就是樣本容量;樣本取值就是樣本觀察值。抽樣是對所研究的總體,按照隨機原則抽取部分個體進行的調查。抽樣的特點:隨機原則:每個元素(或個體)有同等抽中的機會(具有代表性) 推斷總體特征:樣本的數值特征推斷總體數量特征。 推斷的精確性:把推斷的誤差控制在一定的精確度內(可靠性要求)2、樣本平均數的分布正態總體分布:如果從正態分布總體N(,)中隨機抽取
2、樣本,則樣本平均數的分布具有如下性質:a:樣本的平均數的分布也是正態分布。b:樣本的平均數的平均數等于總體的平均數c: 當從無限總體抽樣(或從有限總體采用放回抽樣)時,樣本平均數分布的方差等于總體的方差除以樣本容量。即特別:當從有限總體不放回抽樣時,樣本平均數分布方差為:();簡記(1-)總結:樣本平均數服從正態分布:N(,)非正態總體分布:如果總體不服從正態分布時,樣本平均數分布性質則由中心極限定理來解釋如下:a:只要數學期望和方差存在,從總體中隨機相互獨立抽取n個樣本,則樣本平均數是隨機變量;b:當n夠大 (一般n>30) 時,則N(,)c:特別總體服從二點分布p(x=i)=p,p(
3、x=0)=1-p時,則期望p方差p(1-p) 故放回抽樣時,);不放回抽樣時,(1-)。樣本平均數之差的分布:如果總體1:X,抽n1個樣本,如果總體2:Y,抽n2個樣本,則二、抽樣設計1、 簡單隨機抽樣: 事前編好隨機數據表總體(全部編號) 標簽(混合) 用手隨機模取 抽樣 搖號機2、 類型抽樣(分層抽樣或分類抽樣):總體(按特征標志分組) 組1 隨機抽樣 組k 隨機抽樣分配原則:等數;等比例;最優設:總體為N(總體樣本為n) ;分成k 組,第i組包含Ni個單位,樣本為ni 等數:n1=n2=.= nk=等比例:;樣本數最優:標志變動程度為,樣本數樣本平均數i組:; 總體:樣本平均數總體方差:
4、全樣本平均數的方差是各類型方差的加權綜合樣本平均數i組方差:是第i組內資料的方差,取各類型樣本方差的加權數綜合3、 整群抽樣:總體(按標志分成若干群)隨機抽取r個群樣本總體分為R個群,每群含為M個單位。設為第i個群中的第j個單位的標志值。i群平均數: i=1,2,r總體平均數:總體方差: 樣本平均數的群間方差其中,為總體各群的平均數;為總體的總平均數樣本方差: 樣本的群間方差其中,為抽樣各群的樣本平均數;為抽樣各群全體樣本的平均數整群不放回抽樣樣本平均數的方差:注:等距抽樣;多階段抽樣;雙相抽樣;穿插抽樣(略)。第二章:參數估計與假設檢驗一、參數估計問題隨機變量特征(概率分布;均值;方差) 如
5、何? 解決方式:根據樣本來估計所要的信息;具體思路:用樣本統計量估計總體參數。1、參數點估計量優劣的判別準則和常用的估計量點估計:用樣本統計量估計總體參數一個明確的估計值準則:無偏性-令為被估計參數;為的無偏估計量;則 一致性:樣本容量越大,估計量的值越接近于被估計總體參數 有效性:,如果的方差比的方差小,則比有效常用估計量: 用樣本的平均數估計總體平均數,即 用樣本方差和標準差s估計總體方差和標準差即; 用樣本中具有某特征單位的比例估計總體比率p,即2、參數區間估計問題 區間估計:用樣本估計總體參數可能取值的區間(給出了點估計可靠性的一種描述,是點估計的補充)選擇兩個統計量1和2估計P(11
6、-(事先給定的正數),且1<2,1,2 稱為置信水平為1的置信區間;1置信概率(置信水平或置信系數);實有意義:有100(1-)%把握斷定在1,2內。(1) 總體平均數的區間估計假設:總體服從正態分布N() ; 隨機變量X的概率密度函數:f(x)= ;記作:xN()如果令:Z(統計量)則E(Z)E()0D(Z)EE()E(=1所以:ZN(0,1)標準正態分布 密度函數f(x)= 分布函數(x)=(-x)=1-(x), P(azb)=P(Zb)-P(Za)第一種情況:樣本取自總體方差已知(即已知)的正態分布,對總體期望值的區間估計已知:總體隨機變量XN(, 2),則N(, 2/n) ,其中
7、;2/n(放回)令:Z,則ZN(0,1)查正態分布表:PZr=P(rZr)=2(r)-1如果令P(Zr)0.955 則(r)0.9775(標準正態表得:r 2)即P(22)=0.955也就是:P(22)0.955(值落在總體平均數正負兩個標準差之內的概率為95.5%)可得P(22)0.955對的一個區間估計(總體平均數有95.5%的可能性位于樣本平均數的正負兩個標準差之內)一般令:P(Z),(0<1則P1,(0<1,一般=0.05或0.01稱為概率密度置信水平估計量的標準差與概率度的乘積故的區間估計一般記為:±或± (放回)±稱為置信區間(有100(1
8、)%的把握說明總體平均值在這個區間內例:P0.99P0.9952.58 152.5815+2.5812.4217.58第二種情況:樣本取自總體方差已知(已知)的非正態分布(中心極限定理n30)例:P0.95P0.9751.96第三種情況:(未知)用樣本標準差S估計總體標準差(即:的估計值為)令:Z為變量引進新變量t= (討論t值的概率度;t的自由度為n-1)的區間估計一般計為:(總體分布對正態總體偏離不大時)例:P175(例8.3)已知:S0.08;n=16; =1 求解95%的置信區間(=0.05;/2=0.025) 求解:查自由度n-1=15的t分布(n個樣本知道僅有n-1是獨立的)得:(
9、n-1)=2.13(2)正態總體方差的區間估計 方差 構造統計量=(n-1)S2/2 證明 (衡量變量偏離總體平均數的尺度) 在正態分布的條件下,(n-1) (n-1為自由度) 分布的形狀由自度確定,它是非對稱的。當自由度為n 時,概率度為 時 P=給定置信水平1-:計算,查找出;使得:; 的100(1-)%的置信區間為<(n-1)S2/2<即:P(<(n-1)S2/2<)=1- P=1-所以:標準差的100(1-)% 的置信區間為:<<例P181(例8.7) :求95%的置信區間:=0.05 ,n=14查,n=14得:;故二、假設檢驗問題總體參數的假設 原
10、假設(零假設)記作H0 替代假設(備擇假設)記作H1要求原假設和替代假設相互獨立性。即H0真實H1不真實;或:H1真實H0不真實;也就是講:否定H0接受H1;或否定H1接受H0假設的類型: 1):H0:=0;H1 :0 雙邊檢驗 2):H0:0;H1 :<0 單邊檢驗 3):H0:0;H1 :>0 單邊檢驗假設檢驗:以樣本為依據構造合適的檢驗統計量分析樣本統計值與參數假設值的差距就是原假設的顯著性檢驗 檢驗統計量= 樣本統計量-被假設的參數 統計量的標準差 結論:差距大 假設值的真實性小 差距小 假設值的真實性大例:Z=(標準正態分布統計量)t= (t分布的統計量)假設檢驗的步驟:
11、根據題意提出原假設H0和備擇假設H1選擇顯著性水平(0.05和0.01)選擇檢驗統計量及其分布根據顯著性水平確定統計量的否定域或臨界值(注意是雙邊還是單邊檢驗)根據樣本數據計算統計量的數值并作出推斷:如果統計量的值落在否定域內否定原假設如果統計量的值落在接受域內差異不顯著(接受原假設)1、總體平均數的假設檢驗:假設:H0:=0;H1:0 雙邊檢驗例:已知方差:50,n=25,=70 , =0.05 , 0=90檢驗:Z2 構造統計量P(Z)= , =1.96 ; =-1.96Z(-1.96, 1.96) 否定原假設假設:H0:0;H1:0 單邊檢驗例P190(例8.11)2、 總體方差的假設檢
12、驗例198(例8.17)第三章:回歸相關分析為了研究分析各種經濟現象,就需要尋找能說明這些經濟現象的各種經濟變量,并確定這些變量之間的因果關系,探索這些變量之間的數量變化規律。這就是回歸相關分析一、建立回歸分析模型的步驟:1、理論模型設計選擇模型中將包含的變量(選擇某變量作為經濟系統的“果” ,正確地選擇作為“因”的變量)。 按照經濟行為理論和樣本數據顯示出變量之間關系構造描述變量之間關系的數學表述式。 擬定模型中待估參數的符號及其大小的理論期望值范圍。2、樣本數據的收集常用的樣本數據:時間序列數據,截面數據,虛變量數據(政策變量取值:0和1)選擇樣本數據的出發點:可得性和可用性。樣本數據的質
13、量:實整性,準確性,可比性(數據的口徑問題)和一致性(樣本和母體必須一致。3、模型參數的估計樣本數據估計整體參數的具體取值。4、模型檢驗經濟意義檢驗模型參數估計值的可靠性檢驗(R2擬合優度檢驗,t變量顯著性檢驗;F-方程顯著性檢驗)應用檢驗(樣本容量變化的靈敏度分析進行穩定性檢驗,精度檢驗,預測能力檢驗)二、多元回歸分析模型綜述:1、 理論模型設定:Y12x2+3x3+kxk+其中,Y為被解釋變量(果);1,2. k待估的參數(未知參數) ;x1, x2, x3.xk為解釋變量(因);為隨機擾動項抽取樣本代入設定模型得:Yi12x2i+3x3i+kxki+ii1,2,,n 樣本容量 : n&g
14、t;30(最低:n>3k或n>k)如果,令Y= Y1 = 1 = 1 X= 1 X 21 X31 Xk1Y2 2 2 1 X 22 X32 Xk2 . Yn k n 1 X 2n X 3n Xkn 則樣本模型:Y=X+2.基本假設(1) 隨機性: 為隨機變量(2) 零均值: E()=0(3) 同方差: (總體方差)(4) 無序列相關性:COV(i,j)=0 (解釋變量相互獨立) 協方差 :COV(X,Y)= pi 為(xi ,yi)出現的概率 相關系數: CORR(x,y)=(5) Xji與i不相關:解釋變量Xj (j=2,k) 在反復隨機抽樣中是選定的變量,故矩陣X的階數不變.(
15、6) Xji 之間不相關:即秩(X)=k<n(7) 正態性: iN(0, 2u) . yiN(E(yi), 2u)即E(Yi) =12x2i+3x3i+kxki 樣本回歸超平面3、多元回歸分析的參數估計(O L S(Ordinary least square)(1) 參數的最小二乘法估計令:是參數的估計量;是Y的估計量。得:選擇參數的估計方法:估計值與實際值y之間的殘差,在所有樣本點上差值的平方和最小。即令:(i= 1,2,3,n)得:e=-=y-X要求:w=e= (y-X) (y-X)最小()(y-x) = = =令0具有以下性質:1)線性性:表示被解釋變量樣本值的線性組合2)無偏性:
16、3)最正確性:在的一切線性無偏估計中方差最小(2)參數的最小二乘估計 =令:m=; 得所以:其中,表示矩陣m主對角線元素之和則:令:為的方差估計量,則=4、模型檢驗擬合優度檢驗(R2檢驗) :檢驗樣本回歸超平面與變量觀測值的樣本點接近的程度。 其中:為似合優度系數,分子為回歸平方和,分母為總平方和。 t檢驗:檢驗變量(j=1,2,k)解釋能力的強弱等價于對假設進行檢驗。構造t統計量: 其中,為矩陣(主對角線上的元素,n-k為殘差平方和的自由度,即t統計量服從自由度為n-k的t分布。 假設:原假設,替代假設在給定顯著性水平的情況下檢驗步驟 第一步:計算不同統計量,記為,j=2,3,k 第二步:根
17、據和自由度(n-k),查出臨界值 第三步:作推斷:若干 在顯著性水平上拒絕H0 ,即最小二乘估計在統計上是可靠的(對的影響是顯著的)。 F檢驗:檢驗全部解釋變量對被解釋變量的聯合影響是否顯著。 假設:構造F統計量: F服從自由度為(k-1,n-k)的F分布。 檢驗步驟: 計算F統計量記為(以樣本數據) 以值查出臨界值 作推斷:若 在顯著性水平上拒絕H0獲得全部解釋變量的聯合影響是顯著的。 D.W檢驗:檢驗隨機項是否具有一階自回歸形式的序列相關(即上期對下期數據有直接影響)。 構造D.W統計量: 注:n較大時, (1)存在完全一階正相關:即 (2)存在完全一階負相關: (3)完全不相關: 檢驗步
18、驟: 計算的統計量記為以和解釋變量個數,查分布表,得臨界值作推斷:若: 注:對于利用滯后被解釋變量作解釋變量的模型(檢驗失效) 值在2左右無需查檢驗表。三、具體應用舉例:例如,對于一個具有三個解釋變量的線性經濟計量模型,樣本容量n=25,應用OLS估計參數,顯示結果如下:Y=0.4150+0.4243X1+0.0184X2+0.5212X3(t=8.0) (t=1.4) (t=1.9)R2=0.94 F=1251.4 DW=1.41對顯示的結果進行判斷:(1) R2=0.94,說明回歸方程具有良好的擬合優度(2) 顯著性水平,查F分布表得臨界值F0.01(3,21)=4.87,而F=1251.
19、4>>4.87,說明該方程在99%的顯著水平下仍是顯著成立的。(3) 顯著性水平,查t分布表得臨界值t0.025(21)=2.080,顯然|t1|=8>2.080;|t2|=1.4<2.080;|t3|=1.9<2.080,這說明解釋變量X1在95%的概率水平下顯著;X2,X3則在該概率水平下不顯著。顯著性水平,查t分布表得臨界值t0.05(21)=1.721,顯然|t3|=1.9>1.721,說明解釋變量X3在90%的概率水平下顯著。顯著性水平,查t分布表得臨界值t0.10(21)=1.323,顯然|t2|=1.4>1.323,說明解釋變量X2在80
20、%的概率水平下顯著。由此可見,決定是否剔除某個解釋變量需持慎重態度,在該模型中,三個解釋變量都可以保留。(4)顯著性水平,查DW分布表得:d1=1.12,dv=1.66而dl< DW=1.41<dv,根據檢驗,在95%的概率水平下,不能判斷模型的自相關狀態。第四章:模擬分析問題:線性規劃動態規劃都假設所有數據是事先確定的已知的,不包含概率因素網絡理論的。實際情況很少有符合分析模型的假設,環境不確定性離散決策和復雜性,使現實中這些現象極為少見。模擬:可以解決問題( 不滿足分析建模的標準方法所規定的假設)模擬的定義:是建立系統或決策問題的數學(或邏輯)模型,并以該模型進行試檢,以獲得對
21、系統行為的認識或幫助解決決策問題的過程。定義中的兩個要素:一是模型:它將問題或系統的任何適當假設模型化(模型是對實際系統思想或客體的抽象描述);二是模擬:用模型進行試驗并分析結果。模型的不同分類:模型分類:規定型模型:它決定著最優策略或最正確行動過程 描述型模型:直接描述關系和提供評價信息,它用于解釋系統行為,預測輸入規劃過程的未來事件,并幫助決策者選擇滿意方案和系統設計 確定性:(數據已知或假設已知)模型分類: 概率型:(數據由概率分布決定)模型分類:離散型:變量隨時間跳躍的變動連續型:變量隨時間連續的變動模擬模型的類型:蒙特卡洛模擬模型(Monte Carlo simulation)系統模
22、擬模型(System simulation)蒙特卡洛模擬模型:基本上是抽樣試驗,其目的是估計以若干概率輸入變量而獲得結果變量的分布。它常被用于估計策略變動的預期影響和決策所涉風險。例:Monte Carlo VAR模擬法Monte Carlo模擬法是基于歷史數據或既定分布的條件下的參數特征,借助隨機數產生的模擬方法模擬出大量的資產組合收益的數值,然后構造資產組合收益的經驗分布函數,通過對經驗分布函數的逆變換可求得VAR值。假定Y是絕對連續累積分布函數的隨機變量,對于0<q<1,令Yq表示唯一的值,使得:即就是:Yq是Y的分位點。當Fy連續時, 即Yq的統計量通過對隨機變量Y的經驗分布的逆變換求得。假定Y1,Y2,Yn是隨機變量Y的n個獨立同分布的觀察變量,則Y的經驗分布為:其中:故標準的統計量: 結論:分位點Yq的估計有兩種方法 構造隨機變量Y的累積經驗分布,然后通過對隨機變量Y的經驗分布
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作中如何提高專注力和時間利用率
- 工業自動化技術的前沿進展
- 工業自動化技術的發展及市場應用
- 工作中的決策能力與執行力培養
- 工業設備能效優化策略
- 工業領域安全防護系統設計
- 工作繁忙人士的健康膳食建議
- 工作流程優化及資源管理方法
- 工廠設備選型與采購策略培訓
- 工程測量中的遙感技術應用分析
- 黨課課件含講稿:“違規吃喝”專題解讀
- 2025年山東文旅集團科技發展公司招聘考試筆試試題
- 邏輯學七道試題及答案
- 2025年中國高壓水除鱗系統行業市場現狀及未來發展前景預測分析報告
- 積分落戶勞動合同協議
- 遼寧沈陽副食集團所屬企業招聘筆試題庫2025
- 2024-2025湘美版六年級下冊美術期末考試卷及答案
- AI助力市場營銷自動化及優化策略研究
- 2025年湖北省中考生物模擬試題七
- 主扇風機操作員培訓課件
- 2025年福建省龍巖市中考數學模擬卷(含答案)
評論
0/150
提交評論