




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
、多項選擇題1.有關樣本的分布,以下陳述正確的是:ABCA.如果樣本Xi,…,Xn獨立同分布來自Gamma分布,艮=湛”在大樣本下有近似的正態分布;(中心極限定理)B.如果樣本Xi,…,Xn獨立同分布來自N(缶62),戈=湛人在大樣本情況下有精確分布 N(口b2/n);(原分布為正態分布)C.如果樣本Xi,…,Xn獨立同分布來自N(陽2),即使樣本量不大,天=酒也服從正態分布;(原分布為正態分布)D.如果樣本丸…,Xn來自任意分布,在大樣本情況下,由 Xi,…,Xn組成的數據有近似的正態分布;(不符合中心極限定理(樣本均值))2?有關檢驗的p值,下面說法正確的是:BCA.一般為[0,0.口之間的一個很小的概率; (P值一般〔0,i〕)B.接受備擇假設的最小顯著性水平;C.如果p值小于顯著性水平,則拒絕零假設;D.樣本統計量的分布函數。 (P值是概率值不是分布)請問以下哪些方法可以用來判斷數據可能背離正態分布: BQ-Q圖上,如果數據和基線之間幾乎吻合; (要利用QQ圖鑒別樣本數據是否近似于正態分布,只需要看QQ圖上的點是否近似的在一條直線附近,而且,該直線的斜率為標準差,截距為均值。 )Kolmogrov-Smirnov正態檢驗中的統計量所對應的 p值小于0.05;(P值小于0.05拒絕原假設,即正態分布不成立)C.對數據直方圖做光滑后沒有發現數據有很大的發散趨勢; (通過形狀是否為正態鐘形來判斷)D.x2擬合優度檢驗,統計量的值偏小。 (卡方統計量偏小則不拒絕原假設(H:分布為正態))4?若抽樣誤差為5,總體標準差為40,如果樣本量足夠大,正態分布的0.975分位數近似為2,要估計總體均值的95%的置信區間所需要的樣本量大概為:BA156B256C356D456.I---JT巫 1ULO2ss(n=(n==4*1600/25=256)5.關于假設檢驗,給定一組獨立同分布的隨機樣本,給定顯著性水平,如下理解正確的是:DA.單邊檢驗拒絕,雙邊檢驗一定拒絕;B.雙邊檢驗接受,一定有一個單邊檢驗是拒絕的;C.單邊檢驗拒絕,雙邊檢驗一定拒絕。D.雙邊檢驗拒絕,一定有一個單邊檢驗是拒絕的;(在顯著性水平一定的情況下(例如a=0.05),對于單側檢驗時仍使用a進行統計推斷,雙側檢驗則用a/2進行統計推斷,同樣條件下雙尾檢測區域小、效率更低)?某汽車生產廠家為增加某型號汽車的銷售量,采用促銷手段,促銷一個月 后,分別收集了8個銷售點處促銷前一個月和促銷后一個月該車型的銷售輛, 如果不考慮其他影響銷售量因素,僅通過觀察和分析這些樣本數據, 是否認為這次促銷有助于提高汽車的銷售量。請將合適的可用于分析該類問題的檢驗過程選出來:C銷售點代號:1 2 3 4 5 6 7 8促銷前(輛):90831059711078 55123促銷后(輛):97801109312384 57110A.兩樣本Z檢驗B.兩樣本t檢驗C.單一樣本t檢驗D.單一樣本Z檢驗(同一樣本即8個銷售點做不同實驗進行均值比較,且當前為小樣本8v30且總體方差未知,故使用單一樣本t檢驗).在參數估計中,要求通過樣本的統計量來估計總體參數,評價統計量的標準之一是該統計量隨著樣本量的增大,它與它估計的總體參數越來越近,這種評價標準稱為:CA.無偏性B.有效性C.一致性D,充分性(估計量除了無偏、小方差,此外隨著樣本容量增大估計量收斂于被估計的參數值,即相合性或一致性).研究人員對有糖尿病的老鼠和正常老鼠血液中某種礦物質的含量進行研究,經驗表明有糖尿病的老鼠和正常老鼠血液中某種礦物質的含量測量方差相等,測得如下試驗數據:糖尿病老鼠:9只,樣本均值64.26,樣本方差1.40正常老鼠: 7只,樣本均值75.66,樣本方差1.32在置信水平為610之下,有糖尿病的老鼠和正常老鼠血液中 Fe的含量之差的置信區間為(t(0.95,14)=1.76):C[5.68,15.56][8.02,19.47]B.樣本量太小C.置信水平太大,應從0.10降低到0.05D.精度要求太高(參照9)二、簡答題:(10分X3=30分),請問這樣的.假設檢驗的零假設和備擇假設的設立對于檢驗的結論影響不大,請問這樣的理解有問題嗎?請給出你的解釋對同一樣本信息,由于零假設的不同選擇,可能會得到不同的結論。由于顯著性檢驗只控制第一類錯誤的概率,而不考慮犯第二類錯誤的概率, 因而尋找拒絕域的時候只涉及到原假設,不涉及備擇假設。于是零假設的確定在假設檢驗中非常重要。事實上,假設檢驗所依據的小概率事件在一次實驗中幾乎不可能發生的原理。 小概率事件在一次試驗中發生與小概率事件原理相 ‘矛盾’并非形式邏輯的絕對矛盾。如果統計量落人拒絕域,也就是小概率事件居然在一次實驗中居然發生了, 根據小概事件原理,說明零假設顯著不成立,應該否定原假設。如果統計量落入接收域,并不能肯定原假設的正確性,只能說明觀測結果與零假設不矛盾, 沒有足夠理由拒絕零假設。此時假設檢驗并不能檢驗出零假設的正確性。.解釋下面符號的區別: (f和(提示:請 按有放回和無放回抽樣分別敘述)分別是樣本方差,總體方差與樣本均值的方差。一般來說,從總體中抽樣的方式不同,會影響到樣本均值的方差6 。樣本的抽取方式為有放回的情況下, 獲得的樣本為簡單隨機樣本,即從總體中抽出的樣本為相互獨立并且與總體同分布。從總體中抽出容量為 n的樣本Xi,X2…,Xn,并且與總體同分布,從而樣本均值的方差6L62/no當抽樣方式為無放回的情況時,下一次抽樣是受前一次抽樣的結果的影響的。此時,設總體中包含N個個體,從總體中抽取容量為 n的樣本Xi,X2…,Xn,A nn a力(XJ= D()= n1+T)i| W二 hkw=「/n- /a=NIn2(其中為修正系數)當總體N充分大的時候,6 :接近于放回抽樣的均值方差。?統計推斷與描述統計之間有哪些重要的區別?描述統計是指統計數據的搜集、整理、顯示和分析等,統計推斷是利用樣本信息和概率論對總體的數量特征進行估計和檢驗等。,解釋p值檢驗的基本原理。P值是在原假設下出現檢驗統計量的實現值及(向備擇假設方向)更極端的值的概率。P?值度量從樣本數據得到的信息對原假設的支持程度。 P值越小,就越有理由說明樣 本數據不支持原假設。如果P值小于顯著性水平a,那么能夠拒絕原假設, 否則就不能拒絕。因此P值常常被稱為該檢驗的觀測顯著性水平。5.請說明Ga:5.請說明Ga:Hill分布與卡方分布之間有哪些區別與聯系?伽瑪分布(GammaDistribution)是統計學的一種連續概率函數。 Gamma分布的概率密度函數為aa-1BXf(X,a,B)=BXe-/r(a)(x>0),f(X,a,B)=0(x<=0)?自由度為n的卡方分布是Gamma分布在a=rV2,B=1/2寸,即Gamma(n/2,1/2)的特例。6,求Ga6,求Galllll分布的矩估計。Gamma分布的概率密度函數為aa-1BXf(x,a,B)=BXe-/r(a)(x>0)f(x,a,B)=0(x<=0)則通過積分運算:f(x,a,B)=a(a+1)/B2,E(X)= ",a,B)f(x,a,B)=a(a+1)/B2,AA . AA令M=a/B=A=X&=a(a+1)/B2=A2=得參數的矩估計7-假設檢驗中的兩類錯誤之間有什么關系?能否同時減少兩類錯誤?根據樣本觀察值進行檢驗時, 由于樣本的隨機性,我們可能作出正確的判斷, 也可能作出錯誤的判斷。(1)正確的判斷是:當原假設Ho: 。成立時,接受原假設Ho: o;或當原假設Ho:。不成立時,拒絕原假設Ho: °;(2)錯誤的判斷是:當原假設Ho: 。成立時,拒絕原假設Ho: 。,此類棄真錯誤稱為第|類錯誤;或當原假設Ho: 。不成立時,接受原假設Ho: 。,此類取假錯誤稱為第II類錯誤。一個“好”的檢驗方法,應該使得犯這兩類錯誤的概率都盡可能的小,但一般來說,當樣本容量固定時,不能使第I類錯誤和第II類錯誤同時很小。.簡述損失函數和風險函數的定義損失函數是指一種將一個事件(在一個樣本空間中的一個元素) 映射到一個表達與其事件相關的經濟成本或機會成本的實數上的一種函數 ,損失函數參數的真值為o,決策的結果為d,兩者的不一致會帶來一定的損失,這種損失是一個隨機變量,用L(0,d表示。風險函數是損失函數的期望值,表示為:R(9d)=E[L(d,0)]決策的目標是要找出一個決策方案 d,使其對各個自然狀態風險值均為最小。應用時,常常對0(參數的真值)確定一個概率分布,并使其平均的風險值 r(d,。達到最小,其中:r(d,0)=E[R(d,0)]二二嚴(d,0)p(0,).解釋t分布和正態分布之間的差異聯系:隨看自由度增大t分布趨近于標準正態分布;當 n>30時二者相差很??;當nfg時二者重合.區別:①正態分布是與自由度無關的一條曲線; t分布是依自由度而變的一組曲線 .②t分布較正態分布頂部略低而尾部稍高 .?解釋假設檢驗和置信區間的區別假設檢驗與置信區間都是根據樣本信息推斷總體參數,二者可相互轉換,形成對偶性,都是統計推斷的重要內容。主要區別:1)參數估計是根據樣本統計量估計總體參數的真值;假設檢驗是根據樣本統計量來檢驗對總體參數的先驗假設是否成立; 2)區間估計通常求得的是以樣本估計值為中心的雙側置信區間,而假設檢驗以假設總體參數值為基準,不僅有雙側檢驗也有單側檢驗;3)區間估計立足于大概率,通常以較大的把握程度(置信水平) 1?a去保證總體參數的置信區間。而假設檢驗立足于小概率,通常是給定很小的顯著性水平 a去檢驗對總體參數的先驗假設是否成立。.統計推斷與數據匯總之間有哪些重要的區別?描述統計是指統計數據的搜集、整理、顯示和分析等,統計推斷是利用樣本信息和概率論對總體的數量特征進行估計和檢驗等。12,中位數檢驗與均值t檢驗之間的區別與聯系需要指出的是,我們現在處理的數據,大部分是對稱的數據,數據符合或者近似符合正態分布?這時候,均值(平均數)、中位數是一樣的,從而中位數檢驗與均值t檢驗相同.只有在數據分布偏態(不對稱)的情況下,才會出現均值、中位數的區別?所以說,如果是正態的話,用哪個統計量都行?如果偏態的情況特別嚴重的話,可以用中位數檢驗?三、計算題(25分)(一)Hardy-Weinberg平衡問題中,父代有兩種基因M和N,M在種群中的分布為b(1,p)現在測量到了子代基因分布為:MN總量TOC\o"1-5"\h\z頻數 342 500 187 1029a)請根據這些數據求父代的_P的極大似然估計;__(10分)b)請給出P的置信區間的求解公式,并解釋; (15分)【解】①設父代樣本X服從b(1,p),1~9)=咐(-屏1= 劭l(P)=叫泊N5-殆刑1邛)軀二瑞您踣)占二{】最大似然估計為:?=無曲77由于Hardy-Weinberg平衡,群體的基因頻率在一代一代繁殖傳代中保持不變。AAAA A342J竺從而子代的基因型頻率分別為 P2,2p(1-p),(1-P)2,從而P2=m,p==0.58b)當樣本數n足夠多時父代基因 M的頻率近似服從正態分布 N(p,p(1-p)/n),(p-p)/SQRT(p(1-p)/n)-N(0,1),從而(p-p)/SQRT(p(1?p)/in)?N(0,1)從而參數P的置信區間為A AM A A(p-?/2SQRTp(1-p)/n),p+0/2SQRTp(1-p)/n))(二)用possion(人)分布參數人的極大似然估計的漸進分布求置信區間?!步狻矻(入)印3-5》僅1!=2-n5巴|1;叫」l(X)=?n入+%入2?卸)1(入)=-n+—1/X=0最大似然估計為:x=? /n.當n充分大時,X加進正態N(X,X/n),(X-X)/SQRT(X/n)sN(0,1)從而(X】X)/SQRT(X/n)sN(0,1)從而參數X的置信區間為(X-w/2SQRT(X*/n),X'+?/2SQRT(X/n))(三)%,X2,?,Xn是從兩點分布Bemoulli(l,p) 中抽取出來的獨立同分布樣本:.求(1個)2的極大似然估計(10分)。.1中的估計量是無偏估計嗎?如果是有偏的,請給出 (1-p)2的一個無偏估計。(15分)【解】L設總體X服從b(1,p),L(p)=咐(一$1=P%-P9l(p)=八「匚廠匚一二一小一心命何二族(”一踣)占”最大似然估計為:P= ?廠;=X(1-P)2的最大似然估計為(1-P)2=(|-X)2nX口,.ohZnc\E(nX)=np,D(nX)=np(1-p),////E(X2)=(E(X))2+D(X),而D(X)=D(X)/nE(1-X)2=E(1+X2-2X)=1+■p((n-1)p+1)-2p「才=(1?P)2+乩,品右7目仕件,甘山(1小)2_1.丫.02%不便/士玨,卓立k.E((1-p)2)=1-E(X)-E(S2)=1p/E「‘-nX2)=(1.p)2(四)X,…,”是從正態分布N(H(T2)中抽取的獨立隨機變量,請回答1)計算E(S2/T2),S2是樣本方差;(10分)2)請在所有的形式為aXi+bX2的估計量中,找到2口的最小方差無偏估計 (10分)【解】(1)S2=1X)'=—-TiX2)E(Xi2)=T2+F,E(X2)=T2/n+HE(S2/T2)j白旭-孫/T2=1(2)E(aXi+bX2)=(a+b)h=2H2 2V(aX什bX2)=(a+b)T2當a+b=2的條件下,a=b=1方差最小,使得(a,b2)T2最小,Xi+X2為2H的最小方差無偏估計。
四、論述題:(25分)(一)研究者想了解某種電子設備產品在一年的各個季節里被購買的情況是否存在不同。如果用銷售量來解釋這一問題,對這一問題可能提出的最簡單的零假設可能是什么?在這一假設之下,研究者調查了有關這種產品過去 3年的銷售量2070萬臺。表1某種電子設備產品在過去3年中的銷售量季節0(萬)E Oi-Ei (Oi-Ei)2春季495夏季503秋季491冬季581總計20701?解釋表頭字母的含義;2.請將上面的表格填寫完整。2.如果x2(3,0.95)=7.81,請給出你的推斷過程和據此可能的結論。解:1?這一問題可能提出的最簡單的零假設可能是 Ho:各個季節里被購買的情況是相同。O表示各個季度觀察次數,E表示各個季度的理論次數, &表示卡方統計量。2.季節。(萬)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79總計2070207010.543?由于x2>x2(3,0.95)=7.81,拒絕原假設,認為各個季節里被購買的情況是顯著差異的。(-)研究者想了解某地區的醫院出院人數(DISC)和床位量(BEDN),調查了21
家醫院數據,分為甲級(I)和乙級(II)兩類如下:等級1IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIDISC912436242734404322BEDN6264676972711111612421?如果我們感興趣的問題是醫院出院人數小于 400的比例估計,請給出通過抽取樣本研究這一問題的統計推斷問題和估計量:2.如果假定p來自先驗分布beta(a,,b),請先根據甲級醫院估計出 a和b,再給出對乙級醫院P的后驗估計計算公式和計算結果;3.如果將床位量按(0,70],(71,110]以及(110,150]分為大,中,小,請給出用來判斷床位數和出院人數關系的統計模型和解答。.設隨機變量X表示出院人數,可以引進隨機變量Yi=l(Xi<400)=1,X<400;0,X>400p的估計。L(P)=H】P(1-p)則Y~b(1⑼p的估計。L(P)=H】P(1-p)l(p)=X)im+(n&yLp(1*)敘口)玄冊-nZA/=0最大似然估計為:加=13/21a和b,再給出對乙級醫院p的a和b,再給出對乙級醫院p的解:設p服從beta(a,,b)則m=E(p)=a/(a+b),{^=E(p2)=[(a+1)a]/[(a+b+1)(a+b)],-Y!1y令M=a/(a+b)=Ai= 俘=[g+1)a]/[(a+b+1)(a+b)](其中m對應于甲級醫院數據)得參數a,b的矩估計a任意(不妨設a=1),b=0(甲級醫院出院人數都小于 400,是不是題目有些問題?)p服從beta(a,b),Y服從b(1,p),即P(0)=1/B(a,b)0a1(1-0)叫P(y|0)=0丫(1-0嚴,利用共腕先驗的性質,后驗分布仍為 beta分布,A A AP(0|y)xp(y|0)P(0)X0a+y-(?o尸+仙sbeta(a+y,1-y+b)從而后驗估計為P=(a+y)/(a+b+1)3設變量y為出院人數,自變量x為床位量的等級變量,(a)可以采用方差分析來檢驗床位數對出院人數有沒有顯著影響,(b)也可用y對x的線性回歸來分析(a)方差分析:利用R程序檢驗F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最終得至!I: DfSumSqMeanSqFvaluePr(>F)A 2139764 69882 5.9650.0103*Residuals18210889 11716Signif.codes:0 '2'0.001 ***'0.01 '*'0.05 '0.1 1'1床位數對出院人數有有顯著影響。(b)線性回歸:設變量y為出院人數,自變量 x為床位量的等級變量,假設滿足線性回歸模型:2y=a+bx+e,e?N(0,),利用最小二乘可得 a,b的參數估計,利用R計算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,222,2,2)a=lm(y~x);summary(a)AAA結果是:y=a+bx=218.12+104.85xSignif.codes:0 0.001 **'0.01 '*10.05 0.1(Intercept)218.12 41.16 5.2994.09e-05***104.85 29.82 3.5160.00231**Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311最小二乘法即 達到最小的Bo和Bi為:~N(三)研究者想了解某種產品在四家商場中購買是否存在不同。如果用銷售量來解釋這一問題,對這一問題可能提出的最簡單的零假設可能是什么?在這一假設之下,研究者調查了有關這種產品過去2年的銷售量196萬臺。表1某種產品在過去2年中的銷侔量商場0(萬)E Oi-Ei (Oi-Ei)2 "一生J) .
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司職員停車場管理制度
- 幼兒園食堂培訓管理制度
- 日常安全保密管理制度
- 景區共享超市管理制度
- 施工材料備料管理制度
- 國內天然氣安全管理制度
- 曲酒生產車間管理制度
- 公司品管部資料管理制度
- 施工現在安全管理制度
- 公司外貿業務員管理制度
- 車站值班員(中級)鐵路職業技能鑒定考試題及答案
- 山東省威海市2023-2024學年高二下學期期末考試英語試題(解析版)
- 2024年陜西省西安市中考地理試題卷(含答案逐題解析)
- 草晶華工作計劃
- 2023-2024學年吉安市遂川縣七年級語文(下)期末試卷附答案詳析
- 人工智能訓練師(中級數據標注員)理論考試題庫(含答案)
- 腦干損傷護理常規
- 小學數學組教研活動記錄表-評課
- 2024年廣東清遠連平縣事業單位招聘工作人員51人公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 2024年西部機場集團榆林機場公司招聘35人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 銀行智能化方案設計
評論
0/150
提交評論