




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統計學期末(單選、10個填空、5個判斷、三個計算、一道論述)第一章導論1、統計學是收集、處理、分析、解釋數據并從數據中得出結論的科學。分析數據:分為描述統計方法和推斷統計方法兩種方法。描述統計:研究的是數據收集、處理、匯總、圖表描述、概括與分析等統計方法。推斷統計:是研究如何利用樣本數據來推斷總體特征的統計方法。推斷統計內容包含參數估計和假設檢驗2、統計數據的類型:(1) 按照采用的 計量尺度 不同,可以將統計數據分為 分類數據、順序數據與數值型數據 。 注意:分類數據和順序數據都是表現事物的品質特征,通常是用文字來表述的, 其結果均表現為類別,因此可以通稱為定性數據或品質數據(qualita
2、tive data)。數值型數據說明的是現象的數量特征,通常用數值來表現,因此可以統稱為定量數據或數量數據(quantitative data)。(2) 按照統計數據的收集方法,可以將統計數據分為 觀測數據和實驗數據 。(3) 按照被描述的現象與時間的關系,可以將統計數據分為 截面數據、時間序列數據(和panal data )。按計量尺度"戢序數據統計數船的類型讖面數據按時間狀況“時間洋列數據面板數據3、 抽樣獨立性問題:總體區分為有限總體和無限總體,目的是為了判別在抽樣中每次抽取 是否獨立(類似抽小球是否放回的問題)。在統計推斷中,通常是針對無限總體的,因而通常把總體看做隨機變量(
3、ran domvariable )。統計上的總體通常是一組觀測數據,而不是一群人或者一些物品的簡單集合。4、 統計指標按其所反映的數量特點和作用不同,分為數量指標、質量指標。樣本(sample )是從總體中抽取的一部分元素的集合,構成樣本的元素的數目稱為樣本量(sample size)。抽樣的目的是根據樣本提供的信息推斷總體的特征。5、總體參數(parameter )是用來描述總體特征的概括性數字度量,是研究者想要了解的某 種特征值。樣本統計量(statistic )是用來描述樣本特征的概括性數字度量,是根據樣本數量計算出來的一個量。126、變量(variable )是說明現象某種特征的概念,
4、特點是從一次觀察到下一次觀察會呈現出 差別或變化。例如:受教育程度,植株高度,年收入,宗教信仰,產品等級等都是變量。變量可以分為分類變量、順序變量和數值型變量。數值型變量根據取值不同,可以分為離散變量(只能取可數值的變量,只能取有限個值,取 值都是以整位數斷開,如:產品產量、各位候選人得票數,企業數量等。)和連續變量(可以在一個或多個區間取任何值的變量,取值是連續不斷的,不可一一列舉,如:植株高度, 畢業生年收入,溫度,零件尺寸誤差等。)。變量也可以分為隨機變量和非隨機變量(抽取方法隨機性不同),經驗變量(empiricalvariable)和理論變量(theoretical variable
5、 )。經驗變量描述的是周圍環境中可以觀察到的事 物,理論變量則是統計學家采用數學方法構造出來的一些變量,比如z統計量、t統計量、x 2統計量、F統計量等都是理論變量。第二章數據的搜集本章小結1、數據的來源:直接來源與間接來源2、 調查數據:概率抽樣(簡單隨機抽樣,分層抽樣,系統抽樣 ,整群抽樣,多階段抽樣) 和非概率抽樣(方便抽樣,判斷抽樣,自愿樣本,滾雪球抽樣,配額抽樣),搜集數據的方 法(自填式,面訪式,電話式) 的抽樣方式 和特點3、實驗數據:實驗組和對照組,大量觀察法4、數據的誤差:抽樣誤差和非抽樣誤差( 抽樣框誤差,回答誤差,無回答誤差,調查員誤 差,測量誤差),誤差的控制5、參數估
6、計和假設檢驗所依據的主要是簡單隨機樣本第三章數據整理與顯示1、 直方圖和條形圖的區別:直方圖用面積表示數據,條形圖用高度表示數據;直方圖主要 展示數值型數據,具有連續性;條形圖主要展示分類數據,分開排列。帕累托圖:按照各類別數據出現的頻數多少排序后繪制的條形圖。2、累積頻數和累積頻率(順序數據統計量)累積頻數(cumulative frequencies):各類別頻數或組的頻數逐級累加起來得到的頻數。頻數累積方法 有兩種:向上累積(順序數據從開始到最后,數值數據從小到大)和向下累積。累積頻率(cumulative percentages)或累計百分比:各有序類別或組的百分比逐級累加起來, 也有
7、向上累積和向下累積之分。3、數據分組有2種方法:單變量值分組和組距分組單變量值分組:把每一個變量作為一組,只適合離散變量,且在變量值較少的情況下使用。組距分組:全部變量劃分為若干個區間,將一個區間的變量值作為一組。A適用于連續變量或變量值較多的情況B.組的最小值稱為下限(lower limit),一個組的最大值稱為上限(upper limit )。上限與下限的差稱為組距,每組的中點值稱為組中值(=(上限+下限)/2 )。為了解決不重問題,習慣上規定“上組限不在內”,即awxvb。首組假定下限=該組上限-鄰組組距末組假定上限=該組下限+鄰組組距首組組中值的確定: 如,2000 以下,2000 3
8、000, 3000 4000,則為,2000- (3000-2000/24、分類數據的圖示: 條形圖、帕累托圖、餅圖、環形圖。順序數據的圖示:除了上述外還有可以繪制累積頻數分布或頻率圖。數值型數據的展示:a分組數據:直方圖b未分組數據:莖葉圖和箱線圖c. 時間序列數據:線圖d. 多變量數據的圖示:散點圖、氣泡圖和雷達圖由可以看出數據的分市茫征;左魯分甫右1&令市ArHbuhfWi3#第四章 數據的概括性度量1、數據的分布特征可以從三個方面進行概括性測度和描述:(1)集中趨勢;(2)離散程度;(3)峰態和偏態卓屮戰悻ft ft flt 分審的仍杭1溝»4ft <備態申力f
9、tUS好怕昱耳和憐唯#A *Aft2、集中趨勢的度量:眾數,用Mo表示,一組數據可能沒有眾數,也可能有兩個或多個眾數 中位數,不能用于分類數據,中位數只有一個(偶數時取平均)川為奇數猝為偶數四分位數5#'3x9= 780+(850-780)x0.25= 7915=1250 + (1500-1250)x0.75= 1437.5#百分位數:是有 P%勺數據項小于或等于第 P百分位數的值;有(100 - P ) %勺數據項大于 或等于這個值。求第P百分位數的值1 )、由小到大排序。2) 、計算P百分位數所在的位置i =( p%) n, n是總項數。3) 、若i不是整數,將之向上取整,得到的整
10、數即是第P百分位數所在的位置,相對應的數 即是第P百分位數;(后面樣本量n的確定也是向上取整的圓整法則)G刑=店F XXX”若i是整數,則第P百分位數是第i項與第i+1項數據的算術平均數。 平均數:適用于數值型數據,不適用與分類數據和順序數據。 幾何平均數:主要用于計算 平均比率,平均增長率。如計算股票的平均收益率G =10L9%-1=8.0787調和平均數:左酬布對稱分布旅M平均數、中位數、眾數的比較:平均數包含的信息最豐富,代表性最好。當數列不是偏態分布的時候,平均數是集中趨 勢的最佳選擇。但平均數要受數列中離群值的影響。中位數的適用范圍比平均數寬, 而且不受離群值的影響。 當數列的分布是
11、偏態時, 中位數是最有用的集中趨勢代表值,因為它位于平均數和眾數之間。眾數的適用范圍比平均數和中位數都寬,也不受離群值的影響。 而且,在圖上它很容易被觀察到。但由于眾數提供的信息很少,因此它是用途最小的集中趨勢代表值。3、離散程度的度量(1)分類數據。異眾比率(variation ratio)是指非眾數組的頻數占總頻數的比例,用V表示。計算公式為:(2) 順序數據。四分位差(quartile deviation)也稱為內距或四分間距(inter-quartile range ),上四分位數與下四分位數之差,用Qd表示:Qd = Qu -QLo反映了中間50%數據的離散程度,其數值越小,說明數據
12、越集中,反之說明數據越分散。(3) 數值型數據極差(range)是一組數據的最大值與最小值之差,也稱全距,用R表示。計算公式:R = max(x) - min(x)ii平均差(mean deviation)也稱平均絕對離差(mean absolute deviation ),是各變量值與其平均數離差絕對值的平均數,用Md表示,計算公式:方差和標準差樣本方差和標準差的計算公式方差的計算公式未分組蠡提腫4 Z7-1標準差的計算公式t#. t t Jl律方fff1 的祐賀甘計Tv-尸組護分組載據n-1方差的計算公式林準差的計算公式氏好麵散菲.未分俎數弭2(xt - p)1曰CJ N*堪陽甘逼獻測11
13、N宏(Mb N° N總體方差和標準差的計算公式(4 )相對位置的度量1 )標準分數(standard score)是變量值與其平均數的離差除以標準差后的值,也稱標準化值或者z分數。1 石二丄一S給出了一組數據中各個數值的相對位置。比如:某個數值的標準分數為-1.5,則該數值低于平均數1.5倍的標準差。2 )經驗法則:當一組數據對稱分布時,約有68%的數據在平均數加減 1個標準差的范圍之內約有95%的數據在平均數加減 2個標準差的范圍之內7約有99%的數據在平均數加減 3個標準差的范圍之內3 )切比雪夫不等式 (Chebyshev ' s in equality )至少有(1-
14、1/k2 )的數據落在平均數加減 k個標準差之內。其中k是大于1的任意值, 但不- -定是 :整數。(k2表示k方)對于k=2,3,4,切比雪夫不等式的含義是:至少有75%的數據落在平均數加減 2個標準差的范圍之內至少有89%的數據落在平均數加減 3個標準差的范圍之內至少有94%的數據落在平均數加減 4個標準差的范圍之內(4) 離散系數(coefficient of variation)也稱變異系數,是一組數據標準差與其相應的均值之 比。計算公式:CV=v =樣本 or CV -總體X“4、偏態與峰態偏態是對數據分布對稱性 (偏斜程度)的測度,統計量是偏態系數(coefficie nt ofs
15、kewness),記做SK.(如偏態系數為 0.4表示輕微又偏)偏態系數=0為對稱分布;偏態系數 0為右偏分布;偏態系數 0為左偏分布;峰態是對數據分布平峰或尖峰程度的測度,統計量是峰態系數(coefficient ofkurtosis),記做 CK。' 為尖峰分布,數據分布更集中為扁平分布,數據分布更分散; 正態分布峰態系數峰態系數峰態系數>0<0=0#一片眾比申T 平均數第六章統計量及其抽樣分布1、 統計量是樣本的一個函數,不依賴于總體未知參數。例如:樣本均值、樣本比例、樣本方 差等都是統計量,而Xi-E(X)/D(X)就不是統計量,因為 E(X)、D(X)都是依賴于總
16、體分布的未知 參數。(即只要和總體有關的參數都不是統計量)2、英國統計學家費希爾曾把 抽樣分布、參數估計和假設檢驗 看做統計推斷的三個中心內容。3、抽樣分布是 樣本統計量的分布 而不是總體或樣本的分布。4、 卡方分布、tF分布被稱為統計的三大分布。5、卡方分布(1) 卡方分布的概率密度函數曲線是一個不對稱的右偏分布,隨著自由度增大,趨近于對稱(2)卡方分布的期望、方差: E%2) = n Z>(2) = 2n當n t + a時,卡方分布的極限分布是正態分布。6、t分布(主要用于小樣本問題)與正態分布相對來說更加平坦和分散。當n > 30時,t分布與標準正態分布非常相似。7、F分布。
17、無&當總體服從正態分布 N(卩,b 2)時來自該總體的 所有容量為n的樣本的均值;(也服從正 態分布,的數學期望為 ,方差為b 2/n。即XN(卩,b 2/n)中心極限定理:從均值為J ,方差為;-2的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值x(ba)的抽樣分布近似服從均值為卩、方差為 b 2/n的正態分布&兩個樣本均值之差的抽樣分布£(召一石)=E(%)E區)=人一比%"(可+ D(可耳+尋9#1分布待估參數廠"可£ ¥ t二乜嚴一 (er未加)5 他比例右差:kI - I :小構本I 人樣木工吩命I第七章參
18、數估計1、 置信水平(confidence level):將構造置信區間的步驟重復很多次,置信區間包含總體參數真值的次數 所占的 比例稱為置信水平,也稱為置信度或置信系數。(1- a)置信區間(confidence interval):由樣本統計量所構造的總體參數的估計區間稱為置信區間。 表述:95%的樣本得到的區間包含總體參數的真值。用該方法構造的區間稱為置信水平為95%的置信區間。使用一個較大的置信水平(99%)會得到一個比較寬的置信區間,而使用一個較大的樣 本(n>30)則會得到一個較準確(較窄)的區間。顯著性水平:原假設為真時,拒絕原假設的最大概率,被稱為抽樣分布的拒絕域。(a)
19、無偏性、有效性、一致性2、估計量的三大評價標準:3、總體參數的區間估計 雙側檢驗Z a/2的值90%, 1.645 95%, 1.96單側檢驗置信水平90%, 1.282置信水平95%, 1.645#兩個總體參數的區間估計( 除匹配樣本外,其余了解分布類型即可)皿立大擇本-!L分布卜兩個總體均值之差的估計,匹配大樣本J對應豊1的樣準蟹a ± % r*4®均悄匹配小樣本刁土/怠(旳4 n的確定(非整數時圓整法則,同百分位數i的確定)估計總體比例時樣本量n :(屯J皿(1-打)E均為希望達到的估計誤差,做題時題目會給第八章假設檢驗1、雙側檢驗:I統計量I 臨界值,拒絕 Ho 左
20、側檢驗:統計量 -臨界值,拒絕Ho 右側檢驗:統計量 臨界值,拒絕Ho2、什么是 P 值?(P-value)P值就是當原假設為真時所得到的樣本觀 察結果或更極端結果出現的概率。如果P值很小,說明這種情況發生的概率 很小,而如果出現了,根據小概率原理,我們 就有理由拒絕原假設,P值越小,我們拒絕原假設的理由就越充分。1. 單側檢驗:單側檢驗若p值 a不拒絕Ho 若p值 a拒絕Ho2. 雙側檢驗若p值 a/2,不拒絕Ho 若p值 a/2,拒絕Ho 拒絕原假設,結果顯著。不拒絕原假設,不顯著。1011縝總依均值、比例、方差的槍驗IS雙般驗HoHi3、雙側檢驗與單側檢驗(假設的形式)(1)總體均值檢驗
21、c/Jif總體比倒的檢驗g假設的總體比例)+tMx-n,(3)總體方差的檢驗宀啤Z臚fZ檢驗。區間估計中兩個總體的 方差比用F分布,方差檢驗 和方差的區間一個總體區間估計 用卡方分布。第十一章一元線性回歸1、相關關系的描述與測度1) 在進行相關分析時,首先需要繪制散點圖(scatter diagram )來判斷變量之間的關系形態,如果是線性關系,則可以利用相關系數來測度兩個變量之間的關系強度,然后對相關系數進行顯著性檢驗,以判斷樣本所反映的關系能否代表兩個變量總體上的關系。2) 相關系數是根據樣本數據計算的度量兩個變量之間線性關系強度的統計量。也稱為線性 相關系數。性質1 : r的取值范圍是-
22、1,1|r|=1,為完全相關r =1,為完全正線性相關r =-1,為完全負線性相關r = 0,不存在 線性相關關系-1 <r<0,為負線性相關0<r也,為正線性相關|r|越趨于1表示線性關系越強;|r|越趨于0表示線性關系越弱性質2 : r具有對稱性。即rxy= ryx性質3: r數值大小與x和y原點及尺度無關性質4:僅僅是x與y之間線性關系的一個度量,它不能用于描述非線性關系。這意為著,r=0只表示兩個變量之間不存在線性相關關系,并不說明變量之間沒有任何關系(還可能有非線性相關關系)性質5: r是兩個變量之間線性關系的一個度量,卻不一定意味著x與y 定有因果關系r的檢驗用t
23、檢驗,線性關系的檢驗用 F檢驗,回歸系數 I的檢驗用t檢驗。L-r并_2進行決策:根據給定的顯著性水平口,自由度df=n-2查t分布':表。若t>t.:f:(n-2),拒絕H。,總體的兩個變量之間存在顯著 廠的線性關系。反之,若t<S2( n-2),不能拒絕H。2、一元線性回歸元線性回歸模型可表示為= +£元線性回歸方程的形式E(P)= 0u+0|X解釋:'0是回歸直線在 y軸上的截距,是當 x=0時y的期望值1是直線的斜率,稱為回歸系數,表示當x每變動一個單位時,y的平均變動值元線性回歸中估計的回歸方程原理:最小二乘法兀必T藝齊I遲”j=i相關系數與回歸
24、系數的關系:r2=b ib2。其中b i表示y為因變量, 為自變量,b 2則相反。【例】求不良貸款對貸款余額的回歸方程0WO:r -0.M95+0.0J7895X 回歸系數億元,不良貸款平均增加0.037895億元0.037895表示,貸款余額每增加3、回歸直線的擬合優度一一判定系數和估計標準誤差i=lrlrl(SSE)13SST=SSR+SSE2(2) 判定系數R =回歸平方和占總誤差平方和的比例mnzy?R2 = *氏=旦= 1 一 上?z S(x -yYi-Li-la、反映回歸直線的擬合程度b、取值范圍在0,1 之間c、 R2 >1,表明回歸平方和占總平方和的比例越大,回歸直線與各
25、觀測點越接近,用x2的變化來解釋y值變差的部分就越多,回歸直線的擬合優度就越好 ;RT0,回歸直線的擬合優度就越差。d、 判定系數等于相關系數的平方,即R2 = r2判定系數的實際意義是:女口,判定系數為71.16%,在不良貸款取值的變差中,表示有71.16%可以由不良貸款與貸款余額之間的線性關系來解釋(3) 估計標準誤差 (standard error of estimate)反映用估計的回歸方程預測y時預測誤差的大小,計算公式4、線性關系的檢驗 F檢驗141)提出但設皿:耳=0 線性關糸"著2)檢驗統計量F#SSR/X SSE/(n-2)fSRMSE#3)嘯遲軀藩性水平K 并根擢
26、分子自由度1和分母自 由度.n - 2找出臨界值F4)作出決第:苦FF#拒絕頃:若嚴不拒絕頂5、回歸系數的檢驗t檢驗#提出假設口爲:居=口(沒有純性關系) 口 朋:叢A0(有線性關系)計尊檢驗的統計呈3)確定顯著性水平m 并進行決第1 “卜如和拒絕頃;111<2.不拒絕氐6、置信區間估計:利用估計的回歸方程,對于自變量 的平均值的估計區間,這一估計區間稱為置信區間x的一個給定值X0,求出因變量y預測區間估計:禾U用估計的回歸方程,對于自變量 一個個別值的估計區間,這一區間稱為預測區間丄,U)2的一個給定值 x0,求出因變量y的土 J洋 5 h +-+-X (兀一壬)ei=yiyi殘差圖殘
27、差與殘差圖殘差:因變量的觀測值與根據估計的回歸方程求出的預測值之差,用第十三章時間序列分析和預測e表示時間序列的構成要盍|趨勢|幸節性|隨機性|線離第|岸刪迪勢|1、環比增長率與定基增長率h環比增長率報告期水平與前一期水平之比減12定荃増長率報吿期水乎與某一直定吋期水平之比城】增長J臨綸對恒=前期水平100甲企業增長1%色對值=500/100=5 萬元乙企業增長1%色對值=60/100=0.6 萬元¥-均增-(a verage rate of increase )序列中各逐期環比值(也稱環比發晨連厳】的幾詞平均救 減1后的結果描述現象在筌6觀察期內乎均増長燮化的程度通帯用幾何平均法求
28、得®計算公式為2.確定季節成分:年度折疊時間序列圖1-按莓牟的歌據井開必 在圖上£ 若序列貝再在爭節成申的拆找桃金啣丈更 第苦序貳貶卷鞘宰U虎 分乂菩有臨螢,卅年 鹿析書射狗序列曲中 的折坨捋呼會祥犬艮 而且如雞趨替是上井 的,后曲卑度的場性 悴金褊于戴而牛履的 折性.曲屢眉普誥F 耳的則冶而年底的 折堆牌低十前曲年度 的折蟻3、選擇預測方法并進行評估:預測方法的選擇16#時問序列貌據也述葩爭芳桎預劃金 吐翌裁決 樓歲-.J; 土 *芋琴7訕:J H 生并出卷移初平均試耳m仆仆"塔推測 韋載忙弔丄 時叵沖伽 口冋歸私嚇評估:均方誤差(MSE)t(K-FJ2MSE
29、二平均百分比誤差 MPEJ YMPE =平均誤差 ME(mean error)工代-尺)ME =平均絕對百分比誤差 MAPEMPE -平均絕對誤差 MAD加T|MAD 二n17帕氏質量指數加權算數平均指數:加權調和平均指數4、預測(1 )平穩序列的預測簡單平均法:,_-V,.* 1 1-1移動平均法:-丄亠-忌出+陰+近k指數平滑法:/'用預測誤差來計算:f+(i 巧=aYf + Fr -必; = F/+a(y; -FJ(2)趨勢型序列的預測線性趨勢一一線性回歸 非線性趨勢不考(3)復合型序列的預測參考書上四項移動平均一一兩項移動平均一一y除以移動平均值一一季節指數求平均調整 y除以季節指數得到分離后的序列一一分離后的序列回歸一一回歸預測值一一預測值乘以季 節指數的最終預測值第十四章指數1、指數分類按考察對象的范圍不同,可分為個體指數和總指數按所反映
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司植樹節營銷活動方案
- 公司新年團體活動方案
- 公司管理層團建策劃方案
- 公司母親節室內活動方案
- 公司聯誼會策劃方案
- 公司植樹節回顧活動方案
- 公司烤月餅活動方案
- 公司文化展廳策劃方案
- 公司電力營銷策劃方案
- 公司結業晚會策劃方案
- 合肥市瑤海區2022-2023學年七年級下學期期中歷史試題【帶答案】
- 2022-2023學年涼山彝族自治州數學三年級下冊期末考試試題含答案
- (高清版)JTG 5421-2018 公路瀝青路面養護設計規范
- 熱療在婦科疾病治療中的效果
- 新中國史智慧樹知到期末考試答案2024年
- MOOC 創新管理-浙江大學 中國大學慕課答案
- 梨的貯藏特性及保鮮技術
- 2024年安徽淮河能源控股集團有限責任公司招聘筆試參考題庫含答案解析
- 蘇教版三年級上冊解決問題的策略應用題100題及答案
- 機械連接預應力混凝土異型樁L19ZG403
- 港口碼頭考核管理制度
評論
0/150
提交評論