




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統計學重點筆記第一章導論一、比較描述統計和推斷統計:數據分析是通過統計方法研究數據,其所用的方法可分為描述統計和推斷統計。(1)描述性統計:研究一組數據的組織、整理和描述的統計學分支,是社會科學實證研究中最常用的方法,也是統計分析中必不可少的一步。內容包括取得研究所需要的數據、用圖表形式對數據進行加工處理和顯示,進而通過綜合、概括與分析,得出反映所研究現象的一般性特征。(2)推斷統計學:是研究如何利用樣本數據對總體的數量特征進行推斷的統計學分支。研究者所關心的是總體的某些特征,但許多總體太大,無法對每個個體進行測量,有時我們得到的數據往往需要破壞性試驗,這就需要抽取部分個體即樣本進行測量,然后
2、根據樣本數據對所研究的總體特征進行推斷,這就是推斷統計所要解決的問題。其內容包括抽樣分布理論,參數估計,假設檢驗,方差分析,回歸分析,時間序列分析等等。(3)兩者的關系:描述統計是基礎,推斷統計是主體二、比較分類數據、順序數據和數值型數據:根據所采用的計量尺度不同,可以將統計數據分為分類數據、順序數據和數值型數據。(1)分類數據是只能歸于某一類別的非數字型數據。它是對事物進行分類的結果,數據表現為類別,是用文字來表達的,它是由分類尺度計量形成的。(2)順序數量是只能歸于某一有序類別的非數字型數據。也是對事物進行分類的結果,但這些類別是有順序的,它是由順序尺度計量形成的。(3)數值型數據是按數字
3、尺度測量的觀察值。其結果表現為具體的數值,現實中我們所處理的大多數都是數值型數據。總之,分類數據和順序數據說明的是事物的本質特征,通常是用文字來表達的,其結果均表現為類別,因而也統稱為定型數據或品質數據;數值型數據說明的是現象的數量特征,通常是用數值來表現的,因此可稱為定量數據或數量數據。三、比較總體、樣本、參數、統計量和變量:(1)總體是包含所研究的全部個體的集合。通常是我們所關心的一些個體組成,如由多個企業所構成的集合,多個居民戶所構成的集合。總體根據其所包含的單位數目是否可數可以分為有限總體和無限總體。有限總體是指總體的范圍能夠明確確定,而且元素的數目是有限可數的,需要注意的是,統計意義
4、上的總體,通常不是一群人或一些物品的集合,而是一組觀測數據。(2)樣本是從總體中抽取的一部分元素的集合,構成樣本的元素的數目稱為樣本容量。例如我們從一批燈泡中隨機抽取100個,這100個燈泡就構成了一個樣本。(3)參數是用來描述總體特征的概括性數字度量。有總體平均數、標準差、總體比例。由于總體參數通常是不知道的,所以參數是一個未知的常數。所以才需要進行抽樣,根據樣本來估計總體參數(4)樣本量是用來描述樣本特征的概括性數字度量。統計量是根據樣本數據計算出來的一個量,通常包括:樣本平均數、樣本標準差、樣本比例等,由于樣本是我們已經抽出來的,所以統計量總是知道的,抽樣的目的就是要根據樣本統計量推斷總
5、體參數。(5)變量是說明現象某種特征的概念。變量的特點是從一次觀察到下一次觀察會呈現出差別或變化,分為分類變量、順序變量、數值型變量、離散型變量和連續型變量。第二章 數據收集一、調查方案的主要內容:(1)調查目的:是調查所要達到的具體目標,他所回答的是“為什么調查”“要解決什么樣的問題”等(2)調查對象和調查單位:調查對象是根據調查目的的確定的調查研究的總體或調查范圍。調查單位是構成調查隊選中的每一個單位,它是調查項目和調查內容的承擔著或載體。所要解決的是“向誰調查”由誰來提供所需數據(3)調查項目和調查表:調查項目要解決的問題是“調查什么”,也就是調查的具體內容,大多數統計調查中,調查項目通
6、常以表格的形式來表現,稱為調查表二、數據的誤差:統計數據的誤差通常是指統計數據與客觀現實之間的差距,誤差的類型主要有抽樣誤差和非抽樣誤差兩類。(1)抽樣誤差:主要是指在用樣本數據進行推斷時所產生的隨機誤差。只存在于概率抽樣中。這類誤差通常是無法消除的,但事先可以進行控制和計算。影響抽樣誤差大小的因素:(a)抽樣單位的數目。在其他條件不變的情況下,抽樣單位的數目越多,抽樣誤差越小;反之,越大。這是因為隨著樣本數目的增多,樣本結構越接近總體,抽樣調查也就越接近全面調查,當樣本擴大到總體時,則為全面調查,也就不存在抽樣誤差了。(b)總體背研究標志的變異程度。在其他條件不變的情況下,總體標志的變異程度
7、越小,抽樣誤差越小,反之,越大。抽樣誤差和總體標志的變異程度呈正比變化。這是因為總體的變異程度小,表示總體各單位標志值之間的差異小。則樣本指標與總體指標之間的差異也可能小;如果總體各單位標志值相等,則標志變動度為零,樣本指標等于總體指標,此時不存在抽樣誤差(c)抽樣方法的選擇。重復抽樣和非重復抽樣的抽樣誤差大小不同。采用不重復抽樣比采用重復抽樣的抽樣誤差小(d)抽樣組織方式不同。采用不同的組織方式,會有不同的抽樣誤差,這是因為不同的抽樣組織所抽中的樣本,對于總體的代表性也不同,通常,常利用不同的抽樣誤差,作出判斷各種抽樣組織方式的比較標準。(2)非抽樣誤差:主要包括:抽樣框誤差,回答誤差、無回
8、答誤差、調查員誤差;是調查過程中由于調查者或被調查者的人為因素所造成的誤差。調查者所造成的誤差主要有:調查方案中有關的規定或解釋不明確導致的填報錯誤、抄錄錯誤、匯總錯誤等;被調查者所造成的誤差主要有:因人為因素干擾形成的有意虛報或瞞報調查數據。非抽樣誤差理論上是可以消除的。三、簡單隨機抽樣:(1)概念:從總體N個單位中隨機地抽取n個單位作為樣本,每個單位入抽樣本的概率是相等的;(2)特點:a、簡單、直觀,在抽樣框完整時,可直接從中抽取樣本b、用樣本統計量對目標量進行估計比較方便(3)局限性n 當N很大時,不易構造抽樣框n 抽出的單位很分散,給實施調查增加了困難n 沒有利用其它輔助信息以提高估計
9、的效率第三章 數據的整理與展示一、數據排序的目的:(1)數據排序是按一定順序將數據排列,以發現一些明顯的特征或趨勢,找到解決問題的線索(2)排序還有助于對數據檢查糾錯,以及為重新歸類或分組等提供方便。(3)在某些場合,排序本身就是分析的目的之一。二、數據分組:是根據統計研究的需要,將原始數據按照某種標準化分成不同的組別,分組后的數據成為分組數據。數據經分組后再計算出各組中數據出現的頻數,就形成了一張頻數分布表,分組方法有單變量值分組和組距分組兩種,單變量分組通常只適合于離散變量,且在變量值較少的情況下使用,在連續變量或變量值較多情況下,通常采用組距分組。三、組距分組的步驟和原則:(1)步驟:a
10、、確定組數:組數的確定應以能夠顯示數據的分布特征和規律為目的。在實際分組時,可以按 Sturges 提出的經驗公式來確定組數Kb、 確定組距:組距(Class Width)是一個組的上限與下限之差,可根據全部數據的最大值和最小值及所分的組數來確定,即 組距( 最大值 - 最小值) 組數c、統計出各組的頻數并整理成頻數分布表 (2)原則:采用組距分組時,需遵循“不重不漏”的原則,“不重”是指一項數據只能分在其中的某一組,不能在其他組中重復出現;“不漏”是指組別能夠窮盡,即在所分的全部組別中每項數據都能分在其中的某一組,不能遺漏。為解決不重的問題,統計分組時習慣上規定“上組限不在內”,即當相鄰兩組
11、的上下限重疊時,恰好等于某一組上限的變量值不算在本組內,而計算在下一組內。當然,對于離散變量,我們可以采用相鄰兩組組限間斷的辦法解決“不重”的問題。也可以對一個組的上限值采用小數點的形式,小數點的位數根據所要求的精度具體確定。缺點:組距分組掩蓋了各組內的數據分布狀況四、直方圖和條形圖的區別:首先,條形圖是用條形的長度(橫置時)表示各類別頻數的多少,其寬度則是固定的;直方圖是用面積表示各組頻數的多少,頻數的高度表示每一組的頻數或頻率,寬度則表示各組的組距,因此高度與寬度均有意義。其次,由于分組數據具有連續性,直方圖的各矩形通常是連續排列,而條形圖則是分開排列。最后,條形圖主要用于展示各類數據,而
12、直方圖則主要用于展示數據型數據。五、繪制線圖應注意的問題:()時間一般繪在橫軸,觀測數據繪在縱軸()圖形的長寬比例要適當,一般應繪成橫軸略大于縱軸的長方形,其長寬比例大致是:.()一般情況下,縱軸數據下端應從開始,以便于比較,數據與之間的間距過大,可以采取折斷的符號將縱軸折斷六、設計統計表注意的問題:首先,要合理安排統計表的結構,例如表號、行標題、列標題、數字資料的位置應安排合理。其次,表頭一般應包括表號、總標題和表中數據的單位等內容,總標題應簡明確切地概括出統計表的內容。再次,表中的上下兩條線一般用粗線,中間的其他線用細線,表的左右兩邊不封口,列標題之間可以用豎線分開,而行標題之間通常不必用
13、橫線隔開。最后,在使用統計表時,必要時可在表下方加上注釋,特別注意標明數據來源。七、數據的審核: (1)原始數據:a、完整性審核:檢查應調查的單位或個體是否有遺漏;所有的調查項目或指標是否填寫齊全b、準確性審核:檢查數據是否真實反映客觀實際情況,內容是否符合實際;檢查數據是否有錯誤,計算是否正確等(2)二手數據:a、適用性審核:弄清楚數據的來源、數據的口徑以及有關的背景材料;確定數據是否符合自己分析研究的需要b、時效性審核:盡可能使用最新的數據八、數據的整理與顯示(基本問題)(1)要弄清所面對的數據類型,因為不同類型的數據,所采取的處理方式和方法是不同的(2)對分類數據和順序數據主要是做分類整
14、理(3)對數值型數據則主要是做分組整理(4)適合于低層次數據的整理和顯示方法也適合于高層次的數據;但適合于高層次數據的整理和顯示方法并不適合于低層次的數據第四章 數據的概括性度量一、集中趨勢和離散趨勢的度量:(1)集中趨勢是指一組數據向某一中心值靠攏的傾向,它反映了一組數據中心點的位置所在。描述集中趨勢所采用的測度值分為:眾數、中位數和分位數、平均數。(2)離散趨勢是數據分布的另一個重要特征,它所反映的各變量值遠離其中心值得程度,因此也稱為離中趨勢,數據的離散程度越大,集中趨勢的測度值對該組數據的代表性越差,反之,代表性越好。描述數據離散程度所采用的測度值,根據所依據的數據類型的不同主要有異種
15、比率、四分位差、方差和標準差。此外還有極差、平均差以及測度相對離散程度的離散系數。二、眾數、中位數和平均數:(1)三者的關系:從分布的角度看,眾數始終是一組數據分布的最高峰值,中位數的處于一組數據中間位置上的值,而平均數則是全部數據的算數平均。因此,對于具有單峰分布的大多數數據而言,眾數、中位數和平均數之間具有以下關系:(a)如果數據的分布是對稱的,眾數、中位數、平均數必定相等(b)如果數據是左偏分布,說明數據存在極小值,必然拉動平均數向極小值一方靠近,而眾數和中位數由于是位置代表值,不受極值的影響,因此三者的關系為眾數中位數平均數(c)如果數據是右偏分布,說明數據存在極大值,必然拉動平均數向
16、極大值的一方靠近,則眾數中位數0時為尖峰分布,當K=30),不論原來的總體是否服從正態分布,樣本值的抽樣分布都趨于正態分布,其分布的數學期望為總體均值m,方差為總體方差的1/n,這就是中心極限定理,表述為:設從均值為m,方差為s 2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為、方差為2/n的正態分布四、重復抽樣和不重復抽樣相比,抽樣均值分布的標準差有何不同 樣本均值的方差與抽樣方法有關,在重復抽樣條件下,樣本均值的方差為總體方差的1/n,即在不重復抽樣條件下,樣本均值的方差則需要用修正系數去修正重復抽樣時樣本均值的方差,即 不重復抽樣的樣本均值的方差小于重
17、復抽樣時的樣本均值的方差對于無限總體進行不重復抽樣時,可以按照重復抽樣來處理,對于有限總體,當N很大,而抽樣比n/N很小時,其修正系數趨于1,這時樣本均值的方差也可以按照重復抽樣的樣本均值的方差公式來計算五、c2分布的性質和特點(1)分布的變量值始終為正 (2)分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱 (3)期望為:E(c2)=n,方差為:D(c2)=2n(n為自由度) (4)可加性:若U和V為兩個獨立的c2分布隨機變量,Uc2(n1), Vc2(n2),則U+V這一隨機變量服從自由度為n1+n2的c2分布 第七章 參數估計一、評價估計量的標準實
18、際上,用于估計的的估計量有很多,如我們可以用樣本均值作為總體均值的估計量,也可以用樣本中位數作為總體均值的估計量,什么樣的估計量才算是一個好的估計量呢?這需要一定的評價標準:1、無偏性:估計量抽樣分布的數學期望等于被估計的總體參數。設總體參數為,被選擇的估計量為,如果E()=,稱為的無偏估計量。2、有效性:對同一總體參數的兩個無偏估計量,方差較小的是更有效的估計量。3、一致性:隨著樣本容量的增大,點估計量的值越來越接近被估的總體的參數。換言之,一個大樣本給出的估計量要比一個小樣本給出的估計量更接近總體的參數二、怎樣理解置信區間置信區間:由樣本統計量所構造的總體參數的估計區間,其中區間的最小值稱
19、為置信下限,區間最大值稱為置信上限。是一個隨機區間,的置信區間意味著,置信區間包含未知參數的概率為,這個區間會隨著樣本觀察值的不同而不同。但100次運用這個區間,約有100()個區間能包含參數,也就是說大約還有100 a個區間不包含總體參數判斷置信區間優勢的標準(好的置信區間的特性):置信度越高越好;置信區間寬度越小越好。三、影響區間寬度的因素1.總體數據的離散程度,用 s 來測度 2. 樣本容量:當置信水平固定時,置信區間的寬度隨著樣本容量的增大而減小,換言之,較大的樣本所提供的有關總體的信息要比小樣本多。3.置信水平 (1 - a),影響 z 的大小 :置信水平越大,z越大四、簡述樣本容量
20、與置信水平、總體方差、估計誤差的關系n=(Z2)2E2 (1)樣本量與置信水平呈正比,在其他條件不變的情況下,置信水平越大,所需的樣本容量也就越大 (2)樣本量與總體方差呈正比,總體的差異越大,所需的樣本容量就越大 (3)樣本量與邊際誤差的平方成反比,即可以接受的估計誤差的平方越大,所需的樣本量就越小五、Z2 n的含義是什么? Z2 是標準正態分布上側面積為2時的z值。Z2 n是估計總體均值時的邊際誤差,也稱為估計誤差或誤差范圍六、對兩個總體均值之差的小樣本估計中,對兩個總體和樣本都有哪些假定 (1)兩個總體都服從正態分布 (2)兩個隨機樣本獨立地分別抽自兩個總體七、解釋95%的置信區間抽取1
21、00個樣本,根據每個樣本構造一個置信區間,這樣由100個樣本構造的總體參數的100個置信區間中,95%的區間包含了總體參數的真值,而5%沒包含八、對于總體比例的估計,確定樣本容量是否“足夠大“的一般經驗規則是:區間p2p(1-p)2中不包含0或1.或要求np5和n(1-p)5八、獨立樣本和匹配樣本如果兩個樣本是從兩個總體中獨立抽取的,即一個樣本中的元素與另一個樣本中的元素相互獨立,則稱為獨立樣本。匹配樣本是指一個樣本中的數據與另一個樣本中的數據相對應九、估計量和估計值(1)估計量:用于估計總體參數的隨機變量n 如樣本均值,樣本比例、樣本方差等n 例如: 樣本均值就是總體均值m 的一個估計量參數
22、用q 表示,估計量用 表示(2)估計值:估計參數時計算出來的統計量的具體值n 如果樣本均值 x =80,則80就是m的估計值第八章 假設檢驗一、參數估計和假設檢驗的區別和聯系(1)主要聯系:a.都是根據樣本信息推斷總體參數;b.都以抽樣分布為理論依據,建立在概率論基礎之上的推斷,推斷結果都有風險;c.對同一問題的參數進行推斷,使用同一樣本,同一統計量,同一分布,二者可相互轉換(2)主要區別:a.參數估計是以樣本信息估計總體參數的可能范圍,假設檢驗是先對總體參數提出一個假設值,然后利用樣本信息判斷這一假設是否成立;b.區間估計求得的是求以樣本估計值為中心的雙側置信區間,假設檢驗既有雙側檢驗,也有
23、單側檢驗;c.區間估計立足于大概率,通常以較大的可信度(1-a)去估計總體參數的置信區間。假設檢驗立足于小概率。通常是給定很小的顯著性水平a去檢驗總體參數的先驗假設是否正確二、什么是假設檢驗中的顯著性水平?統計顯著是什么意思? (1)顯著性水平是當原假設正確時卻被拒絕的概率或風險,即假設檢驗中犯棄真錯誤的概率,通常用表示,它是人們根據經驗的要求確定的,通常取=0.05或0.01。顯著性水平是人們事先指定的犯第類錯誤概率的最大允許值,確定了顯著性水平,就等于控制了第類錯誤的概率。但犯第類錯誤的概率卻是不確定的(2)統計顯著值在原假設為真的條件下,用于檢驗的樣本統計量的值落在了拒絕域內,作出了拒絕
24、原假設的決定三、什么是假設檢驗的兩類錯誤及其數理關系怎樣 (1)假設檢驗中所犯的錯誤有兩種:一類錯誤是原假設為真卻別拒絕了,犯這類錯誤的概率用表示,也稱第類錯誤。另一類錯誤是原假設為假卻沒有拒絕,犯這種錯誤的概率用表示,也稱第類錯誤 (2)當增加時減小,當增大時減小,要使和同時減小的唯一辦法是增加樣本容量四、假設檢驗的步驟(1)陳述原假設H0和備擇假設H1。(2)從所研究的總體中抽出一個隨機樣本(3)確定一個適當的檢驗統計量,并利用樣本數據算出其具體數值(4)確定一個適當的顯著性水平,并計算出其臨界值,指定拒絕域(5)將統計量的值與臨界值進行比較,作出決策。統計量的值落在拒絕域,拒絕H0,否則
25、不拒絕H0,或者也可以直接利用P值作出決策五、建立原假設和備擇假設的原則(建立假設的幾點認識) (1)原假設和備擇假設是一個完備事件組,且相互獨立(2)在建立假設時,通常是先確定備擇假設,然后再確定原假設(3)在假設檢驗中,等號“=”總是放在原假設上。這是因為我們想涵蓋備擇假設H1不出現的所有情況(4)這樣的假設本質上帶有一定的主觀色彩,在面對某一實際問題,由于不同研究者有不同的研究目的,即使對同一問題也可能提出截然相反的原假設和備擇假設,這并不違背假設的最初定義,只要符合研究的最終目的就是合理的六、單雙側檢驗的區別 備擇假設具有特定的方向性,并含有“”的假設檢驗,稱為單側檢驗或單尾檢驗。 備
26、擇假設沒有特定的方向性,并含有符號“”的假設檢驗,稱為雙側檢驗或雙尾檢驗 在單側檢驗中,由于研究者感興趣的方向不同,又可分為左側檢驗和右側檢驗七、檢驗統計量的特征和用途 檢驗統計量是指根據樣本觀測結果計算得到的,并據以對原假設和備擇假設做出決策的某個樣本統計量。 檢驗統計量實際上是總體參數的點估計量,只有將其標準化后,才能用以度量它與原假設的參數值之間的差異程度。而對點估計量標準化的依據則是:a、原假設H0為真;b、點估計量的抽樣分布。實際上,假設檢驗中所用的檢驗統計量都是標準化檢驗統計量,它反映了點估計量與假設的總體參數相比相差多少個標準差。八、拒絕域面積與大小的關系當樣本容量固定時,拒絕域
27、的面積隨著的減小而減小。越小,拒絕原假設所需要的檢驗統計量的臨界值與原假設的參數值就越遠。拒絕域的位置取決于檢驗是單側檢驗還是雙側檢驗,雙側檢驗的拒絕域在抽樣分布的兩側,而單側檢驗中,如果備擇假設具有符號“”,拒絕域位于抽樣分布的右側,故稱為右側檢驗。九、顯著性水平的局限性顯著性水平實在檢驗之前確定的,這也就意味這我們事先確定了拒絕域。這樣,不論檢驗統計量的值是大還是小,只要他的值落入拒絕域就拒絕原假設,否則不拒絕原假。這種固定的顯著性水平對檢驗結果的可靠性起一種度量作用。但不足的是,是犯第類錯誤的上限控制值,它只能提供檢驗結論可靠性的一個大致范圍,而對于一個特定的假設檢驗問題,卻無法給出觀測
28、數據與原假設之間不一致程度的精確度量,也就是說,僅從顯著性水平比較,若選擇的值相同,所有的檢驗結果的可靠性都一樣。十、P值較小時為什么要拒絕原假設 P值是指在原假設為真的條件下,檢驗統計量的觀察值大于或等于其計算值的概率。 P值是反映實際觀測到的數據與原假設H0之間不一致程度的一個概率值。P值越小,說明實際觀測到的數據與H0之間不一致的程度就越大,檢驗的結果也就越顯著十一、顯著性水平與P值得區別 (1)的含義是當原假設正確時卻被拒絕的概率或風險,即假設檢驗中犯棄真錯誤的概率,是有人們根據檢驗的要求確定的,通常=0.05或0.01 而P值是原假設為真時所得到的樣本觀察結果或更極端結果出現的概率,
29、它是通過計算得到的,P值得大小取決于三個因素:樣本數據與原假設之間的差異、樣本量、被假設數據的總體分布(2)只能提供檢驗結論的可靠性地一個大致范圍,而對于一個特定的假設檢驗為題,卻無法給出觀測數據與原假設之間不一致程度的精確度量。即僅從顯著性水平來比較,如果選擇的值相同,所有檢查結果的可靠性都一樣。 而P值可以測量出樣本觀察數據與原假設中假設的值的偏離程度。十二、總體均值的檢驗在對總體均值進行假設檢驗時,采用什么檢驗步驟和檢驗統計量取決于我們所抽取的樣本是大樣本(n30)還是小樣本(n30),此外還需要區分總體是否服從正態分布、總體方差2是否已知等幾種情況。(1)大樣本的檢驗方法:樣本均值經過
30、標準化后服從正態分布,設假設的總體均值為0,當總體方差2已知時,總體均值檢驗的統計量為: 當總體方差未知時,可以用樣本方差s2來近似代替總體方差,此時總體均值檢驗的統計量為(2)小樣本的檢驗方法: 總體方差2已知時,即使在小樣本下,檢驗統計量仍然服從正太分布,因此仍然按照 來計算。 總體方差2未知時,需要用樣本方差s2代替總統方差2,此時檢驗統計量服從自由度為n-1的t分布。因此需要采用t分布來檢驗總體均值,通常稱為“t檢驗”。檢驗的統計量為: 第九章 方差分析與實驗設計一、方差分析的概念及理解方差分析是指檢驗多個總體均值是否相等的統計方法。所采用的方法就是通過檢驗各總體的均值是否相等來判斷分
31、類型自變量對數值型因變量是否有顯著影響。它研究的是多哥總統均值是否相等的統計方法,但本質是研究分類型自變量對數值型因變量的影響。二、方差分析和回歸分析的區別和聯系 區別:(1)方差分析中沿水平軸的自變量是分類變量;而回歸分析沿水平軸的自變量是數值型變量。(2)方差分析中,既然自變量是分類變量,就可以把它放在水平軸的任意位置上;而回歸分析的自變量是數值型變量,它在水平軸上的位置是從按小到大的數值排列的,因此只有一種方式來放這些數值,并且可以畫出一條穿過這些點的直線。(3)方差分析是通過檢驗各總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響;而回歸分析是根據一組樣本數據確定出變量之
32、間的數學關系式,然后對關系式的可信程度進行各種統計檢驗,并找出哪些變量的影響是顯著的,哪些不顯著等三、方差分析中的基本原理(1)方差分析是通過對數據誤差來源的分析來判斷不同總體的均值是否相等,進而分析自變量對因變量是否有影響(2)數據的誤差是用平方差來表示的,包括組內誤差和組間誤差(3)組內誤差只包含隨機誤差,而組間誤差既包括隨機誤差,又包括系統誤差(4)如果組間誤差只包括隨機誤差,而沒有系統誤差,這時,組間誤差與組內誤差經過平均后的數值就應該很接近,他們的比值就會接近1;(5)反之,如果組間誤差既包括隨機誤差又包括系統誤差,這時,組間誤差與組內誤差經過平均后的數值,他們的比值就會大于1;(6
33、)當這個比值大到某種程度時,我們就可以說因素的不同水平之間存在著顯著的差異,也就是自變量對因變量有影響。四、方差分析中的基本假定(1)每個總體都應服從正態分布。也就是說,對于因素的每一個水平,其觀察值是來自服從正態分布總體的簡單隨機樣本(2)各個總體的方差必須相同。也就是說,各組觀察數據是從具有相同方差的總體中抽取的(3)觀察值是獨立的在上述假定成立的前提下,要分析自變量對因變量是否有影響,實際上也就是要檢驗自變量的各個水平(總體)的均值是否相等。五、方差分析和總體均值的t檢驗或z檢驗有何不同?優勢是什么(1)不同:總體均值的t檢驗或z檢驗,只能研究兩個樣本,若要檢驗多個總體均值是否相等。那么
34、作這樣的兩兩比較將 十分繁瑣,共需進行Cn2次不同的檢驗,如果=0.05,那么每次檢驗犯第類錯誤的概率都是0.05,做多次檢驗會使第類錯誤的概率相應增加。而方差分析方法則同時考慮所有的樣本,因此除了錯誤累計的概率,從而避免了拒絕一個真是的原假設。(2)優勢:方差分析不僅可以提高檢驗的概率,同時由于他是將所有的樣本信息結合在一起,也增加了分析的可靠性。六、要檢驗多個總體均值是否相等時,為什么不做兩兩比較,而用方差分析方法? 方差分析不僅可以提高檢驗的概率,同時由于他是將所有的樣本信息結合在一起,也增加了分析的可靠性。 檢驗多個總體均值是否相等時,如果做兩兩比較,需要進行多次的t檢驗。隨著增加個體
35、顯著性檢驗的次數,偶然因素導致的差別的可能性會增加(并非均值真的存在差別),而方差分析則是同時考慮所有的樣本,因此排除了錯誤累積的概率,從而避免拒絕一個真實的原假設。七、方差分析的步驟(1)提出假設,按要求檢驗的k個水平的均值是否相等,提出原假設和備擇假設。(2)構造檢驗的統計量,計算各樣本均值xi,樣本總均值x,誤差平方和SST、SSA、SSE F=SSAk-1SSEn-k=MSAMSE(3)統計決策,比較統計量F和F(k-1,n-k)的值,若FF,則拒絕原假設,反之不拒絕原假設八、解釋水平項誤差平方和與誤差平方和(1)水平項誤差平方和,簡稱SSA,是各組平均值與總平均值的誤差平方和,反映各
36、總體的樣本均值之間的差異程度,因此又稱為組間平方和,其計算公式為(2)誤差項平方和,簡稱為SSE,它是每個水平或組的各樣本數據與其組平均值誤差的平方和,反映了每個樣本個觀測值的離散狀況,因此又稱為組內平方和或殘差平方和,該平方和實際上反映的是隨機誤差的大小,其計算公式為九、解釋組內方差和組間方差的含義SSA的均方(組間均方)記為MSA,也稱組間方差,其計算公式為MSE的均方(組內均方)記為MSE,也稱組內方差,其計算公式為十、方差分析中效應的意義 SSA是對隨機誤差和系統誤差的大小的度量,它反映了自變量對因變量的影響,也稱自變量效應或因子效應。 SSE是對隨機誤差的大小的度量,它反映了除自變量
37、對因變量的影響之外,其他因素對因變量的總影響,因此SSE也稱為殘差變量,它所引起的誤差也稱為殘差效應。 SST是全部數據總誤差程度的度量,它反映了自變量和殘差變量的共同影響,因此他等于自變量效應加殘差效應。 SST = SSA + SSE十一、多重比較方法的作用:它是通過對總體均值之間的配對比較來進一步檢驗到底哪些均值之間存在差異。十二、交互作用:是一因素對另一因素的不同水平有不同的效果,如對于雙因素方差分析,有交互作用就是兩個因素搭配在一起,對應變量產生的一種新的效應。十三、解釋無交互作用和有交互作用的雙因素方差分析 在雙因素方差分析中,由于有兩個影響因素,若這兩個因素是相互獨立的,我們分別
38、判斷這兩個因素對因變量的影響,這時的雙因素方差分析稱為無交互作用的雙因素方差分析,或稱為無重復因素分析。如果出了兩個因素的單獨影響外,兩因素的搭配還會對因變量產生一種新的效應,這時的雙因素方差分析就是有交互作用的雙因素方差分析。十四、R2的含義和作用(1)單因素方差分析中,R2 表示自變量平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小,其平方根R就可以用來測量兩個變量之間的關系強度(2)無交互作用的雙因素方差分析中,行自變量平方(SSR)和和列自變量的平方和(SSC) 加在一起則度量了兩個自變量對因變量的聯合效應,聯合效應與總平方和的比值定義為R2,其平方根R反映了這兩個
39、自變量合起來與因變量之間的關系強度 (3)有交互作用的方差分析:R2 =SSR+SSC+SSRCSST十四、為什么雙因素方差分析中,誤差平方和與P值明顯小于單因素方差分析中的任何一個平方和? 是因為在雙因素方差分析中,誤差平方和不包括兩個自變量中的任何一個,因而減少了殘差效應。而在分別作單因素方差分析時,將行因素作為自變量時,列變量被包含在殘差中,同樣,將列因素作為自變量是,行變量被包含在殘差中。因此,對于兩個自變量而言,進行雙因素方差分析要優于分別對兩個因素進行單因素方差分析十五、完全隨機化設計、隨機化區組設計、因子設計(1)完全隨機化設計指“處理”被隨機地指派給試驗單元的一種設計、對完全隨
40、機化設計的數據采用單因素方差分析(2)隨機化區組設計是指先按一定規則將試驗單元劃分為若干同質組,稱為“區組。分組后再將每個品種(處理)隨機地指派給每一個區組的設計就是隨機化區組設計。試驗數據采用無重復雙因素方差分析 (3)因子設計指考慮兩個因素(可推廣到多個因素)的搭配試驗設計稱為因子設計。該設計主要用于分析兩個因素及其交互作用對試驗結果的影響。試驗數據采用可重復雙因素方差分析第十章 一元線性回歸一、簡述相關系數的性質相關系數是指根據數據計算的對兩個變量之間線性關系強度的度量值。若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為r ;若是根據樣本數據計算的,則稱為樣本相關系數,記為 r,樣本相關系數的計算公式: 性質:(1)r 的取值范圍是 -1,1 ; |r|=1,為完全相關,r =1,表明x與y之間為完全正線性相關關系,r =-1,表明x與y之間為完全負線性相關關系; r = 0,表明x與y之間不存在線性相關關系相關, -1r 0,表明x與y之間為負線性相關, 0r 1,表明x與y之間為正線性相關, |r|越
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中語文批判性寫作教學中的寫作情感教育研究論文
- 藝術培訓學管理制度
- 花紙出入庫管理制度
- 茶葉原材料管理制度
- 院團后勤科管理制度
- 蓮都區高標準農田建設評估采購項目招標文件
- 課題實施方案 (二)
- 財務與會計沖刺卷及答案
- 管理學華源集團案例分析
- 自動監控儀器施工技術方案
- 2025家庭裝飾裝修合同范本
- 農村自建房流程
- 醫生護士家長進課堂助教兒童醫學小常識課件
- 《農藥經營許可培訓班》考試試卷
- 安徽省技能人才評價考評員考試題庫
- DB32∕T 4170-2021 城市軌道交通車輛基地上蓋綜合利用防火設計標準
- 《湖北省中小學生命安全教育課程標準》
- (完整)初中物理電學中常見的列方程計算歸類
- 浙江省2016年10月物理學業水平考試試題
- 蘇州大學物理化學真題
- 內科常見病、多發病的急診處理、診療規范及轉診要求
評論
0/150
提交評論