【統計學復習提綱】_第1頁
【統計學復習提綱】_第2頁
【統計學復習提綱】_第3頁
【統計學復習提綱】_第4頁
【統計學復習提綱】_第5頁
已閱讀5頁,還剩32頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGE35PAGE372013-2014學年度第二學期《統計學》復習提綱第一章:緒論1、統計的含義和特點一、統計的含義:統計最基本的含義是人們對客觀事物的數量表現、數量關系和數量變化進行描述和分析的一種計量活動。在不同的場合,統計一詞有統計工作、統計資料、統計科學三種含義。二、統計的研究對象:統計的研究對象是統計工作的規律,即搜集、整理和分析統計數據的方法,是一門方法論科學。(P11)三、統計的特點(P4):(1)數量性(最基本特點)(2)具體性(3)綜合性(或總體性)。2、統計學的基本概念:總體、總體單位、總體的特征,總體的分類。標志、變異與變量,連續型變量與離散型變量聯系和區別,指標與標志一、總體:總體是在某種共性的基礎上由許多個別事物結合起來的整體。總體單位:構成總體的個別事物。(P13)他們不是一成不變的,在一定的條件下可以相互轉化。確定總體是為了確定調查研究的對象和范圍,確定總體單位是為確定調查登記項目的承擔者。二、總體的特征(P13):同質性;(2)大量性;(3)差異性。三、總體的分類(P13):有限總體;(2)無限總體。四、標志:指說明總體單位特征的名稱,由標志名稱+標志值構成。標志的分類(P15):品質標志、數量標志;(2)不變標志、可變標志(包括變異和變量)。五、變量:變量就是可變的數量標志。(P15)變異:總體單位之間的這些品質和數量上的差異,即可變標志在總體各單位之間變現出來的差異。變量和統計數據分類有對應關系。六、連續型變量與離散型變量數值變量可分為離散變量與連續變量。凡是變量值只能以整數出現的變量就叫離散變量,變量值可以無限分割的變量就是連續變量。七、指標:是說明總體數量特征的概念。由指標名稱+指標值組成。標志和指標的區別和聯系(1)區別:①指標說明總體的特征;而標志說明總體單位的特征②指標只反映總體的數量特征;標志既可以反映總體單位的數量特征,也可以反映總體單位的品質特征聯系:指標的數值是由總體各單位的數量標志的標志值匯總而得到的指標體系以共同的研究目的為紐帶而相互聯系的一系列統計指標成為指標體系。3、補充:統計數據統計數據是指對現象或事物進行測量的結果。按照測量尺度的差異,可以將統計數據進行分類:分類數據,順序數據和數值型數據。分類數據和順序數據說明的都是事物的品質(屬性)特征,通常用文字來表述,其結果均表現為類別,可以通稱為定性數據或品質數據。數值型數據說明事物或現象的數量特征,用數值來表現,因此可稱為定量數據或數量數據。按照收集方法的不同,可以分為觀測數據和實驗數據。按照時間狀況的不同,可以分為截面數據和時間序列數據。4、補充:參數與統計量、樣本參數(parameter):用來描述總體特征的概括性數字度量;例如總體平均數;總體標準差;總體比例。統計量(statistic):用來描述樣本特征的概括性數字度量,它是樣本的函數。例如樣本平均數;樣本標準差;樣本比例。樣本(sample):從總體中抽取一部分個體的集合。樣本容量(samplesize):構成樣本的個體的數目,也稱為樣本量,通常用n表示。第二章:統計調查1、統計調查的含義及其在統計工作中的地位2、統計調查的基本原則統計調查是指根據既定目的,有組織、有計劃地搜集統計資料的過程。它是統計工作的第一階段,基礎環節。統計調查的基本原則是真實、及時和合適。3、統計調查的組織形式有哪些。(紅色字體)什么是隨機抽樣;什么是非隨機抽樣。(藍色字體)非隨機抽樣的類型(粉紅色字體)(普查:含義、優缺點,適用場合;隨機抽樣調查:含義以及具體的抽樣方法(簡單隨機、分層抽樣、整群抽樣、系統抽樣、多階段抽樣)及適用場合;非隨機抽樣:含義以及具體的抽樣方法(重點抽樣、典型抽樣、任意抽樣、配額抽樣)及適用場合)普查:是指為搜集某種社會經濟現象在某時某地的情況而專門組織的一次性全面調查。特點:涉及面廣、工作量大、時間性強、耗費較多、組織工作復雜。適用范圍:限于重大全局性問題,提供基本的全面統計基礎資料,如人口普查、經濟普查等。隨機抽樣調查:是指按隨機原則從總體中抽取部分單位進行調查,并借以推斷和認識總體的一種統計方法。特點:最科學的非全面調查。(1)簡單隨機抽樣(純隨機抽樣):是不對總體做任何加工整理,按照隨機原則直接從總體N個單位中抽取n個單位作為樣本進行調查的抽樣方式。它是最基本也是最簡單的抽樣組織方式,分為重復和不重復抽樣兩種情況。特點:①簡單、直觀,在抽樣框完整時,可直接從中抽取樣本②用樣本統計量對目標量進行估計比較方便局限性①當N很大時,不易構造抽樣框②抽出的單位很分散,給實施調查增加了困難③沒有利用其他輔助信息以提高估計的效率(2)類型抽樣(分層抽樣或分類抽樣):是將總體單位先按一定標志分組,然后在各組中隨機抽取樣本的抽樣組織方式。類型抽樣是應用于總體內各單位在被研究標志上有明顯差別的抽樣。主要原則是:分組時應使組內差異盡可能小,使組間差異盡可能大。優點:①保證樣本的結構與總體的結構比較相近,從而提高估計的精度②組織實施調查方便③既可以對總體參數進行估計,也可以對各層的目標量進行估計(3)等距抽樣(機械抽樣或系統抽樣):是先將總體各單位按有關標志或無關標志進行排列,再按照固定的順序和間隔來抽選樣本單位的一種抽樣組織形式。等距抽樣是不重復抽樣,通常可以保證被抽取的單位在總體中均勻分布,縮小各單位之間的差異程度,提高樣本的代表性。優點:操作簡便,可提高估計的精度缺點:對估計量方差的估計比較困難(4)整群抽樣:是先將總體各單位劃分成若干群,再以群為單位從中隨機地抽取出若干群來,對被抽中群的所有單位進行調查的一種抽樣組織形式。特點:①抽樣時只需群的抽樣框,可簡化工作量②調查的地點相對集中,節省調查費用,方便調查的實施③它的精度比起簡單隨機抽樣來要低一些。(5)多級抽樣(多階段抽樣):他把抽取樣本單位分為n個步驟進行,即先從總體中抽取一級單位,然后再從抽中的一級單位中抽取二級單位,直到抽取最終單位。特點:①具有整群抽樣的優點,保證樣本相對集中,節約調查費用②需要包含所有低階段抽樣單位的抽樣框;同時由于實行了再抽樣,使調查單位在更廣泛的范圍內展開③在大規模的抽樣調查中,經常被采用的方法三、非隨機抽樣調查:是指調查者有意識地或隨意而非隨機地從總體中抽取部分單位進行調查的統計方法。特點:一般不用于推算總體指標。(1)重點抽樣,是指只對總體中為數不多但影響頗大的重點單位進行研究的一種非全面調查。特點:以較少的人力、物力和財力,幾時地掌握總體的基本情況及其發展變化的基本趨勢。(2)典型抽樣,是指根據對調查對象的初步了解,有意識地從中挑選具有代表性的單位進行研究的一種非全面調查。要注意典型性。作用:①“解剖麻雀”,推論一般,指導全局,促進統計研究的深化。任意抽樣(方便抽樣、隨意抽樣)是指調查者隨意抽取調查單位進行調查的一種方法。常用于市場調查和民意調查,例如柜臺顧客調查、街頭路邊攔截訪問等等。特點:不能保證每個單位都有相同中選機會。(與隨機抽樣相區分)配額抽樣,是在總體作若干種分類和樣本總容量既定的輕狂下,按配額從總體各部分抽取調查單位進行調查的方法。例如:為研究暨大本科生學習狀況,擬從暨大本科生中抽取500人,指定從2006級春季班中抽取30人,男生18人,女生12人;類似地,給其他各個班級指定抽選的額定人數。此即配額抽樣。四、定期統計報表:是指按國家統一規定的指標體系、表格形式、報送程序和報送時間,定期地自下向上地向國家和上級主管部門報送統計資料的一種統計調查形式。(與抽樣無關)4、統計調查方案的內容(調查對象、調查單位和報告單位)關于統計調查目的、對象、內容、方法、步驟、時間、經費和組織領導等的工作計劃,即是統計調查方案。它是指導統計調查工作的綱領性文件。調查對象和調查單位對應統計調查中的總體和總體單位,調查對象是由調查單位組成的整體,調查單位是調查項目的承擔者。例如,要了解某地區國有企業工業設備的狀況,那么調查對象就是“某地區國有企業工業設備”,調查單位就是該地區國有企業的每一臺工業設備。報告單位又叫填報單位,指按照要求負責填報調查結果的單位,只能是機構或者個人。調查單位既包括機構、個人,也包括物。二者有時重合,有時候不同。5、調查誤差:含義與分類;產生原因;防止和減少調查誤差的方法一、調查誤差的含義:是指調查所得的統計數字與調查對象的實際數量之間的差異。二、調查誤差的種類:(1)非代表性誤差(工作誤差):由于調查工作中的失誤造成的誤差。(人為誤差,理論上可以消除)(2)代表性誤差:以部分推斷總體時必然存在的誤差。(無法消除,但可以進行控制和計算)隨機抽樣中的名稱是抽樣誤差。三、非代表性誤差的產生原因調查方案規定不妥而產生的設計誤差;調查過程記錄不準轉抄有誤產生的登記誤差;計量工具不準,數據折算匯總有誤產生的誤差;因(被)調查者弄虛作假造成的誤差。無論全面調查還是抽樣調查中都會出現,都是人為的誤差,可以避免和減少。四、防止或者減少統計誤差的辦法(1)要正確周密地制定統計調查方案(2)健全原始記錄,完善統計臺賬(3)加強對統計人員的培訓,提高統計人員的素質(4)要加強對統計調查資料的審核(5)要科學地抽取樣本和選擇典型(6)加強統計司法,嚴懲弄虛作假行為6、調查項目和調查表調查項目是指作為調查內容規定下來的有關調查單位的特征(標志)。例如某位學生的性別、年齡、身高、體重、某課程分數等等;調查表:合理有序排列調查項目的表格。單一表,只能填寫一個調查單位的調查表;一覽表,可以同時填寫若干調查單位的調查表。第三章:統計整理1、統計整理的含義以及意義,統計整理的程序和過程。統計分組的概念、統計分組的種類含義:根據統計研究的目的和要求,對統計所得的各項資料進行審核、科學分組和匯總的工作過程。整理的資料也包括歷史資料。意義:是整個統計工作的中間環節,是數據收集(統計調查)過程的繼續和深化,又是統計分析的基礎。統計整理的程序:審核→分組→匯總→制表與繪圖。對數據進行全面審核、篩選和排序;根據研究目的和要求,講各指標進行分類分組;在分類分組的基礎上,進行匯總,得到各種指標;編制統計表,繪制統計圖,將資料簡潔系統地進行展示。一、統計整理的審核:(1)審核資料的完整性和及時性。(2)審核資料的準確性。(3)歷史資料的審查。(4)資料審查后的訂正。二、統計整理的分組:(1)統計分組:指根據社會經濟現象的特點和統計研究的目的要求,按某種重要標志把總體分成若干部分的科學分類。分組原則:組內盡量相似,組間盡量差異。統計分組的關鍵:①選擇分組標志;②劃分各組界限。(2)統計分組的作用:①劃分社會現象的不同類型②揭示社會經濟現象的內部結構③分析社會現象間的依存關系(3)統計分組的種類:①按分組的作用或目的不同:類型分組、結構分組和分析分組。②按分組標志的多少和分組形式:簡單分組、復合分組和并列分組。③按分組標志性質:品質分組和數量分組。(4)統計分組的標志選擇:①分組標志:是指將總體劃分為性質不同的組的標準或依據。②分組標志選擇的要求:Ⅰ要符合統計研究的目的和要求Ⅱ必須選擇最主要的標志作為分組依據Ⅲ要考慮社會經濟現象所處的具體歷史條件三、統計整理的匯總:(1)概念:將統計資料歸并到各組中去,并計算各組和總體的合計數的工作過程。(2)作用:將各個調查單位的情況,匯總成總體情況,使我們能看到全體,進而揭示總體在多方面的數量特征。四、統計整理的制表:(1)要合理安排統計表的結構。(2)總標題應該簡要反映表的基本內容,還要指出資料所屬時間和地點。(3)數據計量單位相同時,可放在表的右上角標明,不同時應放在每個指標后或單列出一列標明。(4)表中的上下兩條橫線一般用粗線,其他線用細線。(5)通常情況下,統計表的左右兩邊不封口。6)表中的數據一般是右對齊,有小數點時應以小數點對齊,而且小數點的位數應統一。7)對于沒有數字的表格單元,一般用“—”表示8)必要時可在表的下方加上注釋2、統計分組:組數與組距、數值型數據的統計分組:等距分組與異距分組,組限與組中值計算,開口組的組距計算等一、組數:即將總體分為幾組。(1)品質分組的組數由兩個因素決定:事物本身的特點和統計研究的任務(2)數量分組的組數由兩個因素決定:①全距=最大標志值-最小標志值②組距=各組最大標志值(上限)-各組最小標志值(下限)=全距÷組數二、組距:各組的最大標志值(上限)與最小標志值(下限)之差。三、組限:是指每組兩端的數值,其中每組的起點數值(最小值)稱為下限,最點數值(最大值)稱為上限。四、組中值:是各組組距的中點值,代表組內各標志值的一般水平,具有平均數性質(但不是平均數)。五、計算:【例題】(1)重合式:指相鄰兩組中,前一組的上限和后一組的下限數值重合。一般用于連續型變量。組距=上限-下限組中值=(上限+下限)÷2=下限+組距/2=上限-組距/2(2)不重合式:指前一組的上限與后一組的下限,兩值緊密相連而不相重復。一般用于離散型變量。組距=下組下限-本組下限=本組上限-前組上限組中值=(本組下限+下一組下限)÷2=本組下限+組距/2=下組下限-組距/2組數、組距確定的斯特杰斯經驗公式其中n為組數,N為總體單位數,d為祖居,R為全距。分組形式:一、單項式分組:(1)適合于離散變量(2)將一個變量值作為一組(3)適合于變量值變動幅度較小的情況二、組距式分組:1、適合于連續變量和變動幅度較大的離散變量2、適合于變量值較多的情況3、將變量值的一個區間作為一組必須遵循“不重不漏”的原則4、可采用等距分組,也可采用不等距分組①等距分組:標志變量在各組保持相等組距。在分組標志變化比較均勻的情況下適合用等距分組。②不等距分組:標志變量在各組中的組距不相同。標志值急劇增長或下降時適合用不等距分組。3、統計表的含義、結構及其種類統計表,是指集中而有序地顯示統計資料的表格。它是表現統計數據和累計統計資料的基本手段。統計表的結構由表頭(表號、總標題和表中單位),行標題,列標題,數字資料和表外附加5個部分構成。統計表按照用途的不同可以分為調查表、匯總表和分析表。按照主詞的分組情況不同可以分為簡單表,分組表和復合表。4.統計圖的含義及其類型統計圖是具體展示統計資料的圖形。它主要分為兩大類:分布圖和形象圖。一、分布圖分布圖展現了統計資料的次數分布和類型特征。常見的分布圖有直方圖、折線圖、曲線圖和累計曲線圖。二、形象圖形象圖主要展現統計資料描述的數量、速度和結構特征。常見的圖有物形圖、餅形圖、柱形圖和標示圖。三、數據類型劃分(1)分類數據分類數據可以用比例,比率,百分比等統計量描述,他們適用的統計圖有條形圖,柱形圖,帕累托圖和餅圖。(2)順序數據順序數據還可以使用累計頻數和累計頻率圖、環形圖。(3)數值型數據數值數據還可以使用直方圖、折線圖等方式。【例題】5、分布數列及其種類;一、分布數列(次數分布或次數分配):指反映總體單位在各組分布狀況的一系列數字。分布數列組成要素:(1)組的名稱;(2)各組次數(頻數)或頻率二、分布數列的種類:(1)按分組標志的不同:①品質數列,是指按品質標志分組所形成的分布數列,它由各組名稱和各組單位數構成。②變量數列,是指按數量標志分組所形成的分布數列,由變量和次數兩個要素組成。(2)按分組形式不同:①單項式數列,是指各組都由一個具體的變量值(單項)來表示的數列。②組距式數列,是指各組都由兩個變量值界定的變量區間(組距)來表示數列,又分為等距數列和不等距數列。(3)按次數分布的特征不同:①鐘形分布數列,數列中愈靠近變量值中點分布次數愈多,愈遠離變量值中點分布次數愈少。又分為對稱分布、右偏分布(圖1)和左偏分布(圖2)。口訣:右偏左倚,左偏右倚。②J形分布數列。(圖3是正J型,圖4是負J型)③U形分布數列(圖5)。第四章:總量指標和相對指標1、總量指標的含義。總量指標的分類:總體總量與標志總量;時期指標與時點指標。;一、總量指標(絕對指標):是反映社會經濟現象在一定時間、地點條件下所達到的總規模、總水平或工作總量的綜合指標。、二、總量指標的種類:(1)按其反映總體內容不同:總體總量,即總體單位數,是由每個總體單位加總而得到的。標志總量,是指總體各單位某一數量標志的總和。(2)按其反映時間狀態的不同:時期指標(時期數),是指反映社會經濟現象在一段時間內所達到的總規模、總水平或工作總量。時點指標(時點數),是指反映社會經濟現象在某一時點(時刻)所達到的數量狀態。(3)按采用的計量單位不同:實物指標,是指以實物單位計量的總量指標,即以事物的物理屬性或自然屬性作為計量單位的指標。價值指標,是指以貨幣為計量單位的總量指標。勞動量指標,是指以勞動量單位計量的總量指標。補充:時期指標與時點指標的比較:時期指標的特點(1)時期指標數值連續統計(2)不同時期的時期指標數值可以累計相加(3)時期指標數值大小與統計期限長短有關時點指標的特點時點指標的數值間斷統計不同時期的時點的指標數值不能累計相加時點指標的數值大小與其時間間隔長短無直接相關2、相對指標的概念;相對指標的表現形式;相對指標的種類及各自最基本的計算公式;一、相對指標:兩個有聯系的統計指標進行對比的比值,用以反映現象的發展程度、結構、強度、普遍程度或比例關系。表現形式:單名數和復名數無名數:如成數、比例、倍數、百分數、千分數。沒有計量單位。有名數:如密度、強度等復合單位的相對數(克/立方米、元/人)。二、相對指標的種類:(1)計劃完成相對數:現象在某一段時間內的實際完成數與計劃完成數之比。作用:考核、反映計劃完成的程度(進度)。產量、產值增長百分數:計劃完成相對數=(100%+實際增長%)/(100%+計劃增長%)×100%產品成本降低百分數:計劃完成相對數=(100%-實際降低%)/(100%-計劃規定降低%)×100%(2)結構相對數:總體中某部分數值與該總體數值對比的比值。作用:反映總體內部構成情況的綜合指標。分子分母不能互換!特點:①必須與統計分組相結合;②分子的數值是分母數值的一部分;③總體中各部分比重之和等于1或100%;④表現形式為無名數(百分數、千分數或成數)。(3)比例相對數:同一總體內某一部分數值與另一部分數值對比的比值。作用:反映總體各部分間的內在聯系與比例關系。(同一總體不同部分比較)特點:①對比的分子分母屬于同一總體;②分子分母可以互換(與結構相對數的區別);③比例相對數的數值,一般用百分數或幾比幾的形式表示。(4)比較相對數:同一時間的同類指標在不同空間對比的比值。作用:反映同類現象在不同空間的數量差異或不平衡程度,發現先進與后進。特點:①分子分母的數值分別屬于不同的總體;②分子分母是同類指標;③分子分母可以互換。(5)動態相對數:某一社會經濟現象在不同時期兩個數值對比的比率,又稱發展速度或指數。作用:反映事物發展變化的方向與程度。其中:報告期又稱計算期,是研究或計算時期。基期是作為比較基礎的時期。6)強度相對指標:兩個性質不同但有一定聯系的總量指標之間的對比。作用:①反映事物存在的密度、普遍程度、運動強度、負擔強度;②反映經濟效益的高低。特點:①強度相對數一般采用有名數(復名數)為計量單位,即由分子分母原有的計量單位構成。②有的強度相對指標分子分母可以互換,有正指標和逆指標,正指標的比值的大小與其反映的強度、密度和普遍程度成正比,而逆指標正好相反。第五章:平均指標1、平均指標意義與特點、平均指標概念和作用、平均指標的種類一、平均指標:同質總體某一標志在一定時間、地點、條件下所達到的一般水平,是總體的代表值,它描述分布數列的集中趨勢。特點:同質性、代表性和抽象性。作用:①可以比較同類現象在不同單位、不同地區間的平均水平;②可以比較同類現象在不同時期的平均水平;③可用于研究事物之間的依存關系;④利用平均數還可以進行推算和預測。二、平均指標的種類:(1)數值平均數:算術平均數、調和平均數和幾何平均數。(2)位置平均數:眾數和中位數。2、算術平均數、基本計算公式、簡單算術平均數的計算、加權算術平均數的計算、根據單項數列計算、根據組距數列計算一、算術平均數:算術平均數=同一總體的標志總量/同一總體的總體總量(1)簡單算術平均數:(2)加權算術平均數:(3)交替標志平均數:以1作為具有某種屬性的單位標志值,以0作為不具有某種屬性的單位標志值。利用加權算術平均數可得。算術平均數的數學性質(1)算術平均數與總體單位數的乘積,等于各單位標志值的總和。(2)各單位標志值與算術平均數離差之和等于0。(3)各單位標志值與算術平均數離差平方之和為最小。(4)對各單位標志值加或減一個任意數a,則算術平均數也要增加或者減少該數a。(5)對各單位標志值乘以或除以一個任意數b,則算術平均數也要乘以或除以該數b。3、調和平均數、加權調和平均數的計算;幾何平均數、簡單幾何平均數的計算、加權幾何平均數的計算一、調和平均數(倒數平均數)(1)簡單調和平均數:是標志值倒數的算數平均數的倒數。(2)加權調和平均數:是指各單位標志值倒數的加權算術平均數的倒數。(3)由相對數或平均數計算平均數:(P110)二、幾何平均數:幾何平均法是n個變量連乘積的n次根。一般適用于各變量值之間存在環比關系的事物。(1)簡單幾何平均數:(2)加權幾何平均數:(3)注意:①變量數列中任何一個變量值不能為0,一個為0,則幾何平均數為0。②用環比指數計算的幾何平均易受最初水平和最末水平的影響。③幾何平均法主要用于動態平均數的計算。4、眾數與中位數、掌握單項數值數列的眾數和中位數的含義一、眾數:總體中出現次數最多的變量值,通常以符號M0表示。優點:不受極端值的影響。可能沒有眾數或有幾個眾數。(1)由組距數列計算眾數:第1步確定眾數所在的組,第2步通過公式計算眾數值。下限公式:M0=L+Δ1/(Δ1+Δ2)×i上限公式:M0=U-Δ2/(Δ1+Δ2)×i(2)通過繪圖來求眾數:第一步畫相鄰三組次數分布直方圖,第二步連接相鄰兩組次數差的對角線,第三步以對角線的交點向X軸垂線,它與X軸的交點即為眾數。二、中位數:總體各單位標志值按大小排序后,處于中間位置上的標志值,通常以符號Me表示。優點:不受極端值的影響。(1)未分組數據:中位數位置=(N+1)/2(2)組距分組數據:中位數位置=N/23、算術平均數、眾數與中位數的關系,會通過這個關系來判斷數據的分布形態(1)算術平均數、眾數和中位數的關系:左偏分布均值左偏分布均值中位數眾數對稱分布均值=中位數=眾數右偏分布眾數中位數均值(2)算術平均數、調和平均數和幾何平均數的關系:H≤G≤x4、變異度指標的概念、作用和種類;變異度指標(標志變動度指標):是綜合反映總體各單位標志值及其分布的差異程度的指標。作用:(1)衡量平均數代表性的重要尺度。變異度指標值越大,平均數的代表性越低;反之亦然。(2)衡量現象變動的穩定性和均衡程度。(3)計算抽樣誤差和確定樣本量的依據。變異度指標的種類:(1)全距、四分位差(2)平均差、標準差、方差、離散系數(3)偏度、峰度2、掌握各種變異度指標的含義和計算(若考計算,數據都很少,計算過程非常簡單):全距、標準差和方差,變異系數的含義、種類及計算一、全距(極差):是指總體各單位標志值中最大值與最小值之差,一般以R表示。二、四分位差:是指四分位數中間兩個分位數之差,一般以Q表示。優缺點:計算簡單,意義清楚,反映現象的差異程度較粗略和不全面,實用價值甚小。三、平均差:是指總體各單位標志值對其算術平均數的離差絕對值的算術平均數,一般以A.D.表示。未分組數據(不加權):組距分組數據(加權):優缺點:能全面反映一組數據的離散程度。由于采用絕對值運算,數學性質較差,實際中應用較少。四、標準差(均方差):是總體各單位標志值對算術平均數的離差的平方的算術平均數的平方根。一般以σ表示。方差:標準差的平方。一般以σ2表示。優點:反映了各單位標志值與算術平均數的平均差異;且計算簡單,易于數學處理。計算公式:(1)總體方差和標準差:未分組數據組距分組數據(2)樣本方差和標準差:未分組數據組距分組數據五、變異系數(離散系數或標志變動度系數):是指各種變異度指標與其算術平均數對比得到的相對數,包括平均差系數和標準差系數。平均差系數:平均差與算術平均數的比值。標準差系數:標準差與算術平均數的比值。3、了解偏度和峰度的判斷準則一、偏度:反映總體次數分布偏側方向和程度的指標。偏態系數:是偏度與總體標準差之比,反映分布列的相對偏斜程度。偏態系數=0為對稱分布;偏態系數>0為右偏分布;偏態系數<0為左偏分布。偏度的測定:(1)算術平均數與眾數比較法:偏度偏度系數其中>0,右偏;<0,左偏。(2)動差法:一般采用三階中心動差作為測定偏態的依據,若以表示偏態系數,則:數值型數據分組性數據=0,對稱;>0,右偏;<0,左偏。二、峰度:是指統計學中描述對稱分布曲線峰頂尖峭程度的指標。峰度系數:以四階中心動差為基礎,計算相對數指標。峰度系數=3扁平程度適中;偏態系數<3為扁平分布(平頂峰);偏態系數>3為尖峰分布(尖頂峰)。分組型數據峰度求法如下:補充:偏度與峰度的簡捷計算。m1=M1-M1=0m2=M2-M12m3=M3-3M2M1+2M13m4=M4-4M3M1+6M2M12-3M14補充:間接法。變量值較大且為等距數列的情況。(1)先對變量x作線性變化,令,a為中間組的組中值,b為的最大公約數。(2)求y的k階原點動差。(3)由y的k階原點動差推算y的k階中心動差。(4)由y的中心動差推算x的中心動差。公式為:第六章:概率與概率分布1、概率基本性質與基本運算,會計算不同隨機事件的概率一、隨機現象以及樣本空間在相同條件下重復試驗得到的結果未必相同,這種現象叫做隨機現象。在隨機試驗中,樣本空間中每一個特定的試驗結果,即每一個基本結果稱為隨機試驗的基本事件或樣本點,用ω表示;而由試驗中所有基本結果的集合稱為基本事件空間或樣本空間,記為Ω.二、概率模型①古典概型:(Ⅰ)結果為有限個;(Ⅱ)每個結果出現的可能性是相同的.②試驗概率:根據統計試驗整理而來的后驗概率和統計概率。優點:不受古典概率的兩個特點的限制,容易理解。缺點:試驗不能無限制的進行下去。③主觀概率三、概率的基本性質性質1(非負性)0≤P(A)≤1.性質2(規范性)必然事件概率為1,不可能事件概率為0。P(Ω)=1P(φ)=1性質3(可列可加性)若A1,A2,…,An,…兩兩互斥,則性質4(加法公式)設A,B為任意兩個隨機事件,則P(A+B)=P(A)+P(B)-P(AB).性質5(對立事件)設A為任意隨機事件,則P()=1-P(A).性質6(包含事件)設A,B為兩個任意的隨機事件,若AB,則P(B-A)=P(B)-P(A).四、條件概率在事件B已經發生的條件下事件A發生的概率,稱為已知事件B時事件A的條件概率,記為P(A|B)。其計算公式為概率的乘法公式:P(AB)=P(A)P(B|A).全概率公式:對任一事件B,有上式稱之為全概率公式.貝葉斯公式:設A1,A2,…,An是某一隨機試驗的一個完備事件組,對任意事件B(P(B)>0),在事件B已發生的條件下事件Ai發生的概率為(逆概率公式)2、概率分布:常見的離散型分布及其期望和方差(兩點分布、二項分布、泊松分布和超幾何分布);常見的連續型分布及其期望方差(正態分布與標準正態分布)一、隨機變量在條件S下,隨機試驗的每一個可能的結果ω都用一個實數X=X(ω)來表示,且實數X滿足:(Ⅰ)X是由ω唯一確定.(Ⅱ)對于任意給定的實數x,事件{X≤x}都是有概率的,則稱X為一隨機變量.二、離散型隨機變量(1)離散型隨機變量的性質非負性:規范性:(2)幾種常見的離散型隨機變量的概率分布①0-1分布設隨機變量X的分布為P(X=1)=p,P(X=0)=1-p(0<p<1),則稱X服從參數為p的0-1分布,記為X~B(1,p).②二項分布設隨機變量X的分布為(k=0,1,2,…,n;0<p<1,q=1-p),則稱X服從參數為n、p的二項分布,記為X~B(n,p).③泊松(Poisson)分布設隨機變量X的分布為則稱X服從參數為λ的泊松分布,記為X~P(λ).④超幾何分布設隨機變量X則稱X服從參數為n,M,N的超幾何分布,記為X~H(n,M,N).分布名稱符號均值方差0-1分布B(1,p)pp(1-p)二項分布B(n,p)npnp(1-p)泊松分布P()超幾何分布H(n,M,N)(3)幾種常見的連續型隨機變量的概率分布①均勻分布設隨機變量X的分布密度函數為,則稱X服從參數為a,b的均勻分布,記為X~U(a,b)。其均值EX=,方差DX=。②指數分布設隨機變量X的分布密度函數為則稱X服從參數為λ的指數分布,記為X~E(λ).其均值EX=,方差DX=。③正態分布設隨機變量X的分布密度函數為,其中μ,σ為常數且σ>0,則稱X服從參數為μ,σ2的正態分布,記為X~N(μ,σ2).性質1、圖形是關于x=μ對稱的鐘形曲線,且峰值在x=μ處2、均值μ和標準差δ一旦確定,分布的具體形式也惟一確定,不同參數正態分布構成一個完整的“正態分布族”3、均值μ可取實數軸上的任意數值,決定正態曲線的具體位置;標準差決定曲線的“陡峭”或“扁平”程度。δ越大,正態曲線扁平;δ越小,正態曲線越陡峭4、當X的取值向橫軸左右兩個方向無限延伸時,曲線的兩個尾端也無限漸近橫軸,理論上永遠不會與之相交5、正態隨機變量在特定區間上的取值概率由正態曲線下的面積給出,而且其曲線下的總面積等于1特別地,稱μ=0,σ2=1的正態分布為標準正態分布,其密度函數為其分布函數記為,且。標準正態分布的使用(1)將一個一般的轉換為標準正態分布(2)計算概率時,查標準正態概率分布表(3)對于負的x,可由F(-x)-1=F(x)得到(4)對于標準正態分布,即X~N(0,1),有,。(5)對于一般正態分布,即X~N(m,s),有3、大數定律、中心極限定理一、大數定理切比雪夫大數定律設隨機變量X1,X2,…相互獨立,均具有有限方差,且被同一常數C所界:D(Xi)<C(i=1,2,…),則對于任意的正數,有特殊情形:若X1,X2,…具有相同的數學期望E(Xi)=,則上式成為切比雪夫大數定律指出,n個相互獨立,且具有有限的相同的數學期望與方差的隨機變量,當n很大時,它們的算術平均以很大的概率接近它們的數學期望.伯努利大數定律設是n次獨立試驗中事件A發生的次數,p是事件A在每次試驗中發生的概率,則對于任意的正數,有伯努利大數定律說明,當試驗次數n很大時,事件A發生的頻率與概率有較大差別的可能性很小,即這就以嚴格的數學形式描述了頻率的穩定性.辛欽大數定律設X1,X2,…,Xn,…是相互獨立同分布的隨機變量序列,且E(Xn)=,則對于任意的正數有二、中心極限定理中心極限定理:設{Xn}為隨機變量列,并且,令若對于x∈(-∞,+∞)一致地有則稱{Xn}服從中心極限定理.列維-林德伯格定理設隨機變量X1,X2,…相互獨立,服從同一分布,且具有相同的數學期望和方差:E(Xk)=,D(Xk)=2≠0(k=1,2,…),則隨機變量成立時,此定理也稱為獨立同分布的中心極限定理.棣莫弗-拉普拉斯定理:設隨機變量X1,X2,…均為具有參數n,p(0<p<1)的二項分布,則對于任意實數x,有第七章:抽樣調查與參數估計1、抽樣調查的概念及特點;總體、樣本;總體指標(參數)與樣本指標(統計量);樣本量和樣本可能數目;重復抽樣與不重復抽樣;一、抽樣調查的概念以及特點抽樣調查有廣義和狹義之分。廣義來看,它是指從研究總體中按照一定的原則抽取部分單位作為樣本,進行觀察研究以認識總體的一種統計調查方法。分為概率抽樣和非概率抽樣。非概率抽樣:指從總體中有意識地抽取部分單位作為樣本的方法。如典型抽樣、定額抽樣、便利抽樣、重點抽樣。狹義抽樣調查:即概率抽樣,從總體中按照隨機原則抽取部分單位作為樣本,用樣本的結果去推斷總體參數的調查方法。也稱為隨機抽樣。本講內容主要講概率抽樣。特點:(1)抽樣調查是一種非全面調查。(2)抽樣調查完全是按照隨機的原則來抽取調查單位的。(3)抽樣調查是用總體中部分單位的指標去推測總體指標的數值。(4)抽樣調查的誤差可以事先計算并且加以控制。二、總體和樣本;總體指標和樣本指標(1)總體:所要認識的研究對象全體,它是由所研究范圍內具有某種共同性質的全體單位所組成的集合體。一般用N來表示總體的單位數。(2)樣本:從總體中隨機抽取出來,作為代表這一總體的那部分單位組成的集合體。一般用n表示樣本單位數。(3)總體指標(參數):根據總體各單位的標志值或標志屬性計算的綜合指標。其是惟一確定的。例如總體平均數;總體標準差;總體比例。(4)樣本指標(統計量):根據樣本各單位標志值或標志屬性計算的綜合指標。例如樣本平均數;樣本標準差;樣本比例。三、樣本量和樣本等可能數(1)樣本量n:一個樣本中所包含的單位數,也稱作樣本容量。在抽樣調查中,樣本容量越大,抽樣誤差就越少,但是所花費的成本也就越大。一般來說,n大于30就可以成為大樣本,n小于30就成為小樣本。(2)樣本可能數目:不同的抽樣方式和方法從總體中可能抽取的樣本的個數,也稱樣本可能個數。在抽樣設計中,樣本可能數目的多少與抽樣方式(重復或者不重復)、取樣要求(考慮順序否)密切相關。四、重復抽樣和不重復抽樣(1)重復抽樣(放回抽樣):同一單位有多次重復被抽中的機會,并且每次抽樣之前總體單位數目始終不變,每個單位抽中或抽不中的機會在各次都是相同的。可以看作是進行n次抽取可以看成是進行n次相互獨立的試驗。(2)不重復抽樣(不放回抽樣):同一單位只有一次被抽中的機會,并且總體單位數目隨著樣本單位數目抽取的次數的增多而愈變愈少。每個單位抽中或抽不中的機會在各次是不同的。修正系數為2、抽樣分布:樣本統計量的概率分布;樣本均值、樣本比例、樣本方差的抽樣分布;一、抽樣分布的概念抽樣分布是對樣本統計量的概率分布。它是研究樣本分布和總體分布的橋梁,提供了樣本統計量長遠而穩定的信息,是進行推斷的理論基礎,也是抽樣推斷科學性的重要依據。樣本統計量的概率分布提供了樣本統計量的穩定的信息,構成了推斷總體參數的基礎。二、樣本均值的抽樣分布(1)重復抽樣情況下樣本均值的抽樣分布概念:在重復選取容量為n的樣本時,由樣本均值的所有可能取值形成的相對頻數分布,它是推斷總體均值μ的理論基礎。樣本均值的期望樣本均值的抽樣平均誤差樣本均值的標準正態分布:(2)不重復抽樣下樣本均值的抽樣分布樣本均值的期望樣本均值的抽樣平均誤差在同等條件下,不重復抽樣的抽樣平均誤差總是小于重復抽樣的抽樣平均誤差。三、樣本比例的抽樣分布(1)重復抽樣情況下樣本比例的抽樣分布樣本比例的期望樣本比例的抽樣平均誤差(1)不重復抽樣情況下樣本比例的抽樣分布樣本比例的期望樣本比例的抽樣平均誤差四、樣本方差的抽樣分布(不是重點)(1)樣本方差是總體方差的無偏估計量(2)比值服從自由度為n-1的卡方分布3、參數估計的一般問題:估計量估計值;點估計和區間估計;估計量優良的標準;一、參數估計的一般問題參數估計是指用樣本估計量來估計總體參數的一種方法。(1)估計量估計量是指用來估計總體參數的統計量的名稱,如樣本均值、樣本成數和樣本方差。(2)估計值估計值是指用來估計總體參數時計算出來的具體的數值。二、點估計和區間估計(1)點估計:用樣本統計量的某個取值直接估計總體的估計值。(2)區間估計:用樣本統計量得到總體參數估計的區間范圍。①置信度:總體參數落在區間的概率,也稱為置信水平。②置信區間:在一定概率下某總體參數的區間范圍。三、估計量的優良標準(1)無偏性:是指樣本指標估計總體指標時,要求樣本指標所有可能取值的平均數等于估計總體指標的屬性。證明θ是無偏估計量:①樣本平均數x是總體平均數X的無偏估計量。②樣本方差Sn2是總體方差σ2的有偏估計量。③樣本方差S2n-1是總體方差σ2的無偏估計量。(2)有效性:是指用樣本指標估計總體指標時,要求樣本方差為最小的屬性。(3)一致性:是指用樣本指標估計總體指標時,要求當樣本單位數逐漸增大時,樣本指標逐漸趨于總體指標的屬性。4、總體均值、總體比例和總體方差的區間估計;一、置信區間與置信度設總體X含有一個待估的未知參數.如果我們從樣本x1,x2,…,xn出發,找出兩個統計量1=1(x1,x2,…,xn)與2=2(x1,x2,…,xn)(1<2),使得區間[1,2]以1-(0<<1)的概率包含這個待估參數,即P{1≤≤2}=1-,那么稱區間[1,2]為的置信區間,1-為該區間的置信度(或置信水平).二、總體均值(1)總體方差已知。總體均值的區間為(2)非正態分布總體且大樣本(n>30)、正態分布且大樣本。總體均值的區間為(3)正態總體,小樣本。總體均值的區間為總體分布樣本量方差已知方差未知正態總體大樣本(n>=30)小樣本(n<30)非正態總體大樣本(n>=30)三、總體比例總體比例的區間為四、總體方差總體方差的區間為4、影響置信區間寬度的因素分析;必要樣本量的計算;抽樣極限誤差與抽樣平均誤差的含義以及二者之間的區別與聯系;一、影響置信區間寬度的因素分析(1)總體數據的離散程度,用來測度(2)樣本容量(3)置信水平(1-α),影響z的大小二、必要樣本量的計算根據抽樣極限誤差的定義,,我們可以得到在重復條件下,最小樣本量為:,在不重復的條件下,最小樣本量為三、抽樣誤差:實際誤差,抽樣極限誤差與抽樣平均誤差。誤差:由樣本得到的估計值與被估計的總體未知參數之差,或樣本指標數值與總體指標數值之間的差數。抽樣誤差(隨機誤差):按隨機原則抽樣時,由于隨機抽樣的偶然因素而引起的抽樣指標和全及指標之間的絕對離差。其不包括登記誤差和系統性誤差。(1)抽樣實際誤差:是指在一次抽樣中由隨機因素引起的樣本指標與總體指標之間的離差。(2)抽樣平均誤差:是指樣本平均數(或樣本成數)的標準差。它反映了所有抽樣結果所得的樣本指標值與總體指標值的平均誤差。實際計算公式如下:(未知的時候可以用s代替)(總體比例同理)①重復抽樣:②不重復抽樣(3)抽樣極限誤差(置信區間):抽樣機線誤差是指樣本統計量和總體參數之間的可能誤差范圍。記作E或者。計算公式為四、樣本容量n與總體方差、邊際誤差E、可靠性系數Z或t之間的關系為與總體方差成正比與邊際誤差E(抽樣極限誤差)的平方成反比與可靠性系數Z成正比5、關于總體均值和總體比例的區間估計計算置信度:是指總體指標落在某一區間內的概率保證程度,通常用概率函數F(t)表示。概率度(t):用抽樣極限誤差除以相應抽樣平均誤差得出的相對數。公式:t=δx/μx。區間估計(置信區間):是指在一定的概率保證程度下,某總體指標所在的區間范圍,用[p-δx,p+δx]表示。對總體平均數的區間估計有兩種情形:一、根據已經給定的極限抽樣誤差范圍,求概率保證程度F(t),進而進行點估計和區間估計。(1)計算樣本平均數和標準差,并推算抽樣平均誤差;(2)根據給定的極限誤差δx,計算總體平均數的上限和下限;(3)求出概率度t;(4)查表求出概率保證程度F(t);(5)點估計或區間估計。二、根據給定概率保證程度F(t),求出極限抽樣誤差,進而進行點估計和區間估計。(1)求出抽樣平均誤差;(2)根據給定的可信度F(t):a%,查概率表t=b;(3)求出抽樣極限誤差;(4)計算平均身高的上下限;(5)點估計或區間估計。6、三大分布t-分布(1)、若與相互獨立,~,~,則稱的分布為自由度為的t分布,記為~。(2)、設x1,x2,…,xn為來自正態總體N(,2)的一個樣本,則樣本函數其中t(n-1)表示自由度為n-1的t分布.卡方分布(1)、個相互獨立的標準正態分布的平方和的分布服從自由度為的卡方分布。即:設為獨立標準正態變量,稱隨機變量的分布為自由度為的卡方分布,記作~。(2)、設x1,x2,…,xn為來自正態總體N(,2)的一個樣本,則樣本函數ω其中2(n-1)表示自由度為n-1的2分布.注:,。F分布(1)、設~,~,且和相互獨立,則~。(2)、設x1,x2,…,為來自正態總體N(1,)的一個樣本,而y1,y2,…,為來自正態總體N(2,)的一個樣本,則樣本函數其中F(n1-1,n2-1)表示第一自由度為n1-1,第二自由度為n2-1的F分布.第八章:假設檢驗1、假設檢驗的思路和程序;原假設與備擇假設的建立;一、假設檢驗假設檢驗(統計檢驗或顯著性檢驗):是指利用樣本的實際統計量,去檢驗事先對總體某些數量特征所作出的假設是否可信,進而為決策取舍提供依據的一種統計分析方法。假設檢驗的步驟:(1)提出假設;(2)確定適當的檢驗統計量;(3)規定顯著性水平;(4)計算檢驗統計量的值;(5)作出統計決策。二、假設檢驗的思路與過程假設檢驗的基本思路是:①對總體參數做出某種假設②根據樣本得到的信息,考慮接受假設是否會導致不合理的結果,如果結果合理就接受假設,不合理就否定假設。假設檢驗的過程:(1)建立假設(2)決定檢驗的顯著性水平α(3)確定檢驗統計量(4)將實際所求的的檢驗統計量的取值和臨界值進行比較,做出拒絕或者接受原假設的決定。三、原假設和備擇假設原假設(“0假設”):待檢驗的假設,研究者想收集證據予以反對的假設,總有=,≤或≥,一般以H0表示。備擇假設:與原假設對立的假設,研究者想收集證據予以支持的假設,總有≠,<或>,一般以H1表示。2、顯著性水平與P值,與第一類錯誤的關系,以及如何利用P值來進行決策;一、顯著性水平、置信水平、置信區間、P值:(1)顯著性水平:原假設為真時,拒絕原假設的概率,由研究者事先確定,一般以α表示,常用α值:0.01、0.05、0.10。(2)置信水平:是指總體參數值落在樣本統計值某一區間的概率,1-α。(3)置信區間:是指在一定的概率保證程度下,某總體指標所在的區間范圍,用[p-δx,p+δx]表示。(4)P值:在原假設為真的條件下,檢驗統計量的觀察值大于或等于其計算值的概率,反映實際觀測到的數據與原假設H0之間不一致的程度。決策規則:①單側檢驗:若p<α,則拒絕H0;②雙側檢驗:若p<α/2,則拒絕H0。3、假設檢驗的兩類錯誤及其關系,1-a,a,b,1-b的含義及關系。第一類錯誤(棄真錯誤):原假設為真時,拒絕原假設,第一類錯誤的概率為(顯著性水平)。第二類錯誤(取偽錯誤):原假設為假時,接受原假設,第二類錯誤的概率為β(Beta)。α錯誤和β錯誤的關系:α和β就像蹺蹺板,α小β就大,α大β就小,二者不能同時減少。其中1-β成為檢驗功效。影響β錯誤的因素:(1)總體參數的真值:隨著假設的總體參數的減少而增大;(2)顯著性水平:當減少時增大;(3)總體標準差:當s增大時增大;(4)樣本容量n:當n減少時增大。接受拒絕H0為真實正確(1-α)第一類錯誤αH0為不真實第二類錯誤β正確(1-β)4、基本概念:雙側檢驗和單側檢驗;z檢驗、t檢驗一、、雙側檢驗和單側檢驗:(1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論