![[數學]統計方法_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/16/33051170-47cc-46ba-aa34-3bee67a935bf/33051170-47cc-46ba-aa34-3bee67a935bf1.gif)
![[數學]統計方法_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/16/33051170-47cc-46ba-aa34-3bee67a935bf/33051170-47cc-46ba-aa34-3bee67a935bf2.gif)
![[數學]統計方法_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/16/33051170-47cc-46ba-aa34-3bee67a935bf/33051170-47cc-46ba-aa34-3bee67a935bf3.gif)
![[數學]統計方法_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/16/33051170-47cc-46ba-aa34-3bee67a935bf/33051170-47cc-46ba-aa34-3bee67a935bf4.gif)
![[數學]統計方法_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/16/33051170-47cc-46ba-aa34-3bee67a935bf/33051170-47cc-46ba-aa34-3bee67a935bf5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統計方法第一章統計和數據第一節 統計學的含義一.什么是統計學統計學是一門研究數據的科學,按大百科全書的定義:統計學是用以收集數據,分析數據和由數據得出結論的一組概念、原則和方法。統計分析數據分兩種:描述統計和推斷統計描述統計是研究數據搜集、處理和描述的統計學方法。其內容包括如何取得研究所需要的數據,如何用圖表形式對數據進行處理和展示,如何通過對數據的綜合、概括與分析,得出所關心的數據特征。統計描述是指對由實驗或調查而得到的數據進行登記、審核、整理、歸類、計算出各種能反映總體數量特征的綜合指標,并加以分析,從中抽出有用的信息,用表格或圖像把它表示出來。是統計研究的基礎。它通過對分散無序的原始資料
2、的整理歸納,運用分組法和綜合指標法得到現象總體的數量特征,揭露客觀事物內在數量規律性,達到認識的目的。分組法是研究總體內部差異的重要方法,通過分組可以研究總體中不同類型的性質以及它們的分布情況綜合指標法是指運用各種統計指標來反映和研究客觀總體現象的一般數量特征和數量關系的方法統計模型法是綜合指標法的擴展。它是根據一定的理論和假定條件,用數學方程去模擬現實客觀現象相互關系的一種研究方法。推斷統計則是研究如何利用樣本數據來推斷總體特征的統計學方法,內容包括參數估計和假設檢驗兩大類。所謂統計推斷就是以一定的置信標準要求,根據樣本數據來判斷總體數量特征的歸納推理的方法。統計推斷是邏輯歸納法在統計推理的
3、應用,所以稱為歸納推理的方法。(1)參數估計法:當總體的界限已劃定,總體某一數量特征(如總體平均數、方差等)的數值就是唯一確定的,所以把總體的數量特征稱為總體參數。但是總體參數通常不知道,這就需要通過樣本數據計算樣本統計量,并以此作為總體參數的估計量來估計總體參數的取值或取值區間,這種方法稱之為參數估計法。(2)假設檢驗法:假設檢驗的特點是,由于對總體的變化情況不了解,不妨先對總體的狀況作某種假設,然后根據樣本實際觀察的資料對所作假設進行檢驗,來判斷這種假設的真偽,以決定行動的取舍。假設檢驗的方法是統計推斷常用的方法。二統計的應用(一)統計的應用領域統計是適用于所有學科領域的通用數據分析方法,
4、是一種通用的數據分析語言。(二)統計的誤用與濫用統計常常被人們有意或無意地濫用。如,錯誤的統計定義、錯誤的圖表提示、一個不合理的樣本、數據的遺漏或邏輯錯誤等。這些誤用有些是常識性的,有些是技術性的,有些則是故意的。作為從數據中尋找事實的統計,卻被有人變成了歪曲事實的工具。第二節 數據類型統計數據是對客觀現象特征的反映,而由于客觀現象的復雜性,在反映這些現象特征時,可以從不同的角度進行采集,從而得到不同類型的數據。一變量與數據變數或變量,是指沒有固定的值,可以改變的數。變量的具體數值稱為變量值,即數據。統計數據就是統計變量的具體表現。二數據類型(一)定性變量(數據)與定量變量(數據)1.定性變量
5、:反映“職業”、“教育程度”等現象的屬性特點的變量,不能說明具體量的大小和差異。分類變量:沒有量的特征,只有分類特征。這種只反映現象分類特征的變量又稱分類變量。分類變量的觀測結果就是分類數據。說明事物類別的一個名稱。如“性別”就是一個分類變量。順序變量:如果類別具有一定的順序,如,“教育類別”,這樣的變量稱為順序變量,相應的觀察結果就是順序數據。說明事物有序類別的一個名稱,這類變量的具體表現就是順序數據。2.數值(定量)變量:反映“天氣溫度”、“月收入”等變量可以用數值表示其觀察結果,而且這些數值具有明確的數值含義,不僅能分類而且能測量出來具體大小和差異。這些變量就是定量變量也稱數值變量,定量
6、變量的觀察結果成為定量數據。說明事物數字特征的一個名稱。分類變量沒有數值特征,所以不能對其數據進行數學運算。分類數據只能用來區分事物,而不能用來表明實物之間的大小、優劣關系。順序變量比分類變量向前進一步,它不僅能用來區分客觀現象的不同類別,而且還可以表明現象之間的大小、高低、優劣關系。顯然,順序數據的功能比分類數據要強一些,對事物的劃分也更精細一些。但順序數據的數據之間雖然可以比較大小,卻無法計算相互之間的大小、高低或優劣的距離。只是反映事物在性質上的差異,而不能用來反映事物在數量上的差異。因此,從本質上,順序數據仍然是定性數據中的一種。數值型數據作為統計研究的主要資料,其特征在于它們都是以數
7、值的形式出現的,有些數值型數據只可以計算數據之間的絕對差,而有些數值型數據不僅可以計算數據之間的絕對差,還可以計算數據之間的相對差。其計量精度遠遠高于定性數據。在統計學研究中,對數值型數據的研究是定量分析的主要內容。從上述三種數據的基本特點可以看出,這三類數據對事物的描述是由定性到定量、由低級到高級,從粗略到精細。在統計研究中,需要明確各種數據所適用的統計方法,正確的選擇和應用,這是正確進行統計研究的基本要求。(二)觀測數據和實驗數據按獲取數據的方法不同,可分為觀測數據和實驗數據。觀測數據可能是全面數據也可能是樣本數據(局部),實驗數據一般都是樣本數據。1. 觀測數據。觀測數據是對客觀現象進行
8、實地觀測所取得的數據,在數據取得的過程中一般沒有認為的控制和條件約束。在社會經濟問題研究中,觀測是取得數據最主要的方法。2. 實驗數據。實驗數據一般是在科學實驗環境下取得的數據。在實驗中,實驗環境是受到嚴格控制的,數據的產生一定是某一約束條件下的結果。在自然科學研究中實驗的方法應用非常普遍。 第三節 數據來源與搜集數據的方法一數據的來源從使用者的角度看,統計數據資料的來源主要有兩種渠道:一種是通過直接的調查或實驗獲得的原始數據,這是統計數據的直接來源,一般稱為原始或第一手統計數據;另一種是別人調查的數據,并將這些數據進行加工和匯總后公布的數據,通常稱為次級數據或第二手間接的統計數據。一切間接的
9、統計數據都是從原始的、第一手數據過渡而來的。(一) 數據的直接來源原始數據搜集數據最基本的形式就是進行統計調查或進行實驗活動,統計調查或進行實驗就是統計數據的直接來源。1. 統計調查統計調查是指根據統計研究預定的目的、要求和任務,運用科學的方法,有計劃、有組織地向客觀實際搜集資料的過程。通過統計調查得到的數據,一般稱為觀測數據。2. 實驗法實驗法是直接獲得統計數據的又一重要來源。通過實驗法得到的數據就是實驗數據。實驗法不僅是一種搜集數據的方式,也是一種重要的研究方式。它是通過有意識地改變或控制某些輸入變量,觀察其他輸出變量的變化,從而達到對事物本質或相互聯系的認識。未來觀察對輸入變量的控制是否
10、導致了輸出變量的改變,在實驗中,往往需要將研究對象分為兩個組,一個是實驗組,一個是對照組,對實驗組的輸入變量加以控制或改變,而對照組則不加控制,根據兩組的輸出結果,可以看到輸入變量對輸出變量的影響。運用實驗法要注意的是:首先,實驗組和對照組的產生應當是隨機的,研究對象的不同單位應當被隨機地分配到實驗組或對照組,而不應是經過有意識的挑選的。其次,實驗組和對照組還應當匹配的,也就是研究對象的背景資料應當是大體相同的,至少不要差異太大。不論是統計調查還是實驗,所搜集的數據都是原始數據,這是統計數據最基本的來源。(二)數據的間接來源次級數據雖然統計數據的搜集主要是指對原始數據的搜集,后面介紹的統計調查
11、的方法也是圍繞搜集原始資料展開的,但數據的收集實際上不僅包括對原始數據的收集也包括對次級數據(第二手收據)的收集,在很多情況下,統計研究都是在掌握次級數據的基礎上進行的。次級數據是指由其他人搜集和整理得到的統計數據。這種來自他人調查整理基礎上的數據我們把它稱為數據的間接來源。數據的間接來源有:(1)公開出版的統計數據,主要來自官方的統計部門和政府、組織、學校、科研機構。(2)尚未公開發表的統計數據,如各企業的經營報表數據、專業調查咨詢機構為公開發布的調查結果數據。需注意的是,如果公開引用未公開發表的數據需要征得數據所有者的同意,同時要為自己發布的數據負責。恰當地運用間接數據在實際中往往能夠節約
12、時間和費用,取得較好的成果和效益,因此,成為許多統計研究人員在進行實證分析時的首選數據來源。但在應用時要注意:(1)是否了解并正確理解了間接數據中變量的含義、計算口徑、計算方法,以防止誤用、錯用他人的數據。(2)引用間接數據時要注明數據來源,尊重他人的勞動成果和知識產權。二搜集數據的方法統計調查是根據調查的目的與要求,運用科學的調查方法,有計劃、有組織第搜集統計數據資料的過程。常用的統計調查種類有:(一) 普查普查:普查是專門組織一次性的全面調查,用來調查屬于一定時點或時期內的社會經濟現象的總量。它適用于搜集某些不能或不適宜于定期的全面統計報表搜集的統計資料,以摸清重大的國情、國力。如,人口普
13、查、農業普查、經濟普查、全國第三產業普查等。普查的特點:它是一種全面調查,具有資料包括范圍全面、詳盡、系統的優點;它是一次性的專門調查,因為普查的工作量大,耗資也多,時間周期較長,一般不宜經常舉行。普查要遵循以下幾點:a確定普查的標準時間:普查的標準時間是指登記調查單位項目所依據的統計時點。所有的調查資料都必須是反映這一時點上的情況。例如,我國第四人口普查,1990年7月1日零時為普查登記的標準時點。凡是在這個時點以前死亡和這個時點以后出生的,都不能計入這次普查的人口數內。這樣才可避免所登記重復或遺漏。b普查的登記工作應在整個普查范圍內同時進行,以保證普查資料的實效性、準確性,避免資料的搜集工
14、作拖的太久c同類普查的內容和時間在歷次普查中應盡可能保持連貫性。普查的組織形式有兩種:一種是組織專門的普查機構,派專門的調查人員對被調查單位直接進行登記;另一種是利用一定的組織系統,由被調查單位根據本單位的原始記錄和實際情況,填寫調查表,然后上報。(二) 抽樣調查抽樣調查:抽樣調查是按隨機原則,從總體中抽取一部分單位作為樣本來進行觀察,并根據其觀察的結果來推斷總體數量特征的一種非全面調查方法。抽樣調查具有的特點:第一,樣本單位按隨機原則抽取,排除了主觀因素對選取樣本單位的影響。第二,能夠根據部分調查的實際資料對調查對象的總體的數量特征進行推斷,從而達到對調查總體的認識。第三,在抽樣調查中會存在
15、抽樣誤差,但是這個誤差可以事先計算并加以控制。隨機抽樣一般是指每個總體單位都有同等被抽中的機會,但是在實際調查中,并不完全是這種情況。通常采用的抽樣組織形式主要有以下幾種:a.簡單隨機抽樣:又稱純隨機抽樣,它是指對總體不作任何處理,不進行分類也不進行排除,而是完全按隨機的原則,直接從總體中抽取樣本單位加以觀察。從理論上說,是最符合抽樣調查的隨機原則,是抽樣調查的最基本形式。具體方法有:直接抽選法、抽簽法和隨機數表法。b分層抽樣:又稱類型抽樣或分類抽樣。是先將總體各單位按主要標志加以分層,而后在各層中按隨機的原則抽取若干樣本單位,由各層的樣本單位組成一個樣本。c等距抽樣:又稱機械抽樣或系統抽樣。
16、它是將總體全部單位按某一標志排隊,而后按固定的順序和相等間隔在總體中抽取若干樣本單位,構成一個容量為n的樣本。d整群抽樣:是將總體各單位劃分為若干群,然后以群為單元,從總體中隨機抽取一部分群,對被抽中的群內所有單位進行全面調查。整群抽樣對總體劃分群的基本要求是:第一,群與群之間不重疊,即總體中的任一單位只能屬于某個群;第二,全部總體單位毫無遺漏,即總體中的任一單位必須屬于某個群。e多階段抽樣:當總體很大時,可把抽樣過程分成幾個過渡階段,到最后才具體抽到樣本單位。(三) 統計報表統計報表制度:它是按照國家統一規定的調查要求與文件(指標、表格形式、計算方法等)自下而上的提供統計資料的一種報表制度。
17、在官方統計的經常調查中目前依然發揮著一定的作用。按照報送范圍,統計報表分為全面報表和非全面報表。按報送周期,統計報表主要有月報、季報、年報組成,月報內容簡單,時效性強,年報則內容比較全面。統計報表的內容包括表式和填表說明。對于大型、國有企業來說,利用統計報表搜集數據,具有時間快、成本低的優點,但對于大量的小型、非國有經濟單位,則難以全面采用統計報表調查。(四) 重點調查重點調查:是一種非全面調查,它是在調查對象中選擇一部分對全局具有決定性作用的重點單位進行調查。適用于調查任務只要求掌握調查總體的基本情況,調查標志比較單一,調查標志表現在數量上集中于少數單位,而這些少數單位的標志值之和在總體中又
18、占絕對優勢的情況。重點調查組織方式有兩種:一是專門組織的一次性調查;另一種是利用定期統計報表經常性地對一些重點單位進行調查。其優點是花費較少人力、物力,在較少時間內及時取得有關的基本情況。(五) 典型調查典型調查:根據調查的目的與要求,在對被調查對象進行全面分析的基礎上,有意識地選擇若干具有典型意義的或有代表性的單位進行調查,主要作用是:第一,補充全面調查的不足;第二,在一定條件下可以驗證全面調查數據的真實性。其優點是靈活機動、通過少數典型即可取得深入詳實的統計資料,缺點是受“有意識地選出若干有代表性”的限制,易受人們主觀認識上的影響,必須同其他調查結合起來使用,才能避免出現片面性。表一 各類
19、統計調查方法的特點調查范圍調查時間收集資料的方法普查全面一次采訪、報告或空間遙感抽樣調查非全面經常或一次直接觀察或采訪統計報表全面或非全面經常報告重點調查非全面經常或一次報告典型調查非全面一次采訪統計方法 第二章數據描述第一節 用圖表展示定性數據本節主要介紹定性數據的圖表展示方法。定性數據包括分類數據和順序數據,它們的圖表展示方法基本相同。通常可以用頻數分布表和圖形來描述。一.生成頻數分布表定性數據本身是對事物的一種分類,因此,只要先把所有的類別都列出來,然后統計出每一類別的頻數,就是一張頻數分布表。頻數分布表中落在某一特定類別的數據個數稱為頻數。頻數分布包含了很多有用的信息,通過它可以觀察不
20、同類型數據的分別情況。二定性數據的圖形表示定性數據(分類數據和順序數據)可以描繪出它們各類的比例,常用餅圖和條形圖表示。(一) 餅圖餅圖又稱圓餅圖、圓形圖等,它是利用圓形及圓內扇形面積來表示數值大小的圖形。餅圖主要用于總體中各組成部分所占比重的研究。(二) 條形圖條形圖是用寬度相同的條形的高度或長度來表述數據多少的圖形,用于觀察不同類別數據的多少或分布情況。繪制時,各類別可以放在縱軸,也可以放在橫軸。(三) 環形圖餅圖只能顯示一個變量(如年齡變量)各部分所占的比重。如果我們想比較不同變量之間的結構差異,就可以通過環形圖來實現。首先,利用產生頻數表的方法先做出分性別的年齡分布表然后,根據上表再繪
21、制出環形圖。 第二節 用圖表展示定量數據定性數據的圖示表示方法,也都適用于定量數據。但定量數據還有一些特定的圖示方法,它們并不適用于定性數據。一生成頻數分別表生成定量數據的頻數分布表時,首先是將數據進行分組,然后再統計出各組別的數據頻數即可。首先,要對數據進行分組,一般的分組個數在515之間。其次,要確定組距。所謂組距是指每個組變量值中的最大值與最小值之差。每組最大值稱為該組上限,最小值稱為該組下限。則組距等于上限與下限之差,即組距=上限-下限在確定組距是,一般應掌握的原則:一是要考慮各組的劃分是否能區分總體內部各個組成部分的性質差別。如果不能正確反映各部分質的差異,必須重新分組。二是要能準確
22、地清晰地反映總體單位的分布特征。在確定組距時,在研究的現象變動比較均勻的情況下,可以采用等距分組;而當研究的現象變動很不均勻時,例如急劇的增長或急劇的下降,波動的幅度很大時,則一般采用不等距分組。在實際工作中,要結合實際情況確定各組的組距。最后,統計出各組的頻數及頻數分布表。在統計各組頻數時,恰好等于某一組的組限時,則采取上限不在內的原則,即將該頻數計算在與下限相同的組內。二定量數據的圖形表示常用來表述定量數據統計圖形有:直方圖、折線圖和散點圖。(一) 直方圖對于一個定量數據,直方圖是一個常見的而且非常重要的圖形。它的橫坐標代表變量分組,縱指標代表各變量值出現的頻數,這樣,各組與相應的頻數就形
23、成了一個矩形,即直方圖。(二) 折線圖折線圖是利用線段的升降來說明現象變動的一種統計圖,它主要用于表示現象的分配情況、現象在時間上的變化和兩個現象之間的依存關系等。(三) 散點圖散點圖能反映兩個變量的關系,判斷其變化的方向是否相同應特別注意各種圖表的生成方式和運用。第三節 用統計表來表示數據統計表和統計圖是顯示統計數據的兩種方式。在現實生活中,統計表和統計圖形一樣充斥在我們的生活總。它通過對枯燥數據的整理,利用一些簡單的表格,讓我們一目了然地了解某些事物的現象。統計表是一種用密集的形式歸納數據的方法,它主要利用行和列中的數據來表述現象特征。人們利用統計表的主要目的有:一是在文章中使用它以支持自
24、己的觀點;二是利用它組織數據。把整理匯總得出的統計數據資料,按照一定的結構和順序,有系統地排列在一定的表格內,就形成一張統計表。統計表的主要優點是:能使統計資料條理化、系統化,能清晰的表達統計資料的內容,且簡明易懂、節省篇幅,便于對表中資料進行對比,并易于檢查數字的完整性和正確性。(1) 統計表的結構統計表一般由五個部分組成,即表頭、行標題、列標題、數字資料和表外附加構成。總標題:統計表的名稱。簡明扼要,一般放在表格上方中間位置橫行標題和縱欄標題:縱欄:表明標志和指標的名稱,一般置于表格上方;橫行標題:表明調查單位和分組的名稱,一般置于表格左邊。統計數字(指標數值)。主詞欄:表中資料所說明的對
25、象,位于表的左邊;賓詞欄:各種指標,位于表的右側。(2)統計表的種類按用途不同分類a. 調查表:用來搜集統計資料的表格;b. 整理表:用于匯總或整理調查資料,以及表現統計匯總或整理結果的表格;c. 分析表:用于對整理所得的統計資料進行定量分析的表格。按總體分組不同分類a. 簡單表:對總體未經任何分組,僅是簡單地列出統計資料所屬時間或單位的表格。b. 簡單分組表:對總體僅按一個標志進行分組的統計表。c. 復合分組表:對總體按兩個或兩個以上標志進行層疊分組。按統計資料的時間和空間分類a. 空間數列表:指同一時間條件下,不同空間范圍的統計表。它說明在靜態條件下,客觀社會經濟現象在不同空間范圍的分布狀
26、況。b. 時間數列表:指同一空間條件下,不同時間范圍的統計表。它說明在動態條件下,客觀社會經濟現象發展變動狀況。c. 時空結合表:是同時反映社會經濟現象在不同空間和不同時間內的數量分布的統計表。(3)統計表的設計總的要求:簡練、明確、實用、美觀,便于比較。統計表設計應注意事項a. 統計表應設計成由縱橫交叉線條組成的長方形表格,長與寬之間保持適當的比例。b. 線條繪制。表的上下端應以粗線繪制,表內縱橫線以細線繪制。表格左右兩端一般不劃線,采用“開口式”。c. 合計欄的設置。統計表各縱列若須合計時,一般應將合計列在最后一行,各橫行若須要合計時,可將合計列在最前一欄或最后一欄。d. 欄數的編號。如果
27、欄數較多,應當按順序編號,習慣上主詞欄以“甲、乙、丙、丁”為序號,賓詞欄編以(1)、(2)、(3)、(4)為序號。統計表內容設計應注意事項a. 標題設計:標題簡明扼要。b. 指標數值:數字填寫整齊,對準位數。當數字因小可略而不計時,可寫上“0”;當缺某項數字資料時,可用“”表示;不應有數字時用符號“”表示。c. 計量單位:當全表只有一種計量單位時,可以把它寫在表頭的右上方。如果表中各欄的指標數值計量單位不同,可以橫行標題后添一列計量單位。d. 注解或資料來源。 第四節 用數字來概括數據針對一組數據的分布特征,我們可以從兩個方面來考查它:一是該組數據的集中趨勢,即該組數據的數值向其中心值的靠攏程
28、度。二是該組數據的離散程度,它反映的是該組數據的各個數值遠離其中心的趨勢和程度。一定性數據的數字特征由于定性數據主要是計數,比較簡單,對定性數據的集中趨勢常用的方法就是計算比例、百分比、中位數和眾數。中位數是將總體各單位標志值按大小順序排列,處于中間位置的那個數(如果樣本量為奇數),或者中間兩個數目的平均(如果樣本量為偶數)。眾數就是數據中出現次數或出現頻率最多的數值。在定性數據中,由于記錄的是頻數,因此眾數用得多些。二定量數據的數字特征反映定量數據特征的統計量常用的有:反映數據集中趨勢的水平度量:平均數、中位數、眾數和分位數等反映數據離散程度的差異度量:極差、四分位差、標準差和方差(一) 水
29、平的度量1. 平均數平均數也稱為均值,是把某一組數據進行算術平均,用以表述某一事物的平均水平,它在統計中叫做均值。簡單平均數:把一個變量的所有觀測值相加再除以觀測值的數目加權平均數:如果原始數據為分組數據,則采用加權平均數公式計算,其中的權數f為各組的頻數。2. 中位數數字按順序排列后,處于中間位置的數即是。如總位數為奇數,中間數即是;若為偶數,則是中間兩位數的平均值。3. 眾數數組中出現次數最多的數。4. 用哪個值代表一組數據平均數、中位數和眾數是描述數據水平的三個主要統計量,要合理使用則需要了解它們的不同特點和應用場合。平均數易為多數人理解和接受,實際中用的也較多,但主要缺點是更容易受少數
30、極端數值的影響,對于嚴重偏態分布的數據,平均數的代表性較差。中位數和眾數提供的信息不像平均數那樣多,但它們也有優點,比如不受極端值的影響,具有統計上的穩健性,當數據為偏態分布,特別是偏斜程度較大時,可以考慮選擇中位數和眾數,這時它們的代表性要比平均數好。(二) 差異的度量對社會經濟現象不僅需要對現象的集中趨勢進行分析(平均數、中位數、眾數),而且還需要進行差異程度分析即離散程度分析。研究事物現象的差異性,從差異性的事物現象中,尋求解決差異性的一些方法。1. 極差( Range)極差又稱全距,是最簡單的離散指標,它是一組數據中的最大值和最小值之差。計算極差非常簡單,含義也很直觀。但是,它僅僅受最
31、大值和最小值的影響,不能反映一組數據分布的情況,而且它非常容易受數據中極端值的影響。因此,它不能準確地描述數據的分散程度。2. 方差和標準差為了反映數據中的每一個觀察值與平均水平的差異程度就必須引入方程和標準差的概念。方差:將各個變量值和其均值離差平方的平均數,作為樣本數據,它反映了樣本中各個觀測值到其均值的平均離散程度。其計算公式為:標準差是方差的平方根,它與方差相比更具量綱性,而且與變量值的計量單位相同,使用的范圍比方差更廣泛。其計算公式為:式中是總體標準差,s為樣本標準差。總體自由度為n,樣本自由度為n-1,兩種有差異,是因為,自由度是指一組數據中可以自由取值的個數,當樣本數據的個數為
32、n時,其樣本均值 是確定的,只有n-1個數據可以自由取值,其中必有一個數據不能自由取值。所以,樣本的標準差只能除以n-1 ,而不能除以n .在一個統計樣本中,其標準差越大,說明它的各個觀測值分布的越分散,它的趨中程度就越差。反之,其標準差越小,說明它的各個觀測值分布的越集中,它的趨中程度就越好。3. 離散系數離散系數也稱變異系數、標準差系數,它是將一組數據的標準差除以其均值,用來測度數據離散程度的相對數。其計算公式為:4. 標準分數標準分數也稱標準化值或Z分數,它是變量值與其平均數的離差除以標準差后的值,用以測定某一個數據在該組數據中的相對位置。其計算公式為:標準分數最大的用途是可以把兩組數據
33、中的兩個不同均值,不同標準差的數據進行對比,以判定它們在各組中的位置。見課本P271例題.標準分數對比的兩個數據在各自數組中的相對位置。統計方法第三章參數估計第一節 抽樣分布一.總體分布與總體參數總體分布是總體中所有觀測值所形成的分布。總體參數是對總體特征的某個概括性的度量。通常有總體平均數( )、總體方差( )、總體比例()等。二.統計量和抽樣分布總體參數是未知的,但可以利用樣本信息來推斷。統計量是根據樣本數據計算的用于推斷總體的某些量,是對樣本特征的某個概括性度量。統計量是樣本的函數,如樣本均值( )、樣本方差(s2 )、樣本比例(p)等。構成統計量的函數中不能包括未知因素。由于樣本是從總
34、體中隨機抽取的,樣本具有隨機性,由樣本數據計算出的統計量也就是隨機的。抽樣分布是樣本統計量所形成的概率分布,如樣本均值的分布、樣本比例的分布等。在現實中,一個樣本的統計量我們可以觀察到,但不能觀察到所有可能的統計量值,抽樣分布是一種理論分布。統計量的取值是依據樣本而變化的,不同的樣本可以計算出不同的統計量值。那么,根據統計量來推斷總體參數就必然具有某種不確定性。但我們可以給出這種推斷的可靠性,而度量這種可靠性的依據是統計量的概率分布,并且我們確知這種分布的某些性質。因此,統計量的概率分布提供了該統計量長遠而穩定的信息,它構成了推斷總體參數的理論基礎。(一)樣本均值的抽樣分布設總體共有N個元素,
35、從中隨機抽取一個容量為n的樣本,在重置抽樣時,共有Nn 種抽法,即可以組成Nn不同的樣本,在不重復抽樣時,共有 個可能的樣本。每一個樣本都可以計算出一個均值,這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現實中不可能將所有的樣本都抽取出來,因此,樣本均值的概率分布實際上是一種理論分布。數理統計學的相關定理已經證明:即樣本均值的均值就是總體均值。在重置抽樣時,樣本均值的方差為總體方 的1/n,即 在不重置抽樣時,樣本均值的方差為其中, 為修正系數,對于無限總體進行不重置抽樣時,可以按照重置抽樣計算,當總體為有限總體,N比較大而n/N5% 時,修正系數可以簡化為1-n/N,當N比較大,而n
36、/N5%時,修正系數可以近似為1,即可以按重置抽樣計算。當總體服從正態分布時,樣本均值一定服從正態分布,即有XN( , )時, 若總體為未知的非正態分布時,只要樣本容量 n足夠大(通常要求n 30),樣本均值仍會接近正態分布。樣本分布的期望值為總體均值,樣本方差為總體方差的1/n 。這就是統計上著名的中心極限定理。該定理可以表述為:從均值為 ,方差為 的總體中,抽取樣本量為n的隨機樣本,當n充分大時(通常要求n 30),樣本均值的分布近似服從均值為 ,方差為 的正態分布。如果總體不是正態分布,當n為小樣本時(通常n30),樣本均值的分布則不服從正態分布。(二)樣本比例的抽樣分布比例是指具有某種
37、屬性的單位占全部單位數的比重。總體比例(通常用表示)是總體中具有某種屬性的單位數占全部總體單位數的比例,是一個參數,通常是未知的,也是我們想通過抽樣得到的說明總體特征的數據。樣本比例(通常用p表示)是隨機抽取的樣本中具有某種屬性的單位數占樣本全部單位數的比例,是一個樣本統計量,是隨機變量,對于一個已經抽取出來的樣本來講,是可以觀察到的。描述所有可能樣本比例的概率分布就是樣本比例的抽樣分布。當樣本容量比較大時,樣本比例p近似服從正態分布,且有p的數學期望就是總體比率 ,即 ;而P的方差與抽樣方法有關,在重置抽樣下為 ,在不重置抽樣下為 ;即在重置抽樣時, p的分布為pN;在不重置抽樣時, p的分
38、布為pN一般講,當 np5,并n(1-p) 5時,就可以認為樣本容量足夠大。對于無限總體進行不重置抽樣時,可以按照重置抽樣計算,當總體為有限總體,當N比較大,而n/N 5%時,修正系數可以近似為1,這時也可以按重置抽樣計算。從上述分析可以看出,隨著樣本容量的增大,樣本比例的方差愈來愈小,說明樣本比例隨樣本容量增大,圍繞總體比例分布的峰度愈來愈高。三.統計量的標準誤差統計量的標準誤差也稱為標準誤,是指樣本統計量分布的標準差。可用于衡量樣本統計量的離散程度。在參數估計中,它是用于衡量樣本統計量與總體參數之間差距的一個重要尺度。樣本均值的標準誤差計算公式為:當總體標準差 未知時,可用樣本標準差s代替
39、計算,這時計算的標準誤差稱為估計標準誤差。相應地,樣本比例的標準誤計算公式為同樣,當總體比例的方差 (1-)未知時,可用樣本比例的方差p(1-p)代替。第二節 參數估計參數估計是用樣本統計量去估計總體的參數。用樣本統計量來估計總體參數有兩種方法:點估計和區間估計一點估計與區間估計點估計,是用樣本統計量的實現值來近似相應的總體參數。區間估計,是根據估計可靠程度的要求,利用隨機抽取的樣本的統計量確定能夠覆蓋總體參數的可能區間的一種估計方法。區間估計是包括樣本統計量在內(有時是以統計量為中心)的一個區間,該區間通常是由樣本統計量加減估計標準誤差得到的。與點估計不同,進行區間估計時,根據樣本統計量的抽
40、樣分布,可以對統計量與總體參數的接近程度給出一個概率度量。標準正態分布為N(0,1)分布,將概率分布標準化的公式為: 將z所對應的概率稱為置信度或置信水平,將 表示的范圍稱為置信區間。以68.73%的置信水平推斷總體參數推斷總體參數 的置信區間為(z=1)以95.45%的置信水平推斷總體參數推斷總體參數 的置信區間為(z=2) 以99.73%的置信水平推斷總體參數推斷總體參數 的置信區間為(z=3)二評價估計量的標準用于估計總體參數的估計量可以有很多,如何選擇估計效果最好的那種估計量,評價估計量的好壞的標準具體有:1.無偏性,是指估計量抽樣分布的期望值等于被估計的總體參數。2.有效性,是指估計
41、量的方差盡可能小。有效性是指估計量的方差盡可能小。對同一個總體參數的兩個無偏估計量,有更小方差的估計量更有效。3.一致性,是指隨著樣本量的增大,點估計量的值越來越接近被估計總體的參數。即大樣本給出的估計量要比一個小樣本給出的估計量更接近總體的參數。從這個意義上說,樣本均值是總體均值的一個一致估計量。三一個總體均值的區間估計在對總體均值進行區間估計時,需要考慮總體是否為正態分布、總體方差是否已知,用于估計的樣本是大樣本還是小樣本等情況。但不管哪種情況,總體均值的置信區間都是由樣本均值加減估計誤差得到的。一般將置信水平表示為1- ,統計量分布兩側面積各為 /2的分為數值,它取決于事先所要求的置信度
42、(或可靠程度)。因此總體均值在1- 置信水平下的置信區間可一般性地表達為:( -分為數值* 的標準誤差, +分為數值* 的標準誤差)(一)大樣本的估計(二)小樣本的估計小樣本(n30)情況下,對總體均值的估計都是建立在總體服從正態分布的假定前提下。當總體方差 已知時,樣本均值經過標準化后仍服從標準正態分布,此時總體均值 在1- 置信水平下的置信總體比例的置信區間是由樣本比例和估計誤差兩部分組成的。第三節 樣本量的確定在進行參數估計時,樣本量要適當。樣本量過大會增加調查費用,花費更多的人力;樣本量過小,樣本沒有足夠的代表性,統計量的標準誤差會增大,對總體參數的估計會不準確。一估計總體均值時,樣本
43、量的確定在重置抽樣條件下,設E代表允許的估計誤差,則樣本量計算公式為:如果總體比例 的值不知道,可以用樣本比例s來代替,或者取 =0.5,使得 (1- )達到最大。統計方法第四章假設檢驗統計方法第五章相關分析與回歸分析相關分析是研究兩個或兩個以上變量之間相關關系的方法論,而回歸分析是研究變量之間相關關系類型,進而掌握其發展變化規律,預測未來的方法論。第一節 相關關系一相關關系在現實世界中,任何事物或現象都不是孤立存在的,而是相互聯系、相互制約、相互依存的。當某些現象發生變化時,另一現象也會隨之發生變化。如商品價格的變化會刺激或抑制商品銷售量的變化;勞動力素質的高低會影響企業的效益;直接材料、直
44、接人工的價格變化會對產品銷售成本有直接的影響;居民收入的高低會影響對該企業產品的需求量等等。研究這些現象之間的依存關系,找出它們之間的變化規律,是對經搜集、整理過的統計數據進行數據分析,為客觀、科學地統計提供依據。現象間的依存關系大致可以分成兩種類型: 一類是函數關系,另一類是相關關系。(1)函數關系。函數是指現象之間有一種嚴格的確定性的依存關系。表現為某一現象發生變化另一現象也隨之發生變化,而且有確定的值與之相對應。例如,銀行的1年期存款利率為年息1.98,存入的本金用x表示,到期本息用y表示,則y=x+1.98%x(不考慮利息稅);(2)相關關系。相關關系是指客觀現象之間確實存在的,但數量
45、上不是嚴格對應的依存關系。在這種關系中,對于某一現象的每一數值,可以有另一現象的若干數值與之相對應。例如成本的高低與利潤的多少有密切關系,但某一確定的成本與相對應的利潤的數量關系卻是不確定的。這是因為影響利潤的因素除了成本外,還有價格、供求平衡、消費嗜好等因素以及其他偶然因素的影響相關關系和函數關系既有區別,又有聯系。有些函數關系往往因為有觀察或測量誤差以及各種隨機因素的干擾等原因,在實際中常常通過相關關系表現出來;而在研究相關關系時,當對其數量間的規律性了解得越深刻的時候,其相關關系就越有可能轉化為函數關系或借助函數關系來表現。(3)相關關系的兩個特點現象之間確實存在著數量上的依存關系。就是
46、說,一個現象發生數量上的變化,另一個現象也會相應地發生數量上的變化。現象間的數量依存關系值是不確定的。就是說,一個現象發生數量上的變化,另一個現象會有幾個可能值與之對應,而不是唯一確定的值。相關分析的主要內容:(1)確定現象之間有無關系。(2)確定相關關系的表現形式,運用相應的回歸分析方法進一步分析現象之間的數量依存關系。用一個數學表達式,來反映有相關關系的變量之間的數值變化關系,據此由一個或若干個自變量的數值推斷出因變量的可能值,這種分析稱為回歸分析。相關分析與回歸分析既有區別又有聯系,兩種分析構成了相關關系分析的基本內容。(3)測定相關關系的密切程度。二相關關系的描述-散點圖對于兩個變量x
47、和y,通過觀察或實驗,我們可以得到若干組數據,記為(xi,yi)(i=1,2,n)將這些數據按x值由大到小(或由小到大)以序列表表示,即構成相關表。將一一對應的(xi,yi)描點于坐標軸上,即構成散點圖,又稱相關圖。通過散點圖所反映出的坐標點的分布狀況可以直觀地判斷變量之間是否存在相關關系,以及相關的形態、方向。例如:散點圖是相關關系的一種描述方法,它直觀、形象,通過散點圖可以觀察到現象的關系類型以及相關方向、程度。1. 相關的形態按照相關形式不同分為:線性相關和非線性相關。線性相關又稱直線相關,是指當一個變量變動時,另一變量隨之發生大致均等的變動,從圖形上看,其觀察點的分布近似地表現為一條直
48、線;例如,人均消費水平與人均收入水平通常呈線性關系。非線性相關一個變量變動時,另一變量也隨之發生變動,但這種變動不是均等的,從圖形上看,其觀察點的分布近似地表現為一條曲線,如拋物線、指數曲線等,因此也稱為曲線相關。例如,工人加班加點在一定數量界限內,產量增加,但一旦超過一定限度,產量反而可能下降,這就是一種非線性關系。2. 相關的方向按照相關的方向不同分為:正相關和負相關。正相關當一個變量的值增加或減少,另一個變量的值也隨之增加或減少。如工人勞動生產率提高,產品產量也隨之增加;居民的消費水平隨個人所支配收入的增加而增加。負相關當一個變量的值增加或減少時,另一變量的值反而減少或增加。如商品流轉額
49、越大,商品流通費用越低;利潤隨單位成本的降低而增加。三相關程度的測定:在直線相關的類型中,人們使用相關系數測定變量之間的相關關系。第六章時間序列分析時間序列是指經濟現象按時間順序排列形成的數列。時間序列分析就是根據這樣的數列分析經濟現象的發展規律,進而預測其未來水平。第一節時間序列的分析指標時間數列是統計學中一種非常重要的數據類型,是一種以時間為坐標軸的動態數列。一.時間數列的概念時間數列是一種統計數列,它是將反映某一現象的統計指標在不同時間上的數值按時間先后順序排列所形成的數列。表現了現象在時間上的動態變化,故又稱為動態數列。從上表看出,一個完整的時間數列包含兩個基本要素:一是被研究現象或指
50、標所屬的時間;另一個是該現象或指標在此時間坐標下的指標值。同一時間數列中,通常要求各指標值的時間單位和時間間隔相等,如無法保證相等,在計算某些指標時就涉及到“權”的概念。研究時間數列的意義:了解與預測。二增長量分析(水平分析)1.水平指標水平指標是用來反映社會經濟現象在某一時期或時點上發展變化的水平,它包括發展水平、平均發展水平、增長量等指標。(1)發展水平發展水平是指客觀現象在一定時期內(或時點上)發展所達到的規模、水平。在絕對數時間數列中,發展水平就是絕對數;在相對數時間數列中,發展水平就是相對數或平均數。幾個概念:期初水平a0,期末水平an,期間水平(a1,a2,.an-1);報告期水平
51、(研究時期水平),基期水平(作為對比基礎的水平)(2)增長量增長量是報告期發展水平與基期發展水平之差,增長量的指標數值可正可負,它反映的是報告期相對基期增加或減少的絕對數量,用公式表示為:增長量報告期水平基期水平根據基期的不同確定方法,增長量可分為逐期增長量和累計增長量。固定的、系統性的因素造成的。代表著研究對象的總發展方向,它既可以是線性的,也可以是曲線的。季節波動:時間數列在一年內重復出現的周期性波動稱為季節波動。季節波動中“季節”一詞不僅僅是指一年中的四季,其實它是廣義的指任何一種周期性的變化。循環變動:時間數列呈現出來的圍繞長期趨勢的一種波浪形或震蕩式變動稱為循環變動,也稱作周期變動。
52、周期性變動沒有固定規律,其循環的幅度和周期的波動性很強,而且其周期短的一般也要3-5年,長的可達幾十年。不規則變動:由各種偶然的、突發的或不可預見的因素引起的,稱為不規則變動或隨機變動。(二)時間數列的分解模型時間數列分析的一項主要內容就是把這幾個影響因素從時間數列中有目的的分離出來,或者說對數據進行分解、清理,并將他們的關系用一定的數學關系式予以表達。加法模型:假定四種變動因素相互獨立,時間數列各時期發展水平是各個構成因素的總和。用數學表達為:YT+S+C+I乘法模型:假定四種變動因素彼此間存在著交互作用,時間數列各時期發展水平是各個構成因素的乘積,其數學表達式:YTSCIT代表長期趨,S代
53、表季節變動,C代表循環變動,I代表不規則變動。需要說明:加法模型中,各個因素都是絕對數,乘法模型中,除了長期趨勢是絕對數外,其他因素都是以相對數或指數的形式出現的。二、長期趨勢分析方法(一)回歸方程法回歸方程法就是利用回歸分析方法,將時間作為解釋變量,建立現象隨時間變化的趨勢方程。建立趨勢性方程之前,首先要確定趨勢的形態,最常用的方法是先畫散點圖。若散點圖屬直線趨勢形態,可擬合直線方程;若為曲線形態,則擬合曲線方程。線性趨勢是指現象隨著時間的推移,時間數列的逐期增減量大致相等,從而呈現出穩定增長或下降的線性變化規律。數移動,首尾要各少(k-1)/2項數值,按偶數時期項數移動,首尾要各少(k/2)項數值。因此,用移動平均法只便于求時間數列各期的趨勢值和觀察長期趨勢,而不便直接根據派生數列進行預測。(三)指數平滑法是對移動平均法做的一次改進。第三節 季節變動分析季節變動即經濟現象在一年內隨季節的轉變而呈現出周期性變動。季節變動有三個特點:一是季節變動每年重復進行;二是季節變動按一定的周期進行;三是每個周期變化強度大體相同。一、不考慮長期趨勢的季節指數法:季節指數法:是一種通過計算各月(或季)的季節指數(又稱季節比率),來反映季節
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國內外致密氣藏儲層特征比較及定量表征技術
- 危重病患護理與監護
- 肯德基的消費體驗優化
- 建筑工地噪音控制技術
- 2022-2023學年山東省臨沂市羅莊區人教PEP版六年級下冊期末質量檢測英語試卷(解析版)
- 德克士的品牌延續傳承
- 德克士的社群運營模式
- 涂膜防水干燥時間間隔研究與應用
- 保險公司月度活動方案
- 保險公司續保活動方案
- 國開作業《公共關系學》實訓項目3:社區關系建設(六選一)-實訓項目二社區關系建設方案-參考(含答案)98
- 千喜鶴培訓手冊終版
- 《歷史文化名城名鎮名村保護規劃編制要求》
- 申請人申請仲裁送達信息確認書
- (完整版)生物同源性荷爾蒙替代療法課件
- 福建跨學科四門主干課程作業及答案小學語文
- (高清正版)JJF 1908-2021 雙金屬溫度計校準規范
- 硬式內窺鏡項目計劃書_模板范本
- 房屋建筑工程安全防護指導圖集(防高墜篇)
- 皮內注射--ppt課件
- 機械原理課程設計半自動鉆床郭
評論
0/150
提交評論