統計數據的搜集與整理_第1頁
統計數據的搜集與整理_第2頁
統計數據的搜集與整理_第3頁
統計數據的搜集與整理_第4頁
統計數據的搜集與整理_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二章 統計數據的搜集與整理第一節 數據的計量與類型統計研究客觀事物的數量方面,離不開統計數據,統計數據是對客觀現象進行計量的結果。對統計數據的屬性、特征進行分類、標示和計算,稱為統計測定或統計度量,有定性測定和定量測定之別,并且可分不同的層次。根據計量學的一般分類方法,按照對事物計量的精確程度,可將所采用的計量尺度由低級到高級、由粗略到精確分為四個層次,即:定類尺度、定序尺度、定距尺度和定比尺度。采用不同計量尺度可以得到不同類型的統計數據,而不同類型的逃難數據又適用于不同的統計分析方法。一、數據的計量尺度(一)、定類尺度(Nominal scale)定類尺度也稱類別尺度或列名尺度,是最粗略、

2、計量層次最低的計量尺度。它只能按照事物的某種屬性對其進行平行的分類或分組。使用該尺度對事物所作的分類,各類別之間是平等的并列關系,無法區分優劣或大小,各類別之間的順序是可以改變的。由于定類尺度只能區分事物是同類或不同類因此它具有=或的數學特性。定類尺度是對事物最基本的測度,是其他計量尺度的基礎。要求:必須符合窮盡性和互斥性的要求。(二)定序尺度(Ordinal scale)定序尺度又稱順序尺度,是對事物之間等級差或順序差別的一種測度。它不僅可以竟事物分成不同的類別,而且還可以確定這些類別的優劣或順序。定序尺度對事物的計量要比定類尺度精確些,但它也只測度了類別之間的順序,而未測量出類別之間的準確

3、差值。因此該尺度具有>和<的數學性質,當然也包括了定類尺度的特性,其計量結果不僅能對事物分門別類,還可以比較大小,但不能進行加、減、乘、除等數學運算。(三)定距尺度(Interval scale)定距尺度也稱間隔尺度,它不僅能將事物區分為不同類型并進行排序,而且可以準確地指出類別之間的差距是多少。它是對事物類別或次序之間間距的測度,通常使用自然或度量衡單位作為計量尺度,計算結果表現為數值。由于這種尺度的每一間隔都是相等的,只要給出一個計量單位,就可以準確地指出兩個計數之間的差值。它不僅具有定類尺度和定序尺度的特性,其結果還可以進行加、減運算。(四)定比尺度(Ratio scale)

4、定比尺度也稱為比率尺度,它與定距尺度屬于一個層次,一般可不作區分,其計量的結果也表示為數值。它除了句要上述三種計量尺度的全部特性外,還可以計算兩個測度值之間的比值。這就要求定比尺度中必須有一個絕對固定的“零點”,這也是它與定距尺度的唯一差別。因此采用定比尺度計量的結果通常不會出現“0”值。現實生活中,大多數情況下使用的都是定比尺度。定距尺度和定比尺度的區別可以形象的比喻為:定距尺度是從桌面上開始測量高度,定比尺度則是從地面上開始測量高度。定比尺度中由于“0”表示不存在,因而其數值不僅可以比較大小、計算差值,還可以計算數值之間的比值。它可以進行加、減、乘、除運算。定類尺度定許尺度定矩尺度定比尺度

5、= > <+ × ÷二、數據的類型和分析方法(一) 數據類型與分析方法統計數據是采用某種計量尺度對事物進行計量的結果,采用不同的計量尺度會得到不同類型的統計數據,有以下四種類型:定類數據:表現為類別,但不區分順序,是有定類尺度計量形成的。定序數據:表現為類別,但有順序,是有定序尺度計量形成的。定距數據:表現為數值,可進行加、減運算,是由定距尺度計量形成的。定比數據:表現為數值,可進行加、減、乘、除運算,是由定比尺度計量形成的。前兩類數據說明的是事物的品質特征,不能用數值表示,其結果均表現為類別,也稱為定性數據或品質數據(Qualitative data);后兩類

6、數據說明的是現象的數量特征,能夠用數值來表現,也稱為定量數據或數量數據(Quantitaive date)。由于定距尺度和定比尺度屬于同一測度層次,所可以把后兩種數據看作是同一類數據,統稱為定量數據或數值型數據。特別指出:適用于低層次測量數據的統計方法,也適用于較高層次的測量數據,因為后者具有前者的數學特性;反之,適于較高層次測量數據的統計方法,則不能用于較低層次的測量數據,因為低層次數據不具有高層次測量數據的數學特性。(二) 變量及其類型在統計中,把說明現象某種特征的概念稱為變量(Variable),變量的具體表現稱為變量值。統計數據就是統計變量的具體表現,變量可分為以下幾種類型:1、定類變

7、量(Nominal variable)。如果一個變量由定類數據來計錄就稱為定類變量。如2、定序變量(Ordinal variable)。如果一個變量由定序數據來計錄就稱為定序變量。如3、數字變量(Numerical variable)。如果一個變量由數量數據來計錄就稱為數字變量。如三、統計調查的種類(一)按調查的組織方式不同,分為統計報表和專門調查。(二)根據調查對象包括的范圍不同,分為全面調查和非全面調查。全面調查即對調查對象的全部單位無一例外的進行調查,它又包括全面統計報表的普查;非全面調查即對調查對象中的一部分單位進行調查,包括抽樣調查、重點調查、典型調查和非全面統計報表。(三)按調查登

8、記時間連續與否,分為經常性調查和一次性調查。經常性調查也稱連續性調查,是指隨著被研究現象的變化,連續不斷地進行登記,以取得這些現象在一段時期內發展的總量。一次性調查又稱不連續性調查,是指對被研究現象每間隔異端相當長的時間所進行的登記,以取得這些現象在一定時點狀況上的總量。(四)按搜集資料的方法不同,分為直接觀察法、憑證(報告)法、詢問(采訪)法。直接觀察法由調查人員親臨現場對被調查單位進行觀察、點數、計量;憑證法是以各種原始記錄和核算憑證為基礎,依據統一的表格形式和要求,按照隸書關系逐機向有關部門提供統計資料的方法;詢問法只指派調查員對被調查者詢問、采訪,提出所要了解的問題,根據被調查者的答復

9、來搜集統計資料的方法。第二節 統計數據搜集的組織形式統計數據主要來源于兩種渠道:一是直接的調查和科學實驗;二是別人調查和科學實驗。一、 統計數據的直接來源統計數據的直接來源是指由直接的調查和科學實驗獲得第一手資料,主要有兩個渠道:專門組織的調查和科學試驗。(一)統計調查方式統計調查是取得時候經濟數據的主要來源,也是獲得直接統計數據的重要手段。常用的統計調查方式有以下幾種:1、普查。普查市委某一特定目的而專門組織的一次性全面調查,如,它是使用于特定目的、特定對象的一種調查方式,主要用于搜集處于某一時點狀態上的社會經濟現象的數量,摸底是掌握特定社會經濟現象的基本全貌,為國家提供有關政策或措施提供依

10、據。普查的特點:(1)普查通常是一次性的或周期性的;(2)普查一般須要規定統一的標準時點;(3)普查的數據一般比較準確,規范化程度較高,可以為其它調查提供依據;(4)普查的使用范圍比較窄,只能調查一些最基本及特定的現象。2、統計報表。統計報表是所統計數據的一種重要形式,在我國幾十年的政府統計工作中,已形成了一整套比較完備的統計報表制度,它已成為國家和地方政府部門統計數據的主要來源。統計報表是按國家有關法規的規定,自上而下地統一布置、自下而上地逐級提供基本統計數據的一種調查方式。它要以一定的圓熟數據為基礎,按照統一的表式、統一的指標、統一的報送時間和報送程序進行填報。種類:按調查對象所包括的范圍

11、不同可分為全面報表和非全面報表;按報送時間不同可分為日報、月報、季報、半年報和年報等;按報表的內容和實施范圍的不同可分為國家統計報表(國民經濟基本統計報表)、部門統計報表和地方統計報表;按填報單位不同,可分為基層統計報表和綜合統計報表等優點:統計數據的統一性和時效性、全面性、連續性、相對可靠性。3、抽樣調查。它是實際中應用最廣泛的一種調查方式和方法,它是從調查對象的總體中隨機抽取一部分單位作為樣本進行調查,并根據樣本調查的結果來推斷總體數量特征的一種非全面調查。抽樣調查的特點:(1)經濟性;(2)時效性強;適用面廣;(4)準確性高。4、重點調查。它是專門組織的一種非全面調查,它是在調查對象中只

12、選擇一部分重點單位所進行的調查,借以了解總體的基本情況。重點單位:是指在總體中具有舉足輕重的地位的單位。這些單位雖然數目較少,但就調查的標志值來說在懊惱共同標志總量中占有絕大的比重,能夠反映出總體的基本情況。如,它可以四一次性調查也可以是經常性調查。通常情況下,可以同統計報表制度想結合,采用統計報表取得所需要的資料。5、典型調查。它也是專門組織的一種非全面調查,它是根據調查研究的目的和要求,在對總體進行全面分析的基礎上,有意識地選擇其中有代表性的典型單位進行深入細致的調查,借以認識事物的本質特征、因果關系和發展變化的趨勢。典型單位:是指那些最充分、最集中地體現總體某一方面共性的單位。選典的方法

13、:(1)“解剖麻雀”式的方法。它適用于總體內各單位差別不太大的情況。通過對個別代表性單位的調查,即可估計總體的一般情況。(2)“劃類選典”的方法。總體內部差異明顯,但可以劃分出若干個類型組,使各類型組內部差異較小。從各類性組中抽選一兩個具有代表性的單位進行調查,即為劃類選典。(3)“抓兩頭”的方法。既分別從先進單位和落后單位中選擇典型,以便總結經驗和教訓,帶動中間狀態的單位,推動整體的發展。(二)數據的搜集方法數據的搜集方法即統計調查方法可分為兩大類:詢問調查和觀察實驗。1、詢問調查。是調查者與被調查者直接或間接接觸以獲得數據的一種方法。具體包括:(1)訪問調查。訪問調查又稱派員調查,是調查者

14、與被調查者通過面對面地交談從而得到所需統計資料的調查方法。其調查的方式有標準式訪問和非標準式訪問兩種。標準式訪問又稱結構式訪問,是按照調查人員事先設計好的、有固定格式的標準化問卷或表格,有順序的依次提問,并由受訪者作出回答。非標準式訪問又稱非結構式訪問,是由調查人員給被調查者一個題目或提綱,由調查人員和受訪者自由交談,以獲得所需資料。(2)郵寄調查。是通過郵寄或宣傳媒體等方式將調查表或調查問卷送至被調查者手中,由被調查者填寫,然后將調查表寄回或投放到指定收集點的一種調查方法。它是一種標準化調查,其特點是,調查人員和被調查者沒有直接的語言交流,信息的傳遞完全依賴于調查表。郵寄調查的問卷或表格發放

15、方式有郵寄、宣傳媒介傳送、專門場所分發三種。(3)電話調查。是調查人員利用電話同受訪者進行語言交流,從而獲得信息的一種方式。它具有時效快、費用低的特點。電話調查所提問題要明確,問題數量不宜過多。(4)電腦輔助調查。電腦不僅可以完成調查數據的處理,而且整個調查過程,包括問卷的設計和顯示、樣本設計、數據處理等也多可以由電腦來控制和完成。電腦輔助調查也稱為電腦輔助電話調查,是在電話調查時,調查的問卷、答案都有計算機顯示,整個調查過程,包括撥號、調查記錄、數據處理等也都借助于計算機來完成。(5)座談會。也稱為集體訪談法,是將一組被調查者集中在調查現場,讓他們對對調查的主題發表意見,從而獲取調查資料的方

16、法。這種方法適用于搜集與研究課題有密切關系的少數人員的傾向和意見。參加座談會的人員不宜太多,通常為610人,并且是所調查問題的專家或有經驗的人員。優點:取得的意見較為廣泛、深入,且不會遭到拒訪。(6)個別深度訪問。深度訪問是一種依次只有一名受訪者參加的特殊的定性研究。它要求不斷深入的受訪者的思想當中,努力發掘其行為的真實動機。是一種無結構的個人訪問,常用于動機研究。2、觀察與實驗。觀察與實驗是調查者通過直接的觀察或實驗獲得數據的一種方法。(1)觀察法。是指就調查對象的行動和意識,調查人員邊觀察邊記錄以收集信息的方法。它是一種可代替直接發問的方法。采用此方法,常常能夠在被觀察者不易覺察的情況下

17、獲得信息資料。(2)實驗法。是一種特殊的觀察調查方法,它是在所設定的特殊實驗場所、特殊狀態下,對調查對象進行實驗以取得所需資料的一種調查方法。有室內實驗法和時常實驗法兩種。二、 統計數據的間接來源是指通過其他渠道獲取別人調查或科學實驗的第二手數據。第二手數據主要是公開出版的或公開報道的數據,當然也有些是尚未公開的數據。還可以在網絡上獲取所需要的統計數據。如注意:利用第二手數據對使用者來說既經濟又方便,但使用時應注意統計數據的含義、計算口徑和計算方法,以避免誤用或濫用。同時,在引用第二手數據時,一定要注明數據的來源,以尊重他人的勞動成果。第三節 統計調查方案在進行統計調查之前,需要制定一個周密、

18、完整的調查方案,使調查得以順利的實施和完成。不同調查的調查方案在內容和形式上回一定的差別,但總體上看,一個完整的統計調查方案,至少應回答或解決以下幾個方面的問題(五個“W”,一個“H”)。為什么進行調查、向誰調查、調查什么、何時調查、調查何時、怎樣調查。一、 確定調查目的調查目的是調查所要達到的具體目標,它所回答的是為什么調查,要解決什么樣的問題,調查具有什么樣的社會經濟意義等。調查目的的寫作要簡明扼要。如二、 確定調查對象和調查單位調查對象是根據調查目的確定的調查研究的總體或調查范圍。調查單位是構成調查對象的每一個單位,它是調查項目和指標的承擔者或載體,是搜集數據、分析數據的基本單位。調查對

19、象和單位所解決的是向誰調查,由誰提供所需數據的問題。如。在實際調查中,調查單位可以是調查對象的全部單位,也可以是部分單位。三、 設計調查項目和調查表即回答調查什么的問題,調查項目是調查的具體內容,可以是調查單位的數量特征,業可以是調查單位的某種屬性或品質特征。調查項目通常以表格的形式來表現,稱為調查表。它是用于登記調查數據的一種表格,一般由表頭、表體和表外附加三部分組成。表頭是調查表的名稱,用來說明調查表的內容、被調查單位的名稱、性質、隸屬關系等;表體是調查表的主要部分,包括調查的具體項目;表外附加通常有填表人簽名、填表日期、填表說明等內容組成。舉例。調查表一般有單一表和一覽表兩種形式。四、

20、調查時間與調查方法調查時間包括兩個方面的涵義:一是統計資料所屬的時間,踏回答的是“調查何時”的問題;另一個是統計調查的工作時間,它回答的是“何時調查”的問題,它是一個時間段的概念,是指從搜集資料開始起,到將資料報送到調查方案所規定的部門和機構為止的整個調查工作所需要的時間。舉例。五、 調查工作的組織實施計劃調查的組織與實施工作具體包括:調查人員的選擇、組織和培訓;調查表格、問卷、調查員手冊的印制;必要調查工作的準備;調查經費的來源和開支預算等。 第四節 統計數據的質量一、 統計數據的誤差統計數據的誤差通常是指統計數據與客觀實際之間的差距,誤差主要有登記性誤差和代表性誤差兩類。登記性誤差是調查過

21、程中由于調查者或被調查者的人為因素所造成的誤差。其中前者造成的誤差主要有:調查方案中有關的規定或解釋不明確導致的錯誤、抄錄錯誤、匯總錯誤等;后者造成的登記性誤差主要有:因人為因素干擾形成的有意虛報或瞞報調查數據這種誤差在統計調查中應予以特別重視。從理論上講,登記性誤差是可以消除的。代表性誤差主要是指用樣本數據進行推斷時所產生的隨機誤差。二、統計數據的質量要求:就一般的統計數據而言,可將其質量評價標準概括為六個方面:1、精度,即最低的抽樣誤差或隨機誤差;2、準確性,即最小的非抽樣誤差或偏差;3、關聯性,即滿足用戶決策、管理和研究的需要;4、及時性,即在最短的時間里取得公布數據;5、一致性,即保持

22、時間序列的可比性;6、最低成本,即在滿足以上標準的前提下,以最經濟的方式取得數據。 問卷設計(自學)第五節 統計整理的意義和程序統計資料的整理與顯示是統計工作的一個重要環節,它是統計資料的搜集工作的繼續,是統計分析的前提。(統計工作分為統計設計、統計搜集、統計整理、統計分析四個環節)。一、統計整理的意義統計整理:指根據統計研究的目的要求,對統計調查所取得的各項資料進行科學的分組和匯總的工作過程;對已整理過的資料(包括歷史資料)進行再加工也屬于統計整理。1、通過統計調查可以取得第一手資料,但這種資料只能反映總體各單位的具體情況,是分散、零碎、表面的。要說明總體情況,揭示出總體的內在特征,還需要對

23、這些資料進行加工整理,使之系統化,以便通過綜合指標對總體作出概括性的說明。2、統計整理是整個統計工作和研究過程的中間環節,起著承前啟后的作用。統計整理是統計調查的繼續,又是統計分析的基礎。統計調查所搜集到的資料,只有通過科學的審核、分類、匯總等整理工作,才能使統計在認識社會的過程中,實現由個別到全體、由特殊到一般、由現象到本質、由感性到理性的轉化,才能從整體上反映出事物的數量特征。否則統計調查所得的資料再豐富、再完備,其作用也發揮不出來,統計調查就將徒勞無益,統計分析也將無法進行。3、統計整理還是積累歷史資料的必要手段。統計研究中經常要用動態分析,這就需要有長期累積的歷史資料,而根據積累資料的

24、要求,對已有的統計資料進行篩選,以及按歷史的口徑對現有的統計資料重新調整、分類和匯總等,都必須通過統計整理工作來完成。二、統計整理的程序統計整理的全過程包括對統計資料的審核、分組、匯總和編制統計圖表四個環節,需要按照一定的步驟進行:(1)對搜集到的資料進行全面審核,以確保統計資料符合統計研究目的的要求,資料準確無誤。(2)根據研究目和統計分析的需要,選擇整理的標志,并進行劃類分組。統計分組是統計整理的重要內容和統計分析的基礎,只有正確的分組才能整理出有科學價值的綜合指標,并借助這些指標來揭示現象的本質與規律。(3)在分組的基礎上,將各項資料進行匯總,得出反映各組和總體數量特征的各種指標。(4)

25、統計資料的顯示。即通過編制統計表和繪制統計圖,將整理出的資料簡捷明了、系統有序地顯示出來。第六節 統計資料的審核對調查資料進行審核是統計整理的第一步,包括以下內容:一、審核資料的完整性和及時性審核資料的完整性,就是看調查單位或填報單位是否齊全;規定的項目是否都有答案,應報資料的份數是否符合規定。審核資料的及時性,是看填報單位是否按時報送了有關資料。對不報、漏報或遲報的現象都要及時查清。二、審核資料的正確性審核資料的正確性,是檢查所填報的資料是否準確可靠。常用的審核方法有兩種:(一)邏輯檢查首先,從理論上或常識上檢查資料是否有悖常理、有無不切實際或不符合邏輯的地方。比如,一張調查表中,年齡是9歲

26、,職業是教師,其中必有一個是錯誤的。又如,若在某勞動密集型行業的報表中,企業規模為大型,而職工人數則是100人,這其中也必有一錯。其次,是檢查各項目之間有無相互矛盾的地方。例如,企業的凈產值大于同期總產值就是明顯的邏輯錯誤。(二)計算檢查即檢查各項指標的計算口徑、計量單位是否符合規定,并通過各種計算方法來檢查各指標間的數字是否相互銜接。三、歷史資料的審核在利用歷史資料(或其他間接資料)時,應審核資料的可靠程度、指標含義、所屬時間與空間范圍、計算方法和分組條件與規定的要求是否一致。一般可以從調查資料的歷史背景、調查者搜集資料的目的以及資料來源等,來判斷資料的可靠程度,也可以從指標間的相互關系以及

27、指標的變動趨勢來檢查它的正確性。對不能滿足現在要求、缺漏或有疑問的資料,要進行有科學根據的推算、彌補和訂正。四、資料審核后的訂正通過上述審核,如發現有缺報、缺份和缺項等情況,應及時催報、補報;如有不正確之處,則應分別不同情況作如下處理:(1)對于可以肯定的一般錯誤,應及時代為更正,并通知原報單位。(2)對于可疑之數或無法代為更正的錯誤,應要求原單位復查更正。(3)如果所發現的差錯在其他單位也可能發生時,應將錯誤情況通報所有單位,以免發生類似錯誤。(4)對于嚴重的錯誤,應發還重新填報,并查明發生錯誤的原因,若屬于違法行為,則應依法嚴肅處理。第七節 統計分組一、統計分組的概念1、概念:根據社會經濟

28、現象的特點和統計研究的目的要求,按照某個重要標志(或幾個標志)把總體劃分為若干不同性質的組,稱為統計分組。統計分組的對象是總體,統計分組的標志可以是品質標志,也可以是數量標志。2、統計分組的深層次理解從分組的性質來看,分組兼有“分和合”雙重含義。1)對于現象總體而言,是“分”,即把總體分為性質相異的若干部分;而對于總體單位而言,又是“合”,即把性質相同的許多總體單位合為一組。2)對于分組標志而言,是“分”,即按分組標志將不同的標志表現分為若干組,而對于其他標志而言,是“合”,即在一個組內的各單位即使其它標志表現不相同也只能結合在一組。由此可見,選擇一種分組方法,突出了一種差異,顯示了一種矛盾,

29、必然同時掩蓋了其他差異,忽略了其他矛盾。不同的分組方法,可能得出不同的結論。缺乏科學根據的分組,不但無法顯示事物的根本特征,甚至會把不同性質的事物混淆在一起,歪曲社會經濟現象的本質。因此,統計分組必須先對所研究現象本質作全面地、深刻地分析,確定所研究現象類型的屬性及其內部差別,而后才能選擇反映事物本質的正確的分組標志。二、統計分組的原則統計分組,必須遵循兩個原則:窮盡原則和互斥原則。窮盡原則,就是使總體中的每一個單位都應有組可歸,或者說各分組的空間足以容納總體所有的單位。例如,從業人員按文化程度分組,分為小學畢業、中學畢業(含中專)和大學畢業三組,那么,那些文盲或識字不多的以及大學以上的學歷者

30、則無組可歸。如果將分組適當調整為文盲及識字不多、小學程度、中學程度、大學及大學以上,這樣分組,就可以包括全部從業人員的各種不同層次的文化程度,符合了分組的窮盡原則。互斥原則,就是在特定的分組標志下,總體中的任何一個單位只能歸屬于某一組,而不能同時或可能歸屬于幾個組。例如,某商場把服裝分為男裝、女裝、童裝三類,這不符合互斥原則,因為童裝也有男、女裝之分。若先把服裝分為成年與兒童兩類,然后每類再分為男女兩組,這就符合互斥原則了。三、統計分組的作用統計分組在統計研究中的重要作用可概括為三個方面:(一)劃分社會現象的不同類型。社會經濟現象千差萬別,要了解各種社會經濟現象的性質、特點及其相互關系,必須根

31、據某種標志把它們劃分為性質不同的類型,以便揭示不同社會經濟現象的質的差異。例如,國民經濟按產業分組;農業分成農、林、牧、漁業各組;社會商品零售額按商品用途分組;企業按所有制分組等等。這些分組也叫類型分組。如下表是我國城鎮居民家庭收入消費性支出按商品類別分組的統計表,它將全部消費品分為八大類,盡管它們同屬于消費品,但在效用上卻有“質”的差別。通過這種分類,可以反映我國居民和社會集團的商品性消費中不同類別的商品所占的地位和作用,也為進一步研究我國消費品零售額的水平與結構提供了便利條件。我國城鎮居民家庭人均消費支出及構成按商品類別分組零售額(元)構成(%)食品類衣著類家庭設備用品及服務類文化娛樂用品

32、類交通通訊類醫療保健類居住類雜項商品類合計100(二)揭示社會現象的內部結構。從數量上反映總體內部的結構是統計研究的重要任務。總體的內部結構可體現部分與整體的關系以及各部分之間存在的差別和相互聯系,反映事物從量變到質變的過程,幫助人們掌握事物的特征,認識事物的性質。我國出口產品構成表(%)年份農副產品農副產品加工品工礦產品合計1950196019701980198519901995200057.531.036.718.717.513.07.35.233.242.337.729.526.929.226.225.19.326.725.651.855.657.866.569.710010010010

33、0100100100100如該表,就從我國出口商品構成的變化,反映出我國經濟發展水平和經濟結構的變化。(三)分析社會現象之間的依存關系。社會經濟現象之間廣泛地存在著相互依存的關系,如農作物的耕作深度與收成率之間、合理密植與農產量之間、家庭的工資收入與生活費支出之間、工人技術級別與產品質量之間、工人勞動生產率與產品成本之間、市場商品價格與其需求量之間等等,都在一定程度上存在相互依存的關系。所有這些依存關系,都可通過統計分組分析出影響因素與結果因素之間的變動規律。四、統計分組的種類(一)按分組的作用或目的不同,分為類型分組、結構分組和分析分組。1、類型分組:是將復雜的現象總體,劃分為若干個不同性質

34、的部分。2、結構分組:是在對總體分組的基礎上計算出各組對總體的比重,以此來研究總體各部分的結構。類型分組和結構分組往往緊密聯系在一起。3、分析分組:是為研究現象之間依存關系而進行的統計分組。分析分組的分組標志稱為原因標志,與原因標志相對應的標志稱為結果標志。如影響某種商品消費需求的因素有:該商品的價格、消費者收入、相關商品的價格、消費者偏好以及消費者對該商品的預期等。原因標志不同,結果標志也會不同;同一原因標志由于分組的不同,結果標志也會不同。例如,工人的勞動生產率與產值之間、商品流通費用率與商品銷售額之間的依存關系,都可以按分析分組法來研究它們之間的聯系。(二)按分組標志的多少,可分為簡單分

35、組、復合分組和并列分組。1、簡單分組:就是對總體只按一個標志進行分組。例如國民生產總值按產業分為第一、第二、第三產業三組;貨運量按運輸方式分為鐵路運輸、公路運輸、水陸運輸、航空運輸與管道運輸等五組。2、復合分組:就是對總體按兩個或兩個以上的標志進行的重疊式分組,即在按某一標志分組的基礎上再按另一標志進一步分組。本科男例如,為了認識我國高校學生的構成,我們可以同時采用學科、本科或專科、性別等三個標志進行分組:高校學生文科男女 專科女男理科本科女專科男女這樣分組的結果就形成幾層重疊的組別,把高校學生的構成分析得更為深入、詳細。復合分組的優點是,從對同一現象的層層分組和分組標志的聯系中,更深入全面地

36、研究總體各個方面的內部結構。但是,采用復合分組時,組數會隨著分組標志的增加而成倍增加,使每組包括的單位數相應減少,處理不好就會成為煩瑣哲學,不利于分析問題。因此,不能濫用復合分組,尤其不宜采用過多的標志進行復合分組,也不宜對較小總體進行復合分組。3、并列分組:就是同時用兩個或兩個以上的標志,分別從不同的角度,進行不重疊的多種分組。也就是說,很多簡單分組從不同角度說明同一個總體,就構成一個并列的分組體系。例如,職工先按性別分成兩組,另按年齡分成若干組;進口總額先按貿易對象分成若干組,另按商品用途分成若干組。并列分組的特點是兩種或多種分組相互獨立而不重疊,既可從不同的方面反映事物的多種結構,又不致

37、使分組過于煩瑣,故被廣泛采用。(三)按分組標志的性質,分為品質分組和數量分組。品質分組:是按品質標志進行的分組,即按事物的某種屬性分組。如企業按經濟類型、行業分組;人口按性別、民族分組;大學生按專業分組等。這種分組可以反映總體的構成和不同屬性事物在總體中的地位和作用。數量分組:是按數量標志進行的分組。如企業按生產能力、勞動生產率分組;商店按商品流轉額、職工人數分組;人口按年齡、身高分組等。這種分組的目的在于通過事物在數量上的差異來反映事物在性質上的區別。按品質標志分組和按數量標志分組是一對重要的統計分組,統計分組方法主要是圍繞這兩種分組來闡述的。五、分組標志的選擇分組標志是統計分組的依據或標準

38、。正確選擇分組標志是進行統計分組的關鍵,分組標志確定得恰當與否會直接影響統計分組的作用。為了正確選擇分組標志,必須遵循以下幾條原則:(一)要符合統計研究的目的和要求統計分組是為統計研究服務的,統計研究的目的不同,選擇的分組標志也應有所不同。例如,同是以工業部門為研究對象,當研究的目的是為了分析部門中各種規模的企業的生產情況時,應該選擇產品數量或生產能力作為分組標志;當研究目的在于確定工業內部比例及平衡關系時,應該以行業為分組標志,將工業部門劃分為重工業與輕工業或冶金、電力、化工、機械、紡織、煤炭等工業行業。(二)必須選擇最重要的標志作為分組依據社會經濟現象紛繁復雜,研究某一問題可能涉及許多標志

39、,科學的統計分組則應從中選擇與統計研究的目的、與有關事物的性質或類型關系最密切的標志,即最主要或最本質的標志作為統計分組的依據。例如,根據統計調查資料,研究人民生活水平變動情況時,可供選擇的分組標志有:家庭人口數、每戶就業人數、每一就業者負擔人數、家庭總收入、平均每人月生活費收入等。而其中最能反映人民生活水平變動的標志是平均每人月生活費收入,故應選擇這一標志作為分組標志。(三)要考慮到社會經濟現象所處的具體歷史條件客觀事物的特點和內部聯系隨著條件的變化而不同,因此選擇分組標志時,要具體情況具體分析,根據事物的不同條件來選擇分組標志。例如,同是劃分企業規模,在勞動密集型的行業或地區,可采用職工人

40、數作為分組標志;而在技術密集型的行業或地區,則應選擇固定資產價值或生產能力作為分組標志。六、統計分組的方法在分組標志確定后,就要進行具體的分組。我們說按分組標志的性質不同,分為品質分組和數量分組,這兩種分組的具體處理方法也存在著不同。(一)品質分組的方法按品質標志分組時,其組數的確定主要取決于兩個因素統計研究的任務與事物的特點。1、對事物進行品質分組,其組數的多少首先取決于事物本身的特點。事物本身所具有的既定的屬性,是我們確定組數的基本依據。在有些場合,事物的屬性就已確定了總體的組數.例如,人口、職工和學生按性別分組,就只能分為兩組;企業按經濟類型分組,在我國現行經濟體制下,也只有國有、集體、

41、個體、合營和外資等幾組。2、對于有些事物構成比較復雜,組數可多可少的情況,就需要考慮統計研究任務的具體要求。例如:人口按職業分組,產品和商品的分組等,就是可粗可細,組數可多可少的,到底分為幾組,就只好根據統計研究的任務來確定了。要求較細時,組數可多些;要求較粗時,組數則可少些。我國把社會經濟各部門劃分為第一產業、第二產業和第三產業,第一產業還可細分為農業、林業、畜牧業和漁業等。但有的品質分組較為復雜,組的界限不易劃分,存在著一些交叉過渡狀態,組界邊緣不清,例如第一產業中的林業與第二產業采掘業中的木材及竹材采運業的區分。對于這一類問題,統計工作中采用統一的分類標準。這樣的具體規定分類(組)的標準

42、,為統計整理提供了統一的依據。(二)數量分組的方法按數量標志分組,應注意如下兩個問題:首先,分組時各組數量界限的確定必須能反映事物質的差別。例如,學生學習成績分組,不能把55分和65分合為一組,因為這樣的分組未區分及格與不及格的質的差別。其次,應根據被研究的現象總體的數量特征,采用適當的分組形式,確定相宜的組距、組限。1、單項式分組與組距式分組1)單項式分組:就是用一個變量值(標志值)作為一組,形成單項式變量數列。單項式分組一般適用于離散型變量且變量變動范圍不大的場合。如,育齡婦女按其生育子女存活數分組,可分為0個、1個、2個、3個、4個、5個等6組。2)組距式分組:就是將變量依次劃分為幾段區

43、間,一段區間表現為“從到”距離,把一段區間內的所有變量值歸為一組,形成組距式變量數列。區間的距離就是組距。對于連續型變量或者變動范圍較大的離散型變量,適宜采用組距式分組。例如,反映居民居住水平情況按人均居住面積分組分為:4平方米以下,4-6平方米,6-8平方米,8平方米以上等4組。再如了解某班學生成績情況,按成績進行組距式分組。2、間斷組距式分組和連續組距式分組在組距式分組中,每組包含許多變量值,每一組變量值中,其最小值為下限,最大值為上限。組距是上下限之間的距離,相鄰兩組的界限,稱為組限。間斷組距式分組:是指凡是組限不相連的分組。例如,兒童按年齡分組分為未滿1歲,1-2歲,3-4歲,5-9歲

44、,10-14歲。連續組距式分組:凡是組限相連(或稱相重疊的)分組,即以同一數值作為相鄰兩組的共同界限的分組。例如,工人按工時定額完成程度分組分為90-100%,100-110%,110-120%等組。如果變量值只是在整數之間變動,例如企業數、職工數、機器設備臺數等離散型變量,可采用間斷組距式分組,也可采用連續組距式分組。如果變量值在一定范圍內的表現即可以是整數,也可以是小數,如產值、身高、體重等連續型變量,只能采用連續組距式分組。“上限不在內”原則在進行連續組距式分組時應注意,由于以同一個數值作為相鄰兩組共同的界限,為了遵循統計分組窮盡和互斥原則,所以統計上規定,凡是總體某一個單位的變量值是相

45、鄰兩組的界限值,這一個單位歸入作為下限值的那一組內,即所謂“上限不在內”原則。例如學生成績分組,把70分的學生歸入70-80分組內,把80分的學生歸入80-90分組內。根據這一原則,離散型變量的分組,各組的上限也可以寫為下一組的下限,這樣處理既簡明又便于計算。連續型變量的分組也可以僅列出左端的數值,即以各組的下限來表示。如上例學生成績分組也可表示為50-,60-,70-,3、等距分組與異距分組按數量標志進行組距式分組,還可分為等距分組和不等距(或稱異距)分組。1)等距分組等距分組:就是標志值在各組保持相等的組距,即各組的標志值變動都限于相同的范圍。凡是在標志值變動比較均勻的情況下,都可采用等距

46、分組。例如,工人的年齡、工齡、工資的分組;零件尺寸的誤差、加工時間的分組;農產品單位面積產量、單位產品成本的分組等等。等距分組有很多好處,它便于繪制統計圖, 也便于進行各類運算。2)異距分組分組的形式應服從分組的要求,即性質相同的單位應合并在一個組內,性質不同的應當分開。現象的差別取決于現象的本質,而不在于數學形式,必須根據現象的本質特征和統計研究的目的任務來確定分組的等距與否。在下列情況下,就必須考慮采用異距分組:第一,標志值分布很不均勻的場合。例如,學生成績如果密集于某一范圍,如60-80分或70-90分之間,其它部分則分布十分稀少,在這種場合若仍以10分為組距進行等距式分組,則無法顯示出

47、分布的規律性,會使得這一密集的分數段分布的信息損失過大。因此,合理的做法是,在分布比較密集的區間內使用較短的組距,在分布比較稀少的其余部分使用較長的組距,形成各組的組距不相等的異距分組。第二,標志值相等的量具有不同意義的場合。例如,生命的每一個月對于新生嬰兒和對于成年人是大不一樣的,此時,進行人口疾病研究的年齡分組,應采用異距式分組,即1歲以下按月分組,1-10歲按年分組,11-20歲按5年分組,21歲以上按10年或20年分組等等。第三,標志值按一定比例發展變化的場合。例如,百貨商場營業額差別是很大的,比如營業額從5萬元至5千萬元,可采取公比為10的不等距分組5-50萬元、50-500萬元、5

48、00-5000萬元。若用等距分組,即使組距為100萬元,也得分為50組,顯然是不合適的。對于異距分組方法的運用,沒有固定模式可供依循,全憑統計人員在實踐中不斷探索,關鍵在于對所研究現象的內在聯系必須十分熟悉,才能很好運用異距分組來揭示事物的本質。七、組距、組數、組限與組中值在具體進行分組時,首先應對標志值的分布情況進行仔細審查,找出變量的最大值和最小值;其次,在分布比較集中的標志值處確定組距的中心位置;再次,根據預定的組距的大小定出上下限。一般地,第一組的下限必須略小于實際變量值的最小值,最后一組的上限必須略大于實際變量值的最大值,并盡可能使各單位的標志值在組內分布比較均勻。(一)組距在組距式

49、分組中,組距是各組上下限之間的距離,即各組最大標志值和最小標志值之差。1、由于有等距分組與異距分組之分,在后文中將要出現的頻數密度的概念,必須具體計算確定每一個組的組距大小。在許多版本的教科書中,籠統地使用如下公式來計算組距的大小,即組距=上限-下限事實上,這一公式只適用于計算連續組距式分組的組距大小,例如成績分組中,60-70分,70-80分,其組距為10分(=70-60或80-70)。如果將這一公式套用于間斷組距式,將會產生謬誤。例如,商店規模按職工人數分組,分為1-5人,6-10人,11-15人等等。套用上述公式,得出5-1(或10-6,或15-11)=4,即組距為4人的結論,顯然是錯誤

50、的。2、對于間斷式分組的組距大小的計算,必須采用如下公式組距=本組上限-前組上限 (1)(或)=后組下限-本組下限 (2)(或)=本組上限-本組下限+1 (3)在上面的例子中,可見其組距實際上是5人。應當注意到,連續組距式分組的組距大小,也可根據公式(1)或(2)求得。(二)組數全距是總體中最大的標志值與最小的標志值之差。組數的多少直接取決于兩個因素,一個是總體的全距,另一個是組距。在等距分組的條件下,組數等于全距除以組距。在組距既定的條件下,全距大則組數多,全距小則組數少;在全距既定的條件下,組距大則組數少,組距小則組數多。全距是客觀存在的事實,不以人的意志為轉移,所以,確定組數的關鍵是確定

51、組距。如對學生成績情況的統計分組中,組數過少,例如學生成績分為2組,不能很好地達到分組的基本要求;組數過多,例如成績分為101組,即分組過細,也無法起到化繁為簡的作用,難以顯示出總體分布的規律。決定組數的多少,并無規則可言,必須憑借經驗和所研究問題的性質作出判斷。這里,向大家介紹一種確定組數和組距的經驗公式,這一公式是美國學者斯特杰斯(Sturges)創立使用的,稱為斯特杰斯經驗公式,即:n=1+3.3lgN 則有:,公式中,n為組數,N為總體單位數,d為組距,R為全距,即最大變量值Xmax與最小變量值Xmin之差。根據這一公式,可以得出如下(見下表)的組數參考標準。分組組數參考標準表N15-

52、2425-4445-8990-179180-359n56789上述公式及表中數據僅供參考,不能生搬硬套。實際分組時采用組數多少應依據所研究資料的性質而定。(三)組中值組中值:為上下限之間的中點數值,組中值的計算公式為:組中值=(上限+下限)/2 在計算平均指標或進行其它統計分析時,常以組中值來代表各組標志值的平均水平。當各組標志值均勻分布時,組中值代表各組標志值的水平,其代表性就高。因此,分組時應注意:1、盡可能使組內各單位標志值分布均勻;2、為避免產生過大的計算誤差,在選取各組上、下限時,應盡可能使組中值恰為整數。3、當連續型變量按離散型變量表示時,組距數列的編制采取相鄰組限不重疊的形式,組

53、中值的確定應考慮到連續型變量自身的特點。年齡就是比較典型的例子,它實質上是連續型變量,習慣上用整數表示。例如一群大學生分為17-19歲、20-22歲兩組,則組距3歲,組中值分別為18.5歲和21.5歲。因為第一組應包括19歲又不到20歲的大學生,上限應視為20歲。同樣道理,第二組上限應視為23歲。4、開口組的組中值的確定。在編制組距式變量數列時,使用“××以上”或“××以下”這樣不確定組距的組,稱為開口組。例如,反映某工業企業工人生產定額完成情況,按生產定額完成程度分組,分為90%以下,90-100%,100-110%,110%以上。開口組的組距是以相鄰

54、組的組距為本組的組距,如上例,90%以下的組,因相鄰組的組距為10%(=100%-90%),故第一組視為80-90%,其組中值為(80%+90%)/2=85%,即85%;110%以上的組距以鄰組的組距10%為本組組距,視為110-120%,組中值為 =115%。第八節 頻數分布一、頻數分布的基本概念(一)頻數分布在統計分組的基礎上,將總體所有的單位按某一標志進行歸類排列,并計算各組的單位數稱為頻數分布,或次數分布。頻數分布是統計整理的一種重要形式,通過對零亂的、分散的原始資料進行有次序的整理,形成一系列反映總體各組之間單位分布狀況的數列,即分布數列。(二)分布數列的兩個要素1、總體按某標志所分

55、的組。就變量數列而言,總體按數量標志分組,分組標志在各組有不同的數量表現,形成標志值數列,亦稱變量,一般用x表示;2、各組所出現的單位數,即頻數,又稱為次數,用f表示。(三)分布數列的種類根據分組標志特征的不同,分布數列可分為品質分布數列和變量分布數列。按品質標志分組所形成的數列稱為品質分布數列,亦稱品質數列。按數量標志分組所形成的數列叫變量分布數列,亦稱變量數列。二、變量數列的編制統計調查所搜集的原始資料,是比較分散零亂,無法顯示現象總體的本質特征。一般來說,對所搜集的資料按標志值大小進行排序,再觀察各標志值分布是否均勻,決定是否采用等距分組。例如,根據抽樣調查,某月某市50戶居民購買消費品

56、支出資料如下(單位:元): 830 880 1230 1100 1180 1580 1210 1460 1170 1080 1050 1100 1070 1370 1200 1630 1250 1360 1270 1420 1180 1030 870 1150 1410 1170 1230 1260 1380 1510 1010 860 810 1130 1140 1190 1260 1350 930 1420 1080 1010 1050 1250 1160 1320 1380 1310 1270 1250對上述資料采用等距分組,分為8組,組距為100,以800為第一組下限。經過整理,得出計算結果如下表。表中第1列是變量,第2列是各組出現的次數,即頻數,各組頻數之和等于總體單位數,第3列是頻率,頻率反映了各組頻數的大小對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論