




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二章:單變量描述統計分析(上)第一節分布、頻數、頻率、比率第二節統計表第三節統計圖社會學工作者為了從經驗層次上證實自己在研究中所建立的概念、假設和理論,一是要正確的收集資料或數據,二是要學會正確的處理這些數據。本章介紹的內容就是從原始資料加工開始,研究單變量的情況,它包括分布、統計表、統計圖、集中趨勢和離散趨勢的分析,也就是對單變量特征的統計分析。單變量情況舉例1、某城市居民中有多少種民族?各占比例多少?2、女性一般在什么年齡結婚?3、某社區有多少違法者,其中多少是初犯,多少是屢犯?4、歷屆奧林匹克男子跳高冠軍所跳的高度是如何分布的?要對這些社會現象或變量進行描述,我們通常有三種辦法,一是計算(compute)數據,二是為數據制作一個表(table),即統計表,三是為數據制作制作一個圖(graph),即統計圖。第一節分布:頻數、頻率、比率社會統計學里分布(distribution)指的是一個變量的不同取值出現的情況,可以用頻數、頻率、百分比、比率等指標來進行表示。
一、頻數(frequency
)一個概念或變量的各個情況出現的次數或頻次,所以又稱頻數分布或頻次分布(frequencydistribution),簡稱頻數或頻次。需要注意兩個問題:(1)變量的取值必須滿足兩個條件,一是窮盡性,二是互斥性。窮盡性也叫完備性是指必須把變量的所有取值都列舉出來,只有這樣才能對所有的調查對象進行歸類。互斥性是指變量的每個取值都不能有交叉,從而使每個調查對象僅能歸入一類。大家看下面兩個表格分別有什么問題?表1、工廠規模頻數分布表表2、收入頻數分布表(2)頻數分布可以用來描述全部四種層次的變量,定類(性別、婚姻狀況),定序(受教育程度),而對于定距變量(智商、溫度)和定比變量(收入、年齡),由于其取值一般很多,甚至難以窮盡,所以其頻數分布通常以分組的形式給出,我們稱為組距式分類。家庭結構分布表家庭結構類型頻數核心家庭1050直系家庭720聯合家庭110其他250合計2130某企業就業人員學歷分布表學歷頻數初中80高中50大學70合計200某班學生的年齡分布表年齡(歲)人數(頻數)17101825195020402120225合計15072名離婚者婚齡統計表婚齡人數1-354-6107-92010-121413-15916-18419-21322-24225-27428-301合計72二、頻率或比例
(relativefrequencydistribution)表3、兩個假想社區中違法者和非違法者的頻數分布表研究對象社區1社區2違法者
初犯者5868屢犯者43137非違法者4811081總和5821286表4、兩個假想社區中違法者和非違法者的頻率分布表研究對象社區1社區2違法者
初犯者0.1000.053屢犯者0.0740.107非違法者0.8260.841總和1.0001.001由于有四舍五入的誤差,社區2的比例總和不是1.有時人們希望數據處理的結果使總和正好等于1.000,這就要對某些類別的比例進行調整,按照慣例,我們一般是改變包含最大個案比例的類別中的數字,這樣做的原因是在較大的比例中改變小數點后最后一位的數目所造成的影響要比在較小的比例中做同樣改變所造成的影響小。這樣,社區2中非違法者的比例可以改為0.840,那么所得的總和便為1了。概念小結:將每個變量值出現的頻數除以樣本容量,就得到該變量值在樣本中的相對頻數或者比例或者叫做頻率,將該頻率表示成百分數形式就得到它的百分比分布。比例乘以100即可得到百分比,其含義是我們將類別的容量標準化為100,然后計算每一類別中不同變量取值的數目。我們在實際報告結果的時候,百分比要比比例多。
表5、某社區三個心理衛生中心的個案數目和百分比分布表思考:從表中你可以得出哪些結論?類別A中心B中心C中心總和頻數百分比%頻數百分比%頻數百分比%頻數百分比%已婚者6347.38845.54136.619243.8離婚者1914.33719.22623.38218.7訂婚者2720.32010.41513.46214.2未婚母親139.83216.62118.86615.1其他118.3168.398.0368.2總和113100.0193100.0112100.0438100.0使用百分比要遵循兩條規則:(1)一定要在百分比或比例的旁邊列出個案的數目;(2)只有在百分比基數(分母)的個案數目達到50個左右才能使用百分數。如果個案數目很少,最好直接用每個類別的個案數目而不用百分數。
譬如假定D中心總共有25個個案,其中有4個未婚母親和7個訂婚者,那么這兩類所占的百分比就分別為16%和28%,由于許多人習慣只看百分比而不看實際的個案數目,很容易造成一種印象,就是以為訂婚者比未婚母親多得的。我們在以后討論推論統計時可以看到,4個個案和7個個案之間的差別很可能是由于隨機現象的偶然性因素引起的。所以我們可以直接說D中心有4個未婚母親和7個訂婚者。百分比可以從兩個方向進行計算:上面的表格顯示出每一中心各自的情況,使我們可以看出各類個案的情況,也可以就某一類別在三個中心之間進行比較。如果我們的興趣主要在某一類型的個案以及各中心的該類型個案的相對數目,比如我們想了解所有已婚者去B中心的百分比,在這種情況下,我們就需要橫向的計算百分比。我們取已婚者的總和,由此決定A中心、B中心和C中心在該類別上所占的百分比分別是多少。各百分比橫向(而不是縱向)相加應等于100,結果如下表:表6、某社區三個心理衛生中心的橫向計算的百分比分布*基數少于50則不計算百分比。三、比率定義:數目A對數目B的比率被定義為A除以B。這里關鍵是“對”這個詞。這個詞前面的數是分子,后面的數是分母。假定在地方選舉中作為選民登記的有365個共和黨人,420個民主黨人,130個無黨派者,則共和黨人對民主黨人的比率為365/420;共和黨人與民主黨人對無黨派者的比率為(365+420)/130。注意,比率可以取大于1的值,這點與比例不同。比率與比例的關系比例是比率的一個特殊類型,即分母是個案的總數,分子是這個總數的一部分。一般來講,比率這一術語通常是指這種情況:分子和分母為各不相干的兩個類別。假如我們知道一個公司男職員對女職員的比率是3:1,那么我們可以知道,每4個人里面就有3個男的1個女的,因此男人的比例是75%。比率的分母或者基數可以是任何方便的數字。比如民主黨人對無黨派者的比率420/130可以寫成3.23比1;比如性別比一般由每100個女人中有多少男人來表示。所以性別比為94表示男人略少于女人,出生嬰兒性別比為129則表示男嬰兒數量上更有優勢。基數為1,000或100,000這樣的大數時,常使用比率的另一種類型——率(rate),這種情況下使用比例或百分比會得出極小極小的小數。
增長率是比率的另一種常用的類型。在計算這種率時我們用一段時期內實際增加的數量除以這段時期開始時的數量。對增長率來說如果用百分比來表示則可能超過百分之百,如果增長的趨勢是逆向的,也可能是負數。比如:中國在2004年的人口自然增長率是5.9/1000;印度為15.8;俄羅斯為-5.9.有報道稱,1992年巴塞羅那奧運會舉辦前后,其房地產價格增長了250~300%作業與練習見公共郵箱第二節統計表所謂統計表就是用表格形式來表示變量的分布,它不需要文字敘述,就能反映出資料的特性以及資料之間的關系,方便我們對統計資料進行查對、比較、分析和記憶。一、統計表的格式、內容、種類格式:表號、總標題、橫行標題、縱欄標題、統計數值;內容:主詞和賓詞;種類:簡單表;簡單分組表;復合分組表。一個完整的統計表應該具備的內容有:(1)標題部分;(2)欄目部分;(3)線格部分;(4)數字部分;(5)其他要點。不同層次變量統計表的特點1、定類變量表1、家庭結構分布表
(××地,2007年8月)家庭結構類型頻數百分比核心家庭105049.3直系家庭72033.8聯合家庭1105.2其他25011.7∑2130100.0資料來源:《社會統計學》(第三版)盧淑華編著,第24頁。2、定序變量定序變量統計表內容、制作方法與定類變量相同。所不同的是,由于定序變量的取值有大小次序之分,因此在統計表制造時,應保留其變化趨勢,不要任意打亂。表2、觀眾對武俠片的反應統計喜愛程度頻數百分比非常愛看7017.9愛看9023.1一般10025.6不愛看10025.6很反感307.7總數39099.93、定距變量和定比變量對于定距變量,我們要區分它是連續型定距變量還是離散型定距變量。離散型變量的制表方法一般與定序變量的制表方法相同。統計表的變量數值按取值的大小排列,不要任意打亂。A、如果變量的取值有限,則可以采用一一列舉的方式進行統計表的制作。B、如果變量取值的變化幅度過大,如果一一列舉,勢必形成很長的分類,而每一類的頻數又變的很少。這種情況下適宜采用組距式統計表,即分段統計。(2)對于連續型變量,由于任意兩變量之間的取值都是無窮的,而且從原則上講沒有任意兩個觀察值是絕對相等的,所以我們沒有辦法采用一一列舉的辦法使每個取值對應某個確定的頻數,解決的辦法只能是將變量值進行分組,制作組距式統計表。二、統計表的制作方法(1)組數(intervals):一般調查總數N與分組數有如下經驗性關系:表3調查總數N分組數K50-1006-10100-2507-12250以上10-20(2)等距(equallength)和非等距或異距(unequallength)分組一般來說都是采用等距分組。但在社會學中,也并非全部都是等距分組更能反映現象本質的。當然非等距分組會給比較或作圖帶來一定困難,為了消除此影響,確切反映各組頻數的實際分布狀況,可以計算頻數密度或標準組距頻數。具體方法可以參考教材P37頁。(3)開口組(open-ended)跟閉口組(close-ended)如果觀察值或測量值中有少數非常大或非常小的值,我們叫做極端值,這些值遠離大部分數據集中的位置,這時可以用開口組,比如首組“向下開口”或者末組“向上開口”;使用開口組的另一個原因是對信息的保密。(4)如何決定分點的精度(degreeofaccuracy)隨著精度的提高,分組點(limits)的精度也要提高。一般分組點比原統計資料的精度要高一位。如統計資料的精度為整數,則分組點就取小數點后面一位計算。舉例來說,原統計資料的年齡以年計算,統計范圍為1歲-8歲,2歲一個分組,即有1-2歲,3-4歲,5-6歲,7-8歲4個分組,為此應在上述分組值加減0.5歲,得:0.5-2.5歲;2.5-4.5歲;4.5-6.5歲;6.5-8.5歲。前者稱為標明組界(statedlimits);后者稱為真實組界(truelimits)。試比較上述資料兩種組界定義的不同:表4可見,真實組界值是相鄰兩組標明組界值的中點,它的精度比標明組界要高一位,組與組的分界是連續的,而標明組界則是離散的。標明組界只是分組資料的簡化表示,在實際運算時,都要用到真實組界。標明組界真實組界1-20.5-2.53-42.5-4.55-64.5-6.57-86.5-8.5利用原始數據資料制作組距式統計表呢?有兩種方法,一種是計算法;另一種是經驗法。我們分別來舉例說明。1、計算法步驟1、收集數據,寫成10×10數據表,數據總數N=100(數據單位“cm”)步驟2、找出數據中最大值L,最小值S,計算極差R(range)即最大值與最小值之差。先在數據表內找出各列最大值,在數據旁邊用▲表示,然后找出全體數據的最大值L;同樣先在數據表內找出各列最小值,在數據旁邊用×表示,然后確定全體數據的最小值S。
R=L-S=194-149=45步驟3、把數據分組(groupingthedata),假如取組數K=10;步驟4、計算組距(classinterval)hh=R/K=45/10=4.5≈5步驟5、根據組距h和分點精度比原統計數據精度高一位的原則,將數據分為K組;
148.5~153.5;153.5~158.5;……193.5~198.5步驟6、計算各組的組中值(midpoint)bi;中心值是每組中間的數值,可按下式計算:
bi=(第i組真實下界值+第i組真實上界值)/2
于是各組的中心值有:151,156,161,166,171,176,181,186,191,196步驟7、用唱票的方法畫“正”字,進行頻數統計,作統計表。表5、100名男性青年的身高統計表組號i標明組界真實組界中心值bi頻數統計頻數頻率1149~153148.5~153.515120.022154~158153.5~158.5156正50.053159~163158.5~163.5161120.124164~168163.5~168.5166正正正正正250.255169~173168.5~173.5171280.286174~178173.5~178.5176170.177179~183178.5~183.518170.078184~188183.5~188.518630.039189~193188.5~193.519100.0010194~198193.5~198.5196一10.01總和∑=1001.002、經驗法即我們按照某些慣例、習慣或研究者的方便來確定組距的情況。比如我們經常使用5、10、20等整數作為組距;人口學通常以5歲為一組進行統計;學生的成績通常以10為組距,比如60-69為及格;70-79為中;80-89為良;90-100為優秀等。表6、1992年美國生育嬰兒的母親年齡統計表母親年齡標明組界真實組界組距組中值新生嬰兒數(千)20歲以下?-19?-19.5??51820-2420-2419.5-24.55221,07025-2925-2924.5-29.55271,17930-3430-3429.5-34.553289535-3935-3934.5-39.553734540歲及以上40-?39.5-???58∑4,065來源:《美國統計摘要》(1995年)第74頁。三、累計表(cumulativetables)所謂累計表表示的是大于某個變量值的頻數或頻次是多少或小于某個變量值的頻數、頻率是多少。累計頻數一般用大寫字母F來表示。累計又分向上累計cf↑和向下累計cf↓兩種。(1)對于列舉變量取值式累計統計表來說,向上累計cf↑表示小于等于某組上限的累計頻數;向下累計cf↓表示大于等于某組下限的累計頻數。表7、頻數分布與累計頻數分布家庭子女數頻數向上累計cf↑向下累計cf↓0222+10=12132+3=53+7=10233+5=83+4=7322+8=102+2=4411+10=111+1=2511+11=121(2)對于組距式統計表來說,向上累計cf↑表示小于等于某組上限的累計頻數;向下累計cf↓表示大于等于某組下限的累計頻數。同理,如果把頻數換成頻率,則用c%↑或c%↓來表示。累計表的應用,在于通過它可以比較個體在總體中的位置。比如甲、乙兩同學分布在班里都考得80分,那么誰在班里的成績更好呢?假如甲、乙各自在班里的累計頻數cf↑分別為95和60,每個班都是100人;假如甲乙兩人都得80分,甲班200人,乙班100人,向上累計頻數甲為95,乙為60,誰的成績更好一些?
累計頻數累計頻率成績甲班乙班甲班cf↑乙班cf↑甲班c%↑乙班c%↑60-695020502025%20%70-794540956048%60%80-8965301609080%90%90-994010200100100%100%合計200100
第三節統計圖統計圖就是用圖形的形式來表示變量的分布。它的優點是比統計表更為直觀和形象、缺點是不及統計表精確。統計圖有很多種類,比如圓餅圖、條形圖、直方圖、折線圖、點線圖、盒形圖、莖葉圖、散點圖等,甚至地圖也可以視為統計圖的一種。目前階段,我們只要求掌握圓餅圖、條形圖、直方圖和折線圖四種。不同層次的變量,適合選用不用的統計圖:定類、定序變量:圓餅圖、條形圖定距、定比變量:直方圖、折線圖一、圓餅圖(piegraph)圓餅圖也叫圓瓣圖,是將資料展示在一個圓平面上,通常用圓形代表現象的總體,用圓餅代表現象中一種情況,其大小代表變量取值在總體中所占的百分數。圓餅圖的制作方法是將統計表中的百分數乘以360度,即可得到各圓瓣的圓心角度數。表1、家庭結構的百分數分布及對應圓心角度數家庭結構頻數百分數對應圓心角度數核心家庭105049.3177.48°(=0.493×360°)直系家庭72033.8121.68°(=0.338×360°)聯合家庭1105.218.72°(=0.052×360°)其他25011.742.12°(=0.117×360°)圖1、家庭結構分布圖°圓餅圖的優缺點優點:(1)各變量取值的排列順序可以隨意;(2)易于顯示每一組的相對大小,并進行比較;缺點:(1)它只能顯示變量不同取值分別占的比例,不能很好的體現樣本容量,如果上例中樣本容量是213而不是2130,其得到的圓餅圖還是一樣的;(2)圓餅圖不適用分組太多的情況,如果分的塊非常多,而每一塊都非常小,就失去了原有的效果。所以多適用定類和定序變量。二、條形圖(bargraph)條形圖是用長條的高度來表示資料類別的頻數或百分比;而長條的寬度沒有意義,為了美觀起見,一般都畫成等寬長條。長條既可以平行于橫軸,也可以平行于縱軸。如果是定類變量,圖形畫作離散的長條;如果是定序變量,則長條的排列次序應該與變量取值次序相一致,圖形既可以畫作緊挨著的長條,也可以是離散的長條。圖2、家庭結構分布條形圖圖3、某全校選修課的選課人數統計圖三、直方圖(Histogramgraph)直方圖只適用定距變量和定比變量。從圖形來看它也是由長條所組成,但它與條形圖不同的是:(1)每一條Bar之間要連起來,因為組與組之間實際上是連續的;(2)條形的寬度是有意義的,直方圖以面積(長與寬的乘積)而不是高度來表示頻數或頻率分布。(3)條形的寬度表示組距(intervalwidth),條形的高度表示頻數密度或頻率密度。所有面積的和為樣本總量或者1。頻數密度=頻數/真實組距頻率密度=頻度/真實組距對于等距分組,用頻數或頻率作為條形高度,圖形的相對比例關系是不變的,仍然可以用頻數或頻率作為條形的相對高度;比如教材p40,圖3.1所示。但是在非等距分組情況下,如果用頻數作為條形高度,將會產生錯誤。如教材圖3.2所示;所以用面積來表示各組的頻數分布就避免了不必要的錯覺。此時長條的高度不是頻數而是頻數密度。只有密度才能科學
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兒童購物網商業計劃書圖文
- 陶瓷文創擺攤創業計劃書
- 2025年中國硅酸鋁功能材料項目創業計劃書
- 倉儲研究報告-倉儲項目商業計劃書(2025年)
- 2025年中國綠色墻體保溫材料項目投資計劃書
- 2025年成人在線教育創新模式下的學習支持服務優化報告
- 化工園區安全環保改造項目2025年社會穩定風險評估與風險評估指標體系優化報告
- 數字化技術在零售門店:2025年智慧倉儲與自動化技術發展趨勢報告
- 2025年化工園區安全環保提升項目社會穩定風險評估報告:風險評估與環保產業風險應對策略
- 中學生個人學習計劃
- 2024員工質量意識培訓
- 塔吊定期檢查記錄表
- 信息系統監理師(基礎知識、應用技術)合卷軟件資格考試(中級)試題與參考答案(2024年)
- 上海市上寶中學新初一分班(摸底)語文模擬試題(5套帶答案)
- 河南省南陽市2023-2024學年高二下學期期終質量評估+物理試卷答案
- 食品安全與質量檢測技能大賽考試題庫400題(含答案)
- 2024年浙江省嘉興市初三中考三模科學試卷試題(含答案詳解)
- 核心素養-空間觀念
- 吉林省長春市2024年中考語文真題試卷【附真題答案】
- DZ/T 0462.3-2023 礦產資源“三率”指標要求 第3部分:鐵、錳、鉻、釩、鈦(正式版)
- 梧州喜得寶礦業有限公司廣西梧州市金山頂金銀礦礦山地質環境保護與土地復墾方案
評論
0/150
提交評論