




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主講人:石偉Email:shiwei@社會統計學&SPSS應用除了上帝,任何人都必須用數據來說話。
——美國諺語統計的思維方法,就像讀和寫的能力一樣,有一天會成為效率公民的必備能力。
——英國學者威爾斯我在課堂上曾一再對戲劇理論專業的學生說,與其玩弄幾個空泛的理論概念,不如認真做一點觀眾調查。理論探討應該面對著一批切實可行的調查數據進行。……這些調查所得的數據即使很粗糙、很不準確,總比脫離實際的詞匯之爭有意思得多。觀眾的反應當然并非藝術的準繩,因此又需要對調查結果進行理性處理,理論家的思辯能力仍然大有用武之地。十六世紀后期的丹麥天文學家第谷(TychoBrahe)觀察天象三十年積累了大量的天文資料,他的助手開普勒(JohannesKepler)運用數學方法對這一大堆資料進行理論處理,終于發現了行星運動三定律。我們目前對劇場里的觀眾反應進行調查,也不僅僅為了票房的盈虧和劇目的輪換,而是面向著審美心理規律的透徹揭示,就像開普勒那樣。
——余秋雨:《戲劇審美心理學》第一章緒論一、什么是統計學統計學是一門研究如何搜集、整理、分析和展示數據的方法科學,其目的是探索數據的內在規律性,以達到對客觀事物的科學認識。數據搜集:例如,調查與實驗等數據整理:例如,分組、排序等數據分析:例如,平均數、標準差、t檢驗、方差分析、回歸分析等數據展示:例如,圖和表等二、什么是社會統計學三、社會統計學的作用描述統計(descriptivestatistics):通過對搜集到的數據的整理與分析,以表、圖和各種代表量的形式來描述數據的特征,找出數據的基本規律。推斷統計(inferentialstatistics):通過對樣本數據的統計分析,在一定可靠程度上推測相應的總體的數據特征及規律。四、SPSS簡介及數據編碼錄入簡介StatisticalPackageforSocialScienceStatisticalProgramforSocialScienceStatisticalProduct&ServiceSolutionsPredictiveAnalyticsSoftware(PASW,2009)IBMSPSSStatistics19http:///http:////forum-65-1.html金融行業
電信行業
政府行業
教育行業……
客戶分析
市場細分
市場調查
市場預測
新產品開發
滿意度調查
信用度分析……數據錄入問題1:您認為打工的外地人對重慶市的社會秩序是否有影響?(單選)1□有很大影響2□有較大影響3□沒有影響4□不好說4編碼答案問題2:您有幾個兒子?幾個女兒?
1□兒子_______人
2□女兒________人23問題變量1變量2變量1的值變量2的值23100011外部式錄入內部式錄入采用文本文件(*.dat;*.txt)。這種錄入方式的特點是,數據之間沒有間隔,錄完一個數碼后自動后移,錄入速度較快。缺點是容易錯位。采用SPSS數據編輯器(SPSSDataEditor)錄入。其優點是不容易錯位,缺點是不能自動后移,錄入速度慢,數據錯誤不容易修改。例題:某系甲、乙兩班同學的性別及統計成績如下:ID性別班級分數ID性別班級分數1女甲班8612男乙班812男甲班8213女乙班773男甲班7414男乙班634男甲班8515男乙班755女甲班7616女乙班696男甲班7917男乙班867男甲班8218男乙班818男甲班8319女乙班609女甲班8320女乙班6910男甲班7921女乙班7311男甲班8222女乙班89測量水平定類水平定序水平定距水平定比水平五、數據的測量水平定類水平(nominallevel)計量層次最低對事物進行平行的分類各類別可以指定數字代碼表示使用時必須符合類別窮盡和互斥的要求數據表現為“類別”具有=或≠的數學特性定序水平(ordinallevel)對事物分類的同時給出各類別的順序,數據表現為有序的類別。比定類水平精確不能測量出類別之間的準確差值具有>或<的數學特性定距水平(intervallevel)具有定類水平和定序水平的性質數據直接表現為“數值”,不用賦值具有+或-的數學特性可以轉變為定序尺度和定類尺度比定序尺度精確沒有絕對零點定比水平(ratiolevel)有絕對零點具有定距水平的性質具有×或÷的數學特性四種計量尺度的比較第二章單變量描述統計分布、統計表、統計圖集中趨勢測量法離散趨勢測量法第一節分布、統計表、統計圖一、分布(distribution)的概念一個變量的各個取值出現的次數或頻次,又叫頻次分布。例:家庭結構(X)為,可取3個值:
X1——核心家庭
X2——直系家庭
X3——聯合家庭于是有:
(X1,n1) (X2,n2) (X3,n3)分布的一般形式:當n表示頻次時,以上變量值頻次對的集合稱作頻次分布。當n表示百分比時,以上變量值百分比對的集合稱作百分比分布,又稱頻率或相對頻次分布。當n表示概率時,以上變量值概率對的集合稱作概率分布。二、統計表
以表格的形式來表示變量的分布。(一)定類變量注意事項:百分比統計表必須注明統計總數。統計表的組成要素:表號、表頭(標題等)、標識行、主體行、表尾(資料來源等)。滿足互斥性要求百分比總和可以為100.1%或99.9%,若要保證為100%,則改變頻次最多項的數字。(二)定序變量 定序變量的統計表的內容、制作方法與定類變量相同,不同的是定序變量的取值需按順序排列。(三)定距、定比變量 離散型變量(如家庭人數等) 連續型變量(如身高等)對于變量值較少的離散型變量,其制表方法同定序變量的制表方法。例:某生產車間50名工人日加工零件數(單位:個)如下,試做頻數分布表。對于連續型變量或變量值較多的離散型變量,分組計算頻次。組距:每組的上限與下限之差。對于等組距分組,其計算公式為:i=全距/組數組限:每組的起止范圍。每組的最低值為下限,最高值為上限。例:下表是100個同齡兒童的身高數據,試作頻次分布統計表。練習例:某生產車間50名工人日加工零件數(單位:個)如下,試做分組(7組)頻數分布表。三、統計圖 以圖形的形式來表示變量的分布。
1.定類、定序變量:Pie圖(餅圖)、bar圖(條形圖)Pie圖的SPSS演示bar圖的SPSS演示練習評價下面的統計表是否有誤,為什么?根據以下統計資料2.定距、定比變量:histogram(直方圖),line(線圖)直方圖:以一組無間隔的直條表現頻數分布特征的統計圖。直方圖的每一條形高度分別代表相應組別的頻數。對于等距分組,用頻次作為條形高度;對于非等距分組,用頻次密度作為條形的相對高度。頻次密度=頻次/組距四、表和圖的累積表示 累積表或累積圖表示的是大于某個變量值的頻次(或頻率)一共是多少或小于某個變量值的頻次(或頻率)一共是多少。向上累積(cf↑或c%↑):是指位于某一變量值“以上”的頻次或頻率的總和。向下累積(cf↓或c%↓):是指位于某一變量值“以下”的頻次或頻率的總和。第二節集中趨勢測量法一、集中趨勢測量法(measuresofcentraltendency)用一個具有某種典型特征的數值來代表變量,這樣的特征值就叫做集中值或集中趨勢,對這樣的數值的求取就叫做集中趨勢測量。二、集中趨勢的類型眾值(mode)中位值(median)均值(mean)(一)眾值Mo1.眾值的概念
眾值指頻次分布中最大頻次所對應的變量值。(1)定類、定序變量Mo=x2(2)定距、定比變量原始數據。例:成績分組數據(連續型數據):眾值為具有最高頻次或頻次密度的那一組的組中值bi。例:無眾值。2.眾值的意義眾值的代表性在于其估計或預測每一個研究對象(個案)的值所犯錯誤總數是最小的。3.眾值的適用范圍適合于任何層次的變量,特別是定類變量。適合于單峰對稱分布,不適合于多峰分布(眾值不唯一)。(二)中位值Md1.中位值的概念中位值是指位于一組數據數列中間位置的那個值。數據數列——數據依序排列。中間位置——大于等于中位值的數據個數= 小于等于中位數的數據個數。(1)原始數據當觀察總數N為奇數時,Md為位于(N+1)/2的那個值。當觀察總數N為偶數時,Md取居中位置左右兩數的平均值。(2)頻次分布數據2.中位值的意義對于含有極端數據的一組數據,中位值更具有代表性。例:收入3.中位值的適用范圍定序變量及其以上。例:成績
(三)均值M或1.均值的概念2.均值的意義以均值來估計定距或定比數據中個案的數值,錯誤最小。3.均值的適用范圍適用于定距和定比變量。4.均值的數學性質(1)各變量值與均值的離差之和等于零。(2)各變量值與均值的離差平方和最小。(四)眾值、中位值和均值的比較三值設計的目的都是希望通過一個數值來描述一個變量的整體特征,以便簡化資料。它們都反映了變量的集中趨勢。
Scale/MeasurementModeMedianMeanNorminalOrdinalInternal/Ratio★★★★★★均值受極端值的變化影響,而中位值則不受影響。
練習以下是甲、乙兩村9戶家庭人口數的原始數據:甲村:3;3;4;4;4;5;6;7;8乙村:3;3;4;4;4;4;5;5;5(1)計算兩村家庭人口數的眾值、中位值和均值。(2)對三種集中值作出討論。以下是68名職工婚姻狀況的調查:(1)試作統計表和統計圖。(2)選擇適當的集中值并討論之。以下是某廠職工教育程度的調查:(1)試作統計表和統計圖。(2)選擇適當的集中值并討論之。設以下是某區家庭子女數的統計表:(1)試作頻率統計表、直方圖和線圖。(2)試求均值。設以下是72名離婚者婚齡的統計。(1)試作頻率統計表、直方圖和線圖。(2)試求眾值、中位值和均值,并簡單討論之。指出下面的統計表存在的問題,并畫一個完整的頻次和頻率統計表,在表中把真實組限、組距和組中值都列上。某廠工人的月收入分布1501~19004013011300158901~1100136701~90065501~70010某制鞋廠家為了制定生產計劃,調查了100個成年女性穿鞋的尺寸,數據如下:尺寸21.52222.52323.52424.52525.526人數361018181510631(1)求這個數據集的平均數、中位數和眾數;(2)對這個數據集,用什么指標作為數據集中趨勢的度量比較合適?某市40個百貨公司12月份的銷售額資料如下(單位:萬元):試根據以上資料編制第一組為50萬元~60萬元的等距數列,并計算出頻率和累積頻次。一項研究調查了19名中學教師,他們的月經濟收入如下:
1200,1270,1300,1310,1320,1350,1360,1370,1390,1400,1450,1460,1490,1530,1580,1600,3200,4000。現欲了解他們的平均月經濟收入。下表是39名學生的總評:隨機抽取18名同學對西大進行5點量表的評價(1為非常不滿意;2為不滿意;3為一般;4為滿意;5為非常滿意),結果如下:
1,1,1,2,2,2,2,2,2,3,3,3,4,4,4,4,5,5(1)試作頻次分布、頻率分布、向上累積頻次、向上累積頻率、向下累積頻次、向下累積頻率表。(2)求中位值;(3)說明中位值的意義。下面是某班20名學生的某心理特征的得分,請描述這班學生在此心理特征上的數量特征。
12,10,8,9,6,6,23,15,17,5,14,13,7,6,8,19,16,15,13,12
若你是某大公司的人力資源部的經理,公司老板要求你確定公司產品開發工程師的薪酬標準。(1)你該如何著手開展工作?(2)若你通過調查獲得了如下數據,那你確定的薪酬標準是什么?A公司年總收入B公司年總收入C公司年總收入助理工程師53000助理工程師51000助理工程師55000助理工程師52000助理工程師52000助理工程師54000助理工程師54000工程師59000助理工程師53000工程師61000工程師61000工程師64000工程師60000高工65000高工70000高工65000高工64000高工71000作業以下題目請用SPSS完成。我們在某高校采訪了16名大學生,了解他們平時的學習情況,以下數據是大學生每周用于看電視的時間:
15,14,12,9,20,4,17,26,15,18,6,10,16,15,5,8。試計算這批數據的均值、中位值、眾值、全距、四分位差、方差和標準差。客戶在銀行的等待服務時間是反映銀行服務質量的一項重要指標,以下是一份來自某調查公司的調查資料:等待時間人數不超過2分鐘7超過2分鐘但不超過4分鐘15超過4分鐘但不超過6分鐘8超過6分鐘但不超過8分鐘3超過8分鐘但不超過10分鐘1以下是某班參加業余活動情況的調查:C=“書社”;P=“攝影組”;J=“舞蹈團”;O=“體育組”。(1)試作統計表和統計圖;(2)選擇適當的集中值和離散值,并討論之。第三節離散趨勢測量法A:7,7,8,8,8,9,9Md=8;=8;R=Max-Min=2B:4,5,7,8,9,11,12Md=8;=8;R=Max-Min=8C:1,4,7,8,9,12,15Md=8;=8;R=Max-Min=14這三組數據的均值、中位值都是8,但它們的整齊程度卻不一樣一、離散趨勢測量法(measuresofdispersion) 是用一個值來代表數據之間的差異情況,這樣的代表值就叫做離散值或離散趨勢,對這樣的值的求取就叫做離散趨勢測量。二、離散趨勢與集中趨勢的關系集中值代表性的高低要受數據之間差異情形的影響。要全面反映一個變量的數據特征,必須同時考察集中趨勢和離散趨勢。三、離中趨勢的類型異眾比率全距四分位差方差與標準差四、異眾比率γ異眾比率γ是非眾值的頻次之和在總數N中所占的比例。
五、全距或極差(range,簡稱R)全距R=最大變量值-最小變量值R越大,數據越分散;R越小,數據越集中。只受最大變量值和最小變量值的影響,沒有考慮其他變量值的差異。難以準確反映變量的變異情況。適用于定序、定距、定比變量。六、四分位差(interquartilerange,簡稱Q)(一)四分位值四分位值的概念四分位值是指位于一組數據數列中第25%、第50%、第75%三個位置上的值。中位值或Q50Q1或Q25Q3或Q75四分位值的位置中位值位于(N+1)/2Q25位于Q75位于Q1表明至少有25%的變量值小于等于它;同時至少有75%的變量值大于等于它。Q3表明至少有75%的變量值小于等于它;同時至少有25%的變量值大于等于它。(N+1)/43(N+1)/4例:抽樣調查甲村和乙村的家庭人數。甲村11戶人家,每戶人數如下:2,2,3,4,6,9,10,10,11,13,15Md的位置:(n+1)/2=(11+1)/2=6Md=9Q1的位置:(n+1)/4=(11+1)/4=3Q1=3Q3的位置:3(n+1)/4=3(11+1)/4=9Q3=11乙村8戶人家,每戶人數如下:2,3,4,7,9,10,12,12Md的位置:(n+1)/2=(8+1)/2=4.5Md=8Q1的位置:(n+1)/4=(8+1)/4=2.25Q1=3+0.25(4-3)=3.25Q3的位置:3(n+1)/4=3(8+1)/4=6.75Q3=10+0.75(12-10)=11.5(二)四分位差四分位差的概念Q=Q75-Q25上例:甲村:Q甲=Q3-Q1=11-3=8乙村:Q乙=Q3-Q1=11.5-3.25=8.25四分位差的意義Q愈大,表示有50%的變量值愈遠離中位值,因而中位值的代表性愈小。四分位差通常與中位值一起使用。上例:因Q甲<Q乙若以中位值作估計,在甲村所犯的錯誤會略小于在乙村所犯的錯誤。練習1.7位評審對華裔溜冰選手關穎珊的溜冰成績評分為5.8,5.6,5.8,5.7,5.6,5.9,5.8,求Q1、Q2、Q3與四分位差。2.12位學生各在罰球在線投籃十次,投中次數分別為3,2,3,7,5,3,6,4,1,3,6,8,求Q1、Q2、Q3與四分位差。
3.有4,6,6,7,7,10,11,11,13,15等十個樣本,求下列各統計量:Q1、Q2、Q3與四分位差。4.試求下列8個數值的四分位差:90,60,75,86,80,78,92,68。
百分位值簡介“中新網11月29日電11月2日,由某雜志主辦的“2004中國MBA商學院排行”揭曉,排行榜顯示復旦MBA畢業生起薪排行最高,平均年薪19萬。復旦大學管理學院職業發展中心代理主任黃智穎告訴記者,近日有很多復旦MBA學生問他這個數據的可信度。”
該雜志主編楊俊杰先生在給記者的電子郵件中如此解釋:“排行榜中薪酬部分,是以該校全部畢業生起薪點的80分位值的平均收入來計算的,收入的80分位值反映出該校畢業生的收入的中高端水平,最能體現一個學院畢業生薪酬的整體水準及未來發展趨勢。復旦MBA畢業生首份工作的起薪點,即指有20%的畢業生達到或超過了年薪19萬,而80%的人則達不到19萬。”
七、方差(variance)與標準差(standarddeviation)方差也稱變異或均方差(meansquaredeviation),表示一組數據平均的離散程度。樣本方差總體方差標準差:是方差的正平方根;其單位與原變量X的單位相同。樣本標準差總體標準差例:隨機抽取6個被試,測量其對死刑的態度。態度量表為5點量表,1表示堅決反對,5表示堅決支持,依次類推。被試變量x1421324254631.33-1.67-
0.67-
0.671.330.331.772.790.450.451.770.11簡化計算變量x725184816561867396694761573249如果數據已被整理為頻次分布,則:SD=1.85對于等距分組數據,用組中值來代替變量值xi,公式同上。這樣的計算不及用原始數據計算精確。SD=7.87方差與標準差是使用了所有的數據來計算變異情形的。方差與標準差的意義值越大,數據的離散程度越大,分布的范圍越廣,以均值來估計或預測變量值犯錯的可能性越大,均值的代表性越小。標準差通常與均值一起使用。適用于定距和定比變量。第四節正態分布與標準分數單峰、對稱=Mo=Md離差y,y≠0
當σ恒定時當μ恒定時標準分數(standardscore)又稱為Z分數,是以標準差為單位,表示一個數在團體中所處位置的相對位置量數。正態曲線各部分面積表例:一學生分數115分,總體平均數100分,標準差15,問該生的成績所處位置。例:一學生分數82分,總體平均數100分,標準差15,問該生的成績所處位置。……練習數據文件:SAQ.sav第三章雙變量關系的描述統計第一節統計相關的性質例:調查100人快樂之源,3個選項,其中40%人選金錢,50%人選工作,10%的人選情感。一、相關的概念
如果一個變量的取值發生變化,另外一個變量的值也相應發生變化,則這兩個變量相關。性別與四級英語考試通過率的相關統計表述:統計結果顯示,當性別取值不同時,通過率變量的取值并未發生變化,因此性別與考試通過率無關。通過率變量性別變量性別與四級英語考試通過率的相關統計表述:統計結果顯示,當性別取值不同時,通過率變量的取值發生了變化,因此性別與考試通過率相關。通過率變量性別變量二、相關的程度大多數的統計法是以0代表無相關或零相關,以1代表全相關。介于0與1之間的數值如果愈大,就表示相關的程度愈強。abcdX1212Y全相關是指在一個變量上的每個增量都對應于另一個變量上的一個增量。零相關是指兩個變量值變化方向無一定規律,即當一個變量值變大時,另一個變量值可能變大也可能變小,并且變大變小的機會趨于相等。如學生身高與學習成績的關系。三、相關的方向正相關:是指當一個變量的值增加時,另一個變量的值也增加。負相關:是指當一個變量的值增加時,另一個變量的值卻減少。相關方向的分析不適合于定類變量。三、相關的方向正相關:是指當一個變量的值增加時,另一個變量的值也增加。負相關:是指當一個變量的值增加時,另一個變量的值卻減少。相關方向的分析不適合于定類變量。四、變量間的對稱性相關關系不代表因果關系如果假定變量X影響變量Y,而變量Y不影響變量X,則變量X和Y之間的關系為不對稱關系。如果不確定或不區分變量X與變量Y影響的方向,則變量X和Y之間的關系為對稱關系。四、變量間的對稱性相關關系不代表因果關系。如果假定變量X影響變量Y,而變量Y不影響變量X,則變量X和Y之間的關系為不對稱關系。如果不確定或不區分變量X與變量Y影響的方向,則變量X和Y之間的關系為對稱關系。第二節列聯描述統計一、列聯表的概念 就是同時依據兩個變量的值,將所研究的個案分類統計的頻次或頻率分布表。二、列聯表的格式邊緣次數邊緣次數條件次數條件次數表行百分比列百分比三、列聯表的大小表的大小就是橫行數目(rows,簡寫r)乘上縱列數目(columns,簡寫c),即表的大小=r×c一般用橫行表示因變量,縱列表示自變量。列聯表的簡單分析第三節相關測量法一、兩個定類變量:Lambda,tau-y(一)Lambda相關測量法
E1YE2YXE1-E2
在不知道X值的情況下預測Y值所產生的全部誤差根據X的每個值來預測Y值所產生的誤差總數以X值來預測Y值時所減少的誤差消減誤差比例(proportionatereductioninerror,簡稱PRE)PRE愈大,以X值預測Y值能夠減少的誤差所占的比例愈大;即X與Y的相關愈強。Lambda相關測量法就是以一個定類變量的眾值來預測另一個定類變量的值時,可以減除多少誤差。如果消減的誤差在全部誤差中所占的比例愈大,就表示這兩個變量的相關越強。例:若性別為自變量X,快樂之源為因變量Y。依PRE的定義,E1=n-MY;E2=n-∑my;E1-E2=(n-MY)-(n-∑my)=∑my-MYY變量的眾值次數X變量的每個值之下Y變量的眾值次數對于2個不對稱的定類變量,若X為自變量,Y為因變量,則PRE表示為其中,My為Y變量的眾值次數;
my為X變量的每個值之下Y變量的眾值次數;
n為全部個案數目。對于2個對稱的定類變量,則PRE表示為其中,Mx為X變量的眾值次數;
mx為Y變量的每個值之下X變量的眾值次數。若全部眾值集中在條件次數表的同一列或同一行中,則Lambda系數就會等于0。這時就不適合于采用Lambda相關測量法。λ及λy介于0與1之間。其值越大,消減的誤差越大,2個變量之間的相關越強。(二)tau-y相關測量法tau-y系數屬于不對稱相關測量法。
tau-y系數的計算公式n:全部個案數目Fy:Y變量的邊緣次數Fx:X變量的邊緣次數f:條件次數tau-y系數的解釋由于tau-y測量法考慮了全部的次數,故其敏感度高于Lambda測量法。對于不對稱關系,最好選用tau-y來簡化兩個變量的相關情形。二、兩個定序變量:Gamma,dy對稱關系——Gamma系數;不對稱關系——dy系數或Somers’d
其值范圍[-1,+1],都具有消減誤差比例的意義。(一)Gamma相關測量法同序對數Ns:在兩個變量上的相對等級相同的一對個案為1個同序對。……異序對數Nd:在兩個變量上的相對等級不同的一對個案為1個異序對。……若全部個案數目為n,則會組成0.5n(n-1)對個案。Ns=4Nd=3G=(4-3)/(4+3)=+0.14可見,工人積極性與產量成正相關。然而,二者的相關程度很弱。若以一個變量來預測另一個變量,只可以消減14%的誤差。(二)dy相關測量法在因變量上的同分對數Ty:只在因變量上的等級相同的一對個案為1個同分對。……Ns=4Nd=3(三)列聯表計算Gamma和dy2×2表2×3表3×2表Ty=f11(f12)+f21(f22)+f31(f32)f11f12f13f21f22f23f31f32f33
123
123X
YNS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)Nd=f13(f22+f21+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31)Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)3×3表NS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)=23(55+28+94)+20(28+24)+11(27+24)+55(24)=6003Nd=f13(f22+f21+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31)=4(55+11+27+8)+20(11+8)+28(27+8)+55(8)=2204Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)=23(20+4)+20(4)+11(55+28)+55(28)+8(27+24)+27(24)=4141可見,婆媳沖突與住戶密度呈正相關,即住戶的人口密度越高,婆媳沖突越大。如果以住戶人口密度來預測或估計婆媳沖突的大小,可以消減30.8%的誤差。(四)斯皮爾曼等級相關系數rs
D表示每個個案在兩個變量上的等級差異量適用于對稱關系
rs取值范圍為[-1,+1]rs2具有消減誤差比例的意義Rs=+0.47(五)Kendall’stau系數三、兩個定距變量:Pearson積差相關(一)公式(二)r取值范圍[-1,+1](三)計算示例(四)r系數適用于對稱關系,也可近似用于非對稱關系(五)r2具有消減誤差的意義四、定類變量與定距變量:相關比率E2(一)適用于一個定類變量X為自變量,一個定距變量Y為因變量的情形(二)計算公式(三)E2具有消減誤差比例的意義;E值范圍[0,1]。E2=0.70,E=0.84五、定類變量與定序變量:Lambda,tau-y練習:請分別計算tau-ytau-y1=.138;tau-y2=.224相關系數值在相互比較時,更顯出其意義。然而要相互比較,就要盡可能采用同樣的相關測量法。六、定序變量與定距變量:相關比率E2練習:請分別計算E2及EE21=0.02,E1=0.14;E22=0.70,E2=0.84七、本章小節第四章概率與統計推斷第一節抽樣的意義與問題第二節抽樣的歷程第三節隨機與非隨機抽樣法參閱風笑天:《現代社會調查方法》第四節概率與抽樣分布推斷統計(inferentialstatistics):通過對樣本數據的統計分析,在一定可靠程度上推測相應的總體的數據特征及規律。統計值(statistic):即樣本值參數值(parameter):即總體值代表性樣本(representativesample):是指可以從這個樣本的數據對總體的特征做出準確的、無偏估計的一個樣本。一、二項抽樣分布
二項抽樣分布特征:每次抽樣只有兩種可能結果;每次抽樣“成功”的概率為P,失敗的概率為Q,P+Q=1,且每次抽樣的概率都相同;每次抽樣相互獨立;抽樣可重復N次;在N次抽樣中,出現“成功”的次數的概率分布就叫二項分布。二、均值抽樣分布均值抽樣分布特征:如果樣本相當大,則抽樣分布接近正態分布;抽樣分布的均值就是總體均值,抽樣分布的標準差叫標準誤(standarderror);有95%的樣本均值在M±1.96SE范圍內,有99%的樣本均值在M±2.58SE范圍內。三、參數估計與假設檢驗參數估計:統計值(樣本)→參數值(總體)假設檢驗:假設參數值,用樣本統計值檢驗參數值是否正確。第五章參數估計一、點估計與區間估計(一)點估計:用樣本統計值來代表總體參數值。無偏估計與有偏估計(二)區間估計:估計總體參數值可能落入的區間范圍。置信度:總體參數值落在某一區間時正確的概率。置信區間:總體參數值的區間范圍。置信區間與置信度成正比。二、均值的區間估計α=.05α=.01置信區間的大小與樣本的大小成反比。例:三、百分比的區間估計α=.05α=.01例:四、積矩相關系數的區間估計0.489≤r≤0.695第六章假設檢驗一、研究假設與虛無假設研究假設H1
虛無假設H0抽樣分布H0為真,則H1為假;H0為假,則H1為真。二、否定域與顯著性水平而顯著水平表示否定域在整個抽樣分布中所占的比例,也即表示樣本的統計值落在否定域內的概率。否定域CR就是抽樣分布內一端或兩端的小區域,如何樣本的統計值在此區域范圍內,則否定虛無假設。三、單側(尾)與雙側(尾)檢驗四、Ⅰ型錯誤與Ⅱ型錯誤Ⅰ型錯誤:拒絕H0時所犯的錯誤。犯Ⅰ型錯誤的概率通常以α表示,故又稱α型錯誤。Ⅱ型錯誤:接受H0時所犯的錯誤。犯Ⅱ型錯誤的概率通常以β表示,故又稱β型錯誤。α型錯誤與β型錯誤成反比。五、單均值的Z檢驗適用條件樣本是隨機抽取的n≥100或n≥30均值的抽樣分布近似為正態分布例:從全區工人中隨機抽取n=120名工人進行一項政治水平的測驗,發現樣本平均分為=57分,標準差S=18.5。可否證明全區工人該項測驗的平均分M=60分。設p=0.05。解:n=120,Z>-1.96,故接受H0,即全區工人該項測驗的平均分為60分。若H1:M<60H0:M=60解:這是單尾檢驗,查表得Z≤-1.65Z<-1.65,故否定H0,接受H1,即全區工人該項測驗的平均分小于60分。若p=0.01,仍為左側單尾檢驗,查表得Z≤-2.33,樣本統計值Z=-1.78>-2.33,故接受H0,即該區工人該項測驗的平均分為60分。例:有人調查早期教育對兒童智力發展的影響,從受過良好早期教育的兒童中隨機抽取n=70人進行韋氏兒童智力測驗,結果樣本平均數為=103.3,能否認為受過良好早期教育的兒童智力高于一般水平(總體M=100,σ=15)。H1:M>100H0:M=100p=.05查表得:Z≥1.65依題意:Z=1.84≥1.65∴拒絕H0,接受H1,即即受過良好早期教育的兒童的平均智力要優于一般兒童的智力。六、單均值的t檢驗適用條件樣本是隨機抽取的n≤30自由度(degreesoffreedom,df):有多少個案的數值可以隨意變更。自由度是指樣本中獨立的或能自由變化的數據的個數。例:一個樣本n=4,數據分別為8、9、11、12,=10
要保證平均數恒定,只能自由改變3個數據,如7、15、8,第四個數必定為10。
對于樣本,由于是固定的,所以df=n-1對于總體,由于μ是未知的,所以df=nt的抽樣分布的形狀(如扁平或高聳的程度)取決于自由度。t分布表(P391,附錄5:t分布)例:一個隨機樣本,n=26,=65,S=10。H1:M>60H0:M=60p≤.05解:df=n-1=26-1=25,查表得:t≥1.708樣本t=2.5>1.708∴拒絕H0,接受H1,即全校學生的平均成績優于60分。七、兩個均值差異的Z檢驗H1:M1≠M2orM1-M2≠0H0:M1=M2orM1-M2=0適用條件兩個樣本都是隨機抽樣;兩個總體都是正態分布;兩個總體的標準差(方差)是相等的(?)大樣本,n1+n2≥100或n≥30例:解:Z=1.31<1.96,故接受H0,即甲乙兩地農民請客送禮平均支出無顯著差異(兩樣本均值的差異只是抽樣誤差造成的而已)。
練習:從某地區的六歲兒童中隨機抽取男生30人,測量身高,平均為=114cm;抽取女生27人,平均身高=112.5cm。根據以往累積資料,該地區六歲兒童身高的標準差α1=5cm,女童身高標準差α2=6.5cm,能否根據這一次抽樣測量的結果下結論:該地區六歲男女兒童身高有顯著差異?參考答案:Z=0.96<1.96,即P>0.05,所以該地區六歲兒童男女身高差異不顯著。八、兩個均值差異的t檢驗適用條件兩個樣本都是隨機抽樣;兩個總體的標準差(方差)是相等的(?)小樣本,n1+n2<100或n<30例:解:查表得:t=-2.530<-2.528,故否定虛無假設,接受備擇假設,即戒煙運動可顯著減少抽煙量。
例:從某地區的六歲兒童中隨機抽取男生30人,測量身高,平均為=114cm;抽取女生27人,平均身高=112.5cm。根據以往累積資料,該地區六歲兒童身高的標準差α1=5cm,女童身高標準差α2=6.5cm,能否根據這一次抽樣測量的結果下結論:該地區六歲男女兒童身高有顯著差異?解:查表得:t0.05/2(30+27-2)=t0.05/2(55)=2.00,所以t=0.96<t0.05/2(55)=2.00,即該地區男女兒童身高差異不顯著。相關樣本的t檢驗例:某幼兒園在兒童入園時對49名兒童進行比奈智力測驗,結果平均智商為106,一年后再對同組被試施測,結果智商平均分為110,已知兩次測驗結果的相關系數為0.74,問能否說隨著年齡的增長與一年的教育,兒童的智商有了顯著提高?例:t=1.667<2.015,故接受虛無假設,即計劃生育宣傳不能達到減少男青年的理想兒女數目。查表得:例:某幼兒園在兒童入園時對49名兒童進行比奈智力測驗,結果平均智商為106,一年后再對同組被試施測,結果智商平均分為110,已知兩次測驗結果的相關系數為0.74,問能否說隨著年齡的增長與一年的教育,兒童的智商有了顯著提高?t0.05(49-1)=t0.05(48)≈1.684t0.01(49-1)=t0.01(48)≈2.423例:某研究者認為哥哥比弟弟更具創造性,故隨機抽取10對兄弟進行創造性測驗,結果如下,假設測驗成績符合正態分布。問兄弟之間的創造性是否有顯著的差異?哥哥:65486352615363706566合計弟弟:61426652475865626469d46-3014-5-281-320d21636901962546419360查表得:t0.05(10-1)=t0.05(9)=2.263SPSS演示與實作九、單百分率與百分率差異的檢驗百分率是均值的一種特殊形式(一)單百分率的Z檢驗當n≥30,且nP≥5&n(1-P)≥5,樣本較大,百分率的抽樣分布近似正態分布,可用Z作為檢驗統計量。
回憶比較:百分比的區間估計α=.05α=.01例:一休閑娛樂雜志聲稱其讀者群中女性占80%,為驗證這一說法是否屬實,某研究機構抽取了由200人組成的一個隨機樣本,發現有146個女性經常閱讀該雜志。分別取顯著性水平α=0.05和α=0.01,檢驗該雜志讀者群中女性的比例是否為80%。
解:H0=80%,H1≠80%P≤0.05,則|Z|≥1.96檢驗統計量
Z=-2.475<-1.96,故否定H0,接受H1,即該雜志的說法并不屬實,該雜志女性讀者的比例應超過80%。
(二)兩個百分率差異的Z檢驗兩個隨機樣本百分率之差的抽樣分布接近正態分布,用Z檢驗法。
例:P≤0.001,查表得
Z=6.560≥3.30,故否定H0,接受H1,即兩地小家庭所占比例是不同的。
練習:國際色覺障礙討論會宣布,每12個男子中,有一個是先天性色盲。從某校抽取的1200名男生中有60人是色盲,問該校男子色盲比率與上述比例是否有顯著差異?(答案:Z=1.21<1.96)從甲乙兩校各自隨機抽出學生160名和150名,發覺體育“達標”人數分別是115和130,問甲乙兩校學生體育“達標”率是否有顯著差異?(答案:Z=3.196>1.96)
第七章雙變量關系的假設檢驗相關樣本總體E1=[40(100-40)]/100+[50(100-50)]/100+[10(100-10)]/100=58E2=[10(60-10)]+[40(60-40)]+[10(60-10)]/60+[30(40-30)]+[10(40-10)]+[0(40-0)]/40 =45tau-y=(58-40)/58=0.224一、卡方檢驗(chisquaretest)適用條件:(1)隨機樣本;(2)兩個變量都是定類變量或一個定類一個定序變量。實際次數預期次數邊緣次數邊緣次數條件次數條件次數表列聯表的大小表的大小就是橫行數目(rows,簡寫r)乘上縱列數目(columns,簡寫c),即表的大小=r×c一般用橫行表示因變量,縱列表示自變量。列聯表的簡單分析性別與四級英語考試通過率的相關統計表述:統計結果顯示,當性別取值不同時,通過率變量的取值并未發生變化,因此性別與考試通過率無關。通過率變量性別變量性別與四級英語考試通過率的相關統計表述:統計結果顯示,當性別取值不同時,通過率變量的取值發生了變化,因此性別與考試通過率相關。通過率變量性別變量例:df=(r-1)(c-1)=(2-1)(2-1)=1,查附錄六表得,χ2≥3.841χ2=30.389>3.841,故否定H0,接受H1,即性別與最敬佩父親還是母親有關。
χ2越大,H0正確的可能性越小,H1正確的可能性越大。SPSS演示及練習P404(八A)前三個問題。
P82,表4-1。P83,表4-2。P85,表4-3。邊緣次數邊緣次數條件次數條件次數表……P≤0.001,df=4,χ2≥18.465χ2=35.833>18.465,故否定H0,接受H1,即青年人的受教育水平與其最大志愿顯著相關。Pearson卡方:n≥40,e≥5Continunitycorrection卡方:2×2表(df=1),n≥40,1≤e<5與卡方有關的相關測量法:Phi相關系數列聯相關系數V相關系數Ns=4Nd=3G=(4-3)/(4+3)=+0.14可見,工人積極性與產量成正相關。然而,二者的相關程度很弱。若以一個變量來預測另一個變量,只可以消減14%的誤差。回顧兩個定序變量的相關dy相關測量法在因變量上的同分對數Ty:只在因變量上的等級相同的一對個案為1個同分對。……Ns=4Nd=3二、兩個定序變量相關的檢驗適用條件:(1)隨機樣本;(2)兩個變量都是定序變量;(3)n≥100G=0時,G值的抽樣分布近似正態分布大樣本n≥30小樣本n<30NS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)=23(55+28+94)+20(28+24)+11(27+24)+55(24)=6003Nd=f13(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論