




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第十章資料的統計分析(Ⅱ)
——雙變量分析
本章目錄一、變量間的關系(一)相關關系(二)因果關系二、交互分類(一)交互分類的意義與作用(二)交互分類表的形式要求(三)關系強度的測量三、其他層次變量的相關測量與檢驗四、回歸分析教學目的和要求通過本章的教學使學生掌握雙變量分析的方法。1、了解變量間的關系2、掌握交互分類的意義及關系強度的測量3、掌握回歸分析的原理教學重點、難點關系強度的測量第十章資料的統計分析(Ⅱ)
——雙變量分析一、變量間的關系1、相關關系2、因果關系1、相關關系(1)相關關系的概念。兩變量之間的相關關系指的是當其中一個變量發生變化時(或取值不同時),另一個變量也隨之發生變化(取值也不同)。反過來也一樣。(2)相關關系的方向。對于定序以上層次的變量來說,變量與變量之間的關系可以分為正關系與負關系兩個方向。所謂兩個變量之間具有正的相關關系,指的是當一個變量的取值增加時,另一個變量的取值也隨之增加,反之亦然。或者說,兩個變量的取值變化具有同方向性。而兩個變量之間具有負的相關關系,則指的是當一個變量的取值增加時.另一個變量的取值反而減少。或者說,兩個變量的取值變化具有反方向性。關于相關關系的方向性還需再次強調:它只限于定序以上層次的變量。因為只有這些變量的取值才有大小、高低或多少之分。而定類層次的變量只有類別之分,因此,它與其他變量相關時不存在正負方向的問題。(3)相關關系的強度。變量與變量之間相關關系的強度指的是它們之間相關關系程度的強弱或大小。這種相關的強弱程度可以用統計的方法進行測量和比較。變量問相關程度的統計表示是相關系數。根據變量層次的不同,有各種不同的相關系數。但是,這些相關系數的取值范圍一班都在-1到+1之間,或者在0與1之間。這里的正負號表示的是相關關系的方向。而實際的數值則表明相關關系的強弱。相關關系數的值越接近0,意味著兩變量相關的程度越弱;而相關系數的值越接近于1(或-1),則意味著兩變量相關的程度越強。關于相關系數,有兩點需要說明。一是對于研究社會現象和人們社會行為的社會調查來說,各種相關系數的值不可能達到1(或-1)。這也即是說,在社會研究中不存在完全的正相關或負相關。二是相關系數只是用來表示變量間相關程度的量的指標,它不是相關量的等單位度量。因此,我們不能說0.50的相關系數是0.25相關系數的兩倍,只能說相關系數為0.5的兩個變量之間的關系程度比相關系數為0.25的兩個變量之間的關系程度更密切。同樣道理,我們也不能說相關系數從0、圃到0.70與從0.20到0.30增加的程度一樣多。(4)相關關系的類型。從變量變化的表現形式上分,可以將相關關系分為直線相關與曲線相關。所謂直線相關,指的是當變量x值發生變動時,變量y的值也隨之發生大致均等的變動。并且在直角坐標系中,每對x、y的值所對應的點分布狹長,呈直線狀趨勢。在圖10—2中,散點固(a)、(b)、(c)、都是直線相關的例子,而散點圖(e)、(f)是曲線相關的例子。相關關系的這種區分有助于我們正確地揭示調查數據所反映的規律。比如,當我們用后面將介紹的回歸分析的方法對一組調查數據進行分析,結果發現大學教師的年齡這一變量與他們參加體育活動的頻率這一變量之間不存在任何關系。但在實際上,這是由于我們錯誤地假定了兩者之間的關系是直線關系,因而使用了不恰當的統計分析方法的緣故。回歸分析一般用于直線關系,但大學教師的年齡與他們參加體育活動的頻率之間的關系卻是曲線關系。年青教師參加體育活動很多,隨年齡增大,頻率逐漸下降;但到了某個年齡段后(比如說退休年齡),可能頻率又隨年齡增高而增高;到了另一年齡段后,又可能隨年齡增高而下降,呈現出圖10—2中散點固(f)的狀況。(5)相關關系與散點圖。前面介紹中已開始涉及到散點圖,這里對它稍作說明。散點圖僅適用于定距以上層次的變量,它是以直角坐標的橫軸表示變量x的取值變化范圍,縱軸表示變量y的取值變化范圍,根據每一個案在變量x和變量y上的值來確定坐標圖中的每一個點。這樣,由一組個案所確定的若干個點,就構成描述兩變量間關系狀況的散點圖。圖10—2表明了各種不同相關關系所對應的散點圖。散點圖的主要作用是使我們能對兩變量間的關系有一個形象、直觀的印象,是我們在對定距層次以上的變量進行相關分析時的一個重要步驟。2.因果關系(1)因果關系的概念。兩變量之間的因果關系,指的是當其中一個變量變化時(取不同的值時)會引起或導致另一個變量也隨之發生變化(取值也不同);但反過來,當后一變量變化時,卻不會引起前一變量的變化。在這種情況下,我們稱變化發生在前邊,并且能引起另一變量發生變化的那個變量為自變量(常用x表示);而稱變化發生在后邊并且這種變化是前邊變量的變化所引起的那個變量為因變量(常用y表示)。2.因果關系(2)因果關系的3個條件。事實上,并非所有存在著相關關系的變量之間,都一定存在因果關系。相關關系與因果關系有一定的聯系,但二者并不是一回事。如果變量x與變量y之間存在因果關系,那么它們之間必定存在相關關系。反之,如果兩個變量之間存在相關關系,它們之間未必就存在因果關系。要得出“變量X是變量y的原因”的結論,必須同時滿足下列3個條件。2.因果關系首先,變量x與變量y之間存在著不對稱的相關關系。即當變量x發生變化時,變量y也必定隨之發生變化;但當變量y發生變化時,變量x并不隨之發生變化。這種不對稱的相關關系.可以說是因果關系成立的基礎。比如,當調查資料表明家長的職業與子女的升學意愿存在相關時,我們更有可能相信前者是后者的原因。因為家長的職業不同時.對子女的影響和期望不同,因而導致子女的升學意愿也不同;但反過來,子女的升學意愿一般是不可能引起家長的職業發生改變的。2.因果關系其次,變量X與變量y在發生的順序上有先后之別。即先有原因變量(自變量)的變化,后有結果變量(因變量)的變化。如果兩個變量的變化同時發生,分不出先后,則不能成為因果關系。比如前述夫妻對婚姻滿意程度與夫妻交流時間多少的例子中,我們并不能肯定夫妻對婚姻滿意程度的提高發生在交流時間增加之前,很可能的一種情況是,夫妻交流時間的增加導致了夫妻對婚姻滿意程度的提高。2.因果關系第三,變量x與變量y的關系不是同源于第三個變量的影響。即變量x與變量y之間的關系不是某種虛假的或表面的關系。舉例來說,當我們調查發現住房的擁擠程度與夫妻間的沖突成正比時,我們不能就下結論說,住房擁擠是導致夫妻沖突的原因。因為這兩個變量之間的關系可能是由于另一個變量——家庭經濟水平所導致的。即家庭經濟水平低既使得家庭的住房擁擠.又使得夫妻間的矛盾增多。如果沒有家庭經濟這個變量的影響,住房擁擠與夫妻沖突是不相關的。二、交互分類1.交互分類的意義與作用所謂交互分類,簡單地說,就是將調查所得的一組數據按照兩個不同的變量進行綜合的分類。交互分類的結果通常以交互分類表(又稱列聯表)的形式反映出來。表10—1就是交互分類表的一個例子。二、交互分類二、交互分類1、交互分類的意義與作用2、交互分類表的形式要求3、x2檢驗4、關系強度的測量二、交互分類交互分類的第一個作用,這就是可以較為深人地描述樣本資料的分布狀況和內在結構。交互分類的更重要的作用則是可以對變量之間的關系進行分析和解釋。交互分類表既可以用來對總體的分布情況和內在結構進行描述,又可以用來進行分組比較,還可以用來解釋變量之間的關系。只是有一點需要記住,交互分類表所適用的變量層次是定類變量和定序變量。二、交互分類2.交互分類表的形式要求①每個表的頂端要有表號和標題。表號的作用是明確指示,以方便閱讀或討論,減少混亂;而表的標題則概括表中數據的內容和意義。②表格中的線條一定要規范,簡潔,最好不用豎線。只要不會引起誤解或混亂,線條越少越好。③表中的百分比符號有兩種簡便處理的方法:一種是在表頂端的右角,也即是標題的盡頭處,標上一個“(%)”的符號,如前面表10—6所示,它表示此表中的數字都是百分比;另一種方式是在表中每一縱欄數字的頭上(也即是上方變量的每個取值下面)寫上一個“%”,這樣就可省去在表中每一個數字后都標上一個“%”的麻煩。二、交互分類④在表的下端用括號標出每一縱欄所對應的頻數,以指示每一欄百分比所具有的基礎(即個案數的多少),同時也可供讀者據此計算每一類別中的個案數目。⑤表內的百分比通常保留一位小數,比如35.6,42.9等等;對于那些整數形式的百分比或四舍五人后成為整數形式的百分比,仍要寫出小數點后的0,比如21.0,73.0等等,以表示全部百分比的計算都是以保留一位小數為準則,同時也使得整個表內的數字具有一致性。二、交互分類⑥對于交互分類的兩個變量的安排,通常是將自變量、或被看做是自變量的、或用來作解釋的那個變量放在上層,而將因變量、或被看做因變量、或被解釋的那個變量放在表的左側。表中百分比的計算方向一般情況下是按自變量的方向,即縱欄的方向。⑦交互分類的兩個變量的變量值應有所限制,特別是不能同時具有多個變量值。否則,交互分類表中的百分數就會太多,令人迷亂,反而不易看出兩變量間是否存在相關。比如當變量又有4個變量值,而變量y有5個變量值時,交互分類表中就會出現4×5=20個百分比。通常的解決辦法是將有些變量值進行合并.以縮小交互分類表的規模。二、交互分類3.X2檢驗為了便于分析交量間的關系,一船是采用相對頻數即百分比的形式列出交互分類表。這樣,既可以很直觀地比較某一變量的不同類別在另一變量上的分布情況,也可以從中推斷二者之間的關系。X2檢驗的計算公式式中,f0為交互分類表中每一格的觀察頻數,fe為交互分類表中f0所對應的期望頗數。為了計算x2,必須先計算出每一格f0所對應的fe(即期望頻數),具體的計算方法是:用每一個f0所在的行總數乘以它所在的列總數,再除以全部個案數。下面我們用表10-7的資料為例進行說明。首先,我們將表10-7還原成頻數形式的交互分類表(見表10-8)。知道了x2的計算方法,我們再來看看x2檢驗的具體步驟。以上表為例。首先,建立兩變量問無關系的假設,即設年齡與對提前退休的態度兩變量相互獨立,互不相關。然后計算出x2值。再根據自由度df=(r-1)(c-1)和給出的顯著性水平,即P值,查x2分布表,得到一臨界值。自由度計算公式中的r和c分別為交互分類表的行數和列數,因此,本例的自由度為:df=(2-1)(3-1)=2。假定給出的顯著性水平為P=0.05,由書后的x2分布表可查得臨界值為5.991。將計算出的x2值與查得的臨界值進行比較,若x2值大于或等于臨界值,則稱差異顯著,并拒絕兩變量獨立的假設,也即承認兩變量間有關系;若x2值小于臨界值,則稱差異不顯著,并接受兩變量獨立的假設,即兩變量間無關系。在本例中,由于X2=68.36>5.991,所以我們可以否定年齡與對提前退休的態度之間無關系的假設,得出在總體中二者有關系的結論。對于交互分類來說,x2檢驗發揮著這樣兩種作用:一是對兩變量的相關關系是否存在進行審查,此時X2檢驗又稱作獨立性檢驗(即兩變量是相互獨立,還是彼此相關);二是對較小規模的樣本資料進行差異的顯著性檢驗,即核查交互分類表中所出現的分布差異究竟是由于隨機抽樣的誤差所引起,還是由于總體中的分布狀況所導致。x2檢驗也有其弱點。這主要是由于x2值的大小不僅與數據的分布有關,同時它還與樣本的規模有關。當樣本足夠大時,一些很小的分布差異也可以通過x2檢驗達到顯著性水平。4.關系強度的測量幾種常見的與交互分類有關的變量間關系強度的測量方法(1)?系數。當交互分類表為2×2表(即兩行兩列)時,可用?系數測量變量關系的強度。?系數的計算公式?的取值范圍在0與1之間,越接近1,說明關系強度越大。現以表10—12的資料為例來計算?。(2)V系數。由于?系數除了在2x2表中可控制在[-1,+1]之間外,當rxc表的格數增多后,?值將增大,因而此時的?值是沒有上限的,這樣系數間就缺乏比較。為此人們又作了進一步改進,出現了其他幾種以X2為基礎的關系強度系數公式。其中的V系數公式為式中的分母表示以(r—1)和(c—1)中較小者作為除數(3)c系數(列聯系數)。c系數也是一種與x2有關的相關系數,其計算公式為:在采用C系數值時,要用“上限表”進行修正C系數的突出優點:不受樣本規模大小的影響。(4)λ系數。λ系數優于前述幾種相關統計量的地方,是它具有消減誤差比例(簡稱PRE)的意義。我們知道,社會調查的主要目標是解釋或預測社會現象的變化,而這種預測中難免會有誤差。對于兩個有關系的變量來說,在我們知道變量x的值去預測與它相關的變量y的值時所存在的誤差(E2),顯然比我們不知道又的值去預測y的值時所存在的總誤差(E1)要小。所謂消減誤差比例,指的就是知道x的值來預測y值時所減少的誤差(E1—E2)與總誤差的比。用公式表示即是:PRE越大,表示以x值去預測Y值時能夠減少的誤差所占的比例越大,換句話說,X與Y之間就越是相關,或者說,x與y的關系越強。λ系數的基本特點是以眾值作為預測的準則。其計算公式為:式中,?y表示變量x的每一個值之下變量y的眾值,Fy表示變量y的邊際分布中的眾值。
λ系數的優點是具有PRE意義,但其缺點是僅利用眾值資料。當表中的眾值都集中在同一行時,λ系數就會等于零,比如表10—15。在這種情況下,我們可采用Tau-y系數(簡記為τy)來進行測量。Tau-y系數屬于不對稱相關測量法,即要求x是自變量,y是因變量。它的數值也介于0與1之間,同樣具有消減誤差比例的意義。其計算公式為:三、其他層次變量的相關測量與檢驗1、定序變量與定序變量2、定類變量(或定序變量)與定距變量3、定距變量與定距變量1、定序變量與定序變量如果兩個變量都是定序變量,我們可以用古德曼和古魯斯卡的Gamma系數來測量它們之間的關系。Gamma系數通常用G表示,其取值范圍是[-1,+1],適用于分析對稱關系,其計算公式是:式中,表示同序對數目,表示異序對數目。所謂同序對是指某對個案在兩個變量上的相對等級是相同的,異序對是指某對個案在兩個變量的相對等級是相反的。(1)以原始資料舉例說明G系數的計算原理和方法G系數的特點是在計算過程中,將每對個案進行對比,劃分出同序對Ns和異序對Nd。如果為Ns>Nd正相關,Ns<Nd為負相關,Ns=Nd則無相關。G的計算公式統計值范圍在(-1)—(+1)之間。在個案比較中,有時會出現相同的數,稱為同分對,設Tx為x的同分對,Ty為y的同分對,Txy為xy的同分對。xyA22B13C34D34E23比較中:AE的x相同,為x的同分對Tx。BE的y相同,為y的同分對Ty。CD的xy相同,為xy的同分對Txy。A、無同分對的計算假設我們知道四名青年醫生工作年限的名次和工作成績的名次,試分析工作年限和工作成績之間是否有關系。醫生工作年限(x)工作成績(y)A42B31C24D13AB比較x=4:3y=2:1為同序對sAC比較x=4:2y=2:4為異序對dAD比較x=4:1y=2:3為異序對dBC比較x=3:3y=1:4為異序對dBD比較x=3:1y=1:3為異序對dCD比較x=3:1y=4:3為同序對sNs=2Nd=4如果用工作年限名次與工作成績名次相互預測可消減誤差33.33%,二者之間是負相關。B、有同分對的計算設有6名學生的數學和統計兩門功課成績名次如下表10,試說明兩門功課成績的關系。學生數學()統計()A65B52C33D33E25F11ABsACsADsAETyAFsBCdBDdBEdBFsCDTxyCEdCFsDEdDFsEFsNs=8Nd=5Ty=1Txy=1代入公式,得(2)交互分類表的Gamma系數計算方法A2x2表計算方法x高低y高f1f3低f2f4(2)交互分類表的Gamma系數計算方法2x2表計算方法f1f2比較(高x高y):(高x低y)為x同分Txf1f3比較(高x高y):(低x高y)為y同分Tyf1f4比較(高x高y):(低x低y)為同序Nsf2f3比較(高x低y):(低x高y)為異序Ndf2f4比較(高x低y):(低x低y)為y同分Tyf3f4比較(低x高y):(低x低y)為x同分Tx所以,Ns=f1(f4),Nd=f2(f3)例題:生活水平與健康狀況交互分類表Ns=f1(f4)=50×40=2000Nd=f2(f3)=20×30=600生活水平x高低健康狀況y好5030差2040交互分類表的Gamma系數計算方法x高中低y高f1f3f5低f2f4f6根據2x2表的方法可以推導出:Ns=f1(f4十f6)十f3(f6)Nd=f5(f2十f4)十f3(f2)B、2x3表計算方法交互分類表的Gamma系數計算方法x高低y高f1f4中f2f5低f3f6C、3x2表計算方法同樣,依據2x2表方法可推導出:Ns=f1(f5+f6)十f2(f6)Nd=f4(f2十f3)十f5(f3)根據2x3表、3x2表的推導經驗,我們可以很快掌握推導方法。同序對Ns的計算從交互分類表的左上角開始,Ns等于每一次數依次分別乘以該次數所在列以右和所在行以下各次數之總和;異序對Nd的計算則是從表的右上角開始,Nd等于每一次數依次分別乘以該次數所在列以左和所在行以下各次數之總和。交互分類表的Gamma系數計算方法x高中低y高f1f4f7中f2f5f8低f3f6f9D、3x3表計算方法Ns=f1(f5+f6+f8+f9)+f2(f6+f9)+f4(f8+f9)+f5(f9)Nd=f7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GA/T 1049.2-2024公安交通集成指揮平臺通信協議第2部分:交通信號控制系統
- 抗微生物藥的試題及答案
- 阿里巴巴java初級面試題及答案
- 空管三校聯考試題及答案
- 體弱兒培訓試題及答案
- 軟件設計師學員必讀材料及試題及答案
- 軟件設計師考試高效備考與試題答案
- 電子測量技術試題及答案
- 計算機軟件測試的質量保證試題及答案
- 項目進度控制中的工具與技巧試題及答案
- 國家開放大學2025年春《形勢與政策》形考任務1-5和大作業參考答案
- 安全生產 規章制度和安全操作規程
- 河南省洛陽市伊川縣2024-2025學年七年級下學期期中生物試題(含答案)
- 定額〔2025〕1號文-關于發布2018版電力建設工程概預算定額2024年度價格水平調整的通知
- 2023深圳一模數學試卷及答案
- 初中八年級紅色文化課方志敏精神教案
- (完整版)METS醫護英語水平考試
- 車險查勘定損中級培訓水淹車處理指引及定損培訓
- GB/T 25695-2010建筑施工機械與設備旋挖鉆機成孔施工通用規程
- 納米酶研究進展
- 力平之獨特的血脂管理課件
評論
0/150
提交評論