基礎統計學及單雙變量描述統計分析資料課件_第1頁
基礎統計學及單雙變量描述統計分析資料課件_第2頁
基礎統計學及單雙變量描述統計分析資料課件_第3頁
基礎統計學及單雙變量描述統計分析資料課件_第4頁
基礎統計學及單雙變量描述統計分析資料課件_第5頁
已閱讀5頁,還剩75頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基礎統計學簡介來自華科社會學系鄭丹丹老師授課資料來自華科社會學系鄭丹丹老師授課資料20112第一節概述一、統計學統計學是應用數學的一個分支描述、組織和解釋數據或信息的一套工具和技術利用概率論建立數學模型,收集所觀察系統的數據,進行量化的分析、總結,并進而進行推斷和預測,為相關決策提供依據和參考20112第一節概述一、統計學20113二、兩個概念描述性統計(DescriptiveStatistics)

推論性統計(InferentialStatistics)20113二、兩個概念201141、描述性統計組織、描述和總結所收集到的一組數據的特征它所描述的是這組數據本身的分布特征

201141、描述性統計201152、推論性統計從一個較小的群體中了解的信息并得出相關結論,推廣到更大的一個群體我們把較小的這個群體,也就是我們收集了數據的群體稱之為樣本(sample),把更大的那個群體,也就是我們所感興趣的、要研究的對象群體稱之為總體(population)。統計值→參數值201152、推論性統計20116三、變量的層次適用于較低測量層次的統計法,可以適用于較高層次,反之則不成立20116三、變量的層次20117定類變量:按事物性質劃分,是一種分類體系。比如:性別,婚姻狀況等。定序變量:數據具有某種邏輯順序,有高低、大小、強弱差異。比如等級評定、學歷、喜愛程度等。定距變量:反映事物在數量方面的差異,具有相等的單位。比如智商、溫度等。定比變量:不僅具有相等單位,還具有實際意義的絕對零點。比如年齡、收入等。20117定類變量:按事物性質劃分,是一種分類體系。比如:性20118適用的運算形式=、≠>、<+、-×、÷定類變量√定序變量√√定距變量√√√定比變量√√√√20118適用的運算形式=、≠>、<+、-×、÷定類變量√定20119第二節單變量描述統計一、基本技術(一)定類層次1、次數分布2、比例3、比率4、對比值5、圖示法20119第二節單變量描述統計一、基本技術2011101、次數分布(frequencydistribution)原理與做法:思考:從右邊兩個表格可以說明什么?不可以說明什么?職業次數干部110工人152農民288總數550職業次數干部50工人135農民295總數4802011101、次數分布(frequencydistrib2011112、比例(proportions)每類的次數除以總數原理:使不同樣本的總數變成同一個基數,即都以1為基數,就可以比較了2011112、比例(proportions)201112職業次數比例(p)干部1100.200工人1520.276農民2880.524總數5501.000職業次數比例(p)干部500.104工人1350.281農民2950.615總數4801.000201112職業次數比例(p)干部1100.200工人1522011133、比率(rates)原理:把計算比例時所用的基數擴大百分率(f/n)*100千分率f/n*1000萬分率f/n*100002011133、比率(rates)201114職業次數比例(p)百分比干部1100.20020.0工人1520.27627.6農民2880.52452.4總數5501.000100.0職業次數比例(p)百分比干部500.10410.4工人1350.28128.1農民2950.61561.5總數4801.000100.0201114職業次數比例(p)百分比干部1100.200202011154、對比值(ratios)A數值與B數值的對比值,就是A除以B全校學生43285人,教師6118人生師比為:43285/6118=7.1:12011154、對比值(ratios)2011165、圖示法長條圖:barchart2011165、圖示法201117圓瓣圖:piechart201117圓瓣圖:piechart201118(二)定序層次1、累加次數2、累加百分比201118(二)定序層次201119201119201120(三)定距層次1、分組組限:上限、下限組距:示例201120(三)定距層次2011212、圖示(1)矩形圖(直方圖)histogram2011212、圖示201122(2)線形圖(LineChart)201122(2)線形圖(LineChart)201123二、集中趨勢測量法集中趨勢的量度(measuresofcentraltendency):共性找出一個數值來代表變項的資料分布,以反映資料的集結情況可以根據這個代表值來估計或預測每個研究對象的數值201123二、集中趨勢測量法201124(一)定類變項:眾數(mode)次數最多之值201124(一)定類變項:眾數(mode)201125(二)定序變項:中位數(median)一個序列的中央位置之值,即高于此值也有50%的個案,低于此值也有50%按照某種順序排列,之后尋找位于頻次中間的值201125(二)定序變項:中位數(median)201126求中位值Md位置=(n+1)/2有男女兩組成績的定序數據男:優,優,良,良,中,中,中,中,差女:優,優,優,良,良,中,中,中,中,差201126求中位值201127(三)定距變項:平均值(mean)201127(三)定距變項:平均值(mean)201128吉斯莫先生的企業招新員工,他承諾所有員工的平均薪金是每周300元。薩姆十分樂意地接受了這份工作,但沒過多久就發現沒有一個普通員工的工資超過每周100元。怎么回事?平均數怎么回事?201128吉斯莫先生的企業招新員工,他承諾所有員工的平均薪201129答案原來吉斯莫的企業中有少數高薪管理者是他的親戚,由于存在極端值的影響,平均工資雖然很高,但考慮一下眾數,你就會發現大多數人的工資都很低。201129答案原來吉斯莫的企業中有少數高薪管理者是他的親戚201130騙人的平均數不宜使用均值的情況:極端值非常特殊,代表性有問題201130騙人的平均數不宜使用均值的情況:201131三、離散趨勢測量法(measuresofvariability):異質性求出一個值表示個案與個案之間的差異情況201131三、離散趨勢測量法201132(一)定類變項n為全部個案數目,fmo是眾值的次數

離異/異眾比率,簡寫v201132(一)定類變項n為全部個案數目,fmo是眾值的次201133某院系對大四學生的就業意愿進行了調查,請根據右表進行有關闡述。想就業的類型男生女生自主創業123外企員工3120中學教師2652公務員510總數7485201133某院系對大四學生的就業意愿進行了調查,請根據右表201134(二)定序變項四分位差:將一組數據按順序排列,將數據的個數分為四個相等的部分除去兩端的兩個25%的數據,以中間50%的數據所占的范圍作為數據分散程度的指標201134(二)定序變項201135(三)定距變項全距(range)、標準差(standarddeviation)、方差(variance)全距=最大數-最小數簡單但粗糙201135(三)定距變項2011362、標準差反映的是每一個個案的分值與平均的分值之間的差距,簡單來說,就是平均差異有多大。標準差越大表示差異越大。

2011362、標準差反映的是每一個個案的分值與平均的分值之2011373、方差標準差的平方2011373、方差201138五、單變量描述統計的作用樣本情況報告了解數據的基本情況(判斷數據質量)…………201138五、單變量描述統計的作用201139眾數中位數平均值集中趨勢值離散趨勢值異眾比率四分位差全距標準差201139眾數集中趨勢值離散趨勢值異眾比率201140六、單變量描述的操作1、次數、百分數等Frequencies2、中位數等Frequencies+statistics3、均值與標準差Descriptive201140六、單變量描述的操作201141第三節雙變量描述性統計事物之間的關系確定性關系(函數關系)非確定性關系(相關關系)線性關系非線性關系必然現象不可能事件201141第三節雙變量描述性統計事物之間的關系確定性201142相關:一個變項的值與另一個變項的值有連帶性相關的三種情況:正相關、負相關、零相關相關程度(0~1)相關的方向(+-)201142相關:一個變項的值與另一個變項的值有連帶性201143交互分類與百分表交互分類:同時依據兩個變項的值,將所研究的個案分類列聯表(交互分類表)表的大小=行*列自變量、因變量201143交互分類與百分表交互分類:同時依據兩個變項的值,201144志愿性別男女總數快樂家庭103040理想工作401050增廣見聞10010總數6040100201144志愿性別男女總數快樂家庭103040理想工作40201145制作條件百分表的準則——信息清楚、表格簡潔社會學研究的常規做法:以自變項為計算百分率的方向——根據自己的研究需要三線表的制作(表格簡明型1,去掉末行)201145制作條件百分表的準則——信息清楚、表格簡潔201146第四節相關測量法相關測量法以一個統計值表示變項之間的相關程度這個值,通常稱為相關系數201146第四節相關測量法相關測量法201147定類和定類變量定類和定序變量Lambda相關測量法tau-y相關測量法基本邏輯:以一個定類變項的值來預測另一個定類變項的值時,可以減少多少誤差其值介于0~1之間201147定類和定類變量Lambda相關測量法基本邏輯:以201148例題:考察性別(v2)與政治面貌(d11a)之間的關系201148例題:201149定序和定序變量Gamma系數Gamma系數按照同序對和異序對個數來計算兩定序變量的相關程度和方向;同序對和異序對相差越大,說明相關越強201149定序和定序變量Gamma系數Gamma系數按照同201150例題:考察受教育程度b4_a與對自己社會地位滿意程度i5_a之間的關系201150例題:201151定類和定距變量定序和定距變量相關比率(eta平方系數)原理:根據自變量取值來預測或估計因變量的均值201151定類和定距變量相關比率(eta平方系數)201152例題:考察性別(v2)與家務勞動時間之間的關系201152例題:201153定距和定距變量相關系數r即皮爾遜相關系數原理:兩個變量以平均數為基準的平均共變程度r本身不具有消減誤差比率的性質,但r2具有這一性質201153定距和定距變量相關系數r原理:兩個變量以平均數為201154例題:考察讀書年數(b2)與收入之間(c18_a)的關系201154例題:201155消減誤差比例(PRE/proportionatereductioninerror)PRE數值的意義為,用一個變項來解釋另一個變項時能夠減少的錯誤比率X與Y的關系越強,所能減少的預測誤差就會越多201155消減誤差比例(PRE/proportiona201156第五節假設檢驗假設檢驗是根據樣本調查結果證實或推翻總體有關假設的一種推論統計方法。201156第五節假設檢驗假設檢驗是根據樣本調查結果201157最終目的總體參數值樣本統計值估算驗證一、統計推論邏輯思路201157最終目的總體參數值樣本統計值估算驗證一、統計推論201158思路常用分布(統計理論確定)根據樣本計算特定統計量,判斷此統計量在理論分布中出現的概率情況此過程稱為“統計推論”201158思路常用分布根據樣本計算特定統計量,判斷此統計量201159統計推論:用于抽樣調查資料的處理——根據局部資料(樣本資料)對總體的特征進行推斷,屬于歸納推理的范疇,不可能保證100%正確。1、由于局部資料源于總體,因此局部資料的特性在某種程度上能反映總體的特性。2、由于社會資料的隨機性,即抽樣結果不是唯一的,又使得一次抽樣結果不能恰好就等于總體的結果。201159統計推論:用于抽樣調查資料的處理201160二、假設檢驗的基本原理小概率原理大數定理告訴我們,就大量觀察而言,事件的發生具有規律性——在大量觀察中頻頻出現的事件具有較大的概率,出現次數較少的事件具有較小的概率。201160二、假設檢驗的基本原理小概率原理201161小概率原理分為兩個方面:1、小概率事件在一次觀察中是不可能出現的2、如果出現了小概率事件,那么,合理的想法是,否定原有事件具有小概率的說法(或稱假設)201161小概率原理分為兩個方面:201162假設檢驗的統計學描述:經過抽樣獲得一組數據,即一個來自總體的(隨機)樣本,如果根據樣本計算的某個統計量(或幾個統計量)表明在原假設H0成立的條件下幾乎是不可能發生的,就拒絕或否定這個原假設,并繼而接受它的對立面——被擇假設。反之,如果在原假設H0成立的情況下,根據樣本所計算的某個統計量,發生的可能性不是很小的話,那么就接受原假設。201162假設檢驗的統計學描述:經過抽樣獲得一組數據,即一201163三、基本概念1、統計檢驗中的假定假定是被確認和接受的事實,是進行檢驗的前提或要求。對于統計推論,有一個基本的而且不言而喻的假定,那就是抽樣必須是隨機的。201163三、基本概念1、統計檢驗中的假定2011642、統計檢驗中的統計量假設檢驗是通過樣本計算某個統計量來進行的。所謂小概率事件,就是指所用統計量,在原假設情況下,是否是小概率事件,因此確定統計量是很重要的2011642、統計檢驗中的統計量201165對于樣本的觀察值,統計量的值應該是確定的。當統計量確定后,根據原假設H0成立的條件,可以畫出統計量的分布——也稱抽樣分布、樣本分布,所選用的統計量,它的分布,應該是已知的,其值是有表可查的——統計學家所做常用分布201165對于樣本的觀察值,統計量的值應該是確定的。2011663、正態分布在自然、經濟、社會等領域內,大量隨機變量都服從正態分布。任何變量,不管其原有分布如何,如果把它們n個加在一起,當n大于一定數之后,例如大于30,那么,其和的分布必然接近正態分布——這就是有名的中心極限定理2011663、正態分布201167正態分布,其特征是“鐘”形曲線。具有以下特征(1)對稱,單峰(一個最大值為均值),在均值加標準差處有拐點(2)從中央最高點向兩端降低,速度慢快慢,接近x軸,但不會為0(3)方差一定的情況下,均值大小決定圖形的左右位置,但形狀不變;均值一定的情況下,方差決定圖形的陡峭程度(4)圖形面積為1,某一部分的面積為隨機變量在該區域的發生概率

201167正態分布,其特征是“鐘”形曲線。具有以下特征2011682011682011694、顯著性水平(臨界水平),記作α在原假設成立的條件下,統計檢驗中所規定的小概率的標準,即規定小概率的數量界線。通常規定概率小于0.05或0.01的事件叫小概率事件2011694、顯著性水平(臨界水平),記作α2011705、臨界值、接受域和否定域在概率分布圖中,由顯著性水平所確定的末端區域稱為否定域否定域與顯著性水平是同一問題的兩種不同表述方法,否定域是否定或推翻虛無假設的區域,顯著性水平是推翻虛無假設的標準,否定域的概率就是顯著性水平P=2011705、臨界值、接受域和否定域201171201171201172四、假設檢驗的步驟和兩類錯誤(一)假設檢驗的步驟:1、根據實際情況作出假設(原假設必須寫出)2、根據樣本構成合適的、能反映H0的統計量,并在H0成立的條件下確立統計量的分布3、根據問題的需要給出小概率的大小4、根據具體檢驗標準,用樣本統計量的觀測值進行判斷201172四、假設檢驗的步驟和兩類錯誤(一)假設檢驗的步驟201173(二)兩類錯誤(關于虛無假設)1、甲種誤差(棄真——小概率事件發生)犯第一類錯誤的大小就是顯著性水平α2、乙種誤差(納偽)在樣本容量n固定的情況下,如果同時減小兩類錯誤,是不可能的,因此一般采取增加樣本容量的辦法來解決。201173(二)兩類錯誤(關于虛無假設)201174(一)卡方檢驗五、常用的幾種檢驗方法適用于定類、定序變量原理:以理論次數為基準考察實際次數與理論次數之間的偏離程度通常結果要匯報卡方值ⅹ2、自由度df、顯著度p。201174(一)卡方檢驗五、常用的幾種檢驗方法適用于定類、201

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論