管理研究方法論第五章數據分析_第1頁
管理研究方法論第五章數據分析_第2頁
管理研究方法論第五章數據分析_第3頁
管理研究方法論第五章數據分析_第4頁
管理研究方法論第五章數據分析_第5頁
已閱讀5頁,還剩79頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

管理研究方法論

第五章數據分析

數據分析包括描述統計和推斷統計推斷統計是在描述統計的基礎上檢驗研究假設本章目錄§1描述統計§2推論統計§3結構方程建模§4評估研究§5理論研究§1描述統計描述統計:用數學語言表述一組樣本的特征或者樣本各變量間關聯的特征,用來概括和解釋樣本數據.描述統計可分為三類:單變量、雙變量、多變量從統計學而言,理論上,一切認識的對象均可被量化。而其量化的方法則無外乎四種--定量、定比、定序、定類。

1、定類尺度:也稱類別尺度或名義尺度,是將調查對象分類,標以各種名稱,并確定其類別的方法。它實質上是一種分類體系。

2、定序尺度:也稱等級尺度或順序尺度,是按照某種邏輯順序將調查對象排列出高低或大小,確定其等級及次序的一種尺度。

3、定距尺度:也稱等距尺度或區間尺度,是一種不僅能將變量(社會現象)區分類別和等級,而且可以確定變量之間的數量差別和間隔距離的方法。

4、定比尺度:也稱比例尺度或等比尺度,是一種除有上述三種尺度的全部性質之外,還有測量不同變量(社會現象)之間的比例或比率關系的方法。一、單變量描述統計

單變量描述統計描述某個變量屬性值的集中趨勢、離散趨勢及分布1、集中趨勢分析常用指標:(1)眾數:觀測數據中出現頻率最高的屬性值。(2)中位數:將變量數據一分為二的變量值。中位數適合描述定序尺度的數據集中趨勢有時也能描述定比和定距的集中趨勢。(3)平均數:觀測值的總和除以觀測次數。定距和定比尺度下運用最多。特點是穩定,精準,多次抽樣平均趨于接近。2、離散趨勢分析常用指標:(1)極差(2)四分互差(3)標準差3、頻數和頻率分布頻數分布:描述變量觀測值中各屬性值出現的次數。頻率分布:頻數分布/個案總數比如:一個班級男生50人,女生25人,若以性別作為變量,這就是最簡單的頻數分布。頻率分布則為男生67%,女生33%。二、雙變量描述統計

雙變量描述統計分析兩個變量間的關聯

1、定類和定序變量的關聯分析(1)關聯表

關聯表以表格的形式顯示兩變量各種屬性值組合的頻數和頻率。定序變量頻率關聯表(2)變量關聯的度量

①定類數據:管理研究中,許多變量屬性值屬于定類尺度,如性別、行業、職業等。最適合的關聯度指標是λ,表示誤差降低額占總體誤差的比例.

λ=600/900=0.67②定序數據全序:如果每個分析對象都有單獨的序號,沒有重復的情況,則稱為全序。偏序:一般情況下并非對每個分析對象都能排定單獨的序次,而是若干分析對象都歸結為某個序次,或者說出現重復序號,這種數列稱為偏序。2、定距和定比變量的關聯分析

(1)回歸分析(Regressionanalysis)通過一個變量或一些變量的變化解釋另一變量的變化。主要內容和步驟:首先依據經濟學理論并且通過對問題的分析判斷,將變量分為自變量和因變量,一般情況下,自變量表示原因,因變量表示結果;其次,設法找出合適的數學方程式(即回歸模型)描述變量間的關系;接著要估計模型的參數,得出樣本回歸方程;由于涉及到的變量具有不確定性,接著還要對回歸模型進行統計檢驗,計量經濟學檢驗、預測檢驗;當所有檢驗通過后,就可以應用回歸模型了。y=a+bx(2)相關分析(correlationanalysis):相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度。回歸分析和相關分析的差別主要是:

1、在回歸分析中,y被稱為因變量,處在被解釋的特殊地位,而在相關分析中,x與y處于平等的地位,即研究x與y的密切程度和研究y與x的密切程度是一致的;

2、相關分析中,x與y都是隨機變量,而在回歸分析中,y是隨機變量,x可以是隨機變量,也可以是非隨機的,通常在回歸模型中,總是假定x是非隨機的;

3、相關分析的研究主要是兩個變量之間的密切程度,而回歸分析不僅可以揭示x對y的影響大小,還可以由回歸方程進行數量上的預測和控制。三、多變量描述統計

1、多變量關聯表分析(細化分析)1.1研究原因為了充分解釋某種現象,管理研究一般會面臨兩個以上變量,假設檢驗中也要處理多個變量,因此多變量分析就變的很是必要。1.2定義:就是引入第三個變量,按此變量的屬性來分析考察自變量和因變量之間的關系。零級表:反映自變量和因變量關系的表稱為零級表,“零”意味著未引入另外的控制變量。引入控制變量后得出各種細分表,如只有一個控制變量此細分表為一級細分表,一級細分表的數量和控制變量的屬性值有關,每個屬性值相應有一個細分表,相當于控制變量的某個屬性進行一次試驗的結果。

引入控制變量后可能的四種結果:第一種無效應。一級細分表和零級細分表的結果相同或相似,這意味著引入的控制變量和自變量及因變量都無關聯。第二種干預效應。從時序關系來看,自變量對因變量產生作用的過程中,或者先通過控制變量,或者同時受控制變量的作用而產生影響。此時控制變量在受控的情況下,零級表和一級細分表所反映的自、因變量間的關聯強度應該保持一致。第三種掩蓋效應。零級表顯示的并非自變量和因變量兩者直接存在的關聯強度,而是控制變量z對x和y作用的結果。第四種抑制效應。控制變量z對x和y產生影響,同時x、y也直接相關。多變量關聯分析法利VS弊VS利弊適用于控制變量屬性值為離散型的情況對于定序、定類尺度,是唯一適用的方法變量數增加,細分表級數增多,模型復雜每個控制組的樣本數據減少,影響準確性2、偏相關分析和多元回歸

(1)偏相關分析定義:在消除第三個變量的影響后,自變量和因變量的關聯程度。

例1:欲分析個人受教育水平和工作績效之間的關聯,兩者的關聯又受年齡影響。(如下圖)

用一元回歸分析年齡(自變量)和教育水平(因變量)之間的關系,得出方程和殘差

用一元回歸分析年齡(自變量)和工作績效(因變量)之間的關系,得出方程和殘差

用第三個回歸方程來分析第一個回歸方程和第二個回歸方程殘差之間的關聯,得出相關系數即偏相關系數第一步第二步第三步

注:殘差項說明因變量不能由自變量來解釋的那部分偏差010203建立回歸方程偏相關系數表示控制變量的影響消除后因變量可解釋偏差部分,此系數平方后便是可解釋偏差在因變量總偏差中所占的比例。Z為控制變量,x,y為自變量和因變量(2)多元回歸分析

回歸方程可用來計算任何x值情況下y的觀測值,以及每次觀測中y的觀測值和預測值之差,即殘差。多元回歸分析的內容和功能與一元回歸分析完全一樣,只是回歸方程中包含兩個或更多的自變量,回歸系數表示方程中其他自變量受控的情況下一個自變量與因變量的關聯。多元回歸分析是較為完善且普遍應用的描述多變量關聯的技術,從多元回歸方程可以檢驗自變量和因變量關聯的統計顯著性,一個多元回歸方程對于因變量總偏差的解釋程度與一元回歸方程類似,但是多元回歸方程并不能反映出各個自變量的相對重要性。3、因子分析定義:因子分析是一類降維的相關分析技術,用來考察一組變量之間的協方差或相關系數結構,并用以解釋這些變量與為數較少的因子之間的關聯。因子分析的結果體現在將原來的一組變量聚類并濃縮成較少的稱為因子的新變量,而這些因子能涵蓋原來變量的主要特征。1分析步驟第一步是構造一個相關矩陣,在參數標注化情況下,此相關矩陣(即協方差)反映所研究變量間的關聯性。第二步是在相關矩陣的基礎上抽取新變量(即因子),提取因子是因子分析的主要內容。最常用的有主成分分析法和共同因子分析法。2確認型和探索型因子分析主成分分析和公共因子分析兩種抽取因子的方法不同引發了兩者功能的差異。公共因子分析法用來挖掘潛在的影響所有原來變量的新變量,研究者事先并無任何關于變量和因子間關聯的假設。主成分因子分析,由于因子反映變量間最優線性組合,有可能事先提出假設,設定一組變量與某個因子或因子與因子之間存在強關聯,然后去檢驗他們之間的負荷系數。所以,主成分分析用于確認型因子分析。(四)原因事件的辨識(三要點)1事件的變異性在進行細分分析之前,“變異性”準則可幫助研究者辨析何者應作為原因事件的自變量,何者作為控制變量。至于變異性的分析,要審視事件發生的情境。如判斷火災原因,可能是電路短路原因,然而還會有易燃品、報警滅火系統也會形成火災。通常把變異最明顯的因素作為原因事件,即電器短路視為火災原因。2時序性

如果存在因果關系,自變量必須發生在因變量之前。實證研究屬于序慣性研究,跟蹤事件發生的全過程,事件的時序性應該很清楚。例如,通過經濟效益指標來考核企業的績效這并沒有錯,但憑這些指標的好壞來推斷該企業管理者管理有方或管理不善,將經濟效益指標看成是“自變量”,管理者的管理水平是“因變量”,這就違反了時序性原則。3呼應性

呼應性指與自變量、因變量關聯的事件發生在特定的空間范圍之內。自變量和因變量之間如存在因果關系,必然存在相關關系。

§2推論統計一、抽樣分析二、參數估計三、假設檢驗的基本概念四、t檢驗五、F檢驗六、檢驗七、示例

管理研究和社會研究絕大部分都采用樣本研究,從較大的研究對象總體中抽樣收集數據。最終目的是從樣本來判斷樣本所在的總體的特性。統計推斷是一套有清晰邏輯程序的統計計算,對于從樣本觀測值得出的發現(findings),作出是否適用于總體的判斷。發現亦即研究的結果,這些結果不外乎以下幾個方面的內容:

假設中的自變量和因變量之間有無關聯?這種關聯的趨向和形式如何?這種關聯的強度如何?這種關聯是否是因果?★自變量的屬性值變化引起因變量的屬性值變化,說明兩變量間存在關聯。★關聯強度的判斷則是指觀測值中有多大比例的因變量屬性值可以從自變量的屬性值來解釋。★統計技術用統計顯著性來檢驗所觀測到的關聯是隨機性的還是系統性的原因。

自變量和因變量之間存在關聯并非表明自變量就是因,因變量就是果,因果辨析一般屬于實證研究之后機理分析的內容。數據分析的主要內容主要圍繞變量間關聯的存在性、趨向和形式、強度和統計顯著性四個方面。描述統計已涉及到存在性、趨向和形式的內容,推論統計則主要回答統計顯著性問題。

§2推論統計(inferentialstatistics)正態分布與有關的分布◆定義1設連續型隨機變量X的密度函數為

稱X服從正態分布,記作X~N(μ,σ2).其中μ,σ均為常數,-∞<μ<+∞,σ>0.

◆當μ=0,σ2=1時,我們稱X服從標準正態分布,即X~N(0,1).

標準正態分布的密度和分布函數分別為:◆定理1設

X~N(μ,σ2),則(X-μ)/σ~N(0,1).◆定義設X1,X2,…,Xn為相互獨立的隨機變量,它們都服從標準正態N(0,1)分布,則稱隨機變量服從自由度為n的分布,記作Y~(n).◆定理2設X1,X2,…,Xn獨立,同N(μ,σ2)分布,記

則(1)

(3)與S2

相互獨立.◆定義2設X~N(0,1),Y~(n),且X與Y相互獨立,記則T服從自由度為n的t分布,又稱為學生(student)分布,記作T~t(n)◆定理3設X1,X2,…,Xn獨立,同N(μ,σ2)分布,記◆定理4設X1,X2,…,Xn獨立,同N(μ1,σ2)分布,Y1,Y2,…Ym獨立,同N(μ2,σ2)分布,且它們相互獨立,記則當μ1=μ2時T~t(n+m-2).◆定義設X~,Y~,X與Y獨立,則稱隨機變量服從自由度為(n1,n2)的F分布,記作F~F(n1,n2)一、抽樣分析

●樣本統計值(samplestatistics):描述樣本分布情況的特性值。●總體參數值(populationparameter):描述總體分布情況的特性值。●樣本統計值是否能代表總體參數值,怎樣才能代表參數值,這正是推論統計解決問題的出發點。●統計值和參數值兩者的關系可以通過“抽樣分布”(samplingdistribution)這個概念連通起來。統計值的分布情況就是抽樣分布。●統計推論可分為參數估計(parameterestimation)和假設檢驗。二、參數估計參數估計分為點值估計(pointestimation)和區間估計(intervalestimation)1、點值估計常用的點值估計方法有矩法和極大似然估計(MaximumLikelihoodEstimation)。樣本均值樣本方差參數是概率分布的特征值,各種概率分布有不同的特征值,最常用到的參數有平均數μ和方差σ2。2、區間估計●估計偏差(bias)●無偏估計:設是未知參數的一個估計量,若有則稱是θ的無偏估計量。●抽樣誤差:每次估計值和長期估計的平均值(long-runaveragevalue)之間的隨機誤差稱作抽樣誤差。●抽樣誤差的一個很有用的特點是它符合正態分布。

點值估計給出了參數的一個近似值且是隨機的,它跟隨著樣本的抽取而隨機變化,估計值本身既沒有反映這種近似的精確度,又沒有給出誤差范圍。為了彌補這些不足,人們希望估計出一個范圍,并知道這個范圍包含參數真值的可靠程度。這樣的范圍通常以區間的形式給出,同時還要給出該區間包含參數真值的可靠程度。這種形式的估計稱為區間估計。

定義對于參數θ,如果有兩個統計量和,對給定的α∈(0,1),有則稱是θ的一個區間估計或置信區間,1-α為置信水平(置信度)。

●一個正態總體的參數的區間估計已知方差σ2,對均值μ的區間估計未知方差σ2,對均值μ的區間估計對方差的區間估計三、假設檢驗的基本概念1、對立假設2、顯著性試驗3、甲種誤差和乙種誤差4、單邊檢驗和雙邊檢驗5、自由度6、參數檢驗和非參數檢驗

進行假設檢驗的基本思想:某種帶有概率性質的反證法。基于的原則是:小概率事件在一次觀察中可以認為基本上不會發生。

假設檢驗的步驟:①提出假設H0;備選假設H1②構造統計量,并由樣本算出其具體值③求出在H0下,統計量的分布,構造對H0不利的小概率事件④給定顯著性水平α,確定臨界值,從而得出H0的否定域。⑤得出結論。若統計量∈否定域,則拒絕H0,承認備選假設H1;若統計量否定域,則接受H0.

1、對立假設待研究的假設可分為兩類:研究假設—研究者希望驗證的命題對立假設(nullhypothesis)—研究假設的邏輯對立面2、顯著性試驗否定域(criticalregion):一般說來,對于給定的顯著水平α,以及某一統計量η,若有P{η∈區域G}=α則稱區域G為H0的否定域。

α—顯著性水平(檢驗標準)1-α—置信水平直觀意義:把概率不超過α的事件當作一次觀察不會發生的“小概率事件”。3、甲種誤差和乙種誤差(檢驗中的兩類錯誤)甲種誤差(type-Ⅰerror):把正確的對立假設推翻的可能性,其出現的可能性大小取決于顯著度α。實際情況是H0成立,而檢驗的結果表明H0不成立,即拒絕H0,這時稱該檢驗犯了第一類錯誤或“棄真錯誤”(以真為假)。顯著水平α是犯第一類錯誤的概率。乙種誤差(type-Ⅱerror):把錯誤的對立假設視為真實的可能性。“納偽錯誤”(以假為真)4、單邊檢驗和雙邊檢驗雙邊檢驗(two-tailedtest):否定域預設在正態分布的兩端。單邊檢驗(one-tailedtest):否定域預設在正態分布的一端。例如:對立假設“計件工資與計月工資的數據錄入員的生產率無差別”為例。5、自由度自由度(degreeoffreedom):自由度是指可以自由變動數值的樣本數目.例如:設想讓你隨意說出5個數字,比如:12,18,20,30,10.6、參數檢驗和非參數檢驗總體X的分布類型為已知,其中僅含有有限個未知參數,我們要做的只是對這些參數進行檢驗,稱為參數假設檢驗。在許多實際問題中,總體分布的類型往往不知道,或者知之甚少。因此需要引進另一些統計方法,要求這些方法不依賴于總體分布的具體形式,這些方法稱為非參數方法。★數據為定距和定比類型時對應的檢驗方法為參數檢驗。數據為定類和定序類型以及總體偏態分布或分布情況不明的情況下,對應的檢驗方法為非參數檢驗。四、t檢驗1、t分布定義t分布常用于數理統計中正態總體均值的區間估計和檢驗。2、常用的兩個定理(預備知識中定理3和定理4)3、t檢驗⑴獨立樣本的t檢驗獨立樣本的t檢驗計算公式為:

式中分子,為兩平均值,n1,n2表示樣本組中樣本的個數,SS1和SS2為兩組樣本各自離差平方和。⑵非獨立樣本的t檢驗如果樣本經過某種形式的配對處理,則應用非獨立樣本的t檢驗.非獨立樣本的t檢驗算式為:五、F檢驗方差分析法(analysisofvariance)是用來處理兩組或兩組以上樣本的統計方法,目的在于判斷所發現的總誤差主要是樣本組內的誤差還是各組之間的誤差。簡單方差分析方差分析法方差因子分析協方差分析1、F分布定義2、簡單方差分析(單因素方差分析)簡單方差分析將總誤差劃分為兩種來源:一種是組間,由施加的試驗處理形成;另一種是組內,由隨機誤差形成。單因素方差分析表變異源(方差來源)方差和(平方和)自由度平均數方差(MS)

F值

組間(B)SSBk-1組內(W)SSWN-k總體(T)SSTN-1

計算SST,SSW,SSB時,常按下列順序進行Scheffe

檢驗

Scheffe檢驗是常用的多重比較法(multi-comparison),它用來細化F檢驗的結果,在組間差異顯著情況下,辨別成對組件是顯著差異還是隨機差異。在總體無顯著差異情況下,也可能發現其中差異顯著的兩組。

六、檢驗(chi-squaretest)檢驗是一種非參數檢驗,適用于定類變量,數據表達為頻次形式,按

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論