統計學知識點梳理_第1頁
統計學知識點梳理_第2頁
統計學知識點梳理_第3頁
統計學知識點梳理_第4頁
統計學知識點梳理_第5頁
免費預覽已結束,剩余8頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統 計 學數據分析所用的方法分為描述統計方法和推斷統計方法。統計數據的類型分類數據、挨次數據、數值型數據值型數據。數據表現為類別,是用文字來表示。例如:支付方式、性別、企業類型等。挨次數據:只能歸于某一有序類別的非數字型數據。按數字尺度測量的觀測值,其結果表現為具體的數值。例如:年齡、工資、產量等。〔定性數據〕和數量數據〔定量數據、數值型數據〕。觀測數據和試驗數據依據統計數據的收集方法,可以分為觀測數據和試驗數據。觀測數據:GDP、家庭收入等。試驗數據:在試驗中掌握試驗對象而收集到的數據。例如:醫藥試驗數據、化學試驗數據等。截面數據和時間序列數據依據被描述的現象與時間的關系,可分類截面數據和時間序列數據。截面數據:在一樣或近似一樣的時間點上收集的數據。例如:2023年我國GDP。時間序列數據:同一現象在不同的時間收集的數據。例如:2023-2023年湖GDP。總體和樣本包含所爭論的全部個體〔數據〕的集合。樣本:從總體中抽取的一局部元素的集合。參數和統計量參數:用來描述總體特征的概括性數字度量。統計量:用類描述樣本特征的概括性數字度量。例如:某爭論機構預備從某鄉鎮5萬個家庭中抽取1000個家庭用于推斷該鄉鎮全部51000個51000個家庭的人均純收入。其次數據的來源數據的間接來源原信息重加工、整理,使之成為我們進展統計分析可以使用的數據。的數據、會議溝通的數據、互聯網查閱的數據等。二手數據的優缺點:搜集便利,采集本錢低,數據采集快,作用廣泛等。缺點:針對性不夠。數據的直接來源調查針對總體中的全部個體單位進展。普查數據的優缺點:調查范圍廣,被調查單位多,信息全面,完整。缺點:調查費時,費力,費錢。調查數據概率抽樣和非概率抽樣n個元素為止的抽樣方法。簡潔隨機抽樣:從含有N個元素的總體中,抽取n個元素作為樣本,使得總體中的每一個元素都有一樣的概率被抽中的抽樣方式。層次獨立地隨機抽取肯定數量的,將各層次取出的個體合在一起作為樣本。群,再對抽中的各個群中所包含的全部元素進展觀看的抽樣方式。便利抽樣:調查過程中由調查員依據便利原則,自行確定入樣單位。調查的調查方式。抽樣誤差誤差的掌握樣本量就越大。分類數據的整理與圖示餅圖〔或總體于描述構造性問題。環形圖構造性問題。數據分組一組。〔a≤x<b〕數值型數據的圖示1.分組數據:直方圖直方圖與條形圖區分:直方圖:面積表示頻數;寬度表示組距;矩形連續排列;展現數值型數據時間序列數據:線圖主要用于反映現象隨時間變化的特征,描述其變化趨勢。多變量數據的圖示〔1〕散點圖適合用于描述兩變量之間是否存在某種關系。但適合于高層次數據的整理和顯示方法并不適合于低層次的數據集中趨勢的度量點的位置所在。值并不適用于低層次的測量數據4.1.1 分類數據:眾數類數據,也可用于挨次數據和數值型數據。挨次數據:中位數和分位數中位數Me表示。中位數將全部數據50%數據。中位數計算步驟:確定中位數位置;3.確定具體值中位數位置計算:(n+1)/2X〔n+1〕/2;偶數時,1/2{X(n/2)+X(n/2+1)}四分位數〕,25%位置點〔下四〕75%位置點〔上四分位〕上的值。四分位數計算步驟:數據排序;2.確定四分位數位置;3.確定具體值四分位數位置確定方法:〔不同確定方法,不同四分位數值〕QL=n/4;QU=3n/4整數位置:整數對應值+〔上側值—下側值〕*或者數值型數據:平均數適用范圍:數值型數據,不適用于挨次數據和分類數據。眾數、中位數和平均數的比較1.眾數、中位數和平均數的關系眾數:一組數據分布的最頂峰平均數:全部數據的算術平均=中位數=平均數左偏分布狀況:存在較小值,平均數<中位數<眾數離散程度的度量反映各變量值遠離中心值的程度越差。數值型數據:方差和標準差1.極差〔全距〕一組數據的最大值與最小值的差。3.方差和標準差方差是各變量值與平均數離差平方的平均數〔通過平方消去正負號〕。標準差是方差的平方根。度測度值。相對離散程度:離散系數離散系數是一組數據的標準差與平均數的比值,是離散程度的相對統計量。適用于比較不同樣本數據的離散程度。離散系數越大,離散程度越大〔正比〕。練習題:〔P94〕、〔P95〕樣本均值的分布于中心極限定理當總體聽從正態分布N(μ,σ2)時,來自該總體的全部容量為n的樣本的均值x也聽從正態分布,x的數學期望為μ,方差為σ2/n。即x~N(μ,σ2/n)中心極限定理:從均值為,方差為2的一個任意總體中抽取容量為n的樣n充分大時,樣本均值的抽樣分布近似聽從均值為μ、方差為σ2/n的正態分布。n≥30時算是充分大,滿足中心極限定理要求。關于大樣本和小樣本:n→∞閱歷做法,大樣本:n≥30n<30第七章參數估量點估量與區間估量當置信水平固定時,置信區間的寬度隨著樣本量的增大而減小。95%。特定的區間總道在屢次抽樣得到的區間中或許有多少個包含了參數的真值。評估估量量的標準①無偏性無偏性是指估量量抽樣分布的數學期望等于被估量的總體參數。②有效性較小標準誤差的點估量量比其他點估量量相對有效。③全都性第八章假設檢驗假設檢驗的根本問題假設檢驗的根本思想:率大事在一次試驗中發生了則假設可能錯誤。設是不成立的,則不能推翻假設成立的合理性和真實性。假設的表達式陳述。原假設表示否認的意義。備擇假設假定變量間存在肯定的關系。上與原假設內容完全對立的假設成為備擇假設。否認原假設,則承受備擇假設。兩類錯誤依據所犯錯誤的類型,我們分為兩種類型:〔P188〕真錯誤。,稱為錯誤或取偽錯誤。對原假設為真的推斷與概率:,也稱為顯著性水平。承受原真假設,做出正確推斷的概率為1-。為和.通過選擇,為顯著性檢驗。很多假設檢驗的應用都屬于這一種類型。對原假設為偽的推斷與概率:承受原偽假設的概率為拒絕原偽假設,做出正確推斷的概率為1-正確決策與犯錯誤決策的概率歸納表見表8-1。時做到犯這兩類錯誤的概率都很小。假設減小錯誤〔棄真〕,則犯錯〔取偽錯誤〕的概率就增加。棄真取偽錯誤〔棄真錯誤〕取偽棄真假設檢驗的流程提出原始假設和備擇假設選擇檢驗統計量確定顯著性水平依據數據計算出檢驗統計量的值得到檢驗是否顯著的結論假設檢驗決策的兩種方法:〔1〕臨界值法是利用檢驗統計量與其臨界值進展比較作出決策,依據檢驗FF>F,H0F<FH0〔2〕P值法是依據檢驗統計量的概率P值與顯著性水平,進展比較,以要判定應拒絕原假設還是不應拒絕原假設。假設P值小于顯著性水平,則拒絕原P值大于顯著性水平,則不能拒絕原假設。P值進展決策P值:當原假設為真是所得到的樣本觀看結果或更極端結果消滅的概率。P值決策原理:得到檢驗統計量的概率P值后的決策就是要判定應拒絕原假設還是不應拒絕原假設。假設檢驗統計量的概率P值小于顯著性水平,則拒絕原假設;P值P值大于顯著性水平,則不應拒絕原假設。檢驗統計量確實定檢驗統計量選擇的影響因素:樣本量n、總體標準差。樣本量在大樣本狀況下,樣本量都聽從正態分布,我們使用z統計量。總體標準差是否總體標準差樣本統計量聽從正態分布,承受z統計量。總體標準差未知使用樣本標準差代替總體標準差,樣本統計量聽從t分布,承受t統計量。當n<30且總體標準差未知時,承受t統計量;當n>30時,依據使用者偏好zt8-7,p195。關于檢測結果的解釋H0H0”這種說法。單側檢驗中假設的建立確定原假設,即把原有的、傳統的觀點或結論放在原假設上。我們需要留意的是:假設沒有拒絕原假設,并不意味著原假設是真實的、真理,也并不意味著備擇假設就是錯的,只是臨時沒有充分的證據證明原假設不成立〔如同無罪假設〕;承受備擇假設則肯定意味著原假設是錯誤的。情。猜測質疑的問題,期望用事實推翻原假設以得出觀點。方差分析及其有關術語〔即分類自變量對數值型因變量的影響〕。方差分析的根本思想和原理2.誤差分解組內誤差只含有隨機誤差。〔P238〕組間誤差:來自不同水平之間的數據誤差,是隨機誤差和系統誤差的總和,反映了不同樣本之間數據的離散程度。在方差分析中,數據的誤差是用平方和來表示的。總平方和〔SST〕:反映全部數據誤差大小的平方和。教材P239誤差平方和〔SSE〕:反映組內誤差大小的平方和。教材P239因素平方和〔SSA〕:反映組間誤差大小的平方和。教材P239SST=SSE+SSA方差分析中的根本假定每個總體應聽從于正態分布。各總體的方差必需一樣。分析步驟提出假設構造檢驗的統計量為構造檢驗的統計量,在方差分析中,需要計算三個誤差平方和。SSE:每個組的各樣本數據與其組均值的誤差平方和,反映了每個樣本各觀〔隨機誤差的大小〕。對隨機誤差大小的度量,反映了除自變量引起的誤差成為殘差效應。SSA:各組均值與總均值的誤差平方和,反映各樣本均值之間的差異程度。效應或因子效應。SST:全部觀測值與總均值的誤差平方和。對全部數據總誤差程度的度量,反映了自變量和殘差變量的共同影響,等于自變量效應與殘差效應之和。總平方和〔SST〕=組間平方和〔SSA〕+組內平方和〔SSE〕平方和除以它們所對應的自由度。計算結果成為均方或方差。三個平方和所對應的自由度分別為:SST的自由度為n-1,其中n為全部觀測值的個數。SSAk-1k為因素水平的個數。SSEn-k。SSAMSASSEMSEMSAMSE進展比照〔MSA/MSE〕,即得到所需要的檢驗統計量F。3.統計決策假設F>F,則拒絕原假設,說明各水平的均值有顯著差異,也即所檢驗的α因素〔行業〕對觀測值有顯著影響。假設F<F,則不能拒絕原假設,沒有證據說明各水平的均值有顯著差異,α也即不能認為所檢驗的因素〔行業〕對觀測值有顯著影響。Pα的值進展比較。假設P<α時,則拒絕原假設;假設P>α時,則不能拒絕原假設。4.方差分析表P值進展統計決策。:〔P263〕,嫻熟應用。第十一章一元線性回歸變量間的關系定關系。例如:銷售額與銷售量相關關系:非完全確定關系、一個變量的取值不能由另一個變量唯一確定。量與施肥量〕。相關關系的描述與測度括:變量之間是否存在關系〔YES/NO〕存在什么樣的關系〔What〕關系強度如何?樣本能否代表總體關系相關系數相關系數:依據統計數據計算的度量兩個變量之間線性關系強度的統計量。相關系數的性質:的取值范圍是[-1,1]0<r1,正線性相關;假設-1r<0,負線性相關;r=+1,完全正線性相關;r=-1,完全負線性相關;r=1,yx,二者為函數關系;r=0,無線性相關具有對稱性。r rxy yxxyxy何關系,可能存在曲線相關關系。是兩變量之間線性關系的度量,但是不肯定意味著x與y肯定有因果關系。r在-11r取值越接近于1,則說明兩變量之間的線性相關越強;r取值0,則說明兩變量之間的線性關系越弱。閱歷法則:r0.8時,可視為高度相關0.5r<時,可視為中度相關0.3r<時,可視為低度相關r<時,可視為不相關一元線性回歸回歸分析主要解決以下幾個方面的問題:(1)從一組樣本數據動身,確定變量之間的數學關系式。對這些關系式的可信程度進展各種統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著,哪些是不顯著的。估量或推測另一個特定變量的取值,并給出這種估量或推測的牢靠程度。一元線性回歸模型3.估量的回歸方程參數的最小二乘估量最小二乘估量的思想原理(x,yi i

)與回歸線上的對應點(x,E(y))在垂直方向上的利差平方和最小。最小二乘法是利用樣本數據,通i i過使應變量的觀測值y與應變量的估量值之間的離差平方和到達最小的方法求得?和?的值。0 1回歸直線的擬合優度1.判定系數判定系數是對估量的回歸方程擬合優度的度量。SST分解為兩局部:SSRSSE。SST=SSR+SSE回歸直線擬合的好壞取決于SSR及SSE的大小,或者取決于SSR〔回歸平方和〕占SST〔總平方和〕的比例〔SSR/SST〕的大小。SSR/SST越大,各觀測點越靠近直線,回歸直線擬合越好。SSR/SSTP261R2測度了回歸直線對觀測數據的擬合程度。在這種狀況下,SSE=0,SSR=SST,則R2=1。yx完全無關,x完全無助于解釋y的變差,那么估量的回歸方SSE=1,SSR=0R2=0。[0,1]。R21SSRSST的比例越xy值變差的局部也就越多,回歸直線的擬合程度就越好;反之亦然。相關系數〔r〕與判定系數〔R2〕的關系:r2=R2解相關系數的意義。相關系數與回歸系數的正負號一樣。|r|~1,說明回歸直線對觀測數據的擬合優度就越高。判定系數的實際意義:因變量變差中有多少是由自變量所打算的。顯著性檢驗線性關系的檢驗線性關系檢驗是檢驗自變量x和因變量yy=β0+β1x+ε來表示。(MSR)同殘差均方(MSE)F檢驗來分析二者之間的差異是否顯著。方差分析表中關于線性關系顯著性檢驗的結果解釋:在方差分析表中給出了線性關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論