63數據分析理論基礎課程小結_第1頁
63數據分析理論基礎課程小結_第2頁
63數據分析理論基礎課程小結_第3頁
63數據分析理論基礎課程小結_第4頁
63數據分析理論基礎課程小結_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、CDA數據分析師-數據分析理論基礎數據分析理論基礎課程小結Join Learn關鍵知識點概率分布分布函數P值檢驗自由度Join Learn概率分布-數據分析的依據要全面了解一個隨量(隨機試驗),不但要知道它取哪些值,而且要知道它取這些值的規律,即要掌握它的概率分布。量值xi及這些值對應概率P(X=xi)的表格、公式概率分布:描述隨或圖形。樣本點1隨量的值x1樣本點2P(X=x1)隨量的值x2P(X=x2)樣本點i隨量的值xiP(X=xi)Join Learn分布函數分布函數F(x)=P(X<x)表示隨量X的值小于x的概率,給定一個x0,則有一個F(x0)和其對應。X< x0 即為隨

2、機X為隨x0為隨量量的值Join Learn概率密度概率密度f(x)是F(x)在x處的關于x的一階導數,即變化率。它對應直方圖中的密度尺度如果在某一x附近取非常小的一個鄰域x,那么,隨即P(量X落在(x, x+x)內的概率約為f(x)x,+x)f(x)x。換句話說,概率密度f(x)是X落在x處“寬度”內的概率。“密度”一詞可以由此理解。Join Learn分布函數與直方圖連續性隨量的隨機對應一個區間a,b,只有區間才有意義,就如畫直方圖時,需要先分區一樣。隨機的概率,就是陰影部分的面積,在數學上為,對應直方圖中的面積Join Learn分布函數的作用個隨量的分布函數,則它取任何值和它落入某個數

3、值區間內的概率都可以求出。即任何一個(或多個)隨機試驗的結果的可能性都是確定的Join LearnP值檢驗P值表示對原假設的支持程度,越小越有統計意義Join Learn自由度有兩種解釋統計推斷上的自由度是指當以樣本的統計量來估計總體的參數時, 樣本中或能自由變化的自由度。的個數,稱為該統計量的數據挖掘模型中的自由度等于可自由取值的自變量的個數。如在回歸方程中,如果共有p個參數需要估計,則其中包括了p-1個自變量(與截距對應的自變量是常量1)。因此該回歸方程的自由度為p-1。Join Learn抽樣推斷中的自由度首先,在估計總體的平均數時,由于樣本中的n 個數都是相互的,從其中抽出任何一個數都

4、不影響其他數據,所以其自由度為n。在估計總體的方差時,使用的是離差平方和。只要n-1個數的離差平方和確定了,方差也就 確定了;因為在均值確定后,如果知道了其中n-1個數的值,第n個數的值也就確定了。這里, 均值就相當于一個限制條件,由于加了這個限制條件,估計總體方差的自由度為n-1。Join Learn例有一個有4個數據(n4)的樣本, 其平均值m等于5,即受到m5的條件限制, 在自由確定4、2、5三個數據后, 第四個數據只能是9, 否則m5。因而這里的自由度n-14-13。推而廣之,任何統計量的自由度n-限制條件的個數。Join Learn根據數據分布選擇統計方法(1)實驗設計很關鍵,盡量保

5、持體的同質性數據的相互性和個(2) 一般來說,如果是大樣本,比如各組例數大于50,可以不作正態性檢驗,直接采用t檢驗或方差分析。因為統計學上有中心極限定理,假定大樣本是服從正態分布的。(3) 多組資料數據最好采用方差分析法,絕對不能采用兩兩T檢驗法Join Learn典型偏正態的數據處理對于明顯偏離正態性和方差齊性條件的資料,通常有兩種處理方式:一是通過某種形式的數據變換以其假定條,轉化后能用參數檢驗的還用參數檢驗,如果轉化后還不行,則改用方案二。二是改用秩變換的非參數統計方法,如秩和檢驗等。數據變換雖然改變了資料分布的形式,但未改變各組資料間的關系,常用的數據變換方式有對數變換、平方根變換及

6、平方根反正弦變換。Join Learn兩組樣本比較1. 資料符合正態分布,且兩組方差齊性,直接采用t檢驗。2. 資料不符合正態分布 (1)可進行數據轉換,如對數轉換等,使之服從正態分布,然后對轉換后的數據采用t檢驗; (2)采用非參數檢驗,如Wilcoxon檢驗。3. 資料方差不齊 (1)采用Satterthwate 的t檢驗; (2)采用非參數檢驗,如Wilcoxon檢驗。Join Learn兩組配對樣本的比較1.兩組差值服從正態分布,采用配對t檢驗。2.兩組差值從正態分布,采用wilcoxon的符號配對秩和檢驗 “秩”又稱等級、即次序號的和稱“秩和”,秩和檢驗就是用秩和作為統計量進行假設檢驗的方法。Join Learn多組完全隨機樣本比較1. 資料符合正態分布,且各組方差齊性,直接采用完全隨機的方差分析。如果檢驗結果為有統計學 意義,則進一步作兩兩比較,兩兩比較的方法有LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK 法等。2. 資料不符合正態分布,或各組方差不齊,則采用非參數檢驗的KruscalWallis法。如果檢驗結果為有統計學意義,則進一步作兩兩比較,一般采用Bonferroni法校正P值,然后用成組的Wilcoxon檢驗。Join Learn觀測變量為分類數據分類數據從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論