




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于R的根本統計分析內容提要描畫統計頻數表分析方差分析t檢驗卡方檢驗線性回歸相關分析描畫分析(Descriptive statistics)描畫統計就是把數據集所包含的信息加以簡要地概略,如計算數據的數字特征、制造頻數表和頻數圖等等,用所獲得的統計量和圖表來描畫數據集所反映的特征和規律,使得研討的問題更加簡單、直觀。 描畫性統計主要包括反映數據集中趨勢的特征值(比如平均數、中位數、眾數、分位數)、數據離散程度的特征值(比如方差、規范差、值域、變異系數)和數據分布形狀的特征值(比如偏度、峰度)。 規范差std.dev和規范誤SE.mean規范差std.dev真實均值SE樣本均值當樣本含量 n 足
2、夠大時,規范差趨向穩定;而規范誤隨n的增大而減小,甚至趨于0 。 規范差std.dev和規范誤SE.mean 比如,某學校共有500名學生,如今要經過抽取樣本量為30的一個樣本,來推斷學生的身高。這時可以根據抽取的樣本信息,計算出樣本的均值與規范差。假設我們抽取的不是一個樣本,而是10個樣本,每個樣本30人,那么每個樣本都可以計算出均值,這樣就會有10個均值。也就是構成了一個10個數字的數列,然后計算這10個數字的規范差,此時的規范差就是規范誤。但是,在實踐抽樣中我們不能夠抽取10個樣本。所以,規范誤就由樣本規范差除以樣本量來表示。當然,這樣的結論也不是隨心所欲,而是經過了統計學家的嚴密證明的
3、。 SE.mean= std.dev / n1/2在實踐的運用中,規范差主要有兩點作用,一是統計量樣本離散程度的表征;二是用來對樣本進展規范化處置,即樣本察看值減去樣本均值,然后除以規范差,這樣就變成了規范正態分布。規范誤的作用主要是用來做區間估計,常用的估計區間是均值加減n倍的規范誤例如95%的置信區間是:均值+1.96*SE規范差std.dev和規范誤SE.mean95% CI:假設上面這個隨機抽樣估計學生身高的例子,抽樣100次,每次抽10個學生丈量身高,均值估計值及規范誤為 152cm12cm。但有時需求表示為估計量的95%的置信區間152cm-1.96*12cm,152cm+1.96
4、*12cm。可以解釋為,假設從再從總體中抽樣100次每次抽樣10個,產生100個平均值,這100個平均值將有95次落在152cm-1.96*12cm,152cm+1.96*12cm這個范圍內,5次落在這個范圍外,假設抽樣次數越多,這個推斷越準確。這個來源于中心極限定理的運用:任何分布(總體)抽樣n次,每次抽樣的和符合正態分布。通俗一點說, 不論是學校的學生身高是怎樣分布, 每次隨機抽取10個求和, 抽取n次,這n個身高總和是符合正態分布的。平均身高為身高總和除于10,所以平均身高也是正態分布的。正態分布雙尾95%的分界點所對應的值剛好是1.96。峰度Kurtosis峰度Kurtosis是描畫某
5、變量一切取值分布形狀陡緩程度的統計量。 它是和正態分布相比較的。Kurtosis=0 與正態分布的陡緩程度一樣。Kurtosis0 比正態分布的頂峰更加峻峭尖頂Kurtosis0 正偏向數值較大,為正偏或右偏。長尾巴拖在右邊Skewness0 負偏向數值較大,為負偏或左偏。長尾巴拖在左邊計算公式:Skewness 越大,分布形狀偏移程度越大頻數表(Frequency table)分析 頻數表分析是對數據集按數據范圍分成假設干區間,即分成假設干組,求出每組組中值,各組數據用組中值替代,計算各組數據的頻數,并作出頻數表。 頻數表分析例子summary(oats$yield)# 計算頻數A - ta
6、ble(cut(oats$yield, breaks = 40 + 20 * (0:7) round(prop.table(A) * 100,2) # 計算頻數比例# 畫頻數表hist(oats$yield, # breaks = 7, xlim = c(40,180), xlab = yield, main = Frequency chart of yield)方差分析ANOVA方差分析是一種在假設干組能相互比較的實驗數據中,把產生變異的緣由加以區分的方法與技術,其主要用途是研討外界要素或實驗條件的改動對實驗結果影響能否顯著。類型:單要素方差分析(One-way ANOVA)、雙要素方差分析
7、(Two-way ANOVA) 。方差分析的根本模型是線性模型,并假設隨機變量是獨立、正態和等方差的。方差分析是根據平方和的加和原理,利用 F 檢驗,進而判別實驗要素對實驗結果的影響能否顯著。單要素方差分析# Tukey HSD 方法 #install.packages(multcomp)library(multcomp)tuk - glht(fit, linfct = mcp(Treat = Tukey)summary(tuk) # standard displaytuk.cld - cld(tuk) # letter-based displayopar chisq.test(freq,p=
8、probs) Chi-squared test for given probabilitiesdata: freqX-squared = 6.7, df = 5, p-value = 0.2423卡方檢驗28x = c(100,110,80,55,14)probs = c(29, 21, 17, 17, 16)/100 chisq.test(x,p=probs) chisq.test(x,p=probs) Chi-squared test for given probabilitiesdata: xX-squared = 55, df = 4, p-value = 2.685e-11卡方檢驗列
9、聯表29yesbelt = c(12813,647,359,42)nobelt = c(65963,4000,2642,303)chisq.test(data.frame(yesbelt,nobelt) chisq.test(data.frame(yesbelt,nobelt) Pearsons Chi-squared testdata: data.frame(yesbelt, nobelt)X-squared = 59, df = 3, p-value = 8.61e-13練習四以數據stu.data.csv為例,試對體重做頻數分析。請分析身高能否符合正態分布?試分析性別對體重有無影響。問題
10、4:請檢驗總體平均體重與60kg有無顯著差別?男生和女生的平均體重有無顯著差別?問題5:男女生比例能否符合 1.2 : 1.0?練習四 答案df-read.csv(file=stu.data.csv,header=T)#問題1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 計算頻數比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#問題2sh
11、apiro.test(df$height)#問題3fit-aov(weight Sex,data=df)summary(fit)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#問題4t.test(df$weight, mu = 60, alternative = two.sided)wt.m-subset(df$weight,df$Sex=男)wt.f-subset(df$weight,df$Sex=女)var.test(wt.m,wt.f) #等方差檢驗t.test(wt.m,wt.f, paired=F) #問題5sum
12、mary(df$Sex)ct-c(87, 33)pt 0,公式是有效的。多項式回歸fit - lm( weight N + I(N2), data = df ) # 二次項回歸模型 summary( fit ) # 回歸分析結果 plot( df$N, df$weight ) # 繪制散點圖 lines( df$N, fitted(fit) ) # 添加回歸線 添加光滑曲線require(graphics)plot(cars, main = lowess(cars)lines(cars)lines(lowess(cars), col = 2)多元線性逐漸回歸最優線性回歸方程為: y= -649
13、.779 + 14.592x1 + 6.841x2 + 9.329x3 回歸方程闡明:對于川農 16 號小麥而言,當 x2 和 x3 固定時,穗數 x1 每添加 1萬/畝,產量 y 將平均添加 14.592Kg/畝;當 x1 和 x3 固定時,每穗粒數 x2 每添加 1粒,產量 y 將平均添加 6.841Kg/畝;當 x1 和 x2 固定時,千粒重 x3 每添加 1g,產量y 將平均添加 9.329 Kg/畝。自變量的作用主次第一種方法:計算通徑系數(path coefficient, p)。df.2 - as.data.frame( scale(df) ) #對數據集做規范化處置 lmfit
14、 round(coef(lmfit),3) (Intercept) x1 x2 x3 0.000 0.777 0.410 0.609 第二種方法:根據 x1、x2、x3 回歸系數的 t 值大小,也可判別自變量 x 的主次順序,凡是 t 值較大者就是較重要的因子。結論:自變量 x 的主次順序為:穗數 x1 千粒重 x3 每穗粒數 x2。交互作用多元線性回歸練習四以數據stu.data.csv為例,試對體重做頻數分析。請分析身高能否符合正態分布?試分析性別對體重有無影響。問題4:請檢驗總體平均體重與60kg有無顯著差別?男生和女生的平均體重有無顯著差別?問題5:男女生比例能否符合 1.2 : 1.
15、0?練習四 答案df-read.csv(file=stu.data.csv,header=T)#問題1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 計算頻數比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#問題2shapiro.test(df$height)#問題3fit-aov(weight Sex,data=df)summary(fi
16、t)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#問題4t.test(df$weight, mu = 60, alternative = two.sided)wt.m-subset(df$weight,df$Sex2=1)wt.f-subset(df$weight,df$Sex2=2)var.test(wt.m,wt.f) #等方差檢驗t.test(wt.m,wt.f, paired=F) #問題5summary(df$Sex)ct-c(87, 33)pt corr.test(df, use = complete)Call
17、:corr.test(x = df, use = complete)Correlation matrix h dbh v cpro wd wpro tl tw lrth 1.00 0.86 0.90 -0.43 -0.29 0.32 -0.20 -0.04 -0.17dbh 0.86 1.00 0.98 -0.41 -0.35 0.39 -0.18 -0.15 -0.07v 0.90 0.98 1.00 -0.43 -0.38 0.43 -0.20 -0.11 -0.12cpro -0.43 -0.41 -0.43 1.00 0.22 -0.25 0.18 -0.08 0.20wd -0.29
18、 -0.35 -0.38 0.22 1.00 -0.98 -0.09 -0.08 0.00wpro 0.32 0.39 0.43 -0.25 -0.98 1.00 0.02 -0.02 0.01tl -0.20 -0.18 -0.20 0.18 -0.09 0.02 1.00 0.16 0.79tw -0.04 -0.15 -0.11 -0.08 -0.08 -0.02 0.16 1.00 -0.47lrt -0.17 -0.07 -0.12 0.20 0.00 0.01 0.79 -0.47 1.00Sample Size 1 30Probability values (Entries ab
19、ove the diagonal are adjusted for multiple tests.) h dbh v cpro wd wpro tl tw lrth 0.00 0.00 0.00 0.53 1.00 1.00 1.00 1.00 1.00dbh 0.00 0.00 0.00 0.63 1.00 0.85 1.00 1.00 1.00v 0.00 0.00 0.00 0.53 0.92 0.53 1.00 1.00 1.00cpro 0.02 0.02 0.02 0.00 1.00 1.00 1.00 1.00 1.00wd 0.12 0.06 0.04 0.24 0.00 0.00 1.00 1.00 1.00wpro 0.08 0.03 0.02 0.18 0.00 0.00 1.00
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB14-T 3368-2025 農作物認定品種試驗技術通則 雜糧作物
- 野外露營餐飲服務協議
- 家居建材展覽會參展商服務及產品推廣合同
- 車展現場購車優惠活動合同范本
- 企業財務預算員勞動合同規定
- 公共體育設施場地無償使用與運營管理協議
- 2025年財務會計考試試題及答案
- 水處理設備產品加工技術秘密保護合同
- 專業研發廠房租賃合同范本(水電使用安全保障措施)
- 生態農業園區廠房出租居間代理合同
- 住院患者出院后的隨訪與指導流程圖
- 《寵物美容與護理》全套教學課件
- 北京小升初分班考試數學試卷
- 異丁醇(2-甲基-1-丙醇、2-甲基丙醇)的理化性質及危險特性表
- 拆線換藥評分表
- GB∕T 20394-2019 體育用人造草
- 雨水管道非開挖修復工程施工方案
- 拉線的作用和制作方法
- 氬弧焊作業指導書(共22頁)
- 通道縣生物多樣性調查
- 假發行業英語術語整理
評論
0/150
提交評論