R的簡單介紹和線性回歸_第1頁
R的簡單介紹和線性回歸_第2頁
R的簡單介紹和線性回歸_第3頁
R的簡單介紹和線性回歸_第4頁
R的簡單介紹和線性回歸_第5頁
已閱讀5頁,還剩31頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、r學習的分享目錄一、r的介紹 1.r的特點 2.r的界面 3.r的使用注意事項二、r中數據創建 1.數據的輸入 1.1. 向量 1.1.1向量的賦值 1.1.2有序向量的賦值 1.2.矩陣的創建 1.3.數據框的創建 1.3.1表格輸入 1.3.2數據框的直接輸入 2.數據讀入目錄三、統計分析方法簡介3.1方差分析和多重比較 3.1.1方差分析和多重比較的命令調用3.2假設檢驗 3.2.1假設檢驗的命令調用3.3主成分和因子分析 3.3.1主成分和因子分析的命令調用3.4判別分析及命令3.5聚類分析 3.5.1聚類分析函數的命令調用3.6回歸分析 3.6.1回歸分析的詳細解釋 r r的介紹的介

2、紹 r是什么: r是一個有著統計分析功能及強大作圖功能的軟件系統,是由奧克蘭大學統計學系的ross ihaka和robert gentleman共同創立,并受到貝爾實驗室s語言的影響。r的特點 1.免費性:r是一個免費的統計分析軟件; 2.運算能力強大:同matlab一樣不需要編譯就可執行代碼;3.幫助功能完善:可通過help命令可隨時了解r所提供的各類函數的使用方法或例子; 4.r有頂尖水準的制圖:在可視化方面,r的效果特別好,并能保存為各種形式的文件; 5.統計分析能力尤為突出:r內嵌了許多統計分析函數,一些中間結果既可保存到專門的文件,也可直接用于進一步的分析。 6.r的界面中文版的r界

3、面從后開始輸入數據,代碼等r的使用注意事項1.r的命令對大小寫敏感,這在使用命令方式安裝和載入程序包時應特別注意。2.輸入r的命令中盡量使用英文字符,避免使用中文字符。3.同一行中可輸入多個命令,需用 ; 隔開,# 認為是注釋內容,不予執行。4.r中所有的函數后都帶圓括號5.賦值一般用 a a 1 1 2 3 4 5 b b1 one two three four five“ d d1 true false1.1.2有序向量的賦值 生成有序的向量可以使用seq命令, s1 s1 1 -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.

4、5 1.0 1.515 2.0 2.5 3.0 3.5 4.0 4.5 5.0還有其他的賦值向量的命令不再詳細舉例。1.2.矩陣創建創建一個矩陣:mymatix cells rnames cnamesmymatrix mymatrix c1 c2r1 1 26r2 24 681.3.1表格輸入如果要輸入以下表格的數據可以使用矩陣,也可用數據框數據框的形式 bloodtype jnbq cs xjt xjgs patientdata patientdata bloodtype jnbq cs xjt xjgs1 zc 8.90 12.00 34.71 44.002 lj 10.63 18.05

5、46.18 67.243 yc 19.84 30.55 73.06 116.82血壓狀態血壓狀態 冠狀動脈冠狀動脈機能不全機能不全猝死猝死心絞痛心絞痛心肌梗塞心肌梗塞正常正常8.91234.7144臨界臨界10.6318.0546.1867.24異常異常19.8430.5573.06116.821.3.2數據框的直接輸入同樣的,可以在r中新建數據框,直接輸入數據。命令格式如下:比如創建一個名為mydata的數據框,它含有三個變量,age(數值型)、gender(字符型)、weight(數值型)。命令為: mydata mydata-edit(mydata)2.數據讀入r可以讀取多種形式的形式。

6、 以導入csv,xls,txt為例:mydataframemydataframe library(rodbc) channel mydataframe odbcclose(channel)txt讀取: mydata choose.dir()或者 file.choose()直接從彈出的對話框中了來查找文件。三、統計分析方法簡介統計分析方法:統計分析方法:常用的主要方法有:線性回歸線性回歸,方差分析與方差分析與多重比較,假設檢驗多重比較,假設檢驗,主成分和因子分析,主成分和因子分析,判別分析,聚類分析。判別分析,聚類分析。3.1方差分析方差分析方差分析:用于分析分類型自變量與數值型自變量之間的關系

7、,即分析多各總體均值是否相等的方法。具體根據影響因素的不同,可以分為單因素方差分析,雙因素方差分析例:例:某城市從4個排污口取水,進行某種處理后檢測大腸桿菌數量,單位面積內菌落數如下表所示,請分析各個排污口的大腸桿菌數量是否有差別。排污口屬于分類型自變量,大腸桿菌數量屬于數值型因變量。 分析的問題是:不同排污口大腸桿菌的數量是否相等。排污口排污口1 12 23 34 4大腸桿菌數量9,12,7,520,14,18,1212,7,6,1023,13,16,21方差分析代碼x-c(9,12,7,5,20,14,18,12,12,7,6,10,23,13,16,21)a-factor(rep(1:4

8、,each=4)fcfx-data.frame(x,a)fcfxaov.fcfx-aov(xa,data=fcfx)summary(aov.fcfx)plot(fcfx$xfcfx$a)pairwise.t.test(x,a,p.adjust.method=holm)tukeyhsd(aov(xa,fcfx)3.1多重比較多重比較是在方差分析得到否定結論后,為確定是哪些組之間存在差異,兩兩之間進行的比較分析。假設上述問題經分析得到的結果是四個排污口的大腸桿菌的數量是有差異的。那么具體是哪些排污口數量不同造成的,可進行多重比較。3.1.1方差分析與多重比較命令函數的調用格式:aov.miss-a

9、ov(formula,data=null,projections=false,qr=true,contrast=null,)多重比較的t檢驗命令pairwise.t.test(x,g,p.adjust.method=p.adjust.methods,poor.sd=true,)x是影響變量構成的向量,g是分組向量(因子)方差分析的對象數據框是否返回邏輯預測值是否返回qr分解因素對比合并方差調整p值3.2假設檢驗 假設檢驗假設檢驗是依據樣本去推測總體特征。是依據樣本去推測總體特征。 思想思想:是基于小概率事件在一次試驗中不是基于小概率事件在一次試驗中不發生發生的原理。的原理。 某車間用一臺包裝機

10、包裝精鹽, 額定標準每袋凈重500g, 設包裝機包裝出的鹽每袋凈重xn(,2) 某天隨機地抽取9袋, 稱得凈重為490,506, 508, 502, 498, 511, 510, 515, 512. 問該包裝機工作是否正常? h0:=500 h1:500 3.2.1假設檢驗命令調用z.test-function(x,n,sigma,alpha,u0=0,alternative=“two.sided”)類似的可以調用t.test,chisq.var.test檢驗3.3主成分和因子分析 主成分分析:將多個變量通過線性變換以選出較少個數重要變量,而又盡可能多的保留原始樣本的信息。 因子分析:用少數幾

11、個因子去描述許多指標或因素之間的聯系,即將相關比較密切的幾個變量歸在同一類中,每一類變量就成為一個因子,以較少的幾個因子反映原資料的大部分信息。3.3.1主成分分析隨機抽取30名某年級中學生,測量其身高(x1), 體重(x2), 胸圍(x3), 坐高(x4), 數據如下表所示, 試對這30名學生身體四項指標作主成分分析。 序號 x1 x2 x3 x4 序號 x1 x2 x3 x4 1 148 41 72 78 2 139 34 71 76 3 160 49 77 86 4 149 36 67 79 5 159 45 80 86 6 142 31 66 76 7 153 43 76 83 8 1

12、50 43 77 79 9 151 42 77 80 10 139 31 68 74 11 140 29 64 74 12 161 47 78 84 通過對以上四項指標做主成分分析,可以構造由四個指標的線性組合組成的主成分,來解釋數據。本例中經過主成分分析中可構造出一個反應學生魁梧成度魁梧成度的主成分y1和反應學生胖瘦胖瘦的主成分y2。主成分分析代碼x-read.csv(student.csv)student.pr weight fhl womendataplot(fhlweight, type=b,col=red,xlab=體重,ylab=肺活量,xlim=c(40,50),ylim=c(0

13、,3.5) 通過圖形發現,體重與肺活量之間有較強的線性關系。進一步做線性回歸分析: fit summary(fit)call:lm(formula = fhl weight, data = womendata)residuals: min 1q median 3q max -0.30590 -0.16699 0.03269 0.12481 0.33128 coefficients: estimate std. error t value pr(|t|) (intercept) -1.58154 1.27732 -1.238 0.2619 weight 0.09321 0.02741 3.401 0.0145 *-signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1residual standard error: 0.2421 on 6 degrees of freedommultiple r-squared: 0.6584, adjusted r-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論