




已閱讀5頁,還剩93頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
27.04.2020,.,1,雙變量回歸與相關,BivariateRegression&Correlation,第二軍醫大學衛生統計學教研室張羅漫,第9章,27.04.2020,.,2,講課內容:第一節直線回歸(重點)第二節直線相關(重點)第三節秩相關第六節兩條回歸直線的比較第七節曲線擬合,27.04.2020,.,3,第2、第3、第4章介紹了計量資料單變量的統計描述與統計推斷:P.13例2-1:計算101名成年女子血清總膽固醇的平均指標與變異指標。P.51例3-7:比較阿卡波糖膠囊(試驗組)與拜糖蘋膠囊(對照組)降低糖尿病人的空腹血糖值有無差別。P.73例4-2:比較安慰劑組、降血脂新藥2.4g組、降血脂新藥4.8g組、降血脂新藥7.2g組降低患者的低密度脂蛋白含量有無差別。,27.04.2020,.,4,在醫學研究中常要分析兩變量間或多變量間的關系:年齡與血壓藥物劑量與動物死亡率肺活量與身高、體重、胸圍和肩寬等,27.04.2020,.,5,事物間的相關關系確定性關系兩變量間的函數表達式圓的周長與半徑的關系:C2R路程與速度、時間的關系:LST數學中X與Y的直線函數關系:Ya+bX非確定性關系兩變量間存在關系,但未精確到可以用函數表達式來描述。年齡與血脂的關系;身高與體重的關系;體重與體表面積的關系。,27.04.2020,.,6,第一節直線回歸,LinearRegression,27.04.2020,.,7,一、直線回歸的概念“回歸”是一個借用已久因而相沿成習的統計學術語。直線回歸是分析成對觀測數據中兩變量間線性依存關系的方法。,27.04.2020,.,8,生物遺傳學上的“回歸”PearsonK(英,18571936)1903年搜集了1078個家庭人員的身高、前臂長等指標的記錄,發現兒子身高(Y,英寸)與父親身高間(X,英寸)存在線性依存關系:=33.73+0.516X但不少身材高的父親的兒子成年后身高比其父親矮,不少身材矮的父親的兒子成年后身高比其父親高。GaltonF(英,18221911)將這種現象稱之為子一代身高向人群平均身高的“回歸”。,27.04.2020,.,9,Regression釋義,210=1024,27.04.2020,.,10,FrancisGalton,FrancisGalton爵士(英,18221911)是達爾文(CharlesDarwin)的表弟。他對統計學的主要貢獻是提出“相關”與“回歸”的概念,用統計方法對進化論中的變異進行研究,開創了生物統計學。,27.04.2020,.,11,KarlPearson,KarlPearson(英,18571936)是FrancisGalton的得意門生,他開創了統計方法學。他對統計學的主要貢獻:變異數據的處理、分布曲線的選配、卡方檢驗的提出、回歸與相關的發展。,27.04.2020,.,12,天文學上的“回歸”地球繞太陽公轉,在公轉的同時本身還自轉,在本身自轉的同時地球的假設軸心還來回擺動。由于地球軸心的來回擺動,太陽光垂直照射到地球上就有南、北兩個極限位置(南、北緯23027),分別稱南、北回歸線,太陽光對赤道“回歸”垂直照射到南、北回歸線的時間分別為我國農歷的冬至與夏至。,27.04.2020,.,13,日常生活中的“回歸”現象1歲姜二狗,7歲姜二狗同學,20歲小姜同志,30歲姜科長,40歲姜處長,50歲姜局長,60歲姜老,70歲老姜,80歲姜二狗。,目前“回歸”已成為表示變量之間數量依存關系的統計術語,并且衍生出“回歸方程”、“回歸系數”等統計學概念。,27.04.2020,.,14,例某地方病研究所調查了8名正常兒童的尿肌酐含量(mmol/24h),試估計尿肌酐含量(Y)對其年齡(X)的回歸方程。,27.04.2020,.,15,年齡(歲)X,尿肌酐含量,hat,27.04.2020,.,16,各散點呈直線趨勢但并非均在一條直線上根據原始數據擬合的直線方程與數理上二元一次函數方程在內涵上有區別,稱為直線回歸方程。,27.04.2020,.,17,二、直線回歸方程的求法,27.04.2020,.,18,CASIOfx-3600PV計算器計算a、b與r,步驟鍵盤說明1MODE2進入線性回歸模式LR2SHIFTKAC清除以前儲存數據313XDYD3.54DATA數據輸入11XDYD3.01DATA9XDYD3.09DATA4SHIFTr顯示相關系數0.88185SHIFTa顯示截距1.66176SHIFTb顯示回歸系數0.1392SHIFTDEL刪除輸錯的一對數據,27.04.2020,.,20,年齡(歲)X,尿肌酐含量,Y,(mmol/24h),27.04.2020,.,21,b的意義,斜率(slope),年齡每增加1歲,尿肌酐含量平均增加0.1392(mmol/24h),b的單位為(Y的單位/X的單位),27.04.2020,.,22,a截距(intercept,constant)X=0時,Y的估計值a的單位與Y值相同當X可能取0時,a才有實際意義。,a的意義,27.04.2020,.,23,回歸直線的有關性質,直線通過均點各點到該回歸線縱向距離平方和較到其它任何直線者為小。,對于X各個取值,相應Y的總體均數,27.04.2020,.,24,X,Y,27.04.2020,.,25,三、直線回歸方程中的統計推斷,(一)回歸方程的假設檢驗,1.方差分析(1)建立檢驗假設并確定檢驗水準H0:=0H1:0=0.05,的分解,重點,27.04.2020,.,26,因變量Y總變異的分解,X,Y,Y,27.04.2020,.,27,SS總=SS回+SS殘,27.04.2020,.,28,未引進回歸時的總變異:(sumofsquaresofdeviationfrommean)引進回歸以后的剩余變異:(sumofsquaresofresiduals)回歸的貢獻,回歸平方和:(sumofsquaresduetoregression),Y的總變異分解,27.04.2020,.,29,(3)計算檢驗統計量F值,SS總=lYY=1.0462SS回=blXY=l2XY/lXX=5.8452/42=0.8134SS殘=SS總SS回=1.04620.8134=0.2328,v總=v回+v剩v總=n1,v回=1,v殘=n2,27.04.2020,.,30,F0.01(1,6)=13.74,27.04.2020,.,31,2.t檢驗,回歸的剩余標準差,27.04.2020,.,32,(2)計算檢驗統計量t值,(1)建立檢驗假設并確定檢驗水準,(3)確定P值下結論,27.04.2020,.,33,(二)總體回歸系數的可信區間,此區間不包括=0,結論為b有統計學意義。,27.04.2020,.,34,SPSS結果,27.04.2020,.,35,(三)利用回歸方程進行估計與預測,1.總體均數的可信區間,:給定X后對應Y的總體均數,給定X后對應Y的樣本均數,27.04.2020,.,36,2.個體Y值的容許區間,給定X后對應個體Y值波動范圍,27.04.2020,.,37,XY(體重,kg)(體表面積,103cm2)11.05.28311.85.29912.05.35812.35.29213.15.60213.76.01414.45.83014.96.10215.26.07516.06.411,例某地10名三歲兒童體重與體表面積,27.04.2020,.,38,可信區間與容許區間示意(confidenceband&toleranceband),X體重,Y體表面積,27.04.2020,.,39,第二節直線相關,LinearCorrelation,27.04.2020,.,40,生物遺傳學上的“相關”在回歸分析中,有理由認為父親身高決定兒子身高,故把父親身高作為自變量X,兒子身高作為應變量Y。PearsonK(英,18571936)在對同一家庭中兄弟與姐妹身高間關系進行分析時,發現兩者難以象父親與兒子身高間關系那樣區別自變量X與應變量Y,也不必計算回歸方程。GaltonF(英,18221911)將這種現象稱之為“相關”。,27.04.2020,.,41,當一個變量增大,另一個也隨之增大(或減少),我們稱這種現象為共變,或相關。兩個變量有共變現象,稱為有相關關系。相關關系不一定是因果關系。,一、直線相關的概念,27.04.2020,.,42,相互關系示意圖,27.04.2020,.,43,相關系數的性質,兩變量間的線性關系密切程度與相關方向用直線相關系數r表示。1r1r0為正相關r0為負相關r0為零相關或無相關,27.04.2020,.,44,二、相關系數的意義與計算,Pearson相關系數,標準化后的協方差,27.04.2020,.,45,27.04.2020,.,46,SPSS結果,27.04.2020,.,47,三、相關系數的統計推斷,(一)相關系數的假設檢驗,尿肌酐含量與年齡之間無直線相關關系,27.04.2020,.,48,附表2,附表13,27.04.2020,.,49,(二)總體相關系數的可信區間,相關系數的抽樣分布在0時呈偏態分布,Z變換后服從正態分布,27.04.2020,.,50,相關系數的抽樣分布(|=0.8,n=100,1000次抽樣),=-0.8,=0.8,27.04.2020,.,51,R.A.Fisher(1921)的z變換,z近似服從均數為,標準差為的正態分布。,27.04.2020,.,52,相關系數的z變換值的抽樣分布(=-0.8),變換前,變換后,27.04.2020,.,53,相關系數的z變換值的抽樣分布(=0.8),變換前,變換后,27.04.2020,.,54,相關系數的可信區間估計,1.將r變換為z。2.根據z服從正態分布,估計z的可信區間。,3.再將z變換回r。,27.04.2020,.,55,求得8名健康成人血清總膽固醇與低密度脂蛋白膽固醇含量間的r=0.974,試求總體相關系數的95%可信區間。,z的95%可信區間:,27.04.2020,.,56,四、決定系數,0R21Y的總變異中回歸關系所能解釋的百分比年齡可解釋尿肌酐含量變異性的77.75%,27.04.2020,.,57,五、直線回歸與直線相關的區別與聯系,區別r沒有單位,b有單位;相關表示相互關系,沒有依存關系;回歸有依存關系;對資料的要求不同:當X和Y都是隨機的,可以進行相關和回歸分析;當Y是隨機變量,X是控制變量時,理論上只能作回歸而不能作相關分析;,27.04.2020,.,58,區別I型回歸:Y是隨機變量,X是控制變量;II型回歸:Y與X均是隨機變量。同一資料中由X推算Y與由Y推算X的回歸方程不同:,27.04.2020,.,59,聯系均表示線性關系符號相同:共變方向一致,假設檢驗結果相同:tr=tb,可以互相換算:,27.04.2020,.,60,六、直線回歸與相關應用的注意事項,相關:X與Y沒有主次,為雙向。回歸:Y依X變化而變化,為單向。自變量的選擇:原因、容易測量、變異小要有實際意義。,1.根據分析目的選擇變量及統計方法,27.04.2020,.,61,孩子的身高與小樹的高度間顯示出顯著的相關性,27.04.2020,.,62,有無異常點,謹慎剔除。,2.進行相關、回歸分析前要繪制散點圖,進行判斷,27.04.2020,.,63,離群值對相關的影響,27.04.2020,.,64,樣本的間雜性對相關性的誤導,27.04.2020,.,65,3.用殘差圖考察數據是否符合模型假設條件,Y與X為線形關系誤差服從均數為0的正態分布方差相等各觀察單位獨立,回歸模型應用前提條件:,27.04.2020,.,66,e,0,27.04.2020,.,67,0,0,0,0,e,e,e,e,27.04.2020,.,68,P值越小越有理由認為變量間直線關系存在,不能說關系越密切。直線回歸關系可以內插,不宜外延。當樣本含量較大時,統計學檢驗的作用減弱。r0.05/2,100=0.195,4.結果的解釋及正確應用,27.04.2020,.,69,第三節秩相關,RankCorrelation,一、Spearman秩相關,27.04.2020,.,70,應用條件:1.不服從雙變量正態分布而不宜作積差相關分析;2.總體分布類型未知;3.原始數據用等級表示。,27.04.2020,.,71,workyearsofpotentiallifelost,27.04.2020,.,72,27.04.2020,.,73,或用秩Pi、Qi直接計算積差相關系數r,附表14(n50),27.04.2020,.,74,SPSS結果,27.04.2020,.,75,第六節兩條回歸直線的比較,一、兩個回歸系數的比較,二、兩個截距的比較,27.04.2020,.,76,27.04.2020,.,77,Y,X,bc,b2,b1,bc,0,27.04.2020,.,78,第七節曲線擬合,27.04.2020,.,79,一、曲線擬合的一般步驟1.依據分析目的確定X與Y,根據兩變量散點圖、結合專業知識選擇曲線類型。2.求回歸方程:曲線直線化。3.擬合優度:R2。,27.04.2020,.,80,CRF:促腎上腺皮質激素釋放因子ACTH:腎上腺皮質激素,例9-13,27.04.2020,.,81,例9-1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 考慮能效的自動駕駛路徑規劃與能量管理策略論文
- 中國醫藥銷售外包(CSO)行業市場前景預測及投資價值評估分析報告
- 節日前隊伍管理制度
- 苯加氫安全管理制度
- 茶藝師工作管理制度
- 課程推廣文案范文(26篇)
- 行業處理計劃微信銷售履行技能策劃計劃勝利案例
- 流川楓灌籃作文法-具體細節描寫法
- 環保小課題研究案例
- 自動化專業求職簡歷(15篇)
- 校長在2025暑假前期末教師大會上的講話:靜水深流腳踏實地
- (2025)全國“安全生產月活動”《安全知識》競賽試題庫(附含答案)
- 交房期間業主維權突發事件應急預案
- 貸款后管理與客戶滿意度提升
- 自動生成的文檔-202504081202-99
- 費用類報銷管理制度
- 杭州市上城區2025年下半年下半年招考50名專職社區工作者易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年中國SUV帳篷行業市場前景預測及投資價值評估分析報告
- 福建省惠安縣2025屆七下數學期末學業質量監測試題含解析
- 2025年就業指導培訓課件
- 2025-2030石油管道行業市場深度調研及競爭格局與投資研究報告
評論
0/150
提交評論