




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第十一章簡單回歸分析Simplelinearregressionanalysis本章內(nèi)容
第一節(jié)簡單線性回歸
第二節(jié)線性回歸的應(yīng)用第三節(jié)殘差分析
第四節(jié)非線性回歸
雙變量計量資料:每個個體有兩個變量值
總體:無限或有限對變量值樣本:從總體隨機抽取的n對變量值
(X1,Y1),(X2,Y2),…,(Xn,Yn)
目的:研究X和Y的數(shù)量關(guān)系
方法:回歸與相關(guān)簡單、基本——直線回歸、直線相關(guān)第一節(jié)簡單線性回歸
英國人類學(xué)家F.Galton首次在《自然遺傳》一書中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國統(tǒng)計學(xué)家KarlPearson對上千個家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,發(fā)現(xiàn):歷史背景:
兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系:。
也即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”
“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計學(xué)術(shù)語,相關(guān)并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究兒童年齡與體重的關(guān)系等。線性回歸的概念及其統(tǒng)計描述直線回歸的概念
目的:研究應(yīng)變量Y對自變量X的數(shù)量依存關(guān)系。特點:統(tǒng)計關(guān)系。X值和Y的均數(shù)的關(guān)系,不同于一般數(shù)學(xué)上的X和Y的函數(shù)關(guān)系
為了直觀地說明直線回歸的概念,以14名健康婦女體重(X)與基礎(chǔ)代謝(Y)數(shù)據(jù)(表10-1)進行回歸分析,得到圖11-1所示散點圖(scatterplot)
編號基礎(chǔ)代謝(kJ/d)體重(kg)編號基礎(chǔ)代謝(kJ/d)體重(kg)14175.650.783970.648.624435.053.793983.244.633460.237.1105050.158.644020.851.7115355.571.053987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.5
在定量描述健康婦女體重(X)與基礎(chǔ)代謝(Y)數(shù)據(jù)的數(shù)量上的依存關(guān)系時,將體重稱為自變量(independentvariable),用X表示;基礎(chǔ)代謝稱為應(yīng)變量(dependentvariable),用Y表示
圖11-114例中年健康婦女基礎(chǔ)代謝與體重的散點圖
由圖11-1可見,基礎(chǔ)代謝隨體重的增加而減低且呈直線趨勢,但并非所有點子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linearregression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程。回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸。
在應(yīng)用中,線性回歸中的自變量還可以精確測量和嚴(yán)密控制的指標(biāo),但因變量必須是隨機變化的。如某研究者應(yīng)用單向環(huán)狀免疫擴散法,在固定IgG濃度下覺得瓊脂免疫板上沉淀環(huán)直徑數(shù)據(jù)見表10-2。No.12345IgG(濃度)(IU/ml)12345沉淀環(huán)直徑(mm)Y4.05.56.27.78.5
表11-2IgG濃度與沉淀環(huán)直徑的散點圖
圖11-2IgG濃度與沉淀環(huán)直徑的散點圖樣本線回歸方程
為各X處Y的總體均數(shù)的估計。簡單線性回歸模型1.a(chǎn)為回歸直線在Y
軸上的截距a>0,表示直線與縱軸的交點在原點的上方a<0,則交點在原點的下方a=0,則回歸直線通過原點2.b為回歸系數(shù),即直線的斜率
b>0,直線從左下方走向右上方,Y隨X增大而增大;
b<0,直線從左上方走向右下方,Y隨X增大而減小;
b=0,表示直線與X軸平行,X與Y無直線關(guān)系b的統(tǒng)計學(xué)意義是:X
每增加(減)一個單位,Y
平均改變b個單位
回歸模型的前提假設(shè)線性回歸模型的前提條件是:線性(linear)獨立(independent)正態(tài)(normal)等方差(equalvariance)
殘差(residual)或剩余值,即實測值Y與假定回歸線上的估計值的縱向距離。求解a、b實際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點分布趨勢的直線。原則:最小二乘法(leastsumofsquares),即可保證各實測點至直線的縱向距離的平方和最小回歸參數(shù)的估計
——最小二乘原則
回歸參數(shù)的估計方法
本例:n=14
圖11-114例中年健康婦女基礎(chǔ)代謝與體重的散點圖解題步驟3、計算有關(guān)指標(biāo)的值4、計算回歸系數(shù)和截距5、列出回歸方程
此直線必然通過點(,)且與縱坐標(biāo)軸相交于截距a。如果散點圖沒有從坐標(biāo)系原點開始,可在自變量實測范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的值代入回歸方程得到一個點的坐標(biāo),連接此點與點(,)也可繪出回歸直線。繪制回歸直線總體回歸系數(shù)β的的統(tǒng)計推斷
1、t檢驗法對回歸系數(shù)作檢驗
2、回歸方程的假設(shè)檢驗
建立樣本直線回歸方程,只是完成了統(tǒng)計分析中兩變量關(guān)系的統(tǒng)計描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實存在,即是否對總體有?1.方差分析
Y的離均差,總變異殘差回歸的變異數(shù)理統(tǒng)計可證明:上式用符號表示為
式中
上述三個平方和,各有其相應(yīng)的自由度,并有如下的關(guān)系:
如果兩變量間總體回歸關(guān)系確實存在,回歸的貢獻就要大于隨機誤差,大到何種程度時可以認(rèn)為具有統(tǒng)計意義,可計算統(tǒng)計量F:式中t檢驗
(1)方差分析
方差分析表
總體回歸系數(shù)β的的統(tǒng)計推斷
t檢驗法例11-3對例11-1中的樣本回歸系數(shù)作檢驗注意:
總體回歸系數(shù)的可信區(qū)間
利用上述對回歸系數(shù)的t檢驗,可以得到β的1-α雙側(cè)可信區(qū)間為
本例b=61.4229,自由度=12,t0.05,12=2.179,Sb=4.8810,代入公式)得參數(shù)β的95%置信區(qū)間為
=(50.79~72.06)第二節(jié)線性回歸的應(yīng)用(估計和預(yù)測)
反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為例11-1中,第一觀測值X1=50.7,
165.1311,1144.5771,代入(11.8)式獲得第一觀測點X1對應(yīng)的標(biāo)準(zhǔn)誤為Y的總體均數(shù)的95%置信區(qū)間為
以上是給定某一X值時所對應(yīng)的總體均數(shù)的置信區(qū)間。當(dāng)同時考慮X的所有可能取值時,總體均數(shù)的點估計就是根據(jù)樣本算得的回歸直線(1-α)置信區(qū)間的上下限連起來形成一個弧形區(qū)帶,稱為回歸直線的(1-α)置信帶(confidenceband)。同樣,因為其標(biāo)準(zhǔn)誤是X的函數(shù),所以在均數(shù)()點處置信帶寬度最小,越遠(yuǎn)離該均數(shù)點,置信帶寬度越大。圖11-4中,左圖顯示位于最小二乘回歸線上下兩側(cè)的兩條弧形虛線為總體回歸線的(1-α)置信區(qū)帶。右圖的實線表示可能的總體回歸線,它們落在弧形虛線所確定的置信帶內(nèi)。(1-α)置信帶的意義是:在滿足線性回歸的假設(shè)條件下,可以認(rèn)為真實的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi),置信度為(1-α)圖11-14總體回歸系數(shù)置信區(qū)帶例11-1中,第一觀測值X1=50.7,
165.1311,1144.5771,代入(11.8)式獲得第一觀測點X1對應(yīng)的標(biāo)準(zhǔn)誤為Y95%的預(yù)測區(qū)間為
PICI圖11-14總體回歸系數(shù)置信區(qū)帶和預(yù)測帶決定系數(shù)(coefficientofdetermination)
定義為回歸平方和與總平方和之比,計算公式為:
取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻的相對程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。
第三節(jié)殘差分析
殘差(residual)是指觀測值Yi與回歸模型擬合值之差殘差分析(residualanalysis)旨在通過殘差深入了解數(shù)據(jù)與模型之間的關(guān)系,評價實際資料是否符合回歸模型假設(shè),識別異常點等。例如,第一數(shù)據(jù)點的殘差e1=4175.6-4220.784=-45.184,如此類推,計算出各數(shù)據(jù)點的殘差值,將殘差減去其均數(shù),除以其標(biāo)準(zhǔn)差,便得標(biāo)準(zhǔn)化殘差。若以反應(yīng)變量取值Yi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點圖如圖11-7所示。類似地,也可以自變量取值Xi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點圖。這類散點圖統(tǒng)稱為標(biāo)準(zhǔn)化殘差圖。
圖11-8給出的是以自變量取值為縱坐標(biāo),以殘差為橫坐標(biāo)的殘差圖的常見類型。其中,圖(e)顯示殘差呈隨機分布;圖(a)、(b)和(f)表示殘差不滿足方差齊性條件;圖(c)顯示存在非線性關(guān)系;圖(d)顯示有的點處于
2倍標(biāo)準(zhǔn)差以外,可能是異常點。圖11-8不同類型的標(biāo)準(zhǔn)化殘差圖第四節(jié)非線性回歸非線性回歸要比線性回歸更能充分地表達(dá)變量間的關(guān)系。當(dāng)今線性回歸之所以比非線性回歸應(yīng)用甚多,原因在于無論從數(shù)學(xué)理論還是計算方法,線性回歸都比非線性回歸模型簡單得多。通過自變量的變換實現(xiàn)線性化實踐中有兩類非線性關(guān)系,一類是通過自變量X的適當(dāng)變換可線性化的,另一類是不可能通過自變量X的變換實現(xiàn)線性化的X數(shù)據(jù)變換不能線性化的關(guān)系
變換自變量實現(xiàn)線性回歸步驟
1.將觀測數(shù)據(jù)(Xi,Yi),i=1,2,…,n作散點圖,觀察散點分布特征類似于何種函數(shù)類型;2.按照所選定的函數(shù)進行相應(yīng)的變量變換;3.對變換后的數(shù)據(jù)用常規(guī)最小二乘法(OLS)作線性模型的參數(shù)估計。4.一般擬合多個相近的模型,然后通過對各個模型的擬合優(yōu)度評價挑選較為合適的模型。例11-2某研究者用免疫球蛋白A(IgA,ug/ml)的不同濃度做火箭電泳,測得電泳高度(nm)如表11-4所示。欲用合適的回歸模型描述火箭高度隨IgA濃度的變化規(guī)律
IgA(μg/ml)火箭電泳高度(nm)X*=lnX0.27.6-1.60940.412.3-0.91630.615.7-0.51080.818.2-0.22311.018.70.00001.221.40.18231.422.60.33651.623.80.4700表11-4免疫球蛋白A不同濃度下的火箭電泳高度由結(jié)果可見:在所擬合的三種模型中,以x對數(shù)函數(shù)回歸的效果最佳,該模型擬合的殘差均方最小,決定系數(shù)最大模型名稱回歸方程F值P值R2值簡單線性92.440.0000.939對數(shù)函數(shù)763.500.000.992二次函數(shù)185.170.0000.987值得一提的是,本節(jié)只涉及對自變量X進行變換,然后以變換后的數(shù)據(jù)用標(biāo)準(zhǔn)最小二乘(OLS)法求解模型的參數(shù)估計與模型評價。當(dāng)涉及到對反應(yīng)變量y實施非線性變換[如Z=ln(Y)]時,因為OLS只保證變換后的Z,即ln(Y)的殘差平方和最小,并不能保證原變量Y的殘差平方和也最小,所以在此情況下,我們建議用統(tǒng)計軟件來完成非線性擬合,例如,用SAS系統(tǒng)中的PROCNLIN程序產(chǎn)生非線性模型參數(shù)的最小二乘估計。
直線回歸應(yīng)用的注意事項直線回歸用于定量刻畫應(yīng)變量Y對自變量X在數(shù)值上的依存關(guān)系,其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測量的變量作為X,另一個隨機變量作Y,例如用身高估計體表面積。兩個變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無關(guān)聯(lián)的兩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備電流報警管理制度
- 設(shè)備計劃檢修管理制度
- 設(shè)計主管組員管理制度
- 設(shè)計投標(biāo)規(guī)章管理制度
- 設(shè)計項目制度管理制度
- 診所醫(yī)保財務(wù)管理制度
- 診所藥房安全管理制度
- 試驗檢測安全管理制度
- 財務(wù)資金借支管理制度
- 財政完善權(quán)責(zé)管理制度
- 語文課堂精彩兩分鐘PPT課件
- 三生事業(yè)六大價值
- 鋯石基本特征及地質(zhì)應(yīng)用
- 絲網(wǎng)除沫器小計算
- 制缽機的設(shè)計(機械CAD圖紙)
- 學(xué)校財務(wù)管理制度
- 三年級下冊美術(shù)課件-第15課色彩拼貼畫|湘美版(共11張PPT)
- 水稻病蟲統(tǒng)防統(tǒng)治工作總結(jié)
- 水在不同溫度下的折射率、粘度和介電常數(shù)
- howdoyoucometoschoolPPT課件
- 四柱特高弟子班絕密資料——席學(xué)易
評論
0/150
提交評論