數學建模 多元統計分析引論_第1頁
數學建模 多元統計分析引論_第2頁
數學建模 多元統計分析引論_第3頁
數學建模 多元統計分析引論_第4頁
數學建模 多元統計分析引論_第5頁
已閱讀5頁,還剩53頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數學建模多元統計分析引論第1頁,共58頁,2023年,2月20日,星期六統計軟件的重要作用“計算機軟件給統計學帶來革命性變化”發表論文或進行科研課題時,注明統計軟件和采用的統計分析方法.統計分析工具的選擇:CHISSSAS,SPSS,STATA第2頁,共58頁,2023年,2月20日,星期六

實例

攜帶火柴和發生肺癌間的關系的研究。人們觀察發現那些攜帶火柴的人更有可能發生肺癌。難道這表明攜帶火柴可能引起肺癌?混雜因素這中間存在混雜因素---吸煙客觀事實,攜帶火柴不可能引起肺癌。第3頁,共58頁,2023年,2月20日,星期六

混雜因素的影響

圖1.1危險因素、混雜因素和結果的關系

攜帶火柴肺癌

吸煙第4頁,共58頁,2023年,2月20日,星期六

[實例解析4]喝咖啡與心肌梗塞MI關系的研究。

有人觀察發現喝咖啡的人,很多人患MI,這種現象是表象還是內在因果關系的?

數據來自2000年,小兒科邀請一位美國醫學及生物統計學教授來院講學的例子。第5頁,共58頁,2023年,2月20日,星期六

研究者調查MI及非MI病人各150例,得到如下數據。表1.1MINoMI%Coffee906060Nocoffee609040優勢比:OR=90*90/(60*60)=2.25Pearsonchi2(1)=12.0,P=0.001。說明喝咖啡人MI發生的危險性是不喝的2.25倍。兩組MI發生率差異有顯著意義。結論:喝咖啡與心肌梗塞MI有關!對否?第6頁,共58頁,2023年,2月20日,星期六

研究者懷慮結論,考慮到其中可能混雜其它因素,如吸煙對喝咖啡與心肌梗塞MI間關系的影響,進一步分層分析得到。表控制吸煙因素的干擾后結果SmokerNosmokerMINoMI%MINoMI%Coffee804067102033Noffee201067408033

優勢比OR=1,OR=1P=1.00,P=1.00第7頁,共58頁,2023年,2月20日,星期六

表明,在吸煙組和不吸煙組中。喝咖啡與不喝咖啡的MI發生的相對危險度相同的。

喝咖啡與心肌梗塞MI關系說明當存在混雜因素時,單因素分析結論并不科學。第8頁,共58頁,2023年,2月20日,星期六案例:研究生招生與性別的關系研究第9頁,共58頁,2023年,2月20日,星期六<案例討論>研究生招生與性別的關系研究

美國加州貝克萊分校1973年研究生的錄取情況如上表.結果顯示,男生報考人數據2691人,錄取1197人,錄取比例44.5%,女生報考人數據1835人,錄取556人,錄取比例30.3%。有人認為該校在研究生錄取中存在性別歧視。試對此進行討論與分析。

第10頁,共58頁,2023年,2月20日,星期六混雜因素的定義當某一危險因素和結果的相關性受第三個變量和危險因素及結果之間關系的影響,這第三個變量稱為混雜因素。上兩例中,混雜因素是吸煙第11頁,共58頁,2023年,2月20日,星期六排除混雜因素的兩種方法

1、分層分析2、多元統計分析第12頁,共58頁,2023年,2月20日,星期六

分層分析是在其它影響因素保持恒定情況下,評價某一危險因素對結果的影響。例如,上面我們可以分別在吸煙者和非吸煙者之中,比較喝啡咖與和不喝啡咖的人。這可使我們在不依賴于吸煙的情況下,分析喝啡咖對MI的影響。

1分層分析方法-----控制混雜因素對結果的影響第13頁,共58頁,2023年,2月20日,星期六分層分析的優缺點優點:直觀簡潔。缺點:當考慮因素較多時分組數量倍增,需要例數較多,有時無法實現。第14頁,共58頁,2023年,2月20日,星期六

‘生命在于運動。’

‘運動有利于長壽’

流水不腐。。。這是人類長期經驗的總結,但事實果真如此嗎?是科學的結論,還是事物的假象呢?[實例解析]運動與壽命關系的研究第15頁,共58頁,2023年,2月20日,星期六

許多研究表明長期運動人的壽命比久坐型生活方式人的壽命長。但是,如果運動者壽命長的真正原因是他不吸煙,沒有家族病史,好的生活環境等,那么運動將不能改變一個人的壽命。

運動與人的壽命的關系第16頁,共58頁,2023年,2月20日,星期六

美國Aerobics中心的追蹤研究

在1970-1989年間,它們追蹤觀察25,341男性和7084女性,研究運動和死亡率的關系。男性參加者被追蹤觀察平均8.4年,女性平均7.5年。所有參加者接受了基線檢查,這些檢查包括體檢、實驗室檢測及踏車試驗評價身體適宜運動量。結果如表1.1。

Blair,S.N.,Kampert,J.B.,Kohl,H.W.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinmenandwomen.”JAMA1996;276:205-10第17頁,共58頁,2023年,2月20日,星期六表1.3Aerobics中心追蹤研究過程中生存與死亡者基線特征(男性組)指標生存死亡(n=24,740)(n=601)年齡(SD)42.7(9.7)52.1(11.4)*體重指數

26.0(3.6)26.3(3.5)收縮壓121.1(13.5)130.4(19.1)*總膽固醇213.1(40.6)228.9(45.4)空腹血糖100.4(16.3)108.1(32.0)第18頁,共58頁,2023年,2月20日,星期六

運動量(%)低20.141.6中42.039.1高37.919.3*冠心病家族史25.433.8*吸煙26.336.9*異常心電圖6.926.3*慢性病18.440.3*第19頁,共58頁,2023年,2月20日,星期六

分析發現,存活者和死亡者之間是有明顯區別的。特點是存活者較年輕,血壓較低,低膽固醇,很少吸煙并且高運動量(基于他們踏車試驗時間長短及程度)。但表1.1并沒有回答我們的基本問題:運動是否獨立地延長壽命?它并沒有回答這個問題是由于雖然高運動量組很少在研究期間死亡,但他們或者較很少吸煙,或年輕,或有較低的血壓。我們應排除排除混雜因素的影響。第20頁,共58頁,2023年,2月20日,星期六

[分層分析法]表1.4Aerobics中心追蹤研究中全因死亡患者吸煙和體質的分層分析每萬人年分層相對危險度死亡數(95%CI)吸煙低運動量48.01.63(1.26-2.13)*中/高運動量29.41.0(參照組)不吸煙

低運動量44.02.19(1.77-2.70)*中/高運動量20.11.0(參照組)可見低運動量組死亡率高于中/高運動量組的死亡率,這一分層分析表明運動的作用不依賴于吸煙狀態。第21頁,共58頁,2023年,2月20日,星期六

但是,有可能影響運動和長壽之間關系的其它變量是怎樣的?你可以層層分析每一原因,來證明運動對長壽的影響不但不依賴于吸煙狀態,也不依賴于年齡、性別、高血脂、高血壓等等。如果分層分析3個變量[吸煙狀態、年齡、體重(正常/異常)],你將需要在8個組中分析運動和死亡率的關系。

如果分層分析6個變量[吸煙狀態、年齡、性別、體重、膽固醇水平、高血壓狀態(是/不是)],你將需要在64個組中分析運動和死亡率的關系。第22頁,共58頁,2023年,2月20日,星期六

[多因素分析法]為判斷運動是否獨立地與死亡有關,研究者們運用了COX比例風險分析(proportionalhazardsanalysis)的多元分析方法,結果如表1.2。準許引自:Blair,S.N.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinwomen.”JAMA1996;276:205-10.Copyright1996,AmericanMedicalAssociation.Additionaldataprovidedbyauthors.

第23頁,共58頁,2023年,2月20日,星期六

表1.5Aerobics中心追蹤研究全死亡率危險因素的多元分析自變量死亡率調整相對危險度RR(百萬分數)(95%CI)運動量低38.11.52(1.28-1.82)*中/高25.01.0(參照組)吸煙狀況

吸煙39.41.65(1.39-1.97)*不吸煙23.91.0(參照組)第24頁,共58頁,2023年,2月20日,星期六

收縮壓

≥140mmHg35.61.30(1.08-1.58)*<140mmHg26.11.0(參照組)膽固醇≥240mg/dl35.11.34(1.13-1.59)*<240mg/dl26.11.0(參照組)冠心病家族史

有29.91.07(0.90-1.29)無27.81.0(參照組)體重指數

≥27Kg/m228.81.02(0.86-1.22)<27Kg/m228.21.0(參照組)第25頁,共58頁,2023年,2月20日,星期六

空腹血糖

≥120mg/dl34.41.24(0.98-1.56)<120mg/dl27.91.0(參照組)異常心電圖

有44.41.64(1.34-2.01)*無27.11.0(參照組)慢性疾病

有41.21.63(1.37-1.95)*無25.31.0(參照組)第26頁,共58頁,2023年,2月20日,星期六

表明,如果你比較男性中每千人年死亡數,你可以看出在低運動組(38.1)比中/高運動量組(25.0)有較高的死亡數。其相對危險度為38.1/25.0=1.52。說明低運動量的人死亡的危險性是高運動人的1.52倍。這顯示運動與生存率有關,它并不依賴于吸煙、高血壓、高膽固醇及家族史。

運動與人的壽命的關系第27頁,共58頁,2023年,2月20日,星期六

[實例解析]吸煙和冠狀血管疾病再通術后的預后間的關系

Aerobics中心的追蹤研究,他們追蹤了5437例冠狀血管疾病并接受再通手術(用線和球打開阻塞的冠狀血管)的病人,將病人分為不吸煙、以前吸煙(至少在手術前6個月戒掉)、剛戒煙(因手術后剛戒掉)、及持續吸煙4個組。結果見表1.4.5Hasdai,D.,Garratt,K.N.,Grill,D.E.,Lerman,A.,Homes,D.R.“Effectofsamokingstatusonthelong-termoutcomeaftersuccessfulpercutaneouscoronaryrevascularization.”N.Engl,J.Med.1997;336:755-61.第28頁,共58頁,2023年,2月20日,星期六

表1.6吸煙狀況和死亡危險性的兩變量關系組別死亡相對危險度RR(95%CI)不吸煙1.0(參照組)以前吸煙1.08(0.92-1.26)剛戒煙0.56(0.40-0.77)*持續吸煙0.74(0.59-0.94)*引自:D.,etal.“Effectofsmokingstatusonthelong-termoutcomeaftersuccessfulpercutaneouscoronaryrevascularization.”N.Engl.J.Med.1997;336:755-61.第29頁,共58頁,2023年,2月20日,星期六

持續吸煙組的死亡相對危險度怎么比不吸煙組低呢?(煙草公司希望)在你假定在此研究中可能有差錯之前,一些其它研究發現在冠狀動脈疾病血栓溶解治療中,吸煙和預后具有同樣的關系,這一作用被稱為“吸煙者悖論”是什么原因導致這一“悖論”呢?

Barbash,G.L.,Reiner,J.,White,H.D.,Etal.“Evaluationofparadoxicalbeneficialeffectsofsmokinginpatientsreceivingthrombolytictherapyforacutemyocardialinfarction:Mechanismsofthe‘smoker’sparadox’fromtheGUSTO-Itrial,withangiographicinsights.”J.Am.Coll.Cardiol.1995;26:1222-9.第30頁,共58頁,2023年,2月20日,星期六

表1.5人口學及臨床因素與吸煙狀況的關系不吸煙以前吸煙剛戒煙持續吸煙年齡±SD(年)67±1165±1056±1055±11心絞痛病程(月)41±6651±7221±4629±55糖尿病,%2118810高血壓,%54483839冠狀動脈疾病,%一枝血管50515755二枝血管36363436三枝血管1413109第31頁,共58頁,2023年,2月20日,星期六

表1.5可以看到,相比于吸煙者和以前吸煙者,剛戒煙者和持續吸煙者更年輕,心絞痛時間更短,較少有糖尿病和高血壓,較少有嚴重的冠心病。看到這些,你對剛戒煙者和持續吸煙者的死亡率低于不吸煙者和以前吸煙者就不會奇怪了。因為他們比不吸煙者和以前吸煙者年輕,而且很少有醫學隱患。第32頁,共58頁,2023年,2月20日,星期六

表1.6比較一元統計與多元統計吸煙狀況與死亡危險性的關系不吸煙以前吸煙剛戒煙持續吸煙一元統計的危險相對度1.01.080.560.7495%CI(參照組)(0.92-1.26)(0.40-0.77)(0.59-0.94)多元統計的相對危險度1.01.341.211.7695%CI(參照組)(1.14-1.57)(0.87-1.70)(1.37-2.26)第33頁,共58頁,2023年,2月20日,星期六

表1.6將一元分析死亡危險性(未校正)和多元統計分析死亡危險性相比.在多元統計分析中,研究者校正了4組中存在的如年齡、心絞痛時間等差別。通過對這4組基線差別的統計學校正,剛戒煙者和持續吸煙者的死亡危險顯著高于不吸煙者――更加靈敏的結果。一元統計和多元分析的差別表明混雜因素是存在的。第34頁,共58頁,2023年,2月20日,星期六

多因素分析與分層分析的比較當你用分層分析每增加一個變量,你將倍增分組的數量。一方面產生大量的打印結果、需要整本書報告你的結果。另一方面即使在開始時有很大的樣本量,可能在某些分組中樣本量還是不足。有時無法分層的。第35頁,共58頁,2023年,2月20日,星期六

多因素分析克服了這方面的限制,它將使你同時評價各種不同因素對結果的不同作用。但多因素分析需要前提條件,模型對數據的性質要作一些假定,這些假定有時候是很難證實的。多因素分析與分層分析的比較第36頁,共58頁,2023年,2月20日,星期六*混雜因素與干預因素關系

當危險因素和結果的相關性受第三個因素和危險因素及結果之間關系的影響,這第三個變量稱為混雜因素。一個干預因素是出現結果的原因。第37頁,共58頁,2023年,2月20日,星期六

Camango及其同事們在研究中度酒精消費和心臟病危險性關系時校正了年齡、吸煙、運動、糖尿病及心臟病家族史,但是他們沒有校正血壓、體重指數、高膽固醇血癥。為什么不?這些因素符合混雜因素的定義,它們與危險因素(酒精消費)有關并與結果(心肌梗塞)有因果關系,問題是酒精消費可加重導致高血壓、體重指數增加及高膽固醇血癥。因此,如圖1.3所示。這些變量可能通過其它致病途徑導致心肌梗塞,應考慮為干預變量,不應考慮為混雜因素,如果將混雜因素作為干預變量來校正,那么你需要重新考慮你的結果。第38頁,共58頁,2023年,2月20日,星期六血壓升高體重指數增加高膽固醇血癥心肌梗塞酒精消費第39頁,共58頁,2023年,2月20日,星期六統計學不能區別混雜和干預變量

統計學并不能告訴你什么是混雜因素,什么是干預變量。從統計上講,混雜因素與干預變量是一回事。在你的模型中,是因為有混雜因素而引入該變量,還是因為有干預變量而排除該變量呢?這一決定必須根據以前的研究和生物學上的可解釋性作出。第40頁,共58頁,2023年,2月20日,星期六《紅樓夢》眾所周知,《紅樓夢》一書共120回,自從胡適作《紅樓夢考證》以來,都認為曹雪芹作前80回,后40回為高鶚所續,長期以來對這個問題一直有爭議。《紅樓夢》的作者是誰,當然由紅學家來考證。但是我們是否可以用數學方法進行研究,做出論證或者得出一些新的結果來?第41頁,共58頁,2023年,2月20日,星期六1987年復旦大學李賢平教授帶領他的學生作了這項有意義的工作,他們創造性想法是將120回看成是120個樣本,然后確定與情節無關的虛詞作為變量(所以要拋開情節,是因為在一般情況下,同一情節大家描述的都差不多,但由于個人寫作特點和習慣的不同,所用的虛詞是不會一樣的),數出每一回里變量出現的次數,作為數據,用多元分析中的聚類分析法進行分類,果然將120回分成兩類即前80回為一類,后40回為一類,很形象地證實了不是出自同一人的手筆。第42頁,共58頁,2023年,2月20日,星期六之后又進一步分析前80回是否為曹雪芹所寫?這時又找了一本曹雪芹的其它著作,做了類似計算,結果證實了用詞手法完全相同,斷定為曹雪芹一人手筆,而后40回是否為高鶚寫的呢?論證結果推翻了后40回是高鶚一個人所寫。這個論證在紅學界轟動很大,他們用多元統計分析方法支持了紅學界觀點,使紅學界大為贊嘆。

第43頁,共58頁,2023年,2月20日,星期六

統計分析是統計活動的一個重要組成部分。是統計工作的最后一個階段,更是統計過程中最有價值的一個環節,是服務于研究目的,為解決問題進行的一種認識活動。現代統計分析與傳統統計分析相比,其最突出的特點是:先定性地提出問題,然后使用功能強大的統計分析軟件對數據進行深入的定量分析,并且在定量分析的基礎上得出有價值的定性結論。即:定性--定量--定性的綜合分析過程。現代統計分析是在傳統的統計分析的基礎上發展起來的,是傳統統計分析方法的改造和深化,并結合現代電子技術,運用統計分析軟件對統計資料、數據進行處理。

第44頁,共58頁,2023年,2月20日,星期六什么是多元統計分析?

在工業、農業、醫學字、氣象、環外境以及經濟管理等諸多領域中,常常需要同時觀測多個指標。例如,要衡量一個地區的經濟發展,需觀測的指標有:總產值、利潤、效益、勞動生產率、萬元生產值能耗、固定資產、流動資金周轉率、物價、信貸、稅收等等;要了解一種巖石,需觀測或化驗的指標也很多,如:顏色、硬度、含碳量、含硫量等等;要了解一個國家經濟發展的類型也需觀測很多指標,如:人均國民收入,人均工農業產值、人均消費水平等等。第45頁,共58頁,2023年,2月20日,星期六在醫學診斷中,要判斷某人是有病還是無病,也需要做多項指標的體檢,如:血壓、心臟脈搏跳動的次數、白血球、體溫等等。總之,在科研、生產和日常生活中,受多種指標共同作用和影響的現象是大量存在的,舉不勝舉。上述指標,在數學上通常稱為變量,由于每次觀測的指標值是不能預先確定的,因此每個指標可用隨機變量來表示。第46頁,共58頁,2023年,2月20日,星期六如何同時對多個隨機變量的觀測數據進行有效地分析和研究呢?一種做法是把多個隨機變量分開分析,一次處理一個去分析研究;另一種做法是同時進行分析研究。顯然前者做法有時是有效的,但一般來說,由于變量多,避免不了變量之間有相關性,如果分開處理不僅會丟失很多信息,往往也不容易取得好的研究結果。而后一種做法通常可以用多元統計分析方法來解決,通過對多個隨機變量觀測數據的分析,來研究變量之間的相互關系以及揭示這些變量內在的變化規律。第47頁,共58頁,2023年,2月20日,星期六如果說一元統計分析是研究一個隨機變量統計規律的學科,那么多元統計分析則是研究多個隨機變量之間相互依賴關系以及內在統計規律性的一門統計學科。同時,利用多元分析中不同的方法還可以對研究對象進行分類(如指標分類或樣品分類)和簡化(如把相互依賴的變量變成獨立的或降低復雜集合的維數等等)。在當前科技和經濟迅速發展的今天,在國民經濟許多領域中特別對社會經濟現象的分析,只停留在定性分析上往往是不夠的。為提高科學性、可靠性,通常需要定性與定量分析相結合。實踐證明,多元分析是實現做定量分析的有效工具。第48頁,共58頁,2023年,2月20日,星期六(一)研究對象以及主要內容研究對象多元分析是以多維隨機變量的內在聯系及統計規律為其研究對象。是統計中討論多維隨機變量的統計方法的總稱。主要內容從形式上看,一類是單變量常用的統計方法在多維隨機變量情況下的應用;另一類是對多維變量本身進行研究的一些特殊方法。第49頁,共58頁,2023年,2月20日,星期六具體內容包括

多元回歸分析主成分分析因子分析聚類分析判別分析對應分析典型相關分析時間序列分析馬爾科夫概型分析第50頁,共58頁,2023年,2月20日,星期六一元統計與多元統計簡單比較主要內容一元多元隨機變量一維隨機變量多維隨機變量統計分布一元分布多元分布參數估計似然估計、最小二乘估計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論