多元統計分析課程設計女性空腹及攝入食糖后體內血糖含量主成分分析_第1頁
多元統計分析課程設計女性空腹及攝入食糖后體內血糖含量主成分分析_第2頁
多元統計分析課程設計女性空腹及攝入食糖后體內血糖含量主成分分析_第3頁
多元統計分析課程設計女性空腹及攝入食糖后體內血糖含量主成分分析_第4頁
多元統計分析課程設計女性空腹及攝入食糖后體內血糖含量主成分分析_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多元統計分析課程設計報告學生姓名:學 號:學 院:班 級:題 目:女性空腹及攝入食糖后體內血糖含量主成分分析指導教師: 職稱: 2015 年 5 月 21 日 目 錄目 錄I一、問題分析11.1 問題重述11.2 問題分析1二、主成分分析方法基本原理22.1 主成分分析基本思想22.2 主成分分析的數學模型22.3 主成分分析的計算步驟3三、問題求解5四、結果分析74.1 相關系數矩陣74.2 協方差陣8五、總 結9六、課程設計心得體會9參考文獻10一、問題分析1.1 問題重述49位女性在空腹情況下三個不同時刻的血糖含量(用表示)和攝入等量食糖一小時后的三個時刻的血糖含量(用小表示)的觀測值(

2、單位:mg/100ml).問題:分別從樣本協方差陣S和樣本相關系數矩陣R出發做主成分分析,求主成分的貢獻率和各個主成分. 在兩種情況下,你認為應保留幾個主成分?其意義如何解釋?就此而言,你認為基于S和R的分析那個結果更為合理?1.2 問題分析我們根據主成分分析的基本思想,設法將原來眾多的具有一定相關性的指標,重新組合成一組新的互不相關的綜合指標來代替原來指標。通常數學上的處理就是將原來個指標作線性組合,作為新的綜合指標。然后,在所有的線性組合中分別從樣本協方差陣S和樣本相關系數矩陣R出發做主成分分析,計算出各個主成分,進而代表原來個指標的信息。進一步,建立主成分分析的數學模型。最后利用sas統

3、計軟件來求解出各個主成分和各主成分的貢獻率。二、主成分分析方法基本原理2.1 主成分分析基本思想主成分分析是數學上對數據降維的一種方法。其基本思想是設法將原來眾多的具有一定相關性的指標(比如個指標),重新組合成一組新的互不相關的綜合指標來代替原來指標。通常數學上的處理就是將原來個指標作線性組合,作為新的綜合指標。但是這種線性組合,如果不加限制,則可以有很多,應該如何去選取呢?在所有的線性組合中所選取的應該是方差最大的,故稱為第一主成分。如果第一主成分不足以代表原來個指標的信息,再考慮選取即選第二個線性組合。為了有效地反映原有信息,已有的信息就不需要再出現在中,用數學語言表達就是要求。稱為第二主

4、成分,依此類推可以構造出第三、第四、第個主成分。2.2 主成分分析的數學模型設有個樣品(多元觀測值),每個樣品觀測項指標(變量):,得到原始數據資料陣:其中.用數據矩陣的個列向量(即個指標向量)作線性組合,得綜合指標向量:簡寫成:為了加以限制,對組合系數作如下要求:即:為單位向量:,且由下列原則決定:1) 與互不相關,即,其中是的協方差陣。2) 是的一切線性組合(系數滿足上述要求)中方差最大的,即: ,其中是與不相關的一切線性組合中方差最大的,是與,都不相關的的一切線性組合中方差最大的。 滿足上述要求的綜合指標向量就是主成分,這個主成分從原始指標所提供的信息總量中所提取的信息量依次遞減,每一個

5、主成分所提取的信息量用方差來度量,主成分方差的貢獻就等于原指標相關系數矩陣相應的特征值,每一個主成分的組合系數:就是相應特征值所對應的單位特征向量。方差的貢獻率為 其中,越大,說明相應的主成分反映綜合信息的能力越強。2.3 主成分分析的計算步驟(1) 計算協方差矩陣計算樣品數據的協方差矩陣:其中,(2) 求出的特征值及相應的特征向量求出協方差矩陣的特征值及相應的正交化單位特征向量:則的第個主成分為(3) 選擇主成分 在已確定的全部個主成分中合理選擇個來實現最終的評價分析。一般用方差貢獻率解釋主成分所反映的信息量的大小,的確定以累計貢獻率達到足夠大(一般在85%以上)為原則。(4) 計算主成分得

6、分計算個樣品在個主成分上的得分:(5) 標準化實際應用時,指標的量綱往往不同,所以在主成分計算之前應先消除量綱的影響。消除數據的量綱有很多方法,常用方法是將原始數據標準化,即做如下數據變換:其中, , ,標準化后的數據陣記為,其中每個列向量(標準化變量)的均值為0,標準差為1,數據無量綱。標準化后變量的協方差矩陣(Covariance Matrix),即原變量的相關系數矩陣(Correlation Matrix)此時個樣品在個主成分上的得分應為:三、問題求解1. 利用中文版SAS 9.2使用“分析家”做主成分分析的步驟1) 在“分析家”中打開數據集Aaaaaaaaa.xydj;2) 選擇菜單“

7、統計”®“多元統計”®“主成分分析”;3) 在對話框中輸入主成分分析的變量,如圖所示。圖1 主成分分析輸入圖4) 在對話框中點擊Statistics,選擇“correlations”跳轉到以下界面:圖2 選擇主成分分析方式(1)確定完畢后輸出樣本相關系數等結果5) 在對話框中點擊Statistics,選擇“Covariances”跳轉到以下界面:圖3 選擇主成分分析方式(2)確定完畢后輸出樣本協方差陣等結果四、結果分析4.1 相關系數矩陣下圖為各變量的簡單統計量圖4 變量簡單統計量從上圖可以看出在沒有進食的前三個不同時刻血糖含量都比較低,在進食后三個時刻血糖含量都偏高。下面

8、是相關系數矩陣和相關系數特征值等。圖5 相關系數矩陣圖6 相關系數關系矩陣的特征值從上圖可以看出。第一主成分的貢獻率為35.36%,直到第四主成分的累積貢獻率已達到84.59%。圖7 特征向量主成分分析:,其中,4.2 協方差陣圖8 協方差矩陣圖9特征值從上圖可以看出。第一主成分的貢獻率為54.23%,直到第三主成分的累積貢獻率已達到89.38%。圖10 特征向量主成分分析:,其中,意義:利用特征向量各分量的值可以對各個主成分進行解釋,前三個時刻因為沒進食的原因導致血糖含量偏低,攝入等量食糖一小時后的三個時刻的血糖含量才有所高。由此可知食物消化轉化為血糖需要時間為一個小時左右。結論:R的分析更

9、為合理,因為R的分析包括四個主成份,能充分概括進食前和進食后的血糖含量。五、總 結本次課程設計,我們運用sas統計軟件,來分析“女性空腹及攝入食糖后體內血糖含量主成分分析”,我們從樣本協方差陣S和樣本相關系數矩陣R出發來做主成分分析,進一步來求出主成分的貢獻率和各個主成分的模型. 同時,在應用軟件操作時,我們求解出了相應的協方差系數矩陣,特征值以及特征向量,從而寫出了主成分的模型和各個主成分的貢獻率。與此同時,我們亦討論了在從樣本協方差陣S和樣本相關系數矩陣R出發來做主成分分析的這兩種情況下,我們應保留的主成分是什么。 六、課程設計心得體會通過本次課程設計,使我們對多元統計分析的主成分分析有了

10、進一步了解。主成分分析是將多指標化為少數幾個綜和指標的一種統計分析方法。在實際問題中,研究多指標的問題是經常遇到的問題,多元統計分析處理的是多變量(多指標)問題。由于變量個數太多,并且彼此之間存在著一定的相關性,因而使得所觀測到的數據在一定程度上反應的信息有所重疊,而且變量較多時,在高位空間上研究樣本的分布規律比較復雜,勢必增加分析問題的復雜性。從而,人們想用較少的綜合變量來代替較多的變量;而這幾個綜合變量又能反映原來變量的信息,并且彼此之間互不相關,利用降維的思想,產生了主成分分析。同時,讓我對sas統計軟件有了一定的了解,對其一些基本思想有了一些理論根據,明白了其中些許的規則。參考文獻1 方開泰編著實用多元統

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論