應用多元統計分析多元分析概述_第1頁
應用多元統計分析多元分析概述_第2頁
應用多元統計分析多元分析概述_第3頁
應用多元統計分析多元分析概述_第4頁
應用多元統計分析多元分析概述_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一頁,共二十四頁,2022年,8月28日第一節引言多元統計分析是運用數理統計方法來研究解決多指標問題的理論和方法。近30年來,隨著計算機應用技術的發展和科研生產的迫切需要,多元統計分析技術被廣泛地應用于地質、氣象、水文、醫學、工業、農業和經濟等許多領域,已經成為解決實際問題的有效方法。然而,隨著Internet的日益普及,各行各業都開始采用計算機及相應的信息技術進行管理和決策,這使得各企事業單位生成、收集、存儲和處理數據的能力大大提高,數據量與日俱增,大量復雜信息層出不窮。在信息爆炸的今天,人們已經意識到數據最值錢的時代已經到來。顯然,大量信息在給人們帶來方便的同時也帶來一系列問題。第二頁,共二十四頁,2022年,8月28日比如:信息量過大,超過了人們掌握、消化的能力;一些信息真偽難辯,從而給信息的正確應用帶來困難;信息組織形式的不一致性導致難以對信息進行有效統一處理等等,這種變化使傳統的數據庫技術和數據處理手段已經不能滿足要求.Internet的迅猛發展也使得網絡上的各種資源信息異常豐富,在其中進行信息的查找真如大海撈針。這樣又給多元統計分析理論的發展和方法的應用提出了新的挑戰。第三頁,共二十四頁,2022年,8月28日多元統計分析起源于上世紀初,1928年Wishart發表論文《多元正態總體樣本協差陣的精確分布》,可以說是多元分析的開端。20世紀30年代R.A.Fisher、H.Hotelling、、許寶騄等人作了一系列得奠基性工作,使多元分析在理論上得到了迅速得發展。20世紀40年代在心理、教育、生物等方面有不少得應用,但由于計算量大,使其發展受到影響,甚至停滯了相當長得時間。20世紀50年代中期,隨著電子計算機得出現和發展,使多元分析方法在地質、氣象、醫學、社會學等方面得到廣泛得應用。20世紀60年代通過應用和實踐又完善和發展了理論,由于新的理論、新的方法不斷涌現又促使它的應用范圍更加擴大。20世紀70年代初期在我國才受到各個領域的極大關注,并在多元統計分析的理論研究和應用上也取得了很多顯著成績,有些研究工作已達到國際水平,并已形成一支科技隊伍,活躍在各條戰線上。第四頁,共二十四頁,2022年,8月28日在20世紀末與本世紀初,人們獲得的數據正以前所未有的速度急劇增加,產生了很多超大型數據庫,遍及超級市場銷售、銀行存款、天文學、粒子物理、化學、醫學以及政府統計等領域,多元統計與人工智能和數據庫技術相結合,已在經濟、商業、金融、天文等行業得到了成功的應用。為了讓人們更好的較為系統地掌握多元統計分析的理論與方法,本書重點介紹多元正態總體的參數估計和假設檢驗以及常用的統計方法。這些方法包括判別分析、聚類分析、主成分分析、因子分析、對應分析、典型相關分析、多維標度法以及多變量的可視化分析等。與此同時,我們將利用在我國廣泛流行的SPSS統計軟件來實現實證分析,做到在理論的學習中體會應用,在應用的分析中加深理論。第五頁,共二十四頁,2022年,8月28日第二節應用背景一

統計學的生命力在于應用二

多元統計分析方法的應用第六頁,共二十四頁,2022年,8月28日統計方法是科學研究的一種重要工具,其應用頗為廣泛。特別地,多元統計分析方法常常被應用于自然科學、社會科學等領域的問題中。為了進一步體現多元統計分析方法的應用,我們首先從宏觀的角度認識統計學應用的背景,然后從微觀的角度顯示多元統計分析應用的廣泛性。第七頁,共二十四頁,2022年,8月28日一、統計學的生命力在于應用(一)統計學產生于應用統計學的發展過程中可以看出統計學產生于應用,在應用過程中發展,它的生命力在于應用。300年前,威廉·配第(1623-1687)寫的《政治算術》,從其研究方法看,被認為是一本統計學著作。政治算術學派的統計學家將統計方法應用于各自熟悉和感興趣的研究領域,都還是把其應用對象當作肯定性事物之間的聯系來進行研究的。他們確信,事物現象存在著簡單明了的數量關系,需要用定性與定量的方法將這種關系(規律)揭示或描述。使人們能夠更具體、真切地認識世界。第八頁,共二十四頁,2022年,8月28日數理統計學派的奠基人凱特勒在統計學中引入了概率論,把它應用與自然界和社會的許多方面,從而為人們認識和說明不確定現象及其相互之間的聯系開辟出了一條道路。在自然科學和社會科學的許多領域,都留下凱特勒應用統計學研究的烙印。自從凱特勒把概率論引入了應用中的統計學,人們對客觀世界的認識及描述更全面、更接近于實際了。他在廣泛應用拉普拉斯等人概率論中的正態曲線、誤差法則、大數法則等成果的過程中,為統計學增添了數理統計方法,進而又擴展了統計學的應用范圍。第九頁,共二十四頁,2022年,8月28日

在應用中對發展統計方法貢獻顯著的當推生物統計學派的戈爾登(1822-1921)、皮爾遜(1857-1936)和農業實驗學派的孟德爾(1822--1884)、戈塞特(1876-1937)等。戈爾登六年中測量了近萬人的“身高、體重、闊度、呼吸力、拉力和壓力、手擊的速率、聽力、視力、色覺及個人的其他資料”。在探究這些數據內在聯系的過程中提出了今天在自然科學和社會科學領域中廣泛應用的“相關”思想。將大量數據加以綜合描述和比較,從而能使他的遺傳理論建立在比較精確的基礎上,為統計學引入了中位數、四分位數、分布、回歸等極為重要的概念和方法。皮爾遜在檢驗他老師戈爾登的“祖先遺傳法則”和自然選擇中“淘汰”對器官的相關及變異的影響中,導入了復相關的概念和方法。在討論生物退化、反祖、遺傳、隨機交配等問題中,展開了回歸與相關的研究,并提出以檢驗作為曲線配合適合度的一種量度的思想。第十頁,共二十四頁,2022年,8月28日農業實驗學派的孟德爾和戈塞特同樣是在實驗回答各自應用領域中出現的新要求、新課題,發展了統計思想和統計分析方法。孟德爾及其后繼者貝特森等人創建的遺傳試驗手段,比通過記錄生命外部聯系曲折反映事物內在本質的描述統計更加深刻。他們運用推斷的理論與實驗的方法,通常只用小樣本來處理。戈塞特的T分布與小樣本思想更是在由于“有些實驗不能多次地進行”,從而“必須根據極少數的事例(小樣本)來判斷實驗結果的正確性”的情況下產生的。今天,這些統計思想和分析推斷方法已經成為了科學家們不可缺少的基本研究工具了。第十一頁,共二十四頁,2022年,8月28日近現代,統計學已經空前廣泛應用于最高級的運動形式——社會。其結果便是出現了一系列與其應用對象指導理論和其它相關學科交織在一起的邊緣學科。如在社會經濟方面的投入產出經濟學、經濟計量學、統計預測學、統計決策學等等。在這些邊緣學科中,統計學與其應用對象結合更緊密、更自然。這些學科的專家學者至少在兩個或兩個以上的專業領域里有比較深厚的學術造詣。統計學的應用幫助他們在各自的應用領域中取得輝煌的成就。可見,統計學的發展一刻也離不開應用。它在應用中誕生,在應用中成熟、獨立,在應用中擴充自身的方法內容,同時擴展了應用領域,又在應用中與其他學科緊密結合形成新的邊緣學科。一部統計理論發展史同時又是一部應用統計發展史,正因如此,統計學的生命力在于應用。第十二頁,共二十四頁,2022年,8月28日(二)理論研究為統計學的應用奠定了基礎統計理論問題的研究和應用研究從總體上說應該屬于“源”和“流”的關系。如果理論不成熟,方法不完善,統計應用研究也很難達到較高的水平。因此,充分發揮統計學的生命力,必須建立在統計理論研究的基礎之上。從國際上看,近十幾年來,統計分析技術的研究有了新的發展。這些研究的總體特征是,廣泛吸收和融合相關學科的新理論,不斷開發應用新技術和新方法,深化和豐富了統計學傳統領域的理論與方法研究,并拓展了統計研究的新領域。這一些都充分地體現了統計學強有利的生命力,其具體表現在:第十三頁,共二十四頁,2022年,8月28日第一,統計學為計算機科學的發展發揮作用。在計算機協助的電子通訊、網絡創新、資源及信息統計中的統計軟件等方面,對統計信息搜集、存貯和傳遞中利用計算機提高工作效能,建立統計信息時空結構有了新的發展。在網絡推斷、統計軟件包、統計建模中的計算機診斷方面,提出了統計思想直接轉化為計算機軟件,通過軟件對統計過程實行控制的作用,以及利用計算機程序識別模型、改善估計量性質的新方法。這些研究成果使人們興奮地看到計算機技術正在促使統計科研工作發生革命性變化。在軟件的質量評估上及統計程序和方法在軟件可靠性檢驗等方面也有了新的發展。第十四頁,共二十四頁,2022年,8月28日第二,統計理論與分析方法的新發展。近年來,統計方法成果豐碩,反映了統計理論與分析方法在不斷的發展中趨于成熟和完善。在貝葉斯方法、非線性時間序列、多元分析、統計計算、線性模型、穩健估計、極值統計、混沌理論及統計檢驗等方面,內容廣泛而翔實,可以歸納為三個方面: (1)理論上有新的開拓。如應用混沌理論提出混沌動態系統、混沌似然分析;引入數學中象分析、譜分析的方法,探討象分析中同步模型化的方法,建立經驗譜類函數的假設檢驗方法等; (2)不同的分析方法相互滲透、交叉結合運用,衍生新的分析方法。如馬爾可夫鏈,蒙特卡羅方法在葉貝斯似然計算中的應用,參數估計方法的非參數校正,狀態空間模型與月份時間序列的結合運用; (3)借助現代計算機技術活躍新的研究領域。在計算機技術迅速發展的帶動下,模擬計算理論和方法有了長足的發展,這給非線性模型等因計算繁煩而沉悶多時的研究領域住入了新的活力,提出了非線性結構方程模型的特征向量估計方法,非線性回歸中的截面有效性逼近,帶噪聲的非線性時間序列的識別等富有見地的新思路。Logistic模型、向量時間序列模型的研究也因計算技術的解決而不乏新成果。第十五頁,共二十四頁,2022年,8月28日第三,統計調查方法與記述的創新。調查方法是統計方法論的重要組成部分,近年來,在抽樣理論與方法、抽樣調查、實驗設計方面十分關心如何改進調查技術、減少抽樣誤差等問題。調查過程的綜合管理、不等概率抽樣設計、分層總體的樣本分配、抽樣比例的回歸分析和實驗設計正交數組的構造方法等方面有了新見解。再抽樣及隨機加權方法、隨機模型及連續調查報告的趨勢計量、輔助信息和抽樣方法,則涉及多種統計分析和計算方法的應用,在轉換樣本調查設計等方面也取得一定成果。計算機輔助調查有了新的發展。眾所周知,理論來源于實踐,反過來又服務于實踐。統計理論的研究和分析技術的發展,無疑對統計的實踐起到了一定的指導作用。從另一角度也顯示出了,統計理論和分析技術的不斷完善,為統計學的應用奠定了基礎,確保了統計學強大的生命力。第十六頁,共二十四頁,2022年,8月28日二、多元統計分析方法的應用這里我們要通過一些實際的問題,解釋選擇統計方法和研究目的之間的關系,這些問題以及本書中的大量案例能夠使得讀者對多元統計分析方法在各個領域中的廣泛應用有一定的了解。多元分析方法從研究問題的角度可以分為不同的類,相應有具體解決問題的方法,參看表1.1。多元統計分析方法在經濟管理、農業、醫學、教育學、體育科學、生態學、地質學、社會學、考古學、環境保護、軍事科學、文學等方面都有廣泛的應用,這里我們例舉一些實際問題,進一步了解多元統計分析的應用領域,讓讀者從感性上加深對多元統計分析的認識。第十七頁,共二十四頁,2022年,8月28日表1.1統計方法和研究目的之間的關系問題內容方法數據或結構性化簡盡可能簡單地表示所研究的現象,但不損失很多有用的信息,并希望這種表示能夠很容易的解釋。多元回歸分析、聚類分析、主成分分析、因子分析、相應分析、多維標度法、可視化分析分類和組合基于所測量到的一些特征,給出好的分組方法,對相似的對象或變量分組。判別分析、聚類分析、主成分分析、可視化分析變量之間的相關關系變量之間是否存在相關關系,相關關系又是怎樣體現。多元回歸、典型相關、主成分分析、因子分析、相應分析、多維標度法、可視化分析預測與決策通過統計模型或最優準則,對未來進行預見或判斷。多元回歸、判別分析、聚類分析、可視化分析假設的提出及檢驗檢驗由多元總體參數表示的某種統計假設,能夠證實某種假設條件的合理性。多元總體參數估計、假設檢驗第十八頁,共二十四頁,2022年,8月28日1、城鎮居民消費水平通常用八項指標來描述,如人均糧食支出、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項指標存在一定的線性關系。為了研究城鎮居民的消費結構,需要將相關強的指標歸并到一起,這實際就是對指標進行聚類分析。2、在企業經濟效益的評價中,涉及到的指標往往很多,如百元固定資產原值實現產值、百元固定資產原值實現利稅、百元資金實現利稅、百元工業總產值實現利稅、百元銷售收入實現利稅、每噸標準煤實現工業產值、每千瓦時電力實現工業產值、全員勞動生產率、百元流動資金實現產值。如何將這些具有錯綜復雜關系的指標綜合成幾個較少的因子,既有利于對問題進行分析和解釋,又能便于抓住主要矛盾做出科學的評價。可用主成分分析和因子分析法。第十九頁,共二十四頁,2022年,8月28日3、某一產品是用兩種不同原料生產的,試問此兩種原料生產的產品壽命有無顯著差異?又比如,若考察某商業行業今年和去年的經營狀況,這時需要看這兩年經營指標的平均水平是否有顯著差異以及經營指標之間的波動是否有顯著差異。可用多元正態總體均值向量和協差陣的假設檢驗。4、按現行統計報表制度,農村家庭純收入是指農村常住居民家庭總收入中扣除從事生產和非生產經營用支出、稅款和上交承包集體任務金額以后剩余的、可直接用于進行生產的、非生產性建設投資、生產性消費的那一部分收入。如果我們收集某年各個省、自治區、直轄市農民家庭人均純收入的數據,可以用相應分析,揭示全國農民人均純收入的特征以及各省、自治區、直轄市與各收入指標的關系。第二十頁,共二十四頁,2022年,8月28日5、某醫院已有100個分別患有胃炎、肝炎、冠心病、糖尿病等的病人資料,記錄了他們每個人若干項癥狀指標數據。如果對于一個新的病人,當也測得這若干項癥狀指標時,可以利用判別分析方法判定他患的是哪種病。6、有100種酒,品嘗家可以對每兩種酒進行品嘗對比,給出一種相近程度的得分(越相近得分越高,相差越遠得分越低),希望用這些得分數據來了解這100種酒之間的結構關系。這樣的問題就可以用多維標度法來解決。7、在地質學中,常常要研究礦石中所含化學成分之間的關系。設在某礦體中采集了60個標本,對每個標本測得20個化學成分的含量。我們希望通過對這20個化學成分的分析,了解礦體的性質和礦體形成的主要原因。第二十一頁,共二十

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論