統計學數學模型_第1頁
統計學數學模型_第2頁
統計學數學模型_第3頁
統計學數學模型_第4頁
統計學數學模型_第5頁
已閱讀5頁,還剩5頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、多元回歸 1、方法概述: 在研究變量之間的相互影響關系模型時候,用到這類方法,具體地說:其可以定量地描述某一現象和某些因素之間的函數關系,將各變量的已知值帶入回歸方程可以求出因變量的估計值,從而可以進行預測等相關研究。 2、分類  分為兩類:多元線性回歸和非線性線性回歸;其中非線性回歸可以通過一定的變化轉化為線性回歸,比如:y=lnx 可以轉化為 y=u  u=lnx來解決;所以這里主要說明多元線性回歸應該注意的問題。 3、 注意事項   在做回歸的時

2、候,一定要注意兩件事: (1) 回歸方程的顯著性檢驗(可以通過sas和spss來解決) (2) 回歸系數的顯著性檢驗(可以通過sas和spss來解決) 檢驗是很多學生在建模中不注意的地方,好的檢驗結果可以體現出你模型的優劣,是完整論文的體現,所以這點大家一定要注意。 4、使用步驟: (1)根據已知條件的數據,通過預處理得出圖像的大致趨勢或者數據之間的大致關系;  (2)選取適當的回歸方程;  (3)擬合回歸參數;  (4) 回歸方程顯著性檢驗及回歸系數顯著性檢驗&#

3、160;(5)  進行后繼研究(如:預測等) 這種模型的的特點是直觀,容易理解。 這體現在:動態聚類圖可以很直觀地體現出來! 當然,這只是直觀的一個方面! 二、聚類分析 聚類有兩種類型: (1)  Q型聚類:即對樣本聚類; (2) R型聚類:即對變量聚類; 聚類方法: (1) 最短距離法 (2) 最長距離法 (3) 中間距離法 (4) 重心法 (5) 類平均法 (6) 

4、;可變類平均法 (7) 可變法 (8) 利差平均和法 在具體做題中,適當選取方法; 3、注意事項 在樣本量比較大時,要得到聚類結果就顯得不是很容易,這時需要根據背景知識和相關的其他方法輔助處理。 還需要注意的是:如果總體樣本的顯著性差異不是特別大的時候,使用的時候也要注意! 4、 方法步驟 (1)首先把每個樣本自成一類; (2)選取適當的衡量標準,得到衡量矩陣,比如說:距離矩陣或相似性矩陣,找到矩陣中最小的元素,將該元素對應的兩個類歸為一類, (4)重復第2步,直到只剩下一個

5、類; 補充:聚類分析是一種無監督的分類,下面將介紹有監督的“分類”。 我簡單說明下,無監督學習和有監督學習是什么 無監督學習:發現的知識是未知的 而有監督學習:發現的知識是已知的 或者這么說吧: 有監督學習是對一個已知模型做優化,而無監督學習是從數據中挖掘模型 他們在分類中應用比較廣泛 (非數值分類) 如果是數值分類就是預測了,這點要注意 三、數據分類 1、方法概述  數據分類是一種典型的有監督的機器學習方法,其目的是從一組已知類別的數據中發現分類模型,以預測新數據

6、的未知類別。 這里需要說明的是:預測和分類是有區別的,預測是對數據的預測,而分類是類別的預測。 2、 類別 方法:  (1)神經網路  (2)決策樹(這里不再闡述,有興趣的同學,可以參考數據挖掘和數據倉庫相關書籍) 3、注意事項 1 神經網路適用于下列情況的分類: (1) 數據量比較小,缺少足夠的樣本建立數學模型; (2) 數據的結構難以用傳統的統計方法來描述 (3) 分類模型難以表示為傳統的統計模型 這里主要介紹以上三點,其

7、他的情況大家可以自己總結! 2 神經網路的優點: 分類準確度高,并行分布處理能力強, 對噪聲數據有較強的魯棒性和容錯能力 能夠充分逼近復雜的非線性關系,具備聯想記憶的功能等。 3 神經網路缺點: 需要大量的參數,不能觀察中間學習過程,輸出結果較難解釋,會影響到結果的可信度,需要較長的學習時間,當數據量較大的時候,學習速度會制約其應用。 4、步驟 這里只做簡略說明,具體步驟,大家可以查閱神經網路數據挖掘等相關書籍 (1)初始化全系數  (2)輸入訓練樣本 &

8、#160;(3)計算實際輸出值  (4)計算實際輸出值和期望輸出值之間的誤差  (5)用誤差去修改權系數  (6)判斷是否滿足終止條件,如果滿足終止,否則進入第二步 .四、判別分析 1、 概述  其是基于已知類別的訓練樣本,對未知類別的樣本判別的一種統計方法,也是一種有監督的學習方法,是分類的一個子方法! 具體是:在研究已經過分類的樣本基礎上,根據某些判別分析方法建立判別式,然后對未知分類的樣本進行分類! 2、分類 根據判別分析方法的不同,可分為下面幾類: 

9、;(1) 距離判別法 (2) Fisher判別法 (3) Bayes判別法 (4) 逐步判別法 關于這幾類的方法的介紹,大家可以參考多元統計學,其中比較常用的是bayes判別法和逐步判別法 3、 注意事項: 判別分析主要針對的是有監督學習的分類問題。共有四種方法,這里重點注意其優缺點:(1) 距離判別方法簡單容易理解,但是它將總體等概率看待,沒有差異性; (2) Bayes判別法有效地解決了距離判別法的不足,即:其考慮了先驗概率所以通常這種方法在實際中應用

10、比較多! (3) 在進行判別分析之前,應首先檢驗各類均值是不是有差異(因為判別分析要求給定的樣本數據必須有明顯的差異),如果檢驗后某兩個總體的差異不明顯,應將這兩個總體合為一個總體,再由剩下的互不相同的總體重現建立判別分析函數。 (4) 這里說明下Fisher判別法和bayes判別法的使用要求:兩者對總體的數據的分布要求不同,具體的,Fisher要求對數據分布沒有特殊要求,而bayes則要求數據分布是多元正態分布,但實際中卻沒有這么嚴格! (5)這種方法可以利用spss,sas等軟件來輕松實現 4、方法步驟  這里

11、以bayes判別法為例簡要講述,具體的方法和軟件實現,可以去數學中國網站下載或者參考多元統計學 (1)  計算各類中變量的均值xj及均值向量xh,各變量的總均值xi及均值向量x (2) 計算類內協方差及其逆矩陣 (3) 計算bayes判別函數中,各個變量的系數及常數項并寫出判別函數 (4) 計算類內協方差矩陣及各總協方差矩陣做多個變量的全體判別效果的檢驗 (5) 做各個變量的判別能力檢驗 (6) 判別樣本應屬于的類別 1.5主成分分析 1、 概述 

12、; 主成分分析是一種降維數的數學方法,具體就是,通過降維技術獎多個變量化為少數幾個主成分的統計分析方法。在建模中,主要用于降維,系統評估,回歸分析,加權分析等等。 2、 分類(無) 3、注意事項 在應用主成分分析時候,應該注意: (1) 綜合指標彼此獨立或者不相互干涉(2) 每個綜合指標所反映的各個樣本的總信息量等于對應特征向量的特征值。通常要選取的綜合指標的特征值貢獻率之和應為80%以上 (3) 其在應用上側重于信息貢獻影響力的綜合評價 (4) 當主成分因子負荷的符號有正也有負的時候

13、,綜合評價的函數意義就不明確! 4、方法步驟  大家可以參考多元統計學這本書籍,在這里就不做闡述,也可以從數學中國網站的統計學板塊下載! 六、因子分析 1、概述  其是也是將變量總和為數量較少的幾個因子,是降維的一種數學技術! 它和主成分分析的最大區別是:其是一種探索性分析方法,即:通過用最少個數的幾個不可觀察的變量來說明出現在可觀察變量中的相關模型(有點類似于前面講述的分類和聚類的區別,大家好好體會下)它提供了一種有效的利用數學模型來解釋事物之間的關系,體現出數據挖掘的一點精神! 2、 分類 

14、 因子分析是R型,即對變量研究 3、注意事項 (1)其不是對研究總體的變量的降維,而是根據原始變量信息構造新的變量,作為共同因子,這點區別于主成分分析 (2)它通過旋轉可以使得因子變量具有可解釋性(這塊可能不容易理解,大家可以去找因子分析的相關書籍查閱,搞清楚這塊,對于你解釋模型會起到很大的作用) (3)這里說明下,因子分析和主成分分析的區別和聯系 <1>兩者都是降維數學技術,前者是后者的推廣和發展 <2>主成分分析只是一般的變量替換,其始終是基于原始變量研究數據的模型規律;而因子分析則是通過挖掘出新

15、的少數變量,來研究的一種方法,有點像數據挖掘中的未知關聯關則發現! 4、方法步驟 (略)大家可以去論壇上下載相關電子資源,也可以參考多元統計學七、殘差分析 1、 概述 在實際問題中,由于觀察人員的粗心或偶然因素的干擾。常會使我們所得到的數據不完全可靠, 即出現異常數據。 有時即使通過相關系數或F檢驗證實回歸方程可靠,也不能排除數據存在上述問題。殘差分析的目的就在于解決這一問題。所謂殘差是指實際觀察值與回歸估計值的差。 2、分類 無 3、應用 (1)通過殘差分析來排除異常數據 

16、(2)通過殘差分析來檢驗模型的可靠性 還有很多應用,大家在使用過程中據情況選取,靈活應用! 八、典型相關分析 1、概述 前面介紹的方法主要是一個變量和多個變量之間的關系,而典型相關分析研究的是多個變量和多個變量之間的關系,或者是一組變量和一組變量之間關系! 其可以揭示兩組變量之間的關系,從而供大家研究兩個現象之間的關系。 例如:蔬菜的產出水平和影響產出水平的變量之間的關系! 2、分類 多對多的變量關系研究! 3、注意事項 (1)其可以很好地解決組合相關性的問題 (2)其還局限于兩組變量

17、的研究,而且要求這兩組變量都是連續變量且需服從多元正態分布 九、時間序列 1、概述 時間序列預測法是一種定量分析方法,它是在時間序列變量分析的基礎上,運用一定的數學方法建立預測模型,使時間趨勢向外延伸,從而預測未來市場的發展變化趨勢,確定變量預測值。 其基本特點是:假定事物的過去趨勢會延伸到未來;預測所依據的數據具有不規則性;撇開市場發展之間的因果關系。 2、分類 時間序列的變動形態一般分為四種:長期趨勢變動,季節變動,循環變動,不規則變動。 方法分類: (1)  平均數預測(簡單算術平均法,加權算術平均法,幾何平均數法) (2) 移動平均數預測(一次移動平均法,二次移動平均法) (3) 指數平滑法預測(一次,二次,三次指數平滑法) (4) 趨勢法預測(分割平均法,最小二乘法,三點法) (5) 季節變動法(簡單平均法,季節比例法) 3注意事項 (1)季節變動法預測需要籌集至少三年以上的資料 (2)移動平均法在短期預測中較準確,長期預測中效果較差; (3)移動平均可以消除或減少時間序列數據受偶然性因素干擾而產生的隨機變動影響。 (4)一次移動平均法適用于具有明顯線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論