本科畢業論文 統計回歸模型的研究_第1頁
本科畢業論文 統計回歸模型的研究_第2頁
本科畢業論文 統計回歸模型的研究_第3頁
本科畢業論文 統計回歸模型的研究_第4頁
本科畢業論文 統計回歸模型的研究_第5頁
已閱讀5頁,還剩17頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、統計回歸模型的研究 論文作者:林成家 專 業:信息與計算科學 班 級:050803 學 號:20052005 指導教師:楊孝英 摘 要統計回歸模型是用一個或多個其他變數來預測另一個變量。通過現在或過去事件的信息來預測現在和未來的事項,同時統計回歸模型在現實中的應用更是有著廣泛和實際的意義。本論文主要研究統計回歸模型在現實生活中的應用,以達到學以致用的目的。文章分三個部分,第一部分,統計回歸模型的概念以及基礎知識;第二部分是統計回歸模型在現實生活中實際應用的示范舉例,例如在電信行業、化工行業、農業等方面;第三部分是文章的總結。文章涉及到最小二乘法解法以及t檢驗,F檢驗,誤差分析,殘差分析,區間估

2、計等本科學習中的一些知識,這也是對以前所學知識的一種復習與鞏固,希望通過研究能真正達到將理論知識應用到現實生活中的效果,為社會更好的服務。關鍵詞:統計回歸模型 最小二乘法 t檢驗 區間估計AbstractStatistical regression models are used to predict one variable from one or more other variables. Regression models provide the scientist with a powerful tool, allowing predictions about past, presen

3、t, or future events to be made with information about past or present events. At the same time, the statistical regression model is a broad and practical significance application in reality. This paper major research the application of statistical regression model in real life, the purpose is apply

4、what they have learned. The article is divided into three parts: the first part is the concept of statistical regression model and basic knowledge; the second part is the examples of statistical regression model in real life, for example, in the telecommunications industry, chemical industry, agricu

5、lture, etc; the third part is a summary of the article. Articles related to some knowledge in undergraduate study, such as least squares solution and the t test, F test, error analysis, residuals analysis, interval estimation. This is a review and consolidation to the previously learned knowledge. H

6、ope through research to be able to really achieve the desired effect that theoretical knowledge apply to real life, better service for the community.Keywords: statistical regression model, least squares, t test, interval estimation目 錄一、緒論1二、統計回歸模型的應用3 1、統計回歸模型在電信行業的應用 51.1指標選取及小組劃分51.2 各組電信業務收入回歸模型及

7、其檢驗61.3各組影響因素分析 71.4結論及研究意義 8 2、統計回歸模型在化工行業的應用 9 2.1統計回歸模型在酮苯脫蠟脫油裝置上的應用 92.2酮苯脫蠟模型建立 102.3模型驗證 112.4蠟收率模型驗證 132.5 結論 15 3、統計回歸模型在農業中的應用 15 3.1 建模背景 153.2 組建統計回歸模型 1633 回歸值的統計精度分析 183.4 概率預報及其區間估計 183.5 結語 19三、參考文獻 21 一、緒論當人們對研究對象的內在特性和各因素的關系有比較充分的認識時,一般用機理分析方法建立數學模型,如果由于客觀事物內部規律的復雜性以及人們認識程度的限制,無法分析實

8、際對象內在的因果關系,建立合乎機理規律的數學模型,那么通常的辦法是搜索大量的數據,基于對數據的統計分析去建立模型,而統計回歸模型是一種用途非常廣泛的一類隨機模型。同時統計回歸模型在現實應用中應用更加廣泛。本論文就是基于統計回歸模型的理論在現實生活中各行各業的實際應用來加以研究。二、統計回歸模型在現實中的應用1.統計回歸模型在電信業務的應用目前,我國各大電信集團的業務發展及收入多呈自然地域的特點,而電信業務的發展受當地經濟發展狀況、消費者文化程度及消費水平等因素的影響和制約,集團在制定收入計劃時能否可以參考當地經濟發展指標的變動而客觀地制定集團宏觀和微觀的業務收入計劃,并根據當地社會發展規劃進行

9、必要的調整。通過2002年-2004年一些社會指標,建立了各組電信業務收入與社會經濟指標之間的回歸模型。11指標選取及小組劃分各地區經濟指標種類繁多,總體來看,主要包括國民經濟核算、人口、教育、勞動就業、固定資產投資、能源生產與消費、財政、物價及各行業指標。在眾多指標中,難免會存在相關性較高的指標,在回歸分析中,這種多重共線性的存在不僅使得回歸模型難以真實的反映各指標與電信業務收入的關系,而且指標間的相互扭曲會導致部分指標統計量不顯著。選取人均電信業務收入為電信發展水平被解釋變量,以人均GDP、最終消費與資本形成總額的比值、人口數、大專以上人口占6歲以上人口的比值四項指標分別代表當地經濟發展水

10、平、消費水平、人口總量、文化程度,如表1,并進行了人均電信業務收入和人均GDP及人口數的對數處理。在指標和量綱的選取思路是,人均指標與比例指標的選取避免了多重共線性問題,又很好地表現了經濟屬性,并對人均指標和人口數量進行了對數處理,對數的選擇既平衡了各統計量的數值懸殊問題,又平衡了指標中實際值與比例值的差別。根據人均GDP和人均電信業務收入2002-2004年指標,經過聚類分析得到四組,如表2所示。1.2各組電信業務收入回歸模型及其檢驗對于2002-2004年的數據,我們視為截面數據,直接采用多元回歸模型進行擬合,并對其結果進行檢驗。在確定了具有代表性而且不存在多種共線性問題的經濟指標的基礎上

11、,對各個小組分別進行回歸分析,建立多元線性回歸方程如下:y=0+1x1+2x2+3x3+4x4+其中, y, x1, x2, x3, x4如表1所述,將各組中某地區2002-2004年的各指標作為一個統計量,通過最小二乘估計得到以下各組回歸方程第一組: y=-1.135+1.003+5.826, =0.989 F=267.07第二組: y=-14.417+2.005+1.176, =0.831 F=36.98第三組: y= -3.3+1.131+0.407-0.262+3.525 =0.787F=96.14第四組: y=0.895+0.740-0.1-0.25, =0.848 F=88.45各

12、組均經F檢驗有效,對所有回歸方程的殘差分析,無異常值出現,并進行了擬合,得到了良好的回歸誤差分析效果,回歸模型誤差分析結果略。1.3各組影響因素分析回歸模型不僅從數量上反映了各指標因素與電信行業收入指標的關系,而且確定了各地區電信業務收入指標的影響質量。每一組的模型中,影響電信業務收入指標的各因素的解釋能力各不同,而且影響的正負方向也不同,如表3通過提高經濟發展水平可以促進除第一組外的其它三組的電信發展水平,它們與電信發展水平之間具有強的乘數效應;提高消費水平可以促進第二組和第三組的電信發展水平,但卻將減少第四組的電信發展水平;提高文化程度可以增加和第一組和第三組的電信發展水平擴大人口數量將提

13、高第一組電信發展水平,卻減少第三組電信發展水平。(1)具有電信發展水平高、經濟發達、消費水平高、人口文化程度高的特點從回歸模型的結果來看,人口規模和文化程度兩個因素同時對電信發展有顯著的正向影響作用,其中,人口規模對人均電信業務收入的彈性系數略大于1,文化程度每增長1單位則促進人均電信業務收入增長5.826單位。經濟發展和消費水平兩個因素對電信發展的影響不顯著,表明該組的經濟水平的提高已經很難再對電信發展做出新貢獻,即電信發展水平的提高已經不依賴于當地經濟發展水平和消費水平的提高,而且較大程度地依賴當地人口文化程度的提高,同時,隨著人口規模的擴大,促進電信發展水平的提高。因此,建議第一組以吸引

14、高層次人才的方式提高人口文化程度,擴大人口規模,這正與目前的政策相吻合。(2) 具有經濟較發達且人口眾多、文化程度較高、消費水平較高的特點對于經濟發達的省份,經濟發展水平和消費水平兩個因素對電信的發展有顯著地正向影響,而其它的兩個因素作用不顯著,經濟發展水平對電信發展水平的彈性系數是2,消費水平對電信發展水平的彈性系數是1.176,相比之下,說明電信發展水平的提高更多地依賴經濟發展水平的提高,建議在提高消費水平的同時,大力提高經濟發展水平,以提高電信發展水平,而人口規模和文化程度對電信發展水平的提高不顯著,因此,不能依賴人口的增加和人口文化程度的提高的方式促進電信發展水平的提高。(3)經濟整體

15、實力較低,多數邊遠省份,人口數量少,人口文化程度普遍不高,消費水平較低四個因素都對電信的發展有顯著的影響,其中,人口規模因素是負的影響,這可能是由于這些地區的地理區域大,人口卻很稀少,導致對電信發展的束縛,而其它因素都是正向的,影響最大的是人口文化程度,因此,建議該組以不擴大人口規模、快速提高文化程度、加快經濟發展水平、提高消費水平的方式來增加電信發展水平,特別是電信發展水平對人口文化程度的變化最敏感。(4)經濟發展對電信發展產生正的影響作用,消費水平和人口規模均對電信的發展有負的影響作用,人口文化程度的影響作用不顯著相比之下,經濟發展是該組促進電信發展的唯一正向動力,其落后已經嚴重制約了電信

16、發展水平,同時要控制人口規模的增長,降低消費與資本形成的比值,即相對最終消費而言,適度擴大資本總量的方式促進電信發展。1.4結論及研究意義我國電信業務收入水平依賴當地經濟發展水平、消費水平、人口總量及文化教育程度方面的影響和制約,各影響因素的影響程度分小組而不同。通過建立和分析各小組電信業務收入回歸模型,得到各組電信業務收入的主要影響作用指標和依賴程度。因此,在制定微觀收入分配計劃時,可以參照或跟蹤當地經濟發展水平提高的幅度、參考當地消費水平的變化幅度、或者根據人口總量和文化程度的變化做相應的調整,得到較為客觀、可依賴的、現實的社會經濟指標量化的依據。2.統計回歸模型在化工上的應用2.1統計回

17、歸模型在酮苯脫蠟脫油裝置上的應用在相關文獻資料的基礎上,應用SPSS統計軟件、采取多元線性回歸方法找出影響酮苯脫蠟裝置200SN正序油、蠟產品收率的因素進行建模,同時予以驗證,將經驗性調整操作參數轉變為定量化指導生產,從而達到了生產關鍵操作參數定量化并能預測產品收率。影響酮苯脫蠟油收率、蠟收率因素較多,本次引入自變量依次為:X1原料油量;X2一次稀釋比;X3二次稀釋比;X4三次稀釋比;X5濾機進料溫度;X6酮比;X7一段稀釋量;X8二段稀釋量;X9一段溫度;X10二段溫度。因變量為:Y1油收率,%;Y2蠟收率,%。本模型立足點是將操作數據給予定量化處理,得到的模型可用以預測和規劃,并為下一步調

18、優打下良好基礎,從而實現效益最大化。在數理統計原理基礎上,利用SPSS(12. 0版)統計分析軟件,對2005至2006年裝置相關數據進行采集、整理,以8 h為基準,采集從2005年8月1日到2006年8月1日共計一年的歷史數據,剔除非正常生產數據,取值范圍原料為200SN正序生產工藝、產品為58#半煉脫蠟及脫蠟油,進行多元線性回歸建立數學模型,本次建模共計269組樣本數據,符合SPSS統計軟件要求。2.2酮苯脫蠟模型建立利用SPSS多元線性回歸軟件,采用逐步回歸方法,從269組數據里剔除了7組數據,有效數據為262組。得到200SN原料油收率數學模型。回歸結果見表1。油收率模型:Y1=64.

19、 324+6. 136一次稀釋比-12. 094二次稀釋比+8. 671三次稀釋比-0. 148濾機進料溫度利用多元線性回歸,采用逐步回歸法,從269組數據里剔除了5組數據,有效數據為264組。得到200SN原料蠟收率數學模型。回歸結果見表2蠟收率模型:Y2=12. 137+0. 313原料油量+4. 427二次稀釋比+4. 710三次稀釋比+0. 154酮比 -0. 112二段稀釋量-0. 123一段溫度2.3模型驗證(1)擬合優度檢驗從表3可以看出: R=0. 564,判定系數R2=0. 318,調整的判定系數R2=0. 302,調整的判定系數0. 302大于0. 1946,且油收率逐步回

20、歸模型樣本數為262,大于254,本模型有效。(2)F檢驗方差分析(F檢驗法)進行回歸方程的顯著性全檢驗。從表3可以看出:統計量F=28. 809,大于概率統計值要求的F3. 84;相伴概率值小于0. 001;說明自變量X與因變量Y之間確有線性回歸關系,滿足要求,該模型有效。(3)實際驗證回歸的模型可以對實際生產予以解釋,同時模型還有估計作用,即在數據文件內,通過鍵入自變量的值,進行一次回歸操作,則可以得出估計值。在實際生產優化工作中,可根據上述模型進行預測未知的生產數據。隨機取2006年11月數據代入模型中驗證,實際準確率達95%左右。經過上述檢驗,說明模型可以實際應用。2. 4蠟收率模型驗

21、證(1)擬合優度檢驗從表4可以看出: R=0. 604,判定系數R2=0. 365,調整的判定系數R2=0. 350,調整的判定系數0. 350大于0. 1946,且總液收逐步回歸模型樣本數為264,大于254,本模型有效。D-W值符合統計假設要求,通過檢驗。(2)F檢驗見方差分析表5,從輸出的結果可以看出:統計量F=24. 705,大于概率統計值要求的F3. 84;相伴概率值小于0. 001;說明自變量X與因變量Y之間確有線性回歸關系,滿足要求,該模型有效(3)實際驗證隨機取2006年11月數據代入模型中驗證,實際準確率達95%左右。經過上述檢驗,說明模型可以實際應用。2.5結論(1)通過使

22、用SPSS軟件,利用線性回歸方法,以酮苯脫蠟裝置2005年8月至2006年8月實際操作數據為基礎,得到了關于酮苯脫蠟裝置油收率、蠟收率的模型。經檢驗回歸,模型都可以反映生產實際,同時通過了驗證。(2)相關部門可以根據市場的需求,結合上述數學模型,利用線性規劃模塊進行優化,得出各變量的最佳變化范圍,從而科學地做出生產經營決策,指導裝置的生產,實現效益最大化。3統計回歸在農業育種上的應用3.1 建模背景統計回歸模型的因變量與自變量多為一種不確定的函數關系,不能期望自變量的數值相同,因變量的數值必然相同。如稻谷產量與生育期總積溫這兩個變量就存在著不完全確定的關系,即生育期總積溫相同,在不同的年分里,

23、既使在同一塊田里,稻谷的產量也往往不同。出現這類情況的原因是很復雜的,因為影響稻谷產量的因子是多樣的,且因子之間又相互制約,再加上一些其他偶然因素的作用,就使得變量之間的關系形成了不確定性。這種不確定的關系可以稱之為統計相關關系,所建立的回歸方程,稱為統計回歸模型。在實際工作中,依據有限容量的樣本數據,只要經過因子篩選和模式選擇,方差分析達到顯著水平是不難實現的。但利用這種統計回歸模型對因變量做出預測,其效果往往不是很理想的。原因是利用樣本資料,可以建立多種方差分析達到顯著水平的統計預報模型。需要對這些模型進行統計精度的對比分析,在此基礎上,選擇幾種實用模型作為統計預報模型,不僅要給出預報量,

24、還要給出其不同概率下的預報值的變化幅度,才能真正滿足用戶的需要。這種預報可以稱之為概率預報。在多數情況下,用戶還要根據生產(業務)的實際需要,對預報精度提出具體要求,這更有必要對預報模型進行統計精度的對比分析。顯然,在過去的工作中往往忽略了這一點。利用一組農業區域試驗資料,試圖通過對若干曲線統計回歸模型進行相關檢驗和統計精度分析達到上述目的,以期改變某些定量的農業氣象預報的發布內容和形式。相信這種概率預報嘗試將會得到農業指揮機關和主產單位的歡迎與認可;將會推動農業氣象預報的技術進步。3.2組建統計回歸模型因子普查是組建統計回歸模型的第一步。根據農業氣象基礎理論知識,影啊稻谷殼率的主要氣象因子是

25、減數分裂期,穗花期的氣溫、日照、降水、風等。低溫寡照、高濕、強降水、北風等都將不同程度地增加稻谷空殼率。為此,我們利用一組20個樣本的水稻空殼率資料,從抽穗前20天至抽穗后10天.普查各種相關氣象要素與空殼率的相關關系。發現空殼率與抽穗前后5日平均氣溫相關系數最大.,r-0.8358,達極顯著水平(附圖)。模型選擇是在因子普查基礎上,組建統計回歸方程極為重要的環節。在稻谷空殼率的5日平均氣溫散點圖中,依據點子的分布狀況,結合統計數學的基本知識、可以用8種配線去逼近這些經驗點子,其數學表達式為 (1) - 顯然,除外其余7種均屬曲線。式(2- 8)都是可以經過變量變換將曲線相關化成直線相關的即都

26、可以化成式(l)的形式,通過新的直線形式去求解待定系數,自然希望方程的總誤差最小為佳,根據最小二乘法原理可求上列各式的待定系數。然后將各系數代入原式,則有:模型 (直線) a=258.2323 b=-11.51902模型(冪函數) b=-7.838483 模型(帶常量的冪函數) b=-24.1398 c=13.7 模型(指數函數) b=-0.3872072 d=56145.4模型(帶常量的指數函數) b=-1.263781 c=13.8 模型(雙曲線) a=-0.3555285 b=-6.177478模型(帶常量的雙曲線) a=-7.105693 b=0.4046098模型(帶常量的對數函數)

27、 a=729.6324 b=-539.688從理論上講,從這8種模型中篩選試驗資料的最佳配線,首先需要對變量關系進行線性和非線性檢驗,即比較直線相關系數(r)與曲線相關比(R)的大小。在一般情況下,當R= r時,兩個變量之間的關系為直線相關;當(R>r)時,為曲線相關;(R- r)值越大,曲線相關越明顯。那么,(R- r)值達到什么程度才可以認為曲線相關顯著呢?則需要對及與r的差異進行顯著性t檢驗(表1)。所有模型的相關系數、F、值及(R一r)差異的t檢驗值的大小分布順序都是一致的,前兩者均達到極顯著水平,后者直線與曲線的差異。檢驗未達顯著程度,故曲線與直線的差異在統計上無顯著區別:其值

28、變化在0.3165041.185 070。顯然,如果沒有各預計回歸模型各相關檢驗參數的比較,利用這組試驗數據選配直線或任一曲線方程都是可以的。但從表1的相關系數(R)和F值來看,模型y7的值為最大,分別為0.989675和797.1965,而(R-r)差異t檢驗雖未獲通過,但也是8個模型中最高的,達到1.185070,.也就是說,7個曲線中,與直線差異最大的也屬模型y7。 表 1 各統計回歸模型的相關檢驗參數模式代碼Y3(R-r)差異t -0.7646141.178 614 0.686815R0.8358100.9030540.9881320.890462F41.718 752.2978776

29、.4332 44.2159模式代碼(R-r)差異t 1.1741591.0999771.1850700.316504R0.9870710.9698290.9896750.847711F703.3885204.5639797.196546.007933 回歸值的統計精度分析為了增加回歸方程的穩定性,客觀地反映變量間的內在規律,提高方程精度和實用價值,一是要千方百計地保證觀測數據本身的精確度,努力減少測量誤差;二是盡可能增加觀測次數,擴大樣本容量;三是盡可能增大觀測數據的離散程度。其目的集中一點,就是最大限度地減少回歸估計值的波動,確保方程有足夠的精度。對于直接影響待定系數波動大小的回歸值的彼動可

30、用其標準差表示 (9)顯然,回歸值的波動大小不僅與剩余標準差、樣本容量和自變量的離散程度有關,還與x的取值密切相關,即X越接近平均數,其回歸值的波動越小,方程精度愈高,回歸效果愈好。對于固定的、則Y的取值是以回歸值為中心有所波動,判斷波動的顯著性也可以用t檢驗法。并達到了極顯著水平,說明了這些模型的回歸效果均較好。但由于值線化后的Y軸量綱發生了變化而失去比較性,所以僅憑的大小不能直接判斷方程的優劣,為此需返回到各類曲線模型去鑒別。總之提高統計回歸模型精度的因素除去其他隨機因素的制約外,可以歸納為:觀測數據的準確性(同步行);樣本容量的充足性;自變量的離散性;方程剩余標準差的微小型。而剩余標準差

31、是表述所有因素對因變量綜合影響的重要指標,是衡量統計回歸模型精度極為重要的參數,在篩選模型中具有舉足輕重的作用。3.4 概率預報及其區間估計在實踐中,用統計回歸模型進行實際預報時,這種模型可稱之為統計預報模型。在實施預報時,考慮到樣本容量的有限性、觀測誤差的隨機影響以及回歸方程的穩定性等因素,對于固定的x= x。,則Y的取值雖仍以為中心對稱波動,但其波動程度的標準差實際上要比方程的剩余標準差大。此時,預報值的標準差應為 (10)預報值的對稱波動范圍可以稱為統計預報模型的變幅,統計上稱為置信區間。估計置信區間的發生可能程度即為概率,這種預報可稱之為概率預報,則區間估計 (11)為便于比較,這里分

32、別給出了當x。=18.2、20.1、22.0時,8個模型3個信度下的預報值及區間估計(表2)。 表2 各統計預報模型預報值及置信區間其一,對于固定的。,則預報Y的取值是y。為中心對稱分布的。以模型7為例,當x=18.2時,則數學期望值=70.90384,有99.9%的機會可落在60.6489481.15874,即置信區間是以70.90384為中心,以為振幅上下波動。有80%的機會落在76.4262774.38141,是以70.90384為中心以為振幅上下波動。依此類推,可以估算出任何概率下的置信區間。若以模型6為例,當x。=18.2時.則預報值y的數學期=62.08623,有99.9呢的機會落

33、在44.51731 79.65514,有95%的機會落在52.67463 71.49783,有80%的機會落在56.1283868.04407,其振幅分別為士3.9225、士2.1025、士1.3305。由此不難看出,預報要求的概率愈大,其置信區間愈寬。剩余標準差決定了預報精度,S愈小,預報值置信區間愈窄,預報的精度愈高;反之.5愈大,頂報位置信區間愈寬,預報的精度愈差。模型7與模型6對比.顯然,模型7比模型6的預報精度高得多。其二.在有限樣本容量的前提下,利用模型實施頂報時,預報值的波動,即它的標準差不儀比回歸模型的剩余標準差要大,而且,它的取值還與x的取值有關。二的取值愈接近平均數,預報值

34、y的波動范圍愈小,預寸伎的精度愈高。仍以模型7為例.當x=18.2時.預報值的標準差=2.614713;當x=20.1時(二序列的平均數). =2.46053()(最小),在99.9%概率下的置信區間為10.33937 29.63976,顯然,振幅相對變小了,為士9.6501950。當x的取值等于x士d時,對于給定的概率,預報值的置信區問相同。其三,綜觀8種回歸模型,無論x的取值如何,均以模型7的標準差為最小,預報值的置信區間最窄,預報的精度最高;其次為,模型;以后依次為,: ,,:,最差的為模型,其標準差為模型7的3.83倍。3.5結語5.1利用一組樣本資料所建立的8種回歸模型,雖然在相關檢驗和方程精度檢驗等方面均能達到統計上的要求。但在實施預報時,首先需要對各種回歸模型進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論