


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、實 驗 三: 統 計 回 歸 模 型 M a t丨a b 求 解一、實驗目的1 通過范例學習建立統計回歸的數學模型以及求解全過程;2 熟悉MATLAB求解統計回歸模型的過程。二、實驗原理問題:一家技術公司人事部門為研究軟件開發人員的薪金與他們的資歷、管理責任、教育程度等因素之間的關系, 要建立一個數學模型,以便分析公司人事策略的合理性,并作為新聘用人員薪金的參考。他們認為目前公司人員的薪金總體上是合理的,可以作為建模的依據,于是調查來46名軟件開發人員的檔案資料,如表4,其中資歷一列指從事專業工作的年數,管理一列中1表示管理人員,0表示非管理人員,教育一列中1表示中學程度,2表示大學程度,3表
2、示更高程度(研究生)編號薪金資歷管理教育編號薪金資歷管理教育0113876111242288461202M160810325169787110318701113261480380204112831022717404811051176710328221848130620872212291354880107117722023014467100108105352013115942100209121952033223174101310M231330233237801012111497531134254101112122137131235148611101131980031336168821202141
3、14174013724170121315202634133815990130116132314033926330131217M28844024017949140218132455024125685151319p1367750342278371612201596551143188381602211236660144174831601222135261345192071702231383960246193642001分析與假設 按照常識,薪金自然隨著資歷的增長而增加,管理人員的薪金應高于非管理人員,教育程度越高薪金也越高。薪金記作y,資歷記作x1,為了表示是否管理人員,定義:1,管理人員X2 =
4、<10,非管理人員.為了表示3種教育程度,定義:這樣,中學用 x3=1,X4=0表示,大學用 X3=0,X4 = 1表示,研究生則用 X3=0,X4=0表示。 假定資歷對薪金的作用是線性的,即資歷每加一年,薪金的增長是常數;管理責任、教育程度、 資歷諸因素之間沒有交互作用,建立線性回歸模型。基本模型 薪金y與資歷X1,管理責任X2,教育程度X3,X4之間的多元線性回歸模型為y =氏耳為 a?X2 agXg 84X4; ( 1)其中a°,,a4是待估計的回歸系數,;是隨機誤差。MATLAB 的統計工具箱基本函數regress:b,bint,r,rint,stats=regress
5、(y,x,alpha)輸入:y: n維數據向量x: n 5數據矩陣,第1列為全1向量alpha: 置信水平,0.05輸出:b:參數估計值bin t:b的置信區間r :殘差向量y -xbrin t:r的置信區間stats:第一個數為殘差平方即回歸方程之決定系數RA2(R為相關系數)越接近1,回歸方程顯著;第二個數為統計量 F檢驗的值,越大回歸方程越顯著;第三個數為 F對 應概率P,越接近零越好;第四個數 是誤差項的方差估計值在MATLAB 命令窗口輸入代碼 :y=13876;11608;18701;11283;11767;20872;11772;10535;12195;12313;14975;2
6、1371;19800;11417;20 263;13231;12884;13245;13677;15965;12366;21352;13839;22884;16978;14803;17404;22184;13548;1 4467;15942;23174;23780;25410;14861;16882;24170;15990;26330;17949;25685;27837;18838;17483; 19207;19346;x1=1;1;1;1;1;2;2;2;2;3;3;3;3;4;4;4;4;5;5;5;6;6;6;6;7;8;8;8;8;10;10;10;10;11;11;12;12;13;
7、13;14;15;16;16;16;17;20;x2=1;0;1;0;0;1;0;0;0;0;1;1;1;0;1;0;0;0;0;1;0;1;0;1;1;0;1;1;0;0;0;1;1;1;0;0;1;0;1;0;1;1;0;0;0;0; x3=1;0;0;0;0;0;0;1;0;0;1;0;0;1;0;0;0;0;0;1;1;0;0;0;1;0;1;0;1;1;0;0;0;0;1;0;0;1;0;0;0;0;0;1;0;1;x4=0;0;0;1;0;1;1;0;0;1;0;1;0;0;0;0;1;1;0;0;0;0;1;1;0;1;0;0;0;0;1;0;1;1;0;1;0;0;1;1;0;
8、1;1;0;1;0;xb5=o nes(46,1),x1,x2,x3,x4;b,b in t,r,ri nt,stats=regress(y,xb5)可以得到回歸系數及其置信區間(置信水平a=0.05 )、檢驗統計量 R2,F,p結果,結果分析:R2=0.957,即因變量(薪金)的95.7%可由模型確定,F值遠遠超過F檢驗的臨界值,p遠小于a,因而模型(1)從整體來看是可用的。比如,利用模型可以估計(或預測)一個大學畢業、有 2年資歷、管理人員的薪金為模型中各個回歸系數的含義可初步解釋如下:x1的系數為546,說明資歷每增加 1年,薪金增長546 ; x2的系數為6883,說明管理人員的薪金比
9、非管理人員多6883 ; x3的系數為-2994,說明中學程度的薪金比研究生少2994 ; x4的系數為148,說明大學程度的薪金比研究生多148,但是應該注意到 a4的置信區間包含零點,所以這個系數的解釋是不可靠的。需要指出,以上理解是就平均值來說,并且,一個因素改變引起的因變量的變化量,都是在其它因素需不變的條件下才成立的。進一步的討論 a4的置信區間包含零點,說明基本模型(1 )存在缺點。為尋找改進的方向,常用殘差分析法(殘差;指薪金的實際值 y與用模型估計的薪金?之差,是模型(1)中隨機誤差;的估計值,這里用了同一個符號)。為了對殘差進行分析,作圖給岀;與資歷x1的關系(圖1),%圖1
10、yj=11032+546*x1+6883*x2+(-2994*x3)+148*x4;eb=y-yj;plot(x1,eb,' r+')圖1:e與資歷X1的關系從圖1中看出,殘差大概分成3個水平,這是由于 6種管理-教育組合混在一起,在模型中未被正確反映的結果我們將影響因素分成資歷與管理一一教育組合兩類,管理一一教育組合的定義如下表把組合標號1,2,3,4,5,6作為變量X5,則由原數據可得x5=2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1;作
11、圖給岀;與管理x2 教育x3,x4組合間的關系(圖2)。%圖2 x5=2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1;plot(x5,eb,'r+')圖2:e與管理一教育組合的關系從圖 2 看,對于前 4 個管理教育組合,殘差或者全為正,或者全為負,也表明教育 組合在模型中處理不當。在模型( 1)中管理責任和教育程度是分別起作用的,事實上,二者可能起著交互作用,如 大學程度的管理人員的薪金會比二者分別得薪金之和高一點。以上分析提示我們,應在基本
12、模型(1)中增加管理 x2 與教育 x3,x4 的交互項,建立新的回歸模型。更好的模型 增加 x2 與 x3,x4 的交互項后,模型記作利用 MATLAB 的統計工具箱 xb7=ones(46,1),x1,x2,x3,x4,x2.*x3,x2.*x4; b,bint,r,rint,stats=regress(y,xb7)得到的結果 :可知,模型(2)的R2和F值都比模型(1)中的有所改進,并且所有回歸系數的置信區間 都不含零點,表明模型( 2)是完全可用的。與模型( 1)類似,做模型( 2)的兩個殘差分析圖(圖 11,圖 12),可以看出,已經消除 了圖 1 和圖 2 中的不正常現象,這也說明
13、了模型( 2)的適用性。% 圖 11yj=11204+497*x1+7048*x2-1727*x3-348*x4-3071*x2.*x3+1836*x2.*x4;eb=y-yj; plot(x1,eb,'r+')% 圖 12 x5=2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;4;1;3;6;1;4;3;6;4;3;1;3;1; plot(x5,eb,'r+')從圖 11、圖 12還可以發現一個異常點:具有 10年策略、大學程度的管理人員(從表 4可 以查出是 33 號),他的
14、實際薪金明顯低于模型的估計值,也明顯低于他有類似經歷的其他人的 薪金。 這可能是由于我們未知的原因造成的。 為了是個別的數據不致影響整個模型, 應該將這個 異常數據去掉,對模型( 2)重新估計回歸系數,得到的結果如表 8,殘差分析圖見圖 13,圖 14。 可以看出,去掉異常數據結果又有改善。% 表 8 y=13876;11608;18701;11283;11767;20872;11772;10535;12195;12313;14975;21371;19800;11417;20 263;13231;12884;13245;13677;15965;12366;21352;13839;22884;1
15、6978;14803;17404;22184;13548;1 4467;15942;23174;25410;14861;16882;24170;15990;26330;17949;25685;27837;18838;17483;19207; 19346;x1=1;1;1;1;1;2;2;2;2;3;3;3;3;4;4;4;4;5;5;5;6;6;6;6;7;8;8;8;8;10;10;10;11;11;12;12;13;13;14;15;16;16; 16;17;20;x2=1;0;1;0;0;1;0;0;0;0;1;1;1;0;1;0;0;0;0;1;0;1;0;1;1;0;1;1;0;0;
16、0;1;1;0;0;1;0;1;0;1;1;0;0;0;0; x3=1;0;0;0;0;0;0;1;0;0;1;0;0;1;0;0;0;0;0;1;1;0;0;0;1;0;1;0;1;1;0;0;0;1;0;0;1;0;0;0;0;0;1;0;1; x4=0;0;0;1;0;1;1;0;0;1;0;1;0;0;0;0;1;1;0;0;0;0;1;1;0;1;0;0;0;0;1;0;1;0;1;0;0;1;1;0;1;1;0;1;0; x5=2;5;6;3;5;4;3;1;5;3;2;4;6;1;6;5;3;3;5;2;1;6;3;4;2;3;2;6;1;1;3;6;4;1;3;6;1;4;3;
17、6;4;3;1;3;1; xb8=ones(45,1),x1,x2,x3,x4,x2.*x3,x2.*x4;b,bint,r,rint,stats=regress(y,xb8)% 圖 13 yj=11200+498*x1+7041*x2-1737*x3-356*x4-3056*x2.*x3+1997*x2.*x4; eb=y-yj;plot(x1,eb,'r+')% 圖 14plot(x5,eb,'r+')三、實驗內容(1)解答實驗原理中的問題 :一家技術公司人事部門為研究軟件開發人員的薪金與他們的資歷、管理責任、 教育程度等因素之間的關系, 要建立一個數學模型
18、, 以便分析公司人事策略的合理性, 并作為新聘用人員薪金 的參考。他們認為目前公司人員的薪金總體上是合理的,可以作為建模的依據,于是調查來46名軟件開發人員的檔案資料,如表 4,其中資歷一列指從事專業工作的年數,管理一列中1 表示管理人員, 0 表示非管理人員,教育一列中 1 表示中學程度, 2 表示大學程度, 3 表示更高程度(研究生)編號薪金資歷管理教育編號薪金資歷管理教育01138761112422884612021160810325169787110318701113261480380204112831022717404811051176710328221848130620872212
19、291354880107117722023014467100108105352013115942100209121952033223174101310M23133023323780101211149753113425410111212213713123514861110113198003133616882120214114174013724170121315202634133815990130116132314033926330131217M28844024017949140218132455024125685151319M36775034227837161220159655114318838
20、1602211236660144174831601222135261345192071702231383960246193642001(2)某大型牙膏制造企業為了更好地拓展產品市場,有效地管理庫存,公司董事會要求銷售部門根據市場調查,找岀公司生產的牙膏銷售量與銷售價格、廣告投入等之間的關系,從而預測岀在不同價格和廣告費用下的銷售量。為此,銷售部的研究人員收集了過去30個銷售周期(每個銷售周期為4周)公司生產的牙膏的銷售量、銷售價格、投入的廣告費用,以及同期其它廠家 生產的同類牙膏的市場平均銷售價格,見表1 (其中價格差指其它廠家平均價格與公司銷售價格之差)。試根據這些數據建立一個數學模型,分析
21、牙膏銷售量與其它因素的關系,為制訂價格策 略和廣告投入策略提供數量依據。表1牙膏銷售量與銷售價格、廣告費用等數據銷售 周期公司銷售價 格(元)其他廠家平 均價格(元)價格差(元)廣告費用(白力兀)銷售量(百萬支)13.853.80-0.055.57.3823.754.000.256.75r 8.5133.704.300.607.259.5243.603.700.005.507.5053.603.850.257.009.33:63.63.800.206.508.2873.63.750.156.758.7583.83.850.055.257.879 :3.83.65-0.155.257.10103.854.000.156.008.0011 :3.904.100.206.50r 7.89:123.904.000.106.258.1513 :3.704.100.407.009.10143.754.200.456.908.86153.754.100.356.808.90163.804.100.306.808.87仃3.704.200.507.109.26183.8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山西省忻州市部分學校2025屆九年級下學期中考二模數學試卷(含解析)
- 疼痛醫療服務行業行業痛點與創新解決方案案例分析報告
- 2025年工業污染場地修復技術選擇與成本效益評估與政策實施效果報告
- 醫藥流通行業供應鏈成本控制與可持續發展研究
- 2025年新能源汽車廢舊電池回收利用產業技術創新趨勢預測與市場前景分析報告
- 綠色轉型對資源型城市生態環境保護的推動與影響報告
- 零售私域流量運營實戰技巧與用戶忠誠度管理報告
- 食品飲料包裝行業可持續發展目標與路徑規劃報告
- 2025年環境影響評價公眾參與機制與環境保護公眾參與效果評估指標體系創新報告
- 2025年四川省德陽市中考理綜物理試題【含答案、解析】
- 產能置換相關政策梳理
- 小兒清熱止咳口服液產品知識-課件
- 鋼 筋 檢 查 記 錄 表(鋼筋加工及安裝)
- 園林綠化工程設計招標文件案例
- 附件9:未取得國外國籍的聲明
- 2022版義務教育語文課程標準(2022版含新增和修訂部分)
- 新題型大綱樣題(考研英語一)
- 幼兒園課件:《鉛筆不能咬》
- Blue Planet Ⅱ《藍色星球2(2017)》第一季第一集完整中英文對照劇本
- 沒有斑馬線的馬路課件
- excel自動生產計劃排程(至柔Ⅱ)
評論
0/150
提交評論