




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
一簡答題1.在機器學習中,什么是回歸?回歸用數學表達式如何描述?答:回歸,就是研究一個隨機變量y對另一個變量x或一組變量[x1,x2,…,xn]的相依關系的統計分析方法?;貧w模型用數學語言描述為y=f(x1,x2,…,xn)+ξ,其中x1,x2,…,xn是確定性的或可控的因素,f是映射函數,ξ是不確定或不可控的因素。通過大量的數據進行擬合,求解出映射函數f的具體表達式,這就回歸建模的過程。2.回歸可以分為哪二大類?答:線性回歸、廣義線性回歸3.回歸方程組Y=XB,采用最小二乘法進行參數估計,寫出B的估計表達式。答:B=(XTX)-1XTY4.什么是顯著性檢驗?對回歸方程的顯著性檢驗包括哪兩個方面?答:顯著性檢驗就是事先對總體的參數或總體分布形式做出一個假設,然后利用樣本信息來判斷這個假設是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。對回歸方程的顯著性檢驗包括:線性關系顯著性檢驗和回歸參數檢驗。5.在回歸方程中,自變量可能會有不同的量綱,如何消除量綱造成的影響?答:對變量值做標準化變換,從而得到標準化的回歸系數。二計算題1已知回歸方程為:y=0.15+0.20x1+0.15x2+0.45x3,求樣本[0.4,1.1,0.6]的預測值。解:y=0.15+0.20*0.4+0.15*1.1+0.45*0.6=0.6652當x=0時,觀測到y=0.9;當x=1時,觀測到y=2.1;當x=2時,觀測到y=3.05。求y和x滿足的線性回歸方程。解:Y=[[0.9][2.1][3.05]]X=[[1,0][1,1][1,2]]XTX=[[33][35]](XTX)-1=[[0.83333333-0.5][-0.50.5]](XTX)-1XT=[[0.833333330.33333333-0.16666667][-0.50.0.5]]Beta=(XTX)-1XTY=[[0.94166667][1.075]]滿足的回歸方程:y=0.942+1.075*x三編程題1.某地區旅游業的年收入可能與該地區人口數量、每月人均可支配收入、公路與軌道交通里程數有關,如表5-3。(1)設因變量為旅游業年收入,自變量為地區人口數量、每月人均可支配收入、公路與軌道交通里程數。回歸方程為:y=(2)計算回歸方程的擬合優度判斷系數、修正的擬合優度判斷系數。(3)進行線性關系顯著性檢驗,取顯著性水平α=0.05。F0.05(3,3)=9.28。(4)進行回歸參數的顯著性檢驗,取顯著性水平α=0.05。t0.05/2(3)=3.182。(5)根據(4)的結果,刪除對因變量影響不顯著的自變量,重新確定回歸方程。表5-3:某地區旅游收入表旅游業年收入(億元)人口數量(萬人)每月人均可支配收入(元)公路與軌道交通里程數(公里)250352023001456264256724231552269759925401672274263225891770282665526671842287867326991956292070127202042解:(1)X=[[1,520,2300,1456],[1,567,2423,1552],[1,599,2540,1672],[1,632,2589,1770],[1,655,2667,1842],[1,673,2699,1956],[1,701,2720,2042]]Y=[[2503],[2642],[2697],[2742],[2826],[2878],[2920]]B=因此:β(2)m=7,n=3TSS=i=1RSS=i=1ESS=i=1R2R2(3)第一步:提出假設。H0:β1=β2=…=βn=0H1:β1,β2,…,βn至少有一個不等于0第二步:計算統計量F。F=ESS/n第三步:做出統計決策。F>Fα(n,m-n-1)=F0.05(3,3)=9.28,拒絕原假設,說明回歸方程線性關系顯著(4)第一步:提出假設。對于任意參數βi(i=1,2,…,n),有H0:βi=0;H1:βi≠0。第二步:計算統計量t。構造統計量:ti其中sβi是βi的抽樣分布標準差sβsyt1=11.058,t2=3.653,t3=1.228第三步:做出統計決策。對于i=1,2,|ti|>tα/2(3),則拒絕H0,說明該自變量對因變量的影響顯著。對于i=3,|ti|<=tα/2(3),則接受H0,說明該自變量對因變量影響不顯著,應該從回歸方程中刪除。(5)根據(4)的結論,刪除x3m=7;n=2X=[[1,520,2300],[1,567,2423],[1,599,2540],[1,632,2589],[1,655,2667],[1,673,2699],[1,701,2720]]Y=[[2503],[2642],[2697],[2742],[2826],[2878],[2920]]B=新的回歸方程:y=Python代碼:importnumpyasnpm=7;n=3X=np.array([[1,520,2300,1456],[1,567,2423,1552],[1,599,2540,1672],[1,632,2589,1770],[1,655,2667,1842],[1,673,2699,1956],[1,701,2720,2042]])Y=np.array([[2503],[2642],[2697],[2742],[2826],[2878],[2920]])X_g=np.dot(np.linalg.inv(np.dot(X.T,X)),X.T)B=np.dot(X_g,Y)print("B=\n",B.round(3))y_avg=Y.sum()/mY_regression=np.dot(X,B)TSS=((Y-y_avg)*(Y-y_avg)).sum()print("TSS=",TSS)RSS=((Y-Y_regression)*(Y-Y_regression)).sum()print("RSS=",RSS)ESS=((Y_regression-y_avg)**2).sum()print("ESS=",ESS)R_2=ESS/TSSprint("R_2=",R_2)R_2_=1-((m-1)/(m-n-1))*(1-R_2)print("R_2_=",R_2_)F=(ESS/n)/(RSS/(m-n-1))print("F統計量:F=",F)#F0.05(3,3)=9.28x1=X[:,1];x2=X[:,2];x3=X[:,3]s_1=(np.sum(x1**2)-(1/m)*np.sum(x1)**2)**0.5s_2=(np.sum(x2**2)-(1/m)*np.sum(x2)**2)**0.5s_3=(np.sum(x3**2)-(1/m)*np.sum(x3)**2)**0.5s_y=(RSS/(m-n-1))**0.5print("s_1=",s_1,"s_2=",s_2,"s_3=",s_3,"s_y=",s_y)s_b1=s_y/s_1;s_b2=s_y/s_2;s_b3=s_y/s_3print("s_b1=",s_b1,"s_b2=",s_b2,"s_b3=",s_b3)t_1=B[1,0]/s_b1;t_2=B[2,0]/s_b2;t_3=B[3,0]/s_b3print("t統計量:t_1=",t_1,"t_2=",t_2,"t_3=",t_3)#t0.05/2(3)=3.182#刪除自變量x3m=7;n=2X=np.array([[1,520,2300],[1,567,2423],[1,599,2540],[1,632,2589],[1,655,2667],[1,673,2699],[1,701,2720]])Y=np.array([[2503],[2642],[2697],[2742],[2826],[2878],[2920]])X_g=np.dot(np.linalg.inv(np.dot(X.T,X)),X.T)B=np.dot(X_g,Y)print("B=\n",B.round(3))2除了線性回歸,Spark的MLlib中也提供了對廣義線性回歸的支持,利用MLlib的GeneralizedLinearRegression函數對房價文件usa_housing_price.csv做多元回歸分析,其中第1-5列為預測變量,第6列為目標變量。文件中的部分數據如表5-5所示。表5-5:房屋價格數據Avg_Area_IncomeAvg_Area_House_AgeAvg_Area_Number_of_RoomsArea_PopulationsizePrice79545.465.3171397.00918823086.8188.2142105903479248.644.99716.73082140173.07160.0425150589161287.075.134118.51272736882.16227.2735105898863345.243.8117645.58672934310.24164.81661260617………………代碼:importorg.apache.log4j.{Level,Logger}importorg.apache.spark.ml.evaluation.RegressionEvaluatorimportorg.apache.spark.ml.feature.VectorAssemblerimportorg.apache.spark.ml.regression.{GeneralizedLinearRegression,LinearRegression}importorg.apache.spark.sql.SparkSessionobjectxiti05_03{defmain(args:Array[String]):Unit={Logger.getLogger("akka").setLevel(Level.OFF)Logger.getLogger("org").setLevel(Level.OFF)valspark=SparkSession.builder().master("local[*]").appName("aaa").getOrCreate()valdf01=spark.read.option("inferSchema",true).option("header",true).csv("usa_housing_price.csv")df01.show(5,false)valfeatures=Array("Avg_Area_Income","Avg_Area_House_Age","Avg_Area_Number_of_Rooms","Area_Population","size")valassembler=newVectorAssembler().setInputCols(features).setOutputCol("features")valdf02=assembler.transform(df01)df02.show(5,false)valseed=1234valsplit=df02.randomSplit(Array(0.8,0.2),seed)valdf_train=split(0)valdf_test=split(1)df_train.show(1)df_test.show(1)valglr=newGeneralizedLinearRegression().setLabelCol("Price").setFeaturesCol("features").setFamily("gaussian").setLink("identity").setMaxIter(20).fit(df_train)//valglr=newLinearRegression().setLabelCol("Price").setFeaturesCol("features").fit(df_train)println(s"intercept常數項:${ercept}")println(s"coefficients系數項:${glr.coefficients}")valsummary=glr.summaryprintln("CoefficientStandardErrors:"+summary.coefficientStandardErrors.toBuffer)println("TValues:"+summary.tValues.toBuffer)println("PValues:"+summary.pValues.toBuffer)println("Dispersion:"+summary.dispersion)println("NullDeviance:"+summary.nullDeviance)println("ResidualDegreeOfFreedomNull:"+summary.residualDegreeOfFreedomNull)println("Deviance:"+summary.deviance)println("ResidualDegreeOfFreedom:"+summary.residualDegreeOfFreedom)println("AIC:"+summary.aic)valevaluator=newRegressionEvaluator().setLabelCol("Price").setPredictionCol("prediction").setMetricName("rmse")valdf_eva=glr.transform(df_test)println("rmse="+evaluator.evaluate(df_eva))}}運行結果:intercept常數項:-804648.6507507935coef
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 經營城市的探索與實踐
- 走中部特色的新型工業化道路
- 熱電公司黨建工作總結及工作計劃
- 公司工作職能管理制度
- 公司環保組織管理制度
- 江蘇開放大學2025年春大學英語復習題4(25春)
- 2025年北京市家具買賣合同樣本
- 廣西南寧市2023-2024學年高一下冊5月段考數學試卷附解析
- 2025年中考語文(長沙用)課件:復習任務群4 常用標點符號
- 2024年深圳市光明區區屬公辦中小學招聘教師真題
- 中職高教版(2023)語文職業模塊-第七單元語文綜合實踐-走進傳統節日-探尋文化根脈【課件】
- 2025山東菏澤事業單位招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 扶貧工作考勤管理制度
- 占道施工安全培訓
- 工地試驗室安全培訓內容
- 2025年湖南省南華大學招聘7人歷年高頻重點提升(共500題)附帶答案詳解
- 全國教育科學規劃課題立項申請書范文
- 2024年上海市普通高中學業水平合格性考試物理試題及答案
- 混凝土結構設計原理-004-國開機考復習資料
- 社會學概論-終結性考核-國開(SC)-參考資料
- 商業建筑空調水系統優化方案
評論
0/150
提交評論