多元線性回歸 省賽獲獎_第1頁
多元線性回歸 省賽獲獎_第2頁
多元線性回歸 省賽獲獎_第3頁
多元線性回歸 省賽獲獎_第4頁
多元線性回歸 省賽獲獎_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講:白云數據應用與實大踐算法多元線性回歸

(MutipleLinearRegression)

Bybaiyun2概念3假設4建模方法5實戰6虛擬變量陷阱7評估1比較目錄CONTENTS簡單線性回歸和多元線性回歸對比簡單線性回歸:一個自變量多元線性回歸:n個自變量,n維。x為自變量,y任然是應變量。概念線性回歸假設特征和結果滿足線性關系。每個特征對結果的影響強弱可以有前面的參數體現,而且每個特征變量可以首先映射到一個函數,然后再參與線性計算。這樣也可以表達特征與結果之間的非線性關系。我們用X1,X2..Xn去描述feature里面的分量,比如x1=房間的面積,x2=房間的朝向,等等,我們可以做出一個估計函數:也可以寫成如下:y(x)=yb(x)=b0+b1x1+b2x2+……bnxnb在這兒稱為參數,調整feature中每個分量的影響力,就是到底是房屋的面積更重要還是房屋的地段更重要。如果我們令X0=1,就可以用向量的方式來表示了:

yb(x)=bTX(對于簡單線性回歸來說x是一個自變量,此處X是一個向量,或者一個矩陣)使用多元線性回歸的前提—假設(Assumptions)我們的數據是否是線性的數據要有同樣的方差數據呈現多元正態分布誤差在不同維度獨立沒有一個自變量和其他自變量是線性關系建立模型當有多個自變量的時候,不是所有的自變量都需要入模型,什么樣的自變量需要進入,或者需要刪除呢?建立模型的方法全進入All-in反向淘汰BackwardElimination順向淘汰ForwardSelection雙向淘汰BidirectionalElimination信息量比較ScoreComparison逐步回歸(StepwiseRegression)反向淘汰順向淘汰信息量比較兩種方法的結合雙向淘汰給所有模型打分,并找出最好的模型,如果有n個自變量,可能需要比較的模型有2n-1。工作量非常大。實戰stepbystep-一個公司在多個方面的投入來分析哪些支出對利潤獲得最有利?對一個新公司的支出提供參考研發投入行政投入市場投入公司地址利潤Step1:導入庫importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspdStep2:打開數據并處理dataset=pd.read_csv('50_Startups.csv')X=dataset.iloc[:,:-1].valuesy=dataset.iloc[:,4].values得到相應的x和y,x是矩陣,y是向量Step3:對分類數據的處理fromsklearn.preprocessingimportLabelEncoder,OneHotEncoderlabelencoder_X=LabelEncoder()X[:,3]=labelencoder_X.fit_transform(X[:,3])onehotencoder=OneHotEncoder(categorical_features=[3])X=onehotencoder.fit_transform(X).toarray()X的數據的第三列是一個分類數據,即地址,加州,弗羅里達,紐約,處理過的x數據對比,前三列相加永遠等于1,這就是虛擬變量陷阱,這三列之間存在線性關系。如何避免?刪除這三列中的某一列。虛擬變量的處理(DummyVariable)Step4:虛擬變量陷阱#AvoidingtheDummyVariableTrapX=X[:,1:]去除第0列成為虛擬變量D2=1-D1Step5:把數據劃分成訓練集和測試集fromsklearn.model_selectionimporttrain_test_splitX_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)fromsklearn.linear_modelimportLinearRegressionregressor=LinearRegression()regressor.fit(X_train,y_train)#PredictingtheTestsetresultsy_pred=regressor.predict(X_test)Step6:擬合模型并預測數據Step7反向淘汰BackwardElimination

importstatsmodels.formula.apiassmX_train=np.append(arr=np.ones((40,1)).astype(int),values=X_train,axis=1)X_opt=X_train[:,[0,1,2,3,4,5]]regressor_OLS=sm.OLS(endog=y_train,exog=X_opt).fit()regressor_OLS.summary()X_opt=X_train[:,[0,1,3,4,5]]regressor_OLS=sm.OLS(endog=y_train,exog=X_opt).fit()regressor_OLS.summary()X_opt=X_train[:,[0,3,4,5]]regressor_OLS=sm.OLS(endog=y_train,exog=X_opt).fit()regressor_OLS.summary()X_opt=X_train[:,[0,3,5]]regressor_OLS=sm.OLS(endog=y_train,exog=X_opt).fit()regressor_OLS.summary()X_opt=X_train[:,[0,3]]regressor_OLS=sm.OLS(endog=y_train,exog=X_opt).fit()regres

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論