




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
金融大數(shù)據(jù)學(xué)習(xí)第三章:線性回歸吳軻中國(guó)人民大學(xué)20243.1 學(xué)習(xí)目標(biāo)理解線性回歸的應(yīng)用范疇熟悉線性回歸的函數(shù)形式,以及模型中參數(shù)理解機(jī)器學(xué)習(xí)常用訓(xùn)練的方法:梯度下降,并了解對(duì)該方法在線性回歸模型中的具體使用方法的意義掌握如何使用Python訓(xùn)練線性回歸模型3.2 案例:預(yù)測(cè)公司盈利在金融市場(chǎng)中,公司盈利是對(duì)公司表現(xiàn)最重要的衡量指標(biāo)之一。每次公司季報(bào)或年報(bào)之前,金融分析師經(jīng)常需要對(duì)他們關(guān)注的公司作出盈利預(yù)測(cè)。如果公司表現(xiàn)達(dá)不到市場(chǎng)預(yù)期,其股票回報(bào)往往會(huì)出現(xiàn)顯著下跌。在傳統(tǒng)金融機(jī)構(gòu)中,分析師為了做出相對(duì)準(zhǔn)確的預(yù)測(cè)往往需要進(jìn)行大量的調(diào)研。近期的研究發(fā)現(xiàn),通過機(jī)器學(xué)習(xí)的方法,我們同樣可以得到非常好的公司盈利預(yù)測(cè)效果。在本章中,我們的目標(biāo)是通過機(jī)器學(xué)習(xí)方法來構(gòu)建一個(gè)預(yù)測(cè)公司每股收益的預(yù)測(cè)系統(tǒng)。案例數(shù)據(jù)及分析每股收益預(yù)測(cè)數(shù)據(jù)股票代碼日期股價(jià)凈市率資產(chǎn)收益率每股收益6018882016-0644.180.2480.0471.1330006512005-0910.540.4700.0120.5006000312010-0627.090.2960.0661.1900001572012-0610.850.4010.0300.7750020012014-0612.780.4430.0230.500案例數(shù)據(jù)及分析
3.3 線性回歸方法
值得注意的是,本例中,目標(biāo)變量是一個(gè)連續(xù)變量。因?yàn)槔碚撋蟻碚f,該變量可以是任何實(shí)數(shù)。因此,我們的模型需要能夠輸出同樣的連續(xù)變量。對(duì)于這一類問題,一個(gè)簡(jiǎn)單而有效的方法是線性回歸。接下來,我們將討論:什么是線性回歸(一元以及多元線性回歸)如何估計(jì)線性回歸模型中的參數(shù)線性回歸參數(shù)的意義在程序中如何執(zhí)行線性回歸一元線性回歸
一元線性回歸
模型訓(xùn)練
模型訓(xùn)練
代價(jià)函數(shù)
代價(jià)函數(shù)
梯度下降
梯度下降
梯度下降
梯度下降
多元線性回歸
多元線性回歸
多元線性回歸梯度下降
多元回歸注意事項(xiàng)
統(tǒng)計(jì)顯著性檢驗(yàn)
統(tǒng)計(jì)顯著性檢驗(yàn)
3.4拓展:線性方法的其他應(yīng)用
本章中,我們主要以預(yù)測(cè)每股收益作為例子來探討如何使用線性回歸。我們以使用線性回歸的例子來說明線性回歸的廣泛用途。為了得到超額投資收益,投資者需要預(yù)測(cè)未來股票的漲跌。成功的投資者往往可以及時(shí)購(gòu)入未來收益較高的股票并置換出未來收益較低的股票。
我們是否有可能通過搜集到的信息獲得超額收益?哪些信息可以幫助更好的預(yù)測(cè)未來股票回報(bào)呢?該問題涵蓋本章中討論的兩個(gè)重要概念:預(yù)測(cè)與推斷。我們需要知道我們能否使用線性模型來很好的預(yù)測(cè)未來的股票回報(bào)率,并且推斷哪些信息對(duì)于預(yù)測(cè)有著較為重要的作用。用線性回歸進(jìn)行回報(bào)率預(yù)測(cè)
用線性回歸進(jìn)行回報(bào)率預(yù)測(cè)
3.5編寫線性回歸程序
用statsmodel模塊進(jìn)行回歸分析1.導(dǎo)入庫(kù)
使用pandas存儲(chǔ)數(shù)據(jù)。
導(dǎo)入statsmodels的api模塊用于線性回歸分析(statsmodels是一個(gè)用于統(tǒng)計(jì)建模和計(jì)量經(jīng)濟(jì)學(xué)的Python庫(kù))。
導(dǎo)入statsmodels.tools.eval_measures中的mse函數(shù),用于計(jì)算均方誤差。import
pandas
as
pd
import
statsmodels.api
as
sm
from
statsmodels.tools.eval_measures
import
mse
用statsmodel模塊進(jìn)行回歸分析2.數(shù)據(jù)讀取及處理
讀取名為’ols_training.csv’的CSV文件中的數(shù)據(jù),并將其存儲(chǔ)在df變量中。
定義一個(gè)特征列表,定義三個(gè)特征名稱’pps’,‘bm’,‘roa’。
使用statsmodels的add_constant方法將df中的特征列(不包括常數(shù)列)添加常數(shù)列,并返回一個(gè)包含常數(shù)列的新DataFrame。df=pd.read_csv('ols_training.csv')
features=['pps','bm','roa']
X=sm.add_constant(df[features])
用statsmodel模塊進(jìn)行回歸分析3.進(jìn)行回歸分析
創(chuàng)建一個(gè)OLS模型對(duì)象,使用sm.OLS函數(shù),其中因變量為df中的‘eps_basic’列,自變量為X。
使用fit方法對(duì)模型進(jìn)行擬合,并將結(jié)果存儲(chǔ)在result中。
打印result的摘要信息,包括各個(gè)參數(shù)的值和統(tǒng)計(jì)量等。model
=
sm.OLS(df['eps_basic'],
X)
result
=
model.fit()
print(result.summary())
用statsmodel模塊進(jìn)行回歸分析 5.模型擬合:下面來檢測(cè)我們訓(xùn)練的模型與數(shù)據(jù)的擬合程度。首先,使用predict方法預(yù)測(cè)X對(duì)應(yīng)的因變量值,并賦值給ypred變量。將預(yù)測(cè)的結(jié)果添加到df中的”eps_basic_pred”列打印df的前五行,以查看添加的預(yù)測(cè)列。
使用mse函數(shù)計(jì)算實(shí)際因變量和預(yù)測(cè)因變量之間的均方誤差并顯示。得到MSE:0.33674576635864206。ypred
=
result.predict(X)
df["eps_basic_pred"]
=
ypred
print(df.head())
mse_ols
=
mse(df['eps_basic'],
ypred)
print("MSE:",mse_ols)
用sklearn模塊進(jìn)行回歸分析1.導(dǎo)入庫(kù):
使用pandas儲(chǔ)存數(shù)據(jù)
導(dǎo)入statsmodels的api模塊用于線性回歸分析
導(dǎo)入sklearn庫(kù)的sm,是另一個(gè)線性回歸的庫(kù)
導(dǎo)入sklearn庫(kù)的標(biāo)準(zhǔn)化模塊,用于對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理用sklearn模塊進(jìn)行回歸分析2.數(shù)據(jù)讀入及處理
讀取名為’ols_training.csv’的CSV文件中的數(shù)據(jù),將其存儲(chǔ)在df變量中。
定義一個(gè)特征列表,包含三個(gè)特征名稱’pps’,‘bm’,‘roa’。
創(chuàng)建一個(gè)Standard-Scaler對(duì)象,用于對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
對(duì)df中的特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(處理后的特征平均值為0,標(biāo)準(zhǔn)差為1)。將標(biāo)準(zhǔn)化處理后的數(shù)據(jù)x轉(zhuǎn)化為DataFrame格式,并將結(jié)果存儲(chǔ)在x中,同時(shí)定義列名為特征列表features。使用sklearn中的模塊必須首先進(jìn)行這一預(yù)處理步驟。用sklearn模塊進(jìn)行回歸分析df
=
pd.read_csv('ols_training.csv')
features
=
['pps','bm','roa']
scalar
=
StandardScaler()
scalar.fit(df[features])
x=scalar.transform(df[features])
x=pd.DataFrame(x,columns
=
features)
用sklearn模塊進(jìn)行回歸分析
OLS
=
linear_model.LinearRegression()
est1
=
OLS.fit(X=x,y=df['eps_basic'])
print(ercept_)
print(est1.coef_)用sklearn模塊進(jìn)行回歸分析4.用statsmodel進(jìn)行比較
添加截距項(xiàng)(statsmodel不會(huì)自動(dòng)添加截距項(xiàng))。
創(chuàng)建OLS模型對(duì)象,使用sm.OLS函數(shù),其中因變量為df中的‘eps_basic’列,自變量為X_const。并使用fit方法對(duì)模型進(jìn)行擬合,并將結(jié)果存儲(chǔ)在result中。打印出result的摘要信息X_const
=
sm.add_constant(x)
model
=
sm.OLS(df['eps_basic'],
X_const)
result
=
model.fit()
print(result.summary())
我們發(fā)現(xiàn)兩種方法系數(shù)相同。因?yàn)閷?duì)特征進(jìn)行過縮放,因此我們得到的系數(shù)與未經(jīng)過特征縮放的程序結(jié)果有所不同。經(jīng)過縮放后,系數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 交際宴請(qǐng)管理制度
- 產(chǎn)品市場(chǎng)管理制度
- 產(chǎn)品星級(jí)管理制度
- 產(chǎn)品經(jīng)營(yíng)管理制度
- 產(chǎn)品軟件管理制度
- 產(chǎn)房?jī)x器管理制度
- 產(chǎn)權(quán)交易管理制度
- 產(chǎn)能效益管理制度
- 京劇社團(tuán)管理制度
- 人小公司管理制度
- 勞務(wù)外包服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 湖南中醫(yī)藥大學(xué)湘杏學(xué)院《民族地區(qū)社會(huì)工作》2023-2024學(xué)年第一學(xué)期期末試卷
- 《云南河口越南跨境勞務(wù)者漢語(yǔ)學(xué)習(xí)情況調(diào)查研究》
- 檢查檢驗(yàn)結(jié)果審核管理制度
- 華中師大《中國(guó)古代文論》練習(xí)測(cè)試題庫(kù)及答案
- 《響應(yīng)面分析教程》課件
- 國(guó)家開放大學(xué)《礦井水害防治》形考任務(wù)1-3參考答案
- 車間培訓(xùn)課件教學(xué)課件
- 某化纖毛紡織廠全廠總配變電所及配電系統(tǒng)設(shè)計(jì)-課程設(shè)計(jì)論文
- 2024年大學(xué)試題(法學(xué))-行政法與行政訴訟法考試近5年真題集錦(頻考類試題)帶答案
- 有限空間辨識(shí)記錄(辨識(shí)結(jié)果不是有限空間的)
評(píng)論
0/150
提交評(píng)論