FarmPredict機器學習框架:“財經新聞”挖掘與“股票策略”構建_第1頁
FarmPredict機器學習框架:“財經新聞”挖掘與“股票策略”構建_第2頁
FarmPredict機器學習框架:“財經新聞”挖掘與“股票策略”構建_第3頁
FarmPredict機器學習框架:“財經新聞”挖掘與“股票策略”構建_第4頁
FarmPredict機器學習框架:“財經新聞”挖掘與“股票策略”構建_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

:包贊:包贊ozanztscomcn風險提示:本報告結論完全基于公開的歷史數據進行統計、測算,文中部分數據有一定滯后性,同時存在第三方數據提供不準確風險;模型均基于歷史數據得到的統計結論且模型自身具有一定局限性并不能完全準確地刻畫現實環境以及預測未來;模型根據歷史規律總結,歷史規律可能失效;模型結論基于統計工具得到,在極端情形下或存在解釋力不足的風險,因此其結果僅做分析參考。本報告提到的任何基金產品不構成任何投資收益的保證或投資建議。告FarmPredict傳統人工智能方法挖掘文本信息從而構建股票組合效果一般,范劍青老師等人提出了一個通用的和自適應的高維數據機器學習框架FarmPredict,該模型可以從文本數據中提取潛在測股票未來收益。他們在中國股市的實證結果表面,ct分的向量。潛在因子的數量由調整后特征值閾值方法估計(Fan等,2020a)。這是一個純粹了在文本數據中使用無監督學習的必要性,因為它可以避免主觀假設和限制數據使用的潛在偏差。第二步,我們通過特質因子與學習目標(關聯股票的貝塔調整后收益)的基于因子條們使用LASSO模型基于潛在因子和篩選后的特質因子預測資產價格。在每個分析步驟中new的50支股票的權重均為/20請/20告2/20請務必閱讀正文之后的聲明部分2/20 t 圖3:(0,1)X向量下的組合表現(當天股票收益做Y為深藍) 14圖4:X向量為(0,1)下的組合 14 3/20請務必閱讀正文之后的聲明部分3/20本中直接提取此類信息。tFarmPredict第一步是無監督地從高維新聞向量中學習隱含特征。通過主成分分析(PCA)將多篇新聞詞向量X轉換為k有來自先驗假設(非參數統計)的干擾,所有信息都是從新聞學習的。這種方法也可以避第二步是條件相關篩選(conditionalcorrelationscreening),篩選與學習目標(即新聞對應的股票收益率Y或tchargedwords告4/20請務必閱讀正文之后的聲明部分4/202.FarmPredict機器學習框架2.1問題設置我們用詞級別的統計數據作為n篇文章(詞包)中每一篇的總結。設D是我們的n篇文章數據中所有可能在范的914K篇文章的數據集中,有1,181K個獨特的詞1在整個D組中,只有71K個詞出現在至少50篇文章中。2.2FarmPredict方法情 (FarmPredict)。 (1)選擇經常使用的詞語:在我們數據集里超過110萬個不同的詞(和短語)中,大部分都很少出現。告5/20請務必閱讀正文之后的聲明部分5/20這些詞也幾乎沒有用處,因為它們不太可能出現在要打分的新文章中。這種篩選也有助于我們將重Dfreq={j-thwordinD:kj3k}(2.1) Xi=Bfi+ui,i=1,…,n,(2.2)其中fi=Rk是k個潛在因子的向量,B是因子載荷矩陣,ui=RDfreq是不能被fi解釋(與fi不相關)的特X=FBT+U其中X和U是nDfreq的數據和特異成分的矩陣,并且F是n×k的潛在因子的矩陣。這里,只有X是可這些因子可以被理解為類似于話題得分,而因子載荷B給這些因子(話題)提供了不同的組合。對這些因素 Dfreq的回報結果Yi。按照Fan等人(2020b)的類似想法,我們用潛在的fi和ui預測因子,建立模型:Yi=a+bTfi+bTui+ei(2.3)告6/20請務必閱讀正文之后的聲明部分6/20 (3)學習因素和特異性成分:對于一定數量的因子k,我們通過最小二乘法擬合近似的因子模型(2.2),Tntala說,k被估計為校正后的值在統計學上大于1的數量。=max{j<Dfreq:入?>1+CDfreq/(n-1)}(2.4)CXjjnCjpDfreq給定的j,定義:mn,j(z)=p-j-ê1l(l-z)-1+3(j?j+1/)4-z)-ú,1mn,j(z)=-(1-pj,n-1)z-1+pj,n-1mn,j(z) uY行帶截距項的線性回歸之后的殘差向量。這就取出了Y中可YuFanLv說,u與詞j的特異性成分j之間告7/20請務必閱讀正文之后的聲明部分7/20Fjk閾值α將被定為選擇1000個左右的詞。這一步是可選的(對應于α=0),但有助于我們加快計算速度。 ta?,,=argmina,b,b?i(Yi-a-bTfi-bTui,)2+入‖b‖1(2.6)Dfrequi是指ui在帶情感色彩的的詞中的成分。懲罰λ,將由交叉驗證選擇,控制模型的偏差-方差DfreqSCAD和elasticnet等(Fan等人,2020c;Nagel,2021)。 兩個步驟。對于一個給定的新特征Xnew,讓我們把它分解為因素和特異性成分。用給定的,將最小二乘法應用于模型(2.2),我們可以得到潛在的因子fnew以及與特征Xnew相關的特異性成分unew:fnew=T-1TXnew,unew=Xnew-new(2.7)new=a?+Tfnew+Tunew,(2.8)告8/20請務必閱讀正文之后的聲明部分8/202.3FarmPredict的變種的任務。首先,響應變量變量Y可以是超額收益或二分法的收益(正或負)。在后一種情況下,我們可以使用條件篩選(2.5)和條件預測(2.7)也可以進行修改以適應Logistic回歸模型;見Fan等人(2020c)。或Logistic回歸中得知。最后,線性預測模型(2.3)可以被非線性模型所取代:如神經網絡模型(Horel和Giesecke,2020)或結構化非參數模型(Fan等,2020c)。2.4特別主題模型SESTM,由Ke等人(2019)提出,是一個特別的的雙主題模型,用于學習基于股票收益的新文章的情緒。iiYiSSdi,S~Multinomial(si,piq++(1-pi)q-)(2.9)告9/20請務必閱讀正文之后的聲明部分9/20θ+和θ_.前者使用Fan和Lv(2008)中的確定(邊際)篩選技術,后者則在訓練集中回報Yi的百分位排名的學習。一旦學會了帶感情色彩的詞和它們的語義,一篇新的文章的感情分數pi就可以用基于模S個條件。首先。它需要出現得足夠頻繁。第二,該詞需要與Yi有足夠的相關性,這是由它與回報率的符號的邊際相關性(Fan和Lv,2008)來衡量的。在目前的情況fj=#articleswithwordj#articlesfj=#articleswithwordjScreen={j:fj30.5+a+orfj£0.5-a-}?{j:kj3k}(2.10) =(PTP)-1PTDS(2.11)2這里計算了當詞j出現在文章里時,詞j與正收益相關的比例。既然收益要么正要么負,很少正好是0,那么1-fj就是詞j與負收10/20請務必閱讀正文之后的聲明部分10/20P有最主題模型中,SESTM使用信息Y來指導用(2.11)對的學習。對于每一篇文章i,將pi的值分配為歸一化秩 (normalizedrank)p?i=(rankofYiin{Yj}=1/n(2.12)給新文章打分有了在(2.10)中定義的估計量Topic,+and-,我們已經準備好了為新文章分配情感。對于一篇新文章的字數為dnew的新文章,其情感分數是通過懲罰性最大似然法(PMLE)估計的。SESTMp?new=argmaxp?log(p++(1-p)q?j-)d+入PMLElog(p(1-p)),(2.13)j?Sj?S2.5FarmSelect與SESTM的比較FarmSelectSESTMXiYi。FarmSelect考慮到了情感分配作用。和相互作用,而SESTM則主要使用單個詞來計算情感分數。而SESTM主。在選擇情感變化的詞時,FarmSelect從一個全面的詞匯集開始,選擇一個詞的子集以通過(2.6)對結果進行最佳預測。相比之下,SESTM依靠邊際篩選(2.10)來選擇,這就忽略了詞語之間有著更高的日收益的文章未必表明它有更高的情感。并且,收益是橫跨多年比較1/20請務必閱讀正文之后的聲明部分1/20的相互作用。這一步驟可以通過使用懲罰性邏輯回歸(2.14)來改善,代價是更高的計算成本,這使得它與minw,c?iiw+c-log1+expw+c+入Logistic‖w‖1(2.14)Lasso就導致了三種選擇帶有感情色彩的詞Topic用于主題建模的可能1.通過邊際相關篩選出的詞Screen2.通過懲罰性邏輯回歸選擇的詞Logistic3.兩種方法選擇的詞的并集ScreenLogisticFarmPredictSESTMFarmPredict預測結果。然而。SESTM主要依靠兩個模型(2.11)和(2.13)以及情感分數分配(2.12)。因此,它對模型假設的穩健12/20請務必閱讀正文之后的聲明部分12/20告3.數據獲取與定義1數據獲取不同于Fanetal.(2021)使用新浪財經的新聞數據,本文使用的新聞數據來自于金融界()。httpstockjrjcomcnxwk00104_1.shtml上即可查看。Fanetal以廣度優先的方式從新浪財經主頁開始抓取,這種方法依賴于新浪財經主頁的狀態,不同時間3.2變量定義二進制詞向量表示新聞的分詞結果是否出現在當期詞袋Dfreq中(Dfreq會在后續給出定義)。詞頻向量表示新聞的詞袋中13/20請務必閱讀正文之后的聲明部分13/20告yrawret發布,yrawret為周三的收益率yrawret_dyrawret大于0,rawret_d為1,否則為0ynextrawret收益率ynextrawret_dybetaretMybetaret_dybetaret大于0,ybetaret_d為1,否則為0ynextbetaretynextrawretCAPM到估計收益ynextbetaret_dynextbetaret大于0,ynextbetaret_d為1,否則為0表示訓練時X使用xd(二進制詞向量),Y使用yrawret(包含新聞發布時間的兩個相鄰收盤價計算出來的收益率),預測時同樣使用xd(二進制詞向量)帶入訓練模型進行預測。4.模型訓練與預測計算1具體訓練過程 (1)在每次訓練時,使用最近1年的所有新聞數據,對其利用Jieba分詞,去除常見停用詞和純數字分詞結果,freq告14/20請務必閱讀正文之后的聲明部分14/20Dfreq={jthwordinD:k3k}(1) 建詞向量X。我們構建的詞向量包括二進制詞向量(分詞結果是否出現在當期詞袋中)和詞頻向量(分詞結果出現在當期詞袋中的次數)。 (3)對詞向量進行分解降維。按照Fanetal.(2021)的文章,對詞向量進行下列建模:Xi=Bfi+ui,i=1,...,n,=max{j<|Dfreq|:>1+C}X=FBT+U按照Fanetal.(2021)的方法,估計出和后,可以計算出估計的:=X-T (4)中并非所有的詞都與新聞相對應的收益Y有很高的相關性,因此根據Fanetal.(2021)對進行條件相關篩選(conditionalcorrelationscreening)。u是Y對線性回歸后的殘差。篩選過程如下:告15/20請務必閱讀正文之后的聲明部分15/20 Yi=a+bTfi+bTui,+ei(7),,=argmina,b,b?i(Yi-a+bTfi+bTui,)2+入b1(8)4.2預測 分詞,利用和訓練期相同的詞袋構建詞向量(二進制詞向量和詞頻向量),得到本交易日的Xnew。 (2)利用訓練期估計的因子載荷矩陣,計算本交易日新的隱含因子Fnew和特質矩陣Unew。再結合訓練期篩選出的,將Fnew和Unew()帶入訓練期已經估計好的Lasso模型,得到預測的new。Fnew=T-1TXnew(9)U=XU=X-BFnewnewnewi,new=+Tfi,new+Tui,new,(11) 練和預測,我們舉例說明。比如,在2021年12月31日對模型進行更新時,使用的告16/20請務必閱讀正文之后的聲明部分16/20訓練期模型更新日期預測期前十二個月當日后六個月例12021年1月1日至2021年12月31日2021年12月31日2022年1月1日至2022年6月30日例22021年7月1日至2022年6月30日2022年6月30日2022年6月30日至2022年12月31日12/31區間內全除停用詞和純數字分詞結果,用2.隨機抽樣區間內5000條新聞,并3.利用FARM方法(公式2-公式5)4.對U進行條件相關篩選,選取和預測期(2022/1/1-2022/06/30):1.每個交易日收盤前獲取自上次收2.利用訓練期FARM得到的估計fnew和unew,將fnew和unew()帶入訓練期的Lasso模型得到預測5.利用公式8進行Lasso擬合,保5.計算結果組合構建規則就是每天收盤集合競價開始計算模型,算完后,按照當天收盤價買入當前交易日預測值new靠前的50條新聞對應的股票,以當前交易日收盤時的總市值為權重,并持有至下一個交易日收盤時,這個是告X向量是詞語頻數,Y向量是股票當天或者下一天的收X下的組合表現(當天股票收益做Y為深藍)上圖,如果把X換成(0,1)輸入值,效果更好。圖3:(0,1)X向量下的組合表現(當天股票收益做Y為深藍)17/20請務必閱讀正文之后的聲明部分告18/20請務必閱讀正文之后的聲明部分18/20圖4:X向量為(0,1)下的組合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論