新聞輿情智能分析及其投資應用_第1頁
新聞輿情智能分析及其投資應用_第2頁
新聞輿情智能分析及其投資應用_第3頁
新聞輿情智能分析及其投資應用_第4頁
新聞輿情智能分析及其投資應用_第5頁
已閱讀5頁,還剩20頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、11. 海內外機構廣泛關注另類數據投研海外金融機構投入高成本布局另類數據海外對新聞數據投資價值的探索和國內機構布局21.1海外金融機構投入高成本布局另類數據2018年投資機構在另類數據上預算的分布2018年不同管理規模的投資機構在另類數據上的平均預算37%41%15%7%$5百萬$357,143$607,143$1,056,250$1,472,222$1,600,000$1,400,000$1,200,000$1,000,000$800,000$600,000$400,000$200,000$0資料來源:,中信證券研究部資料來源:,中信證券研究部資料來源:,中信證券研究部2018年投資機構對各

2、類投資研究方式未來變化的預期57%29%7%43%39%Investment newslettersIndependent research providers減少Investment bank research50%32%7%11%29%18%Financial information systems (e.g., Thomson Reuters)7%61%7%7%36%7%Conferences4%68%7%4%61%7%Financial publications (e.g., Barrons)4%4%62%57%4%7%保持4%46%4%4%43%11%Alternative data

3、 sources4%21%50%增加1.2 海外對新聞數據投資價值的探索和國內機構布局海外研究與案例2010年,Bollen等人利用推特構建出的冷靜情緒下的指標能夠有效預測下一日的漲跌, 正確率達到86.7%。該研究成果已經應用到一家英國的對沖基金Derwent Capital Markets中。2015年,歐洲央行的研究報告“Quantifying the Effects of Online Bullishness on International Financial Markets”檢索 Twitter 和 Google 中“牛市”和“熊市”兩個 詞出現的頻數作為投資者的情緒指標,其與標普

4、500指數下期收益率的回歸系數為 10.98,且具有顯著性。2018年9月,知名的對沖基金Two Sigma花10萬美金在Kaggle平臺舉辦采用新聞預測 股票趨勢的競賽以尋求人工智能解決方案,吸引了全球2900多支隊伍參加國內的相關基金產品:以互聯網大數據為信息源,以特定信息為主要選股標準的產品資料來源:Wind,中信證券研究部部分國內已發行的大數據基金(億份)001242.OF博時淘金大數據100A博時基金股票型2015-05-0435.1312001420.OF南方大數據300A南方基金股票型2015-06-2418.7444001637.OF嘉實騰訊自選股大數據嘉實基金股票型2015-

5、12-0712.6257001564.OF東方紅京東大數據東證資管混合型2015-07-3112.6071001113.OF南方大數據100A南方基金股票型2015-04-249.9144001734.OF廣發百發大數據策略成長A廣發基金混合型2015-11-185.50973基金代碼基金簡稱基金公司基金類型成立日期發行份額2. 基于NLP技術的新聞情緒指標構建4BERT模型:深度提取情緒信息BERT模型的基本原理從模型訓練到應用指標:六個步驟以市場為指導:借用收益率作為標簽情緒指標構建5預訓練微調參數2.1 BERT模型:深度提取情緒信息傳統的情緒識別模型存在諸多不足依賴于情緒詞庫的建立,工

6、程量巨大容易斷章取義,對諸如“減少虧損”的表達可能完全理解錯誤。BERT : 2018 年 Google 團 隊 在 “ BERT:Pre-trainingofDeepBidirectionalTransformers for Language Understanding”提出的一種新的語言模型能對整句文本進行建模,有效避免傳統模型的斷章取義的問題通過在大語料比如維基百科上進行預訓練,充分學習語言的規律,吸收豐富的知識并 進行遷移,從而降低對目標數據量的要求。資料來源:,.tr,中信證券研究部預訓練和參數微調示意圖2.2 BERT模型的基本原理預訓練:通過預測句子中被掩蓋的字符來學習語言的規律

7、參數微調:根據收益率構造新聞的標簽,然后進行常規的二分類訓練訓練完成后,能夠對每條新聞輸出取值在0,1的情緒分數BERT模型的原理圖資料來源:中信證券研究部62.3 從模型訓練到應用指標:六個步驟1. 模型預訓練:在大數據上進行預訓練使模型處于較好的初始化狀態2. 采用收益率為新聞打標簽:采用股票本身的收益率給新聞賦予標簽3. 微調模型參數:采用上一步驟中打好標簽的數據進行常規的二分類訓練4. 預測新聞情緒:采用上一步驟中訓練完成的模型對新的新聞數據執行情緒判斷5. 構建情緒指標:所有新聞通過模型得到情緒分數后,按照一定規則構建情緒指標6. 避險/熱點發現等任務:對于構建完成的情緒指標,便可用

8、于避險、增強或者熱點發 現等任務從模型訓練到應用指標的處理流程訓練模型模型預訓采用收益率微調 練為新聞打標模型參數簽使用模型預測 新聞情緒構建指標構建 情緒指標應用指標避險/熱點 發現等任 務資料來源:中信證券研究部72.4 以市場為指導:借用收益率作為標簽8單條新聞所屬日期的歸類:我們對新聞時間的劃分為每天的15:00,即發布時間在t-1 日15:00以后,t日15:00以前的消息作為t日的消息。標簽計算:使用股票本身在t-2日到t+1日收盤價的收益率來打標簽。為漲跌幅分別設置10%和-9.09%的閾值,新聞數據的時間范圍是2011年5月13日至2020年4月30日,共83萬條。其中,201

9、1年1 月1日至2018年12月31日的新聞用來作為訓練數據,共計57萬條;2019年1月1日至 2020年4月30日的數據作為模型的測試數據以做有效性檢測,共計26萬條。資料來源:Wind,中信證券研究部。分年度的新聞數目統計(萬條)訓練完成的模型為每一條新聞的正負面進行評價,輸出值為其屬于正面消息的概率,取 值范圍 0,1 ,對其進行平移處理轉換為-1,1。,個股層次:個股新聞情緒=1,=1, 新聞情緒分數t,i,j組合層次:組合新聞情緒 =11 個股新聞情緒,新聞情緒(調整) = 新聞情緒 新聞情緒120日均線新聞情緒變動 = 新聞情緒20日均線(調整) 新聞情緒20日均線(調整)20資

10、料來源:Wind,中信證券研究部新聞情緒指標的20日均線、120日均線和調整后的20日均線2.5 情緒指標構建0.100.00-0.10-0.20-0.30-0.40-0.500.500.400.300-0.102012-012012-032012-052012-062012-082012-102012-122013-022013-042013-062013-082013-092013-112014-012014-032014-052014-072014-092014-112014-122015-022015-042015-062015-082015-102015-122

11、016-012016-032016-052016-072016-092016-112017-012017-032017-052017-062017-082017-102017-122018-022018-042018-062018-072018-092018-112019-012019-032019-052019-072019-082019-102019-122020-022020-042020-06新聞情緒20日均線(調整,右軸)新聞情緒20日均線新聞情緒120日均線93. 中期擇時:行情拐點的重要觀察信號10結合動量指標,警示牛轉熊反其道而行,捕捉超跌反彈新聞情緒vs.交易層面的風險偏好:

12、通常具有較高的一 致性11資料來源:Wind,中信證券研究部3.1 結合動量指標,警示牛轉熊參數(-0.03,7%)下的警示信號vs中證全指以近20個交易日上漲超過7%,情緒下降超過-0.03為警示信號,剔除相鄰20日以內的重 復信號。在訓練集上準確率達到70%(信號次數10),測試集正確率100%(3)。參數(-0.03,7%)下的13次警示信號日期新聞情緒變動未來20日收益率日期新聞情緒變動未來20日收益率2012-05-02-0.06-0.59%2015-06-18-0.04-23.21%2012-12-24-0.038.46%2015-12-25-0.07-21.03%2013-01-

13、28-0.03-1.36%2016-07-11-0.08-0.76%2014-12-18-0.03-2.63%2019-04-24-0.06-11.26%2015-01-08-0.07-0.38%2019-07-05-0.04-4.53%2015-04-16-0.038.48%2020-01-06-0.03-3.13%2015-05-08-0.0827.13%資料來源:Wind,中信證券研究部800070006000500040003000200000.050.00-0.05-0.10-0.15-0.20-0.252012-022012-032012-052012-062

14、012-082012-092012-112013-012013-022013-042013-062013-072013-092013-102013-122014-012014-032014-052014-062014-082014-092014-112014-122015-022015-042015-052015-072015-082015-102015-122016-012016-032016-042016-062016-072016-092016-112016-122017-022017-032017-052017-062017-082017-092017-112018-012018-02

15、2018-042018-052018-072018-082018-102018-122019-012019-032019-052019-062019-082019-092019-112019-122020-022020-042020-052020-07信號新聞情緒變動中證全指(右軸)3.2 反其道而行,捕捉超跌反彈參數(0.03,-5%)下的反彈信號vs中證全指以近20個交易日下跌超過5%,情緒上升超過0.03為反彈信號。在訓練集上準確率達到71%(信號次數7),測試集正確率100%(3)。參數(0.03,-5%)下的10次警示信號日期新聞情緒變動未來20日收益率日期新聞情緒變動未來20日收益

16、率2012-06-040.07-2.71%2018-08-060.070.21%2012-11-150.070.06%2018-10-110.042.77%2015-07-270.04-12.61%2019-05-270.032.56%2015-09-220.0412.38%2019-08-060.057.29%2016-02-260.048.47%2020-03-160.051.89%資料來源:Wind,中信證券研究部資料來源:Wind,中信證券研究部9000800070006000500040003000200050.00-0.05-0.10-0.152012-022

17、012-032012-052012-062012-082012-092012-112013-012013-022013-042013-062013-072013-092013-102013-122014-012014-032014-052014-062014-082014-092014-112014-122015-022015-042015-052015-072015-082015-102015-122016-012016-032016-042016-062016-072016-092016-112016-122017-022017-032017-052017-062017-082017-09

18、2017-112018-012018-022018-042018-052018-072018-082018-102018-122019-012019-032019-052019-062019-082019-092019-112019-122020-022020-042020-052020-07信號新聞情緒變動中證全指(右軸)12行情拐點一般伴隨著風險偏好的突變, 在市場熱情高漲時關注風險偏好的變化 可一定程度上監測到行情的變化交易層面的風險偏好可通過波動率和收 益的相關性來表示。相關性越大,表示 高波動的股票收益更高,即反應投資者 的風險偏好更強。3.3 新聞情緒 vs. 交易層面的風險偏好:

19、通常具有較高的一致性資料來源:Wind,中信證券研究部情緒指標與風險偏好的滾動相關性vs中證全指資料來源:Wind,中信證券研究部情緒指標vs風險偏好0.800.600.400.200.00-0.20-0.40-0.60-0.80-1.00-0.14-0.09-0.040.010.060.112012-012012-022012-042012-052012-072012-082012-102012-122013-012013-032013-052013-062013-082013-092013-112013-122014-022014-042014-052014-072014-082014-1

20、02014-122015-012015-032015-042015-062015-072015-092015-112015-122016-022016-032016-052016-062016-082016-092016-112017-012017-022017-042017-062017-072017-082017-102017-122018-012018-032018-052018-062018-082018-092018-112018-122019-022019-042019-052019-072019-082019-102019-112020-012020-032020-042020-

21、06風險偏好(右軸)情緒指標20日均值-120日均值9,0008,0007,0006,0005,0004,0003,0002,0001.000.800.600.400.200.00-0.20-0.40-0.60-0.80-1.002012-012012-042012-082012-112013-032013-062013-102014-012014-052014-082014-122015-032015-072015-102016-022016-052016-092016-122017-042017-072017-112018-022018-062018-092019-012019-04201

22、9-082019-112020-0360日相關性中證全指(右軸)134. 短期擇時:結合波動率,提升擇時效果14市場波動率高時情緒指標準確性較高借助波動率優化杠桿增強策略資料來源:Wind,中信證券研究部資料來源:Wind,中信證券研究部不同波動率下的滾動相關性(DIFF5,RET3)波動率分組下的滾動相關性(DIFF5,RET3)4.1 市場波動率高時情緒指標準確性較高按波動率分組來觀察波動率對相關性的影響。根據波動率0.1至0.9的分位點將其分為10 組。分別統計每組內相關性的均值和標準差。當波動率處于較高水平時,相關性基本為正,最高一組的均值達到0.34。另外每組的 標準差變化不大,這說

23、明波動率可以比較穩定地確定相關性的范圍。y = 0.5176x - 0.01431.00.20.0-0.2-0.4-0.6-0.8-1.00%10%20%30%40%50%60%70%80%0.0-0.1-0.2-0.3158%13%18%23%28%33%38%43%48%根據均值回復性選擇在波動率高于均線 時一定程度時暫停使用情緒指標,該閾 值最終根據訓練集上的信息率確定為 1.2%。杠桿增強策略的基本邏輯:在情緒指標 相對5日均值變化(DIFF5)高于上閾值 時做多期指,低于下閾值時做空期指。優化后凈值波動明顯下降,測試集信息 率提升

24、0.26,最大回撤降低8.30%4.2 借助波動率優化杠桿增強策略資料來源:wind,中信證券研究部測試集優化前和優化后相對收益走勢資料來源:Wind,中信證券研究部不同20日波動率離差下未來5日波動率的變化30%20%10%0%-10%-20%-30%-40%-50%-10%-5%0%5%10%1.351.3051.101.051.000.950.902019-01-032019-01-212019-02-132019-03-012019-03-192019-04-042019-04-232019-05-142019-05-302019-06-182019-07-042

25、019-07-222019-08-072019-08-232019-09-102019-09-272019-10-222019-11-072019-11-252019-12-112019-12-272020-01-152020-02-102020-02-262020-03-132020-03-312020-04-172020-05-082020-05-262020-06-112020-07-01優化前相對收益優化后相對收益165. 風格配置:顯著影響盈利、市值等因子風格收益17情緒指標有效解釋風格因子多空收益情緒指標對不同市值股票的作用效果不同風險偏好下盈利因子多空組合收益資料來源:wind,

26、中信證券研究部因子多空收益和情緒指標的回歸結果資料來源:Wind,中信證券研究部不同風險偏好下市值因子多空組合收益5.1 情緒指標有效解釋風格因子多空收益盈利、市值、流動性和波動率四個因子 的規律均體現了穩定性和顯著性。風險偏好上升,有利于低盈利、小市值、 高流動性和高波動的股票;風險偏好下降時,有利于高盈利、大市值、低流動性和低波動的股票。訓練集測試集指標p值p值盈利-0.250.00-0.620.00成長0.030.05-0.390.00價值-0.350.000.130.03市值0.300.000.600.00流動性-0.530.00-0.360.00動量-0.220.000.510.00

27、波動率-0.550.00-0.210.06-0.04-0.020.000.020.040.060.08-0.06-0.06-0.04-0.02資料來源:Wind,中信證券研究部0.000.020.040.060.100.080.060.040.020.00-0.02-0.04-0.06-0.08-0.06-0.0418-0.020.000.020.040.06資料來源:Wind,中信證券研究部。G1市值最大訓練集上情緒變動與未來收益的關系資料來源:Wind,中信證券研究部,G1市值最大G1和G5的凈值比vsG1和G5的新聞情緒20日均線差資料來源:Wind,中信證券研究部。G1市值最大測試集上

28、情緒變動與未來收益的關系5.2 情緒指標對不同市值股票的作用效果在2017年以前,小市值組合明顯跑贏大 市值組合,而之后就轉為大市值風格。 在風格切換的拐點處,大市值股票的情 緒面相對于小市值股票開始明顯提升, 并延續至今。在訓練集和測試集上均體現出大市值組 合中相關性為負,而小市值組合中的相 關性為正,表明新聞情緒更加適用于小 市值股票。80.060.040.020.00-0.02-0.04-0.06-0.08G1G2G3G4G5相關性(DIFF5,RET1)相關性(DIFF5,RET3)相關性(DIFF5,RET5)-0.10-0.050.000.050.100.15

29、G1G2G3G4G5相關性(DIFF5,RET1)相關性(DIFF5,RET3)相關性(DIFF5,RET5)0.3050.100.050.00-0.051.21.00.20.02012-01-042012-05-022012-08-162012-12-062013-04-022013-07-262013-11-192014-03-122014-07-012014-10-222015-02-062015-06-022015-09-182016-01-112016-05-042016-08-192016-12-132017-04-072017-07-262

30、017-11-152018-03-082018-06-282018-10-192019-02-122019-06-032019-09-182020-01-092020-05-07凈值比(G1/G5)新聞情緒20日均線差(G1-G5,右軸)196. 行業配置:捕捉適用行業的短期超額收益20情緒指標的行業適用性分析基于情緒指標的行業配置策略資料來源:Wind,中信證券研究部2020年以來前5個適用行業的情緒走勢資料來源:Wind,中信證券研究部2020年以來前5個適用行業的凈值走勢6.1 情緒指標的行業適用性分析資料來源:Wind,中信證券研究部各行業情緒變動(DIFF5)和行業指數未來三日收益率

31、(RET3)的相關性00.080.060.040.020.00-0.02-0.04-0.06訓練集測試集0.060.040.020.00-0.02-0.04-0.06-0.08-0.10-0.12-0.142019-12-312020-01-072020-01-132020-01-172020-01-232020-02-062020-02-122020-02-182020-02-242020-02-282020-03-052020-03-112020-03-172020-03-232020-03-272020-04-022020-04-092020-04-152020-0

32、4-212020-04-272020-05-062020-05-122020-05-182020-05-222020-05-282020-06-032020-06-09醫藥基礎化工房地產煤炭機械1.3051.101.051.000.950.900.850.802019-12-312020-01-072020-01-132020-01-172020-01-232020-02-062020-02-122020-02-182020-02-242020-02-282020-03-052020-03-112020-03-172020-03-232020-03-272020-04-0

33、22020-04-092020-04-152020-04-212020-04-272020-05-062020-05-122020-05-182020-05-222020-05-282020-06-032020-06-09醫藥基礎化工房地產煤炭機械216.2 基于情緒指標的行業配置策略資料來源:Wind,中信證券研究部基于情緒指標的增強組合與基準組合凈值(截至2020年6月9日)選擇訓練集上相關性在前15的行業進行來進短期的行業配置。每2日調一次倉,在每一個換倉日按照情緒變動(DIFF5)從高到低排序,選擇前5個行業構建多頭增強組合增強組合的業績評價(截至2020年6月9日)

34、1.00.82012-012012-022012-042012-062012-072012-092012-102012-122013-012013-032013-052013-062013-082013-092013-112014-012014-022014-042014-052014-072014-082014-102014-122015-012015-032015-042015-062015-072015-092015-112015-122016-022016-032016-052016-072016-082016-102016-112017-012017-032017-042017-062017-072017-092017-102017-122018-012018-032018-052018-062018-082018-092018-112018-122019-022019-042019-052019-072019-082019-102019-1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論