大數據下媒體關注度與股票收益關系研究_第1頁
大數據下媒體關注度與股票收益關系研究_第2頁
大數據下媒體關注度與股票收益關系研究_第3頁
大數據下媒體關注度與股票收益關系研究_第4頁
大數據下媒體關注度與股票收益關系研究_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 年 月天 津 大 學 學 報 ( 社 會 科 學 版) ( )第 卷 第 期 第 卷第 期王春峰等:大數據下媒體關注度與股票收益關系研究 大數據下媒體關注度與股票收益關系研究王春峰, 李嘉毅, 房振明( 天津大學管理與經濟學部, 天津 )摘 要: 互聯網的發展使得市場信息更容易獲得,互聯網已經成為投資者獲取有價值信息的主要途徑,也對投資者 行為逐漸產生影響。 通過自主開發的金融數據挖掘系統,采集了 個網站 多個與股票相關欄目的 余萬條 媒體報道信息,并能夠實現對信息更精細的統計,使得媒體關注度能夠在日內按照不同時間段進行細分。 在此基 礎上,研究交易時間和非交易時間媒體關注度與股票收益之間的

2、關系。 結果表明,交易時間的媒體信息對部分股 票收益率產生顯著影響,非交易時間媒體信息影響較小,雖然這種情況目前存在于部分股票中,但隨著互聯網進一 步發展,網絡信息將逐步成為需要考慮的風險因素。關鍵詞: 數據挖掘; 媒體關注度; 互聯網信息; 百度指數中圖分類號: 文獻標志碼: 文章編號: -()-互聯網使人們獲取信息的速度比以往更加便捷,而降低 。 張永杰、張維( ) 利用搜索引擎文本挖也使得不同投資者之間擁有信息數量和質量上的差距 在不斷縮小,平面媒體的影響力逐漸減弱,個體投資者掘算法研究了每日開源信息與個股收益率的關系,發 現網站信息對部分股票有一定解釋力,但解釋力隨個 從以往關注報紙、

3、電視報道轉向關注互聯網信息。 然股差異變化較大。 俞慶進和張兵( ) 也利用百而,目前我國市場相比發達國家在成熟度上還有差距, 普遍認為國內個體投資者缺乏對市場的宏觀認識,長 度指數觀察關鍵詞的檢索情況,并通過百度指數數據 定義投資者關注,研究發現投資者關注能夠引起超額 期投資較少,市場投機氛圍濃厚。 此外, 個體投資收益。 本研究準確獲取了網站媒體發布信息的情者通過互聯網獲取宏觀經濟形勢和個股的重要信息, 并通過在線的討論與其他投資者之間交換信息,進而 逐步調整自身的投資,媒體對個股的報道也將會對投 資者的投資決策產生影響。在大數據背景下,通過自主建立的數據挖掘和檢 索系統,對抓取的 多萬條

4、數據進行關鍵詞( 股票 代碼 股票名稱) 檢索,將個股相關信息發布量直接 作為媒體關注度指標。 國外在該領域的研究也處在探 索階段, 和 ( ) 通過 搜索 引擎構建每周個股的搜索量指標,研究信息需求、信息 供給與市場波動率之間的關系,并發現搜索量的增加 會加劇股票的波動 。況,將信息的時間精確度從日度提高到了分鐘,可以將 交易時段和非交易時段的信息進行準確劃分,增加了 數據的可信度。 進而研究收益率與媒體關注度的關 系,并考慮了交易量、換手率等因素的影響,以檢驗我 國市場媒體關注度是否能夠作為資產定價因素。一、 金融數據挖掘系統的構建互聯網的數據挖掘是基于人工智能、自然語言處 理、模式識別、

5、機器學習、神經網絡等,改進傳統的數據 挖掘分析技術,從大量非結構化、無結構化數據源抽取 關鍵短語,表示數據的特征,按照數據的特征進行分 網絡媒體發布數據的獲取難度較大,國內的研究類、聚類、關聯等獲得有價值的信息。 在此項研究主要 基 于 平 面 媒 體 和 搜 索 引 擎。 張 雅 慧、 付 雷 鳴() 通過搜集富豪排行榜上榜事件,研究上榜前后 時間窗口內股票收益情況,發現上榜公司股票收益反中搭建的金融數據挖掘系統從系統構架上主要有數據 層、指標層和應用層(見圖 ),目前完成了數據層和指 標層的搭建。收稿日期: -基金項目: 國家自然科學基金資助項目( ) 作者簡介: 王春峰( ) ,博士,教

6、授 通訊 李嘉毅, 圖 1 金融數據挖掘系統構架數據層主要工作機制是:運行爬蟲程序,讀取網頁時相關信息發布較少,一旦有信息發布容易引起投資 文檔;再對已經獲取的數據進行過濾清洗,去掉不完者注意,進而影響投資者的投資行為。 中證 的整、重復、錯誤數據,例如只有標題沒有內容的數據;然 后對標題、內容、本身數據( 瀏覽量、發布時間等) 分別 進行存儲,使采集結果可以結構化輸出。 利用分詞技 術對內容進行分析,提取重要特征,建立索引,便于進 行關鍵詞檢索。指標層是在數據層的基礎上,確定研究的數據內 容,其中設定了媒體關注度、行業關注度、專家關注度 等指標,媒體關注度由媒體發布的個股相關信息數量 構成,

7、也是此次研究中使用的主要指標。應用層則是在建立指標層的基礎上運用特定算 法,對數據間的關聯和特征進行分析。 數據挖掘是一 個高度專業的領域,和金融工程相結合,通過互聯網數 據進行金融領域的研究可以為預測提供新的工具和 途徑。二、 數據與模型設計樣本選擇選取了中證 作為研究的股票樣本,中證 可以綜合反映滬深股市內小市值公司的情況,選擇它 作為研究樣本主要是考慮大市值公司的各類有關事 件、消息發布較多,但可能與股票市場無關,無法準確 反映媒體信息對股票收益的影響,而中小市值公司平股票樣本中剔除了每月連續 天無交易的股票后,數據樣本為 家上市公司,數據包含了股票代碼、交易 時間、每日成交量、換手率、

8、日收益率,數據均來自國泰 安數據庫。樣本時間是從 年 月 日到 年 月 日,主要是因為數據挖掘系統建立時間較短,雖可 進行實時數據采集,但回溯采集歷史數據難度較大,加 之網站經常進行改版增大了系統采集難度,目前已經 采集到 年 月 日至今的數據,包括中國證券 報、財經網、 世紀經濟報道等 家主要財經金融網 站 多個與股票相關欄目的所有新聞信息,共 余萬條數據,信息內容均與股票市場有關。 因為主要 研究個股的媒體關注度與收益關系,因此為確保檢索 信息與個股有直接關系,選擇了“ 股票名稱 股票代 碼” 的 關鍵 詞 組 合 對 已經 采 集 的 信息 進 行 檢 索統 計 ,并按照每日 、 、 的

9、 個時間段進行分類,將 的信息并入次日數據, 作為第 天媒體關注的個股信息 數量。模型設計模型設計思路主要是將收益率作為解釋變量,利 用回歸的方法檢驗媒體關注度與個股收益之間是否存 在相關關系,同時考慮了股票市場上與收益率有關的其他因素,如成交量 、換手率等。 在中國市場上已度,他們在網站獲得某支股票的信息后會通過搜索引經有很多實證研究表明交易量與收益率存在顯著的相 關性,并從個體投資者者與機構投資者博弈、過度投機 擎主動搜索相關信息,因此媒體發布相關新聞信息的 數量對投資者關注間接產生影響,兩者間應該具有一等角度進行了解釋。 也有學者驗證了換手率與收致性,并通過改變投資者關注改變投資行為。

10、由于考益率之間有著顯著的相關性,并隨著股票流通市值的 不同而呈現差異,小市值股票的相關性更強。慮到抓取的數據中可能存在部分日期某支股票相關信 息為 的情況,因此沒有對 M 指標取對數,而直接用ii主要關注收益率( R)、超額收益率( A)、媒體關注度( M)、交易量( V) 和日換手率( D) 個市場指標,并信息數量作為媒體關注度測度指標。 At 、Vt 是第 t 天第 i 支股票的日異常收益率和日成交量。iii構造了 個模型。 首先根據張永杰( ) 對資產定At Rt et()價與開源信息關系的研究,檢驗收益率與媒體關注度Rt 為個股日收益率, et為當期指數收益率,利用之間是否存在顯著相關

11、性,并考慮了成交量因素,同時 檢驗了媒體關注度對成交量的解釋能力是否有影響。 其次,還在考慮成交量、換手率等因素時,將媒體關注 度分為交易時間和非交易時間兩個類別,觀察不同交 易時段的媒體關注度與收益率之間的關系。模型為滬深 指數收益進行計算得到。ii模型中 Nt 為當期非交易時間媒體關注度,Mti為交易時間媒體關注度,Dt 為日換手率。三、 實證結果iiiiAt Mt Vt t()模型為數據的描述性統計此次研究,一共選取了 支股票,時間范圍是iiiiiiAt Nt Mt Vt Dt t()i模型中媒體關注度 M 指標是基于數據挖掘系 統抓取的新聞數據,并通過股票名稱加股票代碼的關 鍵詞檢索方

12、式,確定的每日網站產生的個股相關的網 絡新聞數量。 Mt 即某時間點與某支股票有關的信息 數量。 設計這一指標時研究思路是:個體投資者只能 關注有限的網絡媒體信息,主要的信息來源于幾大財 經金融網站,并對權威網站發布的信息有較高的信任 年 月 日到 月 日。 首先統計每支股票在一年中產生的信息數量,得到一個個股信息量序列,并 進行描述。 同時研究每日交易時間和非交易時間信息 數量的差異,得到描述性統計,并比較這兩個序列與股 票信息序列的不同。 最后對各支股票日收益率的情況 進行了統計,并定性分析產生信息較多股票其收益率是 否存在規律或特征。 變量描述性指標見表 。表 1 變量描述性統計變量均值

13、標準差偏度峰度最大最小股票信息量暢暢暢暢 日度交易時間信息暢暢暢暢日度非交易時間信息暢暢暢暢 日收益率暢 暢暢暢暢暢從數據的統計情況看,個股年度信息量均值較高, 信息的數量較多,但不同股票間差異較大,日度非交易 時間信息數量的標準差最大,說明每支股票不同日期 在非交易時段產生的信息數量差別很大,但交易時間 信息數量的標準差相對較小,即每日該時段信息數量 波動較小。 個股信息量的峰度 大于正態分布的峰 度 ,偏度也較大,日度信息數據的峰度偏度都較小, 說明個股之間存在較大差異,序列分布具有非對稱的 特征。在此基礎上還比較了個股日收益率均值與其信息 總量之間的關系,發現日收益率最高的前 支股票,一

14、年產生的網絡信息數量均值為 暢,而收益率最 低的 支股票,該均值為 ,低于個股年度信息量的中位數 ,其中 “ 國海證券”尤為顯著,年度產生的信息量為 ,同時日均收益率為 暢 ,均 為最大值。 這些結果從定性的角度揭示了信息數量與 收益率之間存在著正向的相關關系,在后面將利用模 型進一步探究互聯網媒體信息數量與收益率之間的相 關性。與百度指數的比對媒體關注度指標反映了在一定時間內與個股相關 的網絡媒體信息數量,假設這些信息被投資者觀察到, 并對其投資行為產生影響,為了驗證這點需要將投資者的關注度與媒體關注度進行對比。 如果具有一致的 趨勢說明兩者存在著一定聯系,同時也從另一個方面 證實采集的數據

15、是真實可信的。 由于百度指數的數據 無法被直接獲取,通過采取抽樣的方式對個股關注度 進行了檢驗,發現與媒體關注度變化趨勢基本一致。 為了說明問題,分別給出年度信息量最大的股票和處 于中 位 數 水 平 的 股 票 進 行 說 明。 股 票 和 的用戶關注度見圖 圖 。圖 2 2012 年 1 12 月 000750 百度用戶關注度圖 3 2012 年 1 12 月 000750 媒體關注度圖 4 600748 百度用戶關注度從上圖中可以看到抽取的兩支股票雖然產生的信 息總量存在較大的差別,但就每支股票對應的投資者 關注度來看,基本與媒體關注度的變化趨勢一致,這說 明兩者間存在聯系,而且也說明數

16、據具有可用性,能夠 反映出信息的真實情況。圖 5 600748 媒體關注度媒體關注度與收益率關系從實證的描述性統計分析上看,收益與媒體關注 度之間存在著正相關關系,日均收益率高的股票,每日 平均媒體關注度也比較高。 但實際情況中媒體關注度 是否真的會影響股票日收益率? 下面將利用模型和 模型分別從不同的角度進行檢驗。 在研究中沒有進 行面板數據處理,而是更多地關注了時間序列下關注 度與收益率的關系。在模型的實證檢驗中,為了更好地比較媒體關 注度的影響,分兩步進行了回歸檢驗:第一步,直接對 收益率和日交易量進行回歸, 發現 支股票中有 支表現出顯著的相關關系,這點和 的研究 結論是吻合的;第二步

17、,將媒體關注度作為風險因子加 入模型中,通過回歸發現媒體關注度指標 M 與個股收 益率顯著相關的股票數量為 支,僅占所有股票數量的 % ,由于數量較少,不能證明媒體關注度與收益之 間存在直接的相關性,回歸結果見表 。表 2 模型的分步回歸結果統計模型 % 顯著性水平下 顯著股票 顯著股票 顯著股票模型未考慮媒體 支 支關注度(暢% )考慮媒體 支關注度(暢% )(暢 % )模型 支(暢% )( 暢 % )(暢% ) 在模型的基礎上對信息進行細分,分別考慮交 易時間產生的信息和非交易時間產生的信息與收益率 之間的關系,也因此發現了一個值得關注的現象。 傳 統的理論認為,隔夜信息會對第 天的交易產

18、生影響, 形成開盤時的價格跳躍 ,但是互聯網使得信息的傳 播速度更快,搜集信息的成本降低,使人們對信息的反 映時間更短,當有信息出現時就能快速做出反映。 研 究一個創新點就在于可以區分當期交易時間與非交易時間產生的信息,從而更清晰地說明當期較高的媒體 關注度是否會帶來收益。模型中發現部分股票的收益率與交易時間的媒 體關注度顯著正相關,但與非交易時間的媒體關注度 無相關關系,從表 中可以看出,有 支股票的收益 率與其交易時間的媒體關注度顯著相關,說明交易時 間產生的信息更容易對投資者產生影響,引起投資者 關注進而改變其交易行為。 同時從描述性統計的結果表 來看,非交易時段的信息量超過了交易時間的

19、信 息量,結合模型的實證結果,就容易發現非交易時段 的信息多數為噪音,按照交易時間和非交易時間對信 息進行劃分,使網絡媒體報道對股票收益的影響被揭 示出來。從媒體關注度與收益率顯著相關的 支股票中 選取部分股票作為示例來揭示內在的變化( 見表 )。表 3 部分個股媒體關注度模型檢驗示例股票模型模型 系數R截距 系數 系數R華菱鋼鐵暢暢暢暢 暢暢()(暢)(暢 )(暢 )(暢 )大恒科技暢暢暢暢暢暢()(暢)(暢 )(暢 )(暢 )首鋼股份暢暢暢暢暢暢()(暢)(暢 )(暢 )(暢 )日照港暢暢暢暢 暢暢()(暢)(暢 )(暢 )(暢 )寧夏建材暢暢暢暢 暢暢()(暢)(暢 )(暢 )(暢 )珠

20、江啤酒暢暢暢暢 暢暢()(暢)(暢 )(暢 )(暢 )華峰氨綸暢暢暢暢 暢暢()(暢)(暢 )(暢 )(暢 )四川雙馬暢暢暢暢 暢暢()(暢)(暢 )(暢 )(暢 )安泰集團暢暢暢暢 暢暢()(暢)(暢 )(暢 )(暢 )塔牌集團暢暢暢暢 暢暢()(暢)(暢 )(暢 )(暢 )從表 中可以看出,模型的 R 好于模型,說 明當對不同時段的信息進行細分時,一部分股票交易 時段產生的信息能夠解釋當日的異常收益,同時也可 以觀察到交易時段媒體關注與收益率正相關,且顯著。 而模型中每日媒體關注度與收益率未表現出顯著的 相關 性, 這 點 也 與趙 龍 凱 等 人的 研 究 結 果 基 本 一 四、 結語

21、在此項研究過程中自主開發了金融數據挖掘系 統,利用該系統獲得了媒體關注度數據,并通過與百度 指數比對,證明了數據的可用性,也證實了研究思路, 致,即每日關注度指標與日異常收益率之間不存在媒體關注度和投資者關注度具有一致性,在此基礎顯著關系。從以上的研究中發現投資者,尤其是個體投資者 在交易時間對各類有關市場和個股的信息更為關注, 而在非交易時間主動關注信息較少,這些信息對其影 響較小,這也從另一個方面反映了中國市場投資者成 熟度不高,缺乏長遠投資理念,而更多希望獲得利好消 息進行短線投資,因此對當期信息更加關注。上開展了媒體關注度和收益率之間的關系研究。 通過 研究中證 中小企業股,發現日度媒

22、體關注度與收 益率之間目前尚不存在顯著的正相關關系,又對媒體 關注度在日內交易時間進行了細分,分為交易時間媒 體關注度和非交易時間媒體關注度,發現部分股票的 交易時段媒體關注度與收益率之間有顯著相關性,媒 體關注度越高,當期異常收益越高,這是一個重要的創 新點,說明部分股票的媒體信息中已經包含了有效信 息,能夠對投資者行為產生影響,而非交易時間媒體信息對投資者影響很小,這也與中國投資者的投機行為 有關。研究沒有采用百度指數來研究,而是從媒體信息 的角度出發,對日內的關注度進行更細的劃分,發現更 多有價值的問題,也希望為信息與資產價格行為之間 的研究提供一個全新的視角。 國內互聯網信息在金融 領域的研究也處于探索階段,此項研究也存在一定的 局限性,第一,由于百度指數的不易獲得,只能通過抽 樣的方式對媒體關注度與百度指數進行對比,之間的 相關性還有待進一步嚴格檢驗。 第二,研究對象主要 是中小企業股,大公司股票需要進一步研究。 第三,主 要從時間序列層面進行了研究,而橫截面上不同行業 或不同特點的股票表現出來的特征將是下一步研究的 重點,同時將利用金融數據挖掘系統在投資者關注度 層面做深入研究。參考文獻: 張 健,劉 憲我國股票市場的投機特征 價格理論 與實踐, (): - , , ,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論