大數據在選股分析中的應用_第1頁
大數據在選股分析中的應用_第2頁
大數據在選股分析中的應用_第3頁
大數據在選股分析中的應用_第4頁
大數據在選股分析中的應用_第5頁
已閱讀5頁,還剩58頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、分 類 號 密 級 u d c 編 號10486 碩士學位論文 大數據在選股分析中的應用 研 究 生 姓 名:李博洋 學 號:29 指導教師姓名、職稱:蔣晶玨 副教授專類別業(領 域 ): 計算機技術 二零一七年十月52 / 63 application of big data in stock selection analysisby li boyangoct, 2017 鄭 重 聲 明 本人的學位論文是在導師指導下獨立撰寫并完成的,學位論文沒有剽竊、抄襲、造假等違反學術道德、學術規范和侵權行為,否則,本人情愿承擔由此而產生的法律責任和法律后果,特此鄭重聲明。 學位論文作者(簽名): 年 月

2、 日 中文摘要在科技不斷進展、網絡覆蓋率持續擴張的今天,大數據時代早已悄然而至,每個行業都會形成海量、繁雜的數據。對于如何有效地采集信息、如何挖掘出數據內部的規律,學者們一直在不遺余力地研究并不斷提供各種新型的技術。對于國內的私募基金而言,大數據的價值及其所蘊含的新商機并未充分體現出來,不過可以肯定的是,大數據在私募基金決策的過程中起著越來越重要的作用。基金行業是一個大數據市場,股市每天交易頻繁,由此形成了大量的數據,大數據分析技術在這一行業不斷走向成熟的過程中,也在不斷地更新。筆者在本課題中,以金融市場中存在的主要問題為切入點,以上市企業為對象,探討如何對基本面數據以及股票交易展開挖掘分析,

3、并且詳細闡述了k-means算法的基本原理、神經網絡在選股的作用原理;在現有股票預測原理的基礎上,提出的多聚類分析股票數據的方法,結合分類算法對股票數據進行訓練,形成基于聚類分析的智能選股算法。然后對算法進行驗證,對整體方案框架進行設計,通過matlab進行聚類實現,最終得出最優參數下的聚類結果。最終結合聚類分析出來的選股算法,利用hadoop技術設計一個簡潔,穩定高性能的智能選股系統。試驗結果顯示,開發出的模型分析選股系統可以對股票數據進行多維的分析預測,作為投資者的投資決策的輔助工具,是利用數據挖掘技術結合多聚類分析股票數據的方法,分析大量與股票相關數據,并做出未來走勢預測,具有一定的有用

4、意義。關鍵詞: 私募基金;數據挖掘;證券分析;互聯網大數據;交易數據abstractwith the continuous development of technology and the continuous expansion of network coverage, the era of big data has long been quietly emerging and there is massive and complicated data in every industry. researchers have been sparing no effort in researc

5、hing and constantly providing various new technologies for how to effectively collect information and how to find out the internal laws of data.for domestic private equity funds, the value of big data and the new business opportunities big data contains are not fully demonstrated, but it is certain

6、that big data plays an increasingly important role in the decision-making process of private equity funds. the fund industry is a big data market. daily trades in the stock market result in a large amount of data. analysis technology of big data is constantly updated with the industry being mature.i

7、n this subject, takeing the main problems existing in the financial market as the starting point and the listed companies as the object, the author explores how to excavate and analyze the fundamental data and stock transactions, and elaborates the basic principle of k-means algorithm. based on the

8、existing stock forecasting theory, this paper proposes a multi-clustering method to analyze stock data and a combination of classification algorithms to train stock data to form an intelligent stock selection algorithm based on clustering analysis.then the algorithm is verified, the overall program

9、framework is designed, and the clustering is realized by matlab. finally, the clustering results under the optimal parameters are obtained. at last combining with the stock selection algorithm based on clustering analysis, a simple stable and high-performance intelligent stock selection system is de

10、signed by using hadoop technology. the experimental results show that the model stock picking system can make multi-dimensional analysis and forecasting of stock data. as a supporting tool for investors' investment decision-making, it has certain practical significance, which uses the method of

11、data mining combined with multi-cluster analysis of stock data, stock-related data, and make the future trend forecast.key words:private fund; data mining; securities analysis; internet big data目 錄中文摘要iabstractii目 錄iii圖表目錄v1 緒論11.1 論文選題研究的背景及意義11.2 國內外現狀分析21.2.1 國外大數據在金融領域進展現狀21.2.2 國內大數據在金融領域進展現狀41

12、.3 論文的組織結構52 相關理論技術基礎及可行性分析62.1 股票二級市場的狀況62.2 數據挖掘工作原理92.2.1 聚類算法概述92.2.2 k-means算法原理102.2.3 分類算法142.2.4 分類算法的類型152.3 神經網絡在選股中的作用182.3.1 神經網絡進行股票預測的原理182.4 本章小結193 智能數據挖掘選股算法203.1 現狀分析203.2 基本概念213.2.1 算法研究213.2.2 多聚類分析股票數據233.2.3 多聚類方法描述243.3 本章小結254 算法模型驗證264.1 試驗方案264.2 數據準備264.3 matlab中聚類的實現264.

13、4 聚類結果284.4.1 采樣/持有周期對聚類結果的影響284.4.2 分類數/滯后期對聚類結果的影響304.4.3 最優參數下的聚類結果304.5 本章小結315 選股系統的設計325.1 系統的詳細架構325.2 并行數據挖掘算法實現335.3 數據庫設計345.3.1 數據表索引345.3.2 數據表詳細設計355.4 詳細設計375.4.1 數據結構設計375.4.2 離線交易數據入庫385.4.3 主要指標數據計算385.5 系統實施435.5.1 日線數據入庫435.5.2 指標計算435.5.3 智能選股435.6 應用455.7 系統測試455.8 本章小結466 總結與不足

14、47參考文獻49致 謝50圖表目錄圖 21 k均值聚類算法的流程圖11圖 22 數據挖掘的流程圖15圖 23 數據文本分類的流程圖15圖 31 行業收益率序列聚類分析方法21圖 32 分類數據產生過程22圖 33 分類模型的建立22圖 34 多重分類模型建立23圖 51 系統架構圖32圖 52 并決策樹算法流程圖33圖 53 離線交易數據入庫流程圖38圖 54 日線數據入庫界面43圖 55 指標計算界面43圖 56 股票預測數據45表 21 行業分類表8表 31 股票資產定價的技術進展表20表 41 不同采樣/持有周期對聚類結果的影響29表 42 不同采樣/持有周期對聚類結果的影響(反轉效應)

15、29表 43 分類個數/滯后期對聚類結果的影響30表 44 聚類模型下的收益對比30表 51 數據庫索引35表 52 日常交易數據表35表 53 股票指標數據36表 54 指標基本信息表361 緒論1.1 論文選題研究的背景及意義在過去短短幾十年間,it行業經歷了多次歷史性的革命,比如云計算、物聯網等,而這一行業最新的突破性成果即為大數據。隨著計算機和網絡的普及,大數據時代已經降臨,在這樣的背景下,私募基金行業也迎來了新的機遇和挑戰。無論是從投資者還是創業者的角度來看,大數據都是非常受關注的融資標簽。大數據的首要特點是數據體量非常大,通常至少應該達到10tb,然而在現實中,很多企業將自身的數據

16、集全部集中起來,最終匯聚成達到pb級的數據量。另外,其所包含的數據從類型上來看是多種多樣的,數據來源豐富多樣,數據格式明顯不統一,完全超出了以往人們所說的結構化數據范疇,還包含了半結構化數據以及非結構化數據。大數據的數據處理速率非常快,即便它涉及到龐大的體量,但依舊能夠滿足數據處理的實時性要求。最終,其數據具有很強的真實性,近些年間,社交數據、企業內容、交易等方面的信息不斷涌現,這些數據都來自新的數據源,在這樣的背景下,企業需要更加有效的信息,才能確保其真實性和安全性,為企業的決策提供準確、準時的依據。作為一種信息資產,大數據表現出大量、快速增長、多樣化的特點,其在決策、洞察、流程優化方面有著

17、明顯的優勢,但這些優勢能夠在多大程度上體現出來,主要由處理模式所決定。從數據類型角度而言,“大數據”是指超出以往的流程和方法的處理范圍的信息。它對所有突破正常處理范圍、一定使用非傳統方法進行處理的數據集進行了定義。亞馬遜網絡服務(aws)、大數據領域的學者john rauser曾經對其概念進行高度歸納的闡述,即通過一臺計算機無法處理的龐大數據量。研發小組提到:大數據指的是一種最大、最時髦的宣傳技術,一旦發生了這一現象,定義就會雜亂無章。而kelly則認為,大數據或許并不等同于所有的數據,但其所包含的大多數數據都是正確的。時至今日,大數據的概念都存在廣泛的分歧,但有一點是取得了共識的,即由于它有

18、著龐大的體量,因此在對其進行分析的過程中,要用到多個工作負載。數據的極限,是由技術的極限所決定的。當然,概念上的分歧并未對大數據的應用造成過大的影響,關鍵在于如何應用,如何在更大程度上發揮出其作用和價值,因此要在技術方面不斷地推陳出新,使大數據的作用充分的釋放出來。同時還要探討和以往的數據庫不同的是,具有開源性特點的大數據分析工具比如hadoop的廣泛應用,以其為代表的非結構化數據服務的價值體現在哪些方面等。大數據挖掘技術在金融領域的應用,可以追溯到十多年之前。金融行業是競爭十分激烈的行業,私募基金經理每天都需要面對大量的數據,能否高效地從中找到有價值的信息,并據此對行情進行推斷,在很大程度上

19、決定了產品收益率的高低。事實證明,大部分投資決策失誤的根源在于信息不對稱,所以,越來越多的學術界和實踐界人士開始投入到行業熱點信息的研究中來。與此同時,在網絡高速進展的背景下,網絡所形成的金融大數據對金融分析師而言,充滿了機遇,同時也隨處面臨危機和挑戰。筆者在本課題的研究中,從基金經理的角度出發,探討大數據挖掘技術對行情分析的作用和價值,從金融數據信息里面挖掘有效的因素,并據此對股市未來的走向進行預測,對基于聚類分析的智能選股算法進行分析和測試。本課題研究旨在充分利用大數據挖掘技術,為私募基金經理在業務操作過程中提供更有力的依據,使其能夠更加準確地定位股票和分析、預測市場行情,改變以往實地調研

20、等傳統方法過于耗時耗力的現狀。1.2 國內外現狀分析1.2.1 國外大數據在金融領域進展現狀縱覽全球,大數據技術的主要潮流和趨勢是易用化、簡潔化,大多數大數據分析企業,都將數據采集、分析、處理等功能全部集成在一起,通過分析平臺的方式提供這些方面的服務。比如fractal analytics不但實現了數據分析的功能,并且能夠在無需人工操作的情況下完成數據的清理和驗證等操作,從而提供標準化、規范化的數據。voyager labs則在全球范圍內鋪設了十億個數據點,有著廣泛的數據來源,從而為用戶提供更加全面的數據服務。如今,很多企業的產品策略中明確提到,要進一步降低大數據技術的技術難度和成本,從而提高

21、其易用性,比如domino公司推出的產品能夠讓研究人員將更多的精力和時間放在數據分析上,也就是節省在軟硬件環境維護方面的時間。datameer推出的產品直接將復雜的底層技術遮蓋起來,通過表格的形式將數據呈現在用戶的眼前,充分地考慮到了用戶的操作習慣和便利性。rapid miner studio無需任何代碼就能夠在客戶端進行操作,擁有機器學習、數據挖掘、文本挖掘等一系列的功能,能夠更好地滿足用戶的需求。在大數據分析應用范圍不斷擴張的過程中,此項技術在性能方面的表現也持續優化,數據分析結果的準確性大幅提高。比如sigopt公司通過貝葉斯優化(bayesian optimization)算法對模型參

22、數進行調整,從而對網格搜索方法予以改進,新的方法能夠在更短的時間內提供更為準確、易用性更高的結果。更重要的是,sigopt的產品不但能夠對多種變量進行測試,同時能夠為后續的測試工作提供可行的建議,從而為用戶提供更加準確的數據分析結果。值得一提的是,很多大數據分析企業通過不斷的研究,突破以往數據分析理論的約束,通過新穎的方法實現數據分析,為傳統的分析方法無法解決的問題提供了解決之道,在很多領域中都得到了廣泛的應用。三位數學領域的權威專家共同成立的ayasdi公司即為其中之一,這一公司基于拓撲數據分析技術以及大量的機器學習算法開發出性能十分突出的數據處理功產品,從而對各種復雜的數據集進行處理,不但

23、能夠采集到更多的高維數據空間里面的拓撲信息,并且能夠提供很多以往的方法無法提供的小分類,該產品如今已經被應用到基因和癌癥研究方面,在醫療保健領域起著重要的作用,一位醫生就是利用該產品發覺14種乳腺癌變種的,另外該產品在金融服務行業中也積存了一定的用戶。如今,很多國家已經從戰略層面來思考大數據的作用和價值,并進行了全面的部署,從而緊跟大數據技術革命的潮流。尤其是一些it強國,比如美國等,為了促進大數據技術的應用和進展,不但制定了全面的戰略和法律,并且擬定了科學的行動打算。而在澳大利亞,一些有著較強綜合實力的銀行,針對小微企業這一客戶,打造了無償的大數據分析服務,期望通過這種附加的服務,提高客戶忠

24、誠度的同時,吸引更多的客戶,通過此項服務,銀行幫助小企業進行客戶和競爭對手的分析,使其對其自身的財富結構、消費者購買傾向、競爭對手客戶結構等情況有更加全面的了解。當然,大數據分析是需要大量的原始數據的,而這些數據都是銀行通過零售業務積存的,不但數量較大,而且準確性更高,因此銀行提供的分析結果比大多數市場分析機構提供的結果更為全面和準確。很多小企業就是看中了這方面的服務,才成為銀行的客戶的。大數據也為危險控制方面的創新創業注入了有力的活力,比如來自美國的一家創業型企業,為了讓銀行更準時地了解貸款危險,將電梯運行的數據和黃頁數據結合在一起進行分析。我們知道,如今有很多企業都是租借辦公樓的某一層或某

25、一區域的,辦公樓往往都是高層建筑,電梯是此類建筑的標準配置之一。電梯在運行的過程中,會產生各種數據,比如在其中一層停留了多少次等。黃頁信息具有公開性的特點,一般的個人也能便利地查到,比如辦公樓的某一層被哪一個企業所租賃等,將這兩方面的數據匹配起來,就能夠確定每天電梯在特定的企業停留多少次。若這一數據在短時間內出現大幅降低的情況,或許可以證明公司的員工數量或到公司拜望的客戶數量降低,該公司經營狀況有所下滑,這對銀行來說是非常重要且有價值的信息。如果銀行能夠在貸款后治理的過程中準時地了解這一信息,將能夠實現對貸款危險的跟蹤治理,相比以往每季度進行的全面檢查,能夠更加準時地反映出危險狀況。 當然,這

26、一案例僅僅是大數據技術對金融機構作用的“冰山一角”,其應用前景還需我們去探究、去開發。但現實卻是,盡管大數據處理技術的進展十分迅速,但金融機構在應用大數據方面的表現并不理想,導致這一現狀的原因是什么?為了尋求這一問題的答案,波士頓咨詢公司從全球范圍內選擇幾十家金融機構展開調查研究,以期發覺數據發揮其價值的整個過程,并因此尋覓到限制其價值發揮的節點之所在。該公司通過研究發覺,數據發揮價值的過程由七個環節構成,即數據收集、獲得數據擁有者的許可和信任、儲存和處理技術、數據科學/算法、協調、洞察、嵌入式變革。同時他們還指出,限制數據價值發揮的節點是數據擁有者的許可和信任以及協調這兩個環節,這反映出數據

27、整合不力、金融機構內部不同部門協調不暢的問題。比如,很多銀行的問題在于各個部門比如零售、對公等方面的數據并未充分地共享,同時技術和業務部門之間的溝通不夠有效,數據很難轉變成生產力。1.2.2 國內大數據在金融領域進展現狀截止到2021年,國內很多企業開始全面部署大數據處理技術,這種技術也因此成為生產環境中最重要的核心企業級系統。大數據的受關注程度有所降低,但這并未影響到其進展速度,這方面各種產品不斷走向成熟,更多的財富百強企業開始將其應用到生產經營活動中去,一些初創企業也通過此項技術的應用找到了新的盈利增長點。毫不夸張地說,大數據技術已經成為國民生活中重要的基礎設施之一。大數據處理技術對金融企

28、業內部各個部門都有著一定的用途,比如從銷售部門來看,該部門工作人員可以對客戶性格、資產、所屬行業等方面的數據進行分析和挖掘,以客戶購買傾向為依據,對客戶進行排序,從而讓銷售員將更多的時間和精力放在購買傾向更強的客戶身上,提高銷售成功率。對于企業宣傳部門而言,在完成市場情緒分析的基礎上,能夠編輯出更簡潔使客戶共鳴的文案,幫助企業塑造更好的形象,提升投資者對企業的信念。對于企業法務部門而言,大數據處理技術能夠“閱讀”大量的合同,并根據具體的案件對法院的判決進行模擬,給出各種判決結果的概率,為法務部門選擇辯護思路提供依據,在不久后的未來,企業的初級法務工作或許可以完全交由大數據處理技術完成。除此之外

29、,從研發、策劃部門的角度來看,大數據技術能夠揭示出企業數據內部的關系,從而為基金經理進行行情推斷、投放廣告、向客戶推舉金融產品等提供更有力的依據。大數據的應用價值和作用早已得到了實踐的驗證,其在人們生活的不同領域發揮著日益重要的作用。整體來看,大數據金融具有普惠性的特點,它讓人們能夠享受到高效、平等的金融服務。如果某一家金融機構能夠了解大數據的規律,這就意味著掌握了更大的核心競爭力,企業銷售業務量因此會大幅增長,企業市場份額因此而提高。當前,大數據分析的理念和方法在國內進展迅猛,但現有的這方面的研究成果基本上都來自計算機科學領域的研究人員,這些學者在進行這方面的研究時,基本上都是從信息科學角度

30、出發的,將主要的關注點放在大數據采集、保存、處理、挖掘等上,針對具體企業進行研究,探討大數據對企業治理、決策作用的研究成果相對比較少,在學科的融合這一點上做得不太到位,知曉商業語言同時能夠獨自清理和組織大數據的專家人數略顯不足。1.3 論文的組織結構本課題研究主要由以下六部分組成:第1章 是緒論,闡述本課題研究背景和意義,從分析金融領域大數據使用史,進而引導出本課題的創新性,并指明本課題研究思路。第2章 論述股票二級市場的狀況,詳細闡述了k-means算法的基本原理、神經網絡在選股的作用原理。第3章 結合現有股票預測原理的基礎上,提出的多聚類分析股票數據的方法,結合分類算法對股票數據進行訓練,

31、形成基于聚類分析的智能選股算法。第4章 對智能選股算法進行驗證,對驗證方案進行闡述準備,并通過matlab進行聚類實現,最終得出最優參數下的聚類結果。第五章設計整體選股系統,結合第三章給出的基于聚類分析的選股算法,利用hadoop技術設計一個簡潔。穩定高性能的智能選股系統。第六章對本課題研究內容進行歸納,提出針對性和可行性建議,指明未來該領域的研究方向,并客觀地指出本課題研究的不足之處。2 相關理論技術基礎及可行性分析2.1 股票二級市場的狀況股票市場是股票發行和交易的平臺,參加這一市場的主要主體包括了:交易所、中介機構、自律性組織、監管機構、投資者等。1990年底,為了推進改革開放,滿足國內

32、經濟增長的需求,政府經過多年的準備后,在上海、深圳兩地成立了證券交易所,我國也因此成為全球第一個擁有資本市場的社會主義國家。當前,在國內a股市場上市的企業超過了2500家,股票總市值排名世界第三。在過去將近三十年的歷程里,國內股票市場在幫助企業籌集資金、提高企業融資結構合理性方面作出了無與倫比的奉獻,為我國經濟的進展制造了更好的環境。如今,該市場中能夠交易的證券包括了a股、b股、企業債券、可轉換債券、國債等。越來越多的個人和機構邁入投資者隊伍中來。中介機構是證券市場的重要參加者,國內這一機構的出現,可以追溯到上世紀八十年代中期,在此后的十年間迅猛進展。統計數據顯示,我國一共擁有超過90家的證券

33、公司,開展證券業務的會計師事務所超過100家,律師事務所超過300家,資產評估機構超過100家,證券評級機構一共2家。同時,更多的國民將投資目光轉向證券市場,2021年6月,國內在證券公司開戶的個人達到2億人之多。然而就目前的現狀來看,國內的股票市場和國外市場的關聯性并不強。國內資本市場存在一系列的問題,比如市場結構合理性程度低、在資源配置方面的作用并未完全體現出來、市場約束機制不夠有力、市場運行機制不夠完善等,要解決這些問題,有賴于資本市場自身的調整和優化。a股市場長時間保持低迷,這是市場調整所一定經歷的階段。整體來看,國內股票市場的特征主要體現在這些方面:1、在企業性質上,包括了國有企業以

34、及民營企業。國有企業:此類企業的治理目標和股東利益存在一定的出入,國企追求的終極目標,并非紅利的最大化,而是對國家建設和人民生活奉獻的最大化。在過去的一段時間內,銀行股的股價不太理想,而在香港的保險公司則長期保持這種低迷的表現,尤其是信托行業,其情況更加令人堪憂。境外的經驗告訴我們,從短期的角度來看,信托的利潤是非常可觀的,但從中長期的角度來看,股東要承受較大的危險,這是歐美地區上市企業對信托行業不太感興趣的主要原因之所在。民營/私營企業:過度競爭。我國擁有的汽車、水泥、鋼鐵企業數量居全球首位,一個行業中存在過多的競爭者,很有可能會出現惡性競爭行為,啤酒行業利潤低于其他國家就是最好的證明。當然

35、,這種現狀并不是有弊無利的,它能夠提高行業的競爭性,降低生產和經營成本,提高在全球市場中的競爭地位,但會對股東利益造成影響,導致企業盈利能力降低。私營企業,格外是家族企業在未來的進展充滿更多的不確定性。3.企業作假,存在嚴峻的內幕交易情況,雖然這種情況在各個國家都有,但相比來看,在國內更為嚴峻。2、股票政策目標的不合理,現行的很多針對股市進行監管的政策,其目標不是以愛護股東為主。2021年到現在,美國證監會總共開出249張罰單,遠遠多于我國。從治理層面而言,美國證監會的首要愛護對象為股東,企業甚至是經濟都沒有股東那么重要。3、投資者基礎不理想:投資者投資理念不夠成熟,沒有足夠的資金用于長期投資

36、,大部分都追求的是短期利益。首先,在投資目的上的差異,以巴西為例,該國股市上最大的投資者是以長線投資為主的機構,并非個人。一旦股市出現大幅的波動,機構投資者也會陸續投資和交易行為,而在國內90%都為散戶,在這種情況下簡潔撤離。其次,上市企業忽視了長期投資者的利益。不管是國企還是民營企業,都身處競爭過度的逆境,大部分的企業并未對未來5-10年的進展進行科學的規劃。所以從個人層面而言,難以進行長期投資。在國內,企業在五年后跨行的事件屢見不鮮,很多投資者選擇短期投資也是無奈之舉。在過去的幾年間,越來越多的個人將投資的目光轉向二級市場,然而上市企業對分紅的積極性并不高,大部分投資者都是通過差價抓取收益

37、的,因此將近八成的投資者每天所跟蹤的,就是股票價格的波動并對大盤的波動情況進行預測,國內股票市場的驅動力來源在于散戶,因此學者們在進行股票市場方面的研究時的,都將關注點放在股價的波動和如何進行更準確的預測上。眾所周知,證券市場中的上市企業身處宏觀經濟這一大環境,因此難免受到影響。所以,在股票市場中投資時,通常都會結合當下的經濟形勢進行考慮,選擇可能會帶來收益的上市企業股票。要準確的推斷經濟形勢,通常都需要結合政府相關部門制定的財政和貨幣政策,以及披露的行業數據進行全面的考慮。財政政策是政府根據當前社會各個方面的進展目標而提出的財政工作總體方針,政府制定和推行此項政策的主要目的,是對國民總需求進

38、行調整。從財政政策的角度能夠了解進展空間,通過經濟數據對進展取得的成績進行檢驗。各種經濟數據和貨幣政策存在緊密的關聯,貨幣政策指的是政府或央行為引導經濟活動朝著預期的方向前行而制定的貨幣方面的政策,主要目的是對貨幣供應和利率進行控制,通俗來說就是調節貨幣的流通量,這一參數在很大程度上決定了國民的消費能力。比如,當政府推行收縮性貨幣政策時,利率就會因此而提高,消費者難以從銀行手中獵取貸款資金支持,或者不情愿承擔高額的利息而放棄消費,所以此項政策對房地產行業的進展具有打壓性的作用,在這種情況下理性的投資者就會遠離房產股。通過分析對經濟形勢有全面的了解后,后續工作主要是找到進展前景比較好的行業了。以

39、行業中競爭者數量、產品性質、企業價格控制能力等為依據來看,市場包括了四種類型,即完全競爭、壟斷競爭、寡頭壟斷、完全壟斷。接著對確定的行業的周期性展開推斷,行業進展狀況和宏觀經濟狀況之間存在一定的關聯,不過各個行業這一關聯性的強弱程度存在或大或小的差異,根據這一差異可以把各個行業分成三種,具體如下表2-1:表 21 行業分類表增長性行業該行業的變動趨勢和宏觀經濟并非未完全同步,表現出較強的增長性,無論經濟處于增長或衰退階段,行業都有可能表現出增長的趨勢。周期性行業該行業的變動趨勢和宏觀經濟是完全同步的,比如鋼鐵、有色金屬、煤炭等行業,都屬于這一類。防備型行業無論經濟處于周期中的哪一階段,行業的進

40、展都比較穩定,比如視頻業、公用事業等,都屬于這一類。無論是哪一種行業,都不可幸免地會經歷成長、衰退等階段,此即為行業生命周期理論的核心之所在。投資者能夠按照專業的偏好對特定的行業展開分析。從稚嫩期、成長期、成熟期、衰退期來看,每個階段行業中應該選擇的企業是不同的。針對稚嫩期行業,通常都會投資治理人員整體素養較高的企業;針對成長期行業,通常都會投資技術成熟、市場容量大、產業關聯性更強的企業;針對成熟期行業,企業在產品、工藝和技術方面都達到了成熟水平,企業競爭力最強;針對衰退期行業,落后的產能應該去尋覓新的替代品,也就是說企業進展的重點在于業務的轉變。目前應用比較廣泛的調研方法包括了:問卷調查、電

41、話訪問、實地調研、深度訪談。在正式調研之前,需要完成的準備工作包括了:采集基礎性的行業數據;了解企業在過去兩年或以上時間的相關數據;掃瞄市場中權威媒體公布的的文章,從而了解市場以及對手的觀點和最新情況;創建模型,把采集到的關于行業和企業的數據提交給模型,確定模型預測還需要哪些未知的數據,編制調研提綱;對于未知的數據,根據市場觀點以及自身的經驗,對其進行估量,然后將其提交給模型,基于模型輸出的結果對企業進行較為全面的推斷。這一過程涉及到大量的數據挖掘工作,需要投入大量的時間和精力,當前行業研究的框架和規律是完全公開的,因此決定基本面推斷結果的主要因素,是數據的準時性和準確性,了解各個行業的核心數

42、據之所在,并準時地進行更新,創建數據挖掘系統,跟蹤這些數據,是準確推斷行業周期的重要前提。整體而言,趨勢的形成、演化的規律,在很大程度上由因果循環所決定,市場分析的重點在于趨勢的推斷、跟蹤和迎合。因此,為了提高行情分析的準確性,一定明確和市場進展有關的各項因子。2.2 數據挖掘工作原理2.2.1 聚類算法概述聚類,指的是將大量的數據分割成多個簇,確保不同簇彼此間有著明顯的區別,而同一個簇里面的數據的差異非常小。這里的簇指的是樣本的集合,聚類分析讓同一個簇里面的元素的關聯性比其和別的簇里面的元素的關聯性更強,也就是說同一個簇包含的兩個元素表現出很高的相似度,不同簇里面的元素則表現出很高的相異度。

43、通過對樣本的屬性值進行計算,就能夠確定相異度的大小,通常情況下都會選擇不同樣本的“距離”予以衡量。 聚類分析別名群分析,它是遵循“物以類聚”的思想,將樣本或指標分為不同類型的多元統計分析方法,其在數據挖掘領域有著廣泛的應用、發揮著重要的價值。有了這種方法后,即便在不存在先驗經驗,和能夠借鑒的模式的情況下,也能夠以樣本的特性為依據,將大量的樣本分為不同的類型。在聚類之前,用戶往往不確定需要將數據分成幾個簇,并且沒有確定劃分的依據,在聚類分析的過程中,數據集的特征是不知道的,應用聚類算法的目的就是了解其特征,并因此為依據將其分為若干個簇。從這個角度來看,聚類和分類存在一定的共同點,也就是把數據分成

44、不同的組,不過二者是完全不同的兩個概念。在分類之前,組已經定義好,然而在聚類時,組(通常被叫做簇)并未提前定義,是在了解數據的特征后,根據數據的相似性進行定義的。數據挖掘對聚類分析的要求主要體現在:可伸縮性,如果聚類對象達到幾百萬個,最終的聚類結果應該在準確度方面保持一致;能夠對數據的各種屬性進行處理;部分聚類算法,只能夠用于數值類型數據的處理,然而在實踐中,數據的類型并不局限于數值,還有很多不同的數據,比如二元數據、分類數據等。不過,這些數據都能夠被轉化成數值型數據,不過這樣一來,聚類所需的時間會變長,最終聚類結果的準確性也會有所降低;能夠找到各種形狀的類簇:考慮到相當一部分的聚類算法都是以

45、距離(eg:歐幾里得距離或曼哈頓距離)反映出不同對象彼此間的相似度的,在這種情況下,只能夠找到尺寸、密度相差較小的球狀類簇或凸形類簇。然而,在實踐中,類簇的形狀有很多種;對聚類算法初始化參數的知識需求是最小的:相當一部分算法的應用,需要用戶提供初始參數信息,比如所期望得到的類簇的數量,初始質點等。如果參數出現小幅的改變,最終的聚類結果會出現明顯的改變,準確性大打折扣,同時給用戶造成更重的負擔。整體而言,數據分類是對現有的數據展開分析,確定其在屬性上的一致之處,同時利用分類模型將數據分成多個類別,并為每個類標記標號。類別往往都是已經定義好的,類別數量是確定的。而數據聚類,則是把不存在類別參考的數

46、據分為多個組,也就是從數據導出類標號。聚類分析是對數據進行挖掘,從而得到數據對象和它們之間的關系,然后把數據分為不同的組。每組包含的對象具有較高的相似性,不同組里面的對象是不相似的。所以說,推斷分類效果的依據,是組內、組間樣本的相似性的高地程度。2.2.2 k-means算法原理屬于硬聚類方法,它是在原型的目標行數聚類方法基礎上提出的,能夠用于優化數據點和原型的某種距離,通過函數求極值的方法,從而確定迭代運算的調整規章。這種方法通過歐式距離來衡量相似度,通過計算得到對應某一初始聚類中心向量v最優分類,從而將評價指標j控制在更低范圍內。該方法選擇的聚類準則函數為誤差平方和準則函數。對于數據挖掘而

47、言,屬于算法范疇,它能夠通過計算提供數據聚集,持續地取離種子點最近均值。我們用c代表聚類分析后樣本集的數量,該算法的原理為: (1)恰當地選擇c個類的初始中心;(2)在進行第k次迭代時,針對任何的樣本,通過計算確定其和c個中心之間的距離,把樣本歸入到最小距離值對應的類中;(3)通過均值等方法調整這一類的中心值; (4)完成上述兩個步驟后,針對c個聚類中心,若其值并未發生任何改變,停止迭代,否則就應該陸續進行迭代。這種算法最顯著的優勢和特征在于計算工作量小、耗時短,初始中心的選擇以及距離公式直接影響到算法結果的準確性。在采納該算法時,具體的操作步驟是:通過隨機的方法,在n個數據里面抽選k個對象,

48、并將其當做初始聚類中心,對于其他的(n-k)個對象,計算其和聚類中心的相似度,也就是距離,并以此為依據,將其歸入到和其相似度最高的聚類中;接著再進行計算,確定新聚類的中心,也就是聚類包含的全部對象的均值;持續重復上述過程,直至標準測度函數開始收斂。通常情況下在標準測度函數方面都會選擇均方差,k個聚類的特點是:同一聚類實現了最大化的緊湊性,不同聚類實現了最大化的分隔性。算法實現的詳細流程是:(1) 通過隨機的方法,在n個數據里面抽選k個對象,并將其當做初始聚類中心。(2) 對于其他的(n-k)個對象,計算其和聚類中心的相似度,也就是距離,并以此為依據,將其歸入到和其相似度最高的聚類中。(3)結束

49、全部對象的歸類后,再次計算并更新k個聚類的中心。(4)和之前計算確定的k個聚類中心進行對比,若二者是不同的,回到步驟(2),否則陸續。(5)輸出聚類結果。通過流程圖2-1方式可以描述為:圖 21 k均值聚類算法的流程圖首先,按照隨機的方法,抽取k個對象,將這些對象當做一個簇的初始均值或中心,然后計算出未被抽取的所有對象和所有簇中心的距離,以此為依據將其歸入到某一簇中,計算確定所有簇的均值,并將其當做本簇的新中心;持續重復上述步驟,直至準則函數收斂。一般情況下都會選擇平方誤差準則,也就是是針對簇包含的各個對象,計算出其和中心距離的平方和,基于該準則得到的簇具有良好的緊湊性和獨立性。k均值聚類算法

50、的優勢和劣勢分析:算法的主要優勢在于操作復雜性低,耗時短,尤其適用于中小型數據集,當然,它也有一定的劣勢,主要體現在如下三個方面:(1) 聚類結果不確定算法是按照隨機的方法確定初始中心的,而基于不同的初始中心得到的聚類結構是不同的。因此這種方法的重復性和穩定性并不好。另外,該算法往往選擇的目標函數都是準則函數,而這種函數包含的全局最小值和極小值的數量分別是1和n,所以,經過一系列的運算后,有較高的概率陷入局部極小值,進而導致最終無法實現全局最優解。(2) 聚類個數不確定算法里面的k代表的是聚簇的數量,其值的大小直接影響到聚類結果的準確性。在確定k值時,通常都要結合具體需求考慮,但在大多數情況下

51、,這一需求本身是不明確的,所以這也導致了該算法的聚類結果具有較強的不確定性。(3) 數據量大、算法時間復雜度較高在使用算法時,需要持續進行迭代,為了確定最準確的聚類中心,在計算的過程中,還需要持續進行調整,只有這樣才可以得到準確的聚類結果,計算的主要目的是得到不同對象彼此間的距離,因此,這種方法需要投入很多的時間,算法在效率方面的表現并不太突出。適用于分類問題的方法多種多樣,其中單一的方法有:決策樹、貝葉斯、人工神經網絡、k-近鄰、支持向量機和基于關聯規章的分類等,當然也可以將這些方法組合起來使用,以更好地解決分類問題。(1)決策樹決策樹在分類和預測方面有著廣泛的應用,決策樹學習是基于實例的方

52、法,從本質上來看,它屬于歸納學習算法范疇,它根據大量的沒有次序和規章的實例進行推理,然后通過決策樹的形式揭示出分類規章。采納這種方法,旨在確定屬性和類型彼此間的關聯,從而對不確定類別的樣本的類別進行推斷和分析,這種方法按照從上到下的順序進行遞歸,在決策樹的節點上展開屬性的對比,按照各種屬性值推斷這一節點下方的分支,最終通過葉節點獵取結論。目前應用比較廣泛的決策樹算法包括了和算法等。它們在選擇測試屬性采納的技術、生成的決策樹的結構、剪枝的方法以準時刻,能否處理大數據集等方面表現出不同點。(2)貝葉斯這種算法的理論基礎在于概率統計知識,通過bayes定理,對不確定類別的樣本來自各個類別的概率進行推

53、斷,然后以概率為依據排序,將樣本歸入到概率最高的那一個樣本類別中去。這一方法是建立在一個假設性前提條件下的,然而這一前提通常在現實中是不成立的,所以這種方法的分類效果并不好,準確性并不高。針對這一點,學者們不斷對其進行改進和完善,由此提出了不同的改進型貝葉斯分類算法,比如tan算法等,這種算法充分考慮了屬性彼此間的關聯,因此相比傳統貝葉斯算法,其在分類準確性方面的表現大幅提高。(3)人工神經網絡人工神經網絡是具有信息處理功能的數學模型,它是對大腦神經系統進行模擬后創建的,它由一系列的節點所構成,這些節點彼此間存在一定的關聯,由此共同形成一張網絡,此即為“神經網絡”,從而對信息進行有效的處理。這

54、種方法的第一個環節是訓練,通過訓練讓網絡進行“學習”,完成學習后,節點的連接權值會因此而改變,因此能夠起到分類的作用,通過訓練的網絡能夠有效地識別對象。經過多年的進展,研究人員提出了大量的人工網絡模型,其中應用最廣泛的包括了bp網絡、徑向基rbf網絡、網絡、隨機神經網絡(機)、競爭神經網絡(網絡,自組織映射網絡)等。神經網絡的缺陷和不足主要體現在收斂耗時長、計算工作量大、無法解釋等,因此還需要在未來的研究中進一步改進和完善。(4)k-近鄰k-近鄰(knn,k-nearest neighbors)算法是一種基于實例的分類方法。該方法就是找出與未知樣本x距離最近的k個訓練樣本,看這k個樣本中多數屬

55、于哪一種類別,就將x歸入到這一類中。這種方法的本質是懶惰學習方法,它把樣本保存起來,如果不需要的話不會分類,針對非常復雜的樣本集,如果采納這種方法進行分類,需要完成很大的計算工作量,所以這種方法并不適用于對實時性具有很高要求的場景。(5)支持向量機支持向量機,這種方法是在統計學習理論的基礎上提出的,它的主要特征在于基于結構危險最小化員原則,通過盡量大的分類間隔制造最優分類超平面,使學習機具備更強的泛化能力,因此在面對非線性、高維數、局部極小點等問題時具有不錯的分類效果。針對分類問題,svm基于區域里面的樣本進行計算,進而得到這一區域的決策曲面,最終確定區域里面所有樣本應該屬于哪一類。(6)基于

56、關聯規章的分類關聯規章挖掘受到了更多數據挖掘學者的關注。在過去的幾年間,學者們在這方面的研究中投入了大量的精力和時間。這種方法的挖掘過程類似于的規章,這里面是項(或屬性-值對)的集合,而c是類標號,這種形式的規章稱為類關聯規章。關聯分類方法的操作過程包括兩個環節:其一,通過算法在樣本集里面進行挖掘,從而確定全部滿足指定支持度和置信度的類關聯規章;其二,通過啟發式方法,在上一環節中得到的關聯規章里面選擇質量最高的規章,并以此為依據完成分類。(7)集成學習在實踐中,需要分類的數據往往都表現出復雜性和多樣性的特點,如果采納一種分類方法進行分類,效果通常都不夠理想, 為此,學者們開始研究如何針對同一問

57、題采納多種分類方法,也就是集成學習,這也是全球機器學習界最熱門的議題之一,集成學習屬于機器學習范式,它會持續地使用不同的學習算法,得到多個基學習器,接著按照既定的規章,將其組合在一起,以得到問題最終的解,這種思路能夠使學習系統具備更強的泛化能力。2.2.3 分類算法數據挖掘的內容十分廣泛,分類即為其中之一,它指的是將數據項目映射到已知類別中的某一類別,比如當學者們發表文章后,分類技術能夠在無需人工操作的情況下,將文章劃分到具體的類型中去,比如是屬于科技類、藝術類,還是人文類等,通常情況下需要利用特定的分類算法確定分類規章,然后以此為依據完成新數據的劃分。從數據挖掘的角度來看,分類這一環節的工作起著重要的作用,其用途十分廣泛,比如預測等,也就是根據現有的樣本數據進行推算,從而確定數據在未來的進展演化趨勢,其中最經典的預測案例即為大豆學習,這種方法也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論