




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
泰迪杯數據挖掘挑戰賽
“泰迪杯”數據挖掘挑戰賽組委會
“泰迪杯”組委會秘書長張穎峰
主要內容
泰迪杯數據挖掘挑戰賽歷史、賽制、發展、資源、合作
數據挖掘與數學建模關系、示例從一道競賽題目的解答情況看當前數據挖掘教學的問題2017年競賽題目及背景解讀2泰迪杯數據挖掘挑戰賽的歷史華南師范大學數學科學學院2010年在本科生中開設數據挖掘課程,舉辦競賽的初衷是我們的課堂距離這個信息時代的熱點太遙遠了上了多年的數據挖掘課,老師和學生都沒見過企業中的實際需求和數據是什么樣子數據挖教材中要么沒有數據,要么“太干凈”了課堂講授的主要是各種機器學習算法,這只是數據挖掘完整鏈條上的一小部分,缺乏對問題定義和理解的訓練有沒有一個機會讓學生體驗真實的數據挖掘工作是如何開展的呢?讓我們舉辦一個競賽吧!3泰迪杯數據挖掘挑戰賽的歷史挑戰賽性質面向全國在校研究生和大學生的群眾性科技活動挑戰賽目的激勵學生學習數據挖掘的積極性以問題為導向提高學生利用數據挖掘方法分析和解決實際問題的綜合能力提高學生的自我學習能力推動數據挖掘技術在高校的推廣和應用連接高校的智力資源和社會、企業實際需求4泰迪杯數據挖掘挑戰賽的歷史第一屆“泰迪華南杯”大學生數據挖掘競賽(2013)第二屆“泰迪華南杯”大學生數據挖掘競賽(2014)
-主辦單位:廣州泰迪智能科技有限公司華南師范大學數學科學學院第三屆“泰迪杯”全國大學生數據挖掘競賽(2015)
-主辦單位:廣東省工業與應用數學學會
-承辦單位:廣州泰迪智能科技有限公司
-協辦單位:華南師范大學數學科學學院5泰迪杯數據挖掘挑戰賽的歷史第四屆“泰迪杯”數據挖掘挑戰賽(2016)
-主辦單位:全國大學生數學建模競賽組織委員會
-承辦單位:廣州泰迪智能科技有限公司
-協辦單位:廣東省工業與應用數學學會
華南師范大學數學科學學院第五屆“泰迪杯”數據挖掘挑戰賽(2017)
-主辦單位:全國大學生數學建模競賽組織委員會
-承辦單位:廣州泰迪智能科技有限公司
-協辦單位:廣東省工業與應用數學學會
華南師范大學6“泰迪杯”成為全國數模組委會三大品牌之一數學建模競賽的四種形式"泰迪杯"數據挖掘桃戰賽致力于解決企業、社會實際問題,打造大數據領域高校、企業共贏的交流合作平臺7全國賽1992美國賽1985深圳杯2011泰迪杯2016“泰迪杯”數據挖掘挑戰賽組織委員會成立全國大學生數學建模競賽組織委員會的下級組織:“泰迪杯”數據挖掘競賽組織委員會,全權處理競賽活動的具體事務。“泰迪杯”數據挖掘挑戰賽組織委員會(第五屆)主任:陳叔平副主任:郝志峰張良均組委會成員:謝金星蔡志杰白峰杉楊虎張穎峰馮國燦馮偉貞秘書長:張穎峰“泰迪杯”數據挖掘挑戰賽賽制挑戰賽內容源于企業、管理機構和科研院所等的經過適當簡化加工的實際問題貼近現實熱點需求:解題知識可轉化為就業技能,優秀方案可轉化為科技成果(專利、產品、項目)數據只做必要的脫敏處理,保持原始狀態(其中可能存在錯誤),數據預處理和數據分析工作量較大多樣的數據類型:圖片、視頻、文本、非結構化表格論文形式包括問題分析、數據預處理、模型構建、模型評價與模型應用等方面的研究報告。
9“泰迪杯”數據挖掘挑戰賽賽制挑戰賽采用通訊賽的方式,在官方網站上完成注冊報名、題目和數據下載、論文上傳等工作。全國統一競賽題目,以小組為單位參賽。競賽不設組別,使用相同的題目,在校的專科、本科、研究生都可組隊,每隊不超過3人,須屬于同一所學校每隊可設一名指導教師,從事賽前輔導和參賽的組織工作,并且在競賽期間可以全程指導隊員。出題企業和組委會期待高水平的解決方案!“泰迪杯”數據挖掘挑戰賽賽制由組委會聘請專家組成評閱委員會進行論文的評閱,采用匿名、地區回避和隨機的評閱原則評獎原則數據預處理的完整性、對問題背景理解的深刻性挖掘模型構建的創造性、模型結果的正確性模型評價的客觀性、模型應用的可靠性文字表述的清晰性主要評判依據滿足出題企業實際應用需求的程度,特設企業冠名獎
11“泰迪杯”數據挖掘挑戰賽賽制評閱過程第一輪網上評閱,初步選出一、二和三等獎第二輪抽取各題的前20名,由高校和企業專家通過網絡進行視頻答辯,評選出特等獎獎項設置:獲獎總比例不超過25%特等獎共6名(每題2名)特等獎并獲得出題企業冠名3名,獎金2萬元非冠名特等獎3名,獎金1萬元一等獎54名,二等獎約5%,三等獎約10%其余成功提交完整的論文者可獲得成功參賽證書12“泰迪杯”數據挖掘挑戰賽賽制自2017年第五屆“泰迪杯”起增設省級獎項評獎方法:將成績從“泰迪杯”全國評閱系統中導出,由省按專科、本科分組后,按比例產生各獎項。目前已在部分省份試點“泰迪杯”數據挖掘挑戰賽賽制競賽分為兩階段第一階段1個月:公布題目和樣例數據,組委會以網絡公開課形式安排多次賽前指導第二階段15天:正式競賽,公布完整數據競賽時間較長,可以深入研究問題、建立完善流程
賽后研究給學生提供更多深入接觸企業的機會總額10萬元的創新基金,為獲得特等獎、一等獎及二等獎的隊伍提供后續研究的資助。特等、一、二、三等獎獲得者可優先得到實習及推薦工作機會。14泰迪杯數據挖掘挑戰賽的發展15第五屆報名參賽隊伍達到2541支泰迪杯數據挖掘挑戰賽的發展(2017年數據)分布范圍廣-地域16
參賽學生所在的院校
不再僅僅集中于省內參賽隊伍地域分布圖
眾多來自北京、上海、
山東、湖北等全國25
個省、自治區、直轄
市的學生參加參賽學生遍及全國各地區
泰迪杯數據挖掘挑戰賽的發展(2017年數據)本專科的隊伍數量最多,其中又以大三這一年級最為突出正就讀碩士及其以上學歷的參賽學生的總比例約為12.3%囊括專、本、碩、博
的不同年級
參賽隊伍年級分布圖參賽專業分布(2017年數據)對口專業:
數學與應用數學、應用統計學、統計學等數學相關專業信息與計算科學、軟件工程、計算機科學與技術、等計算機專業參賽比例較高
相關專業:金融(如金融學、金融數學等)管理(財務管理、市場營銷等)醫療(藥物制劑、臨床醫學等)通信(物聯網、通信工程等)物理(電氣工程及其自動化、光學工程等)化學(化學工程與工藝、環境工程等)…………泰迪杯數據挖掘挑戰賽的發展數據時代的有力召喚:各級各類數據競賽的爆發說明了社會對數據挖掘技術和人才的巨大需求
全國大學生數據挖掘邀請賽中國互聯網數據平臺數據挖掘競賽全國大學生統計建模大賽阿里天池大數據競賽CDA杯大數據全生態全國高校創新創業競賽中國互聯網絡信息中心舉辦(僅2013)阿里巴巴集團舉辦(2014-)經管之家聯合CDAInstitute共同舉辦(2016-)中國計算機學會泰迪杯數據挖掘挑戰賽競賽資源泰迪杯數據挖掘挑戰賽網站:競賽論壇競賽QQ群賽前輔導視頻資源賽題解讀數據挖掘工具使用泰迪杯數據挖掘挑戰賽競賽資源
面向教練和學生的網絡在線培訓MATLAB培訓課程R語言培訓題目解讀專題講解向教練員免費提供大數據系列叢書教材泰迪杯數據挖掘挑戰賽競賽資源2017年MathWorks中國成為泰迪杯合作伙伴設置立MATLAB特別獎,獎金2萬元為參賽學生提供競賽期間的MATLAB軟件使用授權提供MATLAB培訓課程MATLAB培訓課程第1講:MATLAB快速入門
第2講:MATLAB數據挖掘基礎
MATLAB數據挖掘的過程數據的可視化、數據的預處理、數據的探索假設檢驗、數據回歸第3講:MATLAB數據挖掘算法(上)回歸算法、關聯算法、聚類算法第4講:MATLAB數據挖掘算法(下)
分類算法、預測算法、異常診斷算法23MATLAB培訓課程第5講:MATLAB高級數據挖掘技術
MATLAB分類學習機、算法的高級使用方法綜合使用實例第6講:MATLAB數據挖掘項目實例故障診斷生物信息學研究量化投資24R語言培訓課程利用R語言對數據進行高效處理對數據進行隨機抽樣、對數據進行等比例抽樣對類失衡數據進行處理如何對因子變量進行虛擬化處理如何對缺失值進行插補、如何識別異常值R語言進行數據可視化R語言繪圖基礎、常見繪圖圖表lattice包、ggplot2包介紹R語言進行數據交互25泰迪杯數據挖掘挑戰賽競賽資源泰迪云課堂誠邀挑戰賽合作伙伴廠商、企業、機構合作伙伴提供有價值的實際問題作為賽題為競賽的開展提供物質、資金或人力贊助為參賽者提供大數據計算平臺為參賽者提供挖掘工具的使用或教育支持為參賽學生提供實習、項目研究的機會高等院校合作伙伴提供候選賽題或通過自身渠道協助聯系出題單位承辦挑戰賽頒獎典禮暨數據挖掘學術/教學會議/教練培訓征集挑戰賽題目侯選賽題的要求反映行業、社會熱點需求問題的背景易理解,貼近日常生活體驗,淡化過于專業的背景知識提供的數據具有適當的規模和復雜度;數據可公開,經過必要的脫敏處理,無版權或隱私等法律問題侯選賽題的形式問題的背景、意義,當前的處理方法與困難數據的格式、說明和示例數據分析、數據挖掘的目標/主題評價指標和評價方案28主要內容
泰迪杯數據挖掘挑戰賽歷史、賽制、發展、資源、合作
數據挖掘與數學建模關系、示例從一道競賽題目的解答情況看當前數據挖掘教學的問題2017年競賽題目及背景解讀29數據挖掘與數學建模數學建模就是建立數學模型解決實際問題的過程,其方法大體分為機理分析和測試分析兩種。機理分析:根據對客觀事物特性的認識,找出反映內部機理的數量規律,建立的模型常有明確的物理或現實意義測試分析:在不清楚事物內在的機理時,通過對系統輸入、輸出數據的測量和統計分析,按照一定的準則找出與數據擬合最好的模型(經驗模型)。數據挖掘與數學建模數據挖掘從大量的、不完全的、有噪聲的、隨機的實際應用數據中,自動或半自動化地提取隱含在其中的潛在有用的信息和知識的過程。數據挖掘的本質就是數學建模,其含義與測試分析接近舉例:牛頓第二定律的發現測試分析:從斜面實驗數據中尋求受力(傾角)與位移、時間、加速度之間的關系機理分析:根據牛頓第二定律建立動力學方程很多領域的研究仍處在測試分析階段數據挖掘與數學建模泰迪杯數據挖掘挑戰賽與數學建模競賽泰迪杯是數學建模競賽在數據挖掘方向的延伸依托于數學建模的競賽組織和教練隊伍數據挖掘對應于大數據產業為學生指明了明確的發展方向和就業出口應用廣泛,為高校的智力資源轉化為生產力提供途徑泰迪杯的競賽題目大都對應于典型的行業問題數據挖掘與數學建模數據挖掘的興起是數學類、信息類專業發展的春天數據挖掘的學科構成統計學、時間序列、最優化、矩陣分析機器學習、人工智能、模式識別圖論(離散數學)、算法設計、數據庫與數學類、信息類專業高度契合!信息與計算科學專業的生存危機數值計算or計算機應用?數學和計算機如何有機結合?背景:網絡招聘信息平臺現已成為招聘者發布和應聘者獲取信息的主要渠道。網絡招聘信息反映用人單位對人才基本條件、能力和素質的要求反映各行業對人才的需求現狀及未來一段時間的人才需求趨向是高等院校調整人才培養方案和設置安排相關課程的重要參考為求職者提就業指導2016年C題:網絡招聘信息的分析與挖掘網絡招聘信息通常包含結構化數據和非結構化數據兩部分附件1:以表格形式給出招聘職位的常規信息,如公司的基本情況、職位名稱、行業領域、供職地點、發布時間、薪酬待遇、學歷要求、工作性質等。附件2:以文本的形式給出招聘單位的基本情況附件3:以文本的形式給出崗位職責與任職要求2016年C題:網絡招聘信息的分析與挖掘2016年C題:網絡招聘信息的分析與挖掘
問題1
根據招聘職位的工作性質和內涵,試分析目前所需要的人才中可以分為哪些職業類型和專業領域?每個招聘網站都有自己的行業/職位體系根據工作性質和內涵進行細分是關鍵文本聚類深度學習:詞向量——語義學習問題2
根據招聘單位的行業、職位、地域等特點,分析目前的人才需求情況,哪些是熱門行業、職位、地域等?并展望其未來的人才需求走向。
2016年C題:網絡招聘信息的分析與挖掘
問題3
隨著數據分析/數據挖掘行業的興起,涌現出了一些新的職位,如數據分析師、大數據分析師、數據產品經理、數據挖掘算法工程師等,分析與預測相關職位的需求情況問題4
深入分析IT人才市場的供求現狀及未來的發展趨勢,包括地域和職位、人才的專業和學歷層次等方面的情況。問題5
根據你們的研究結果,結合你們所學的專業給所在學校人才培養方案的修訂寫一份建議書,或給在校大學生的就業規劃提出你們的建議(不超過兩頁)。職業技能要求---大數據方向職業細分數據分析軟件開發大數據開發數據倉庫java/sql/R/Clementinekettle/spss/excel/eviews統計學/機器學習/數據分析決策樹/聚類/關聯規則/推薦
hadoop/java/python/mysqlspark/NoSQL/etl/c++/hive大數據/數據挖掘/決策樹數據庫/機器學習
mysql/java/spring/etl/c++j2ee/.Net/Hibernate/JavaEE
計算機/數據庫/項目管理面向對象/開發能力
mysql/kettle/hbase/hiveolap/python/map/shell/spring數據倉庫/數據遷移/大數據組織協調/跟蹤/策劃/監督
崗位與技能RHadoop
一些技能雖然不是該職業的熱門技能,卻在每個職業中均占據不小的頻數,如sql;作為開源的數學建模和挖掘工具,R、Python越來越受到中、小企業的青睞!也成為了求職者的重要技能。掌握Hadoop技能在提高就業能力和層次上顯示越來越重要。數據分析/挖掘職位薪酬情況熱門行業(基于牛頓冷卻定律的熱詞排名)行業詞頻負冷卻系數熱詞評價值熱詞排序移動互聯網2959310.0061775.591O2O185230.048889.102金融449790.015674.693電子商務644560.005322.284企業服務224370.011246.815數據服務137060.017233.006游戲113320.018203.987醫療健康47460.03142.388生活服務56420.01267.709硬件65610.00745.9310信息安全35180.00621.1111招聘11140.01516.7112教育128240.000911.5413社交36660.0027.3314廣告營銷45470.00083.6415分類信息415-0.012-4.9816文化娛樂6713-0.004-26.8517旅游2651-0.016-42.4218熱度上升快的前五個行業:O2O醫療健康游戲數據服務金融熱門行業Vs熱度上升趨勢2015年第三屆競賽題目基于電商平臺家電設備的消費者需求及產品數據挖掘分析(美的熱水器)對于用戶在電商平臺上留下的評論數據,進行如下分析
分析用戶對于熱水器/凈水器產品的個性化需求;
分析現有電商熱水器/凈水器的產品劣勢(用戶抱怨點)及產品優勢(用戶贊點);
分析各品牌的產品間的差異,進行差異化賣點提煉
對用戶的購買行為進行分析挖掘(搜索關鍵字、購買時關注點、購買步驟、使用、評價)爬蟲、中文分詞、詞頻統計、情感分析、語義網絡這些問題解決地好可以開發成產品,有巨大的市場需求。主要內容
泰迪杯數據挖掘挑戰賽歷史、賽制、發展、資源、合作
數據挖掘與數學建模關系、示例從一道競賽題目的解答情況看當前數據挖掘教學的問題2017年競賽題目及背景解讀432016年B題:鐵路旅客流量預測給出某鐵路公司15個月的旅客列車梯形密度表,針對ZD190(站)至ZD111(站)區段的客運專線完成以下任務問題1:根據附件1,按車次、時段(小時)、車站、區間(兩個車站之間)等條件分析客流規律。問題2:考慮相關因素的影響,構建客流量預測模型,并預測未來兩周的客流量。問題3針對D02~D19,優化設計車輛配置及車站停靠方案。2016年B題:鐵路旅客流量預測問題背景2016年初發改委發布了《關于改革完善高鐵動車組旅客票價政策的通知》,高鐵動車票價將由鐵路總公司根據市場情況自行定價的政策出臺。市場化定價的依據需要了解日常鐵路客運流量、淡旺季變動指數、冷熱門線路的具體情況。452016年B題:鐵路旅客流量預測
鐵路客運部門關注的問題
產品運營如何設計產品:線路、時間如何銷售產品:車票的分配,考慮站點和放票時間產品設計和銷售的目標:獲得最大的收益(客座率)
安全和突發事件線路:增開臨客保障出行車站:增加安保力量維持秩序需要對旅客出行規律(時間、起止地點分布)進行深入分析和掌握462016年B題:鐵路旅客流量預測
問題1根據附件1,按車次、時段(小時)、車站、區間(兩個車站之間)等條件分析客流規律。多維度的數據分析單趟車的規律:時間、日期、站點站點分析:時段、日期區間:客座率在時段、日期上的分布車輛類型:K、G、D、T、Z管內、管外客流分析,長途、短途客流分析從梯形密度表中抽取所需數據,保存在結構化文檔中472016年B題:鐵路旅客流量預測旅客列車梯形密度表由購票數據匯總得到,反應了旅客上車及到站的分布情況困難:非結構化數據的處理48數據處理的問題鐵路旅客流量預測:非結構化數據的處理題目的難點:如何讀取數據?微。風打擾一下,請問大家b題excel表中的數據是怎么整理的?或者是用什么軟件整理的。感覺好難整理微。風導入matlab中就不能分清哪個站到哪個站下了楊征B題就是要求把不規則的數據,導入到數據庫中,變成規則的數據。企業中這樣的情況很常見的。內事不決問百度:從網絡上找答案在百度中搜索“matlabexcel數據讀取”數據處理的問題百度知道N=xlsread('filename.xls')[N,T]=xlsread('filename.xls')
用這個,把excel文件放入工作目錄下,默認工作目錄是‘work’文件夾。filename就是excel的名字。
用這個函數加載后,N里面就是數字,T里面就是字符。你試一下就明白了,很簡單。然后你就可以進行相應處理了。數據已經進來了,你用for或其他的處理都行。
至于這個函數的更多用法,去看matlab幫助文檔。微。風我用matlab讀入后形成兩個矩陣,然后我就亂了,感覺好多對不上。問題:[N,T]=xlsread('filename.xls')適用于組織地比較“整齊”的數據,如矩陣形式存儲的數據,B題數據無法直接使用數據處理的問題微。風
可以說清楚一點嗎?我是學數學的,對于數據處理這一塊不是很清楚,一切摸索中楊征
excel就是個大網格矩陣,從(1,1)一直讀到(MaxC,MaxR),想要的數據都可以獲取到,在通過循環和判斷進行處理。楊老師
不要急,這兩天組委會會安排做一個如何讀數據的視頻教程楊征使用delphi做了一個小軟件來演示數據讀取的過程學生問楊老師用的那個軟件在哪里有下載?急同問......2016年B題:鐵路旅客流量預測旅客列車密度表的結構一張表保存一天內發車的多個車次的售票數據每個車次給出從給定上車站(列)到給定下車站(行)的下三角形式的OD(ORIGIN,DESTINATION)矩陣不同車次所經過的站點是不同的,下三角矩陣的行、列數也可能不同在MATLAB中help一下xlsread[NUMERIC,TXT,RAW]=XLSREAD(FILE,SHEET,RANGE)單元格內容以元胞數組的方式保存在RAW中2016年B題:鐵路旅客流量預測使用循環結構掃描表定位每個車次數據在表內的行、列范圍例如:車次數據都以“上車人數合計”為最后一行的首列定位終止行:字符串匹配獲取車次:字符串的拆分獲取指定行、列的數據B題數據處理的問題解決以上問題的“技術性”要素MATLAB讀入EXCEL文件的函數xlsread分析表格的結構特點、如何進行邏輯判斷使用循環結構掃描表字符串匹配、拆分矩陣數據的讀取非“技術性”問題:要讀哪些數據?明細數據:兩兩站點之間的上下旅客人數匯總數據:每個站點的上車人數和下車人數不同的數據能夠支持的分析主題是不同的B題數據處理的問題數據處理的思路考慮清楚我們要做哪些分析目標和路線,哪些能做、哪些做不了為了實現這些分析需要哪些數據哪些有、哪些沒有,沒有的數據要如何計算應該如何組織數據才能更有效進行分析(設計數據庫表)各種問題數據缺失:缺少某些站點的上車人數(缺少列,今天的數據有10列,明天變成9列)……缺少一天的數據該如何處理?定員是什么(生活常識)?為什么不同時間的定員不同?客座率的計算:每個區段的車內人數計算B題數據處理的問題泰迪杯競賽的參賽者主要以大二、大三學生為主假設他們都已經學習過Office、程序設計、MATLAB、數據庫每個“技術性”要素學生理論上都應該學習過,但組合在一起解決這個問題,老師沒教過,學生也沒有做過!學生比較被動一部分學生太過依賴于老師(課程),缺乏學習的主動性優秀的學生大都會主動地進行探索和學習如果沒有在相關課程中學過,在明確要解決的問題的前提下,也很容易從網絡中學習到!學生缺乏從最原始形式出發求解實際問題的訓練和信心!數據挖掘教學的現狀教學偏重算法、原理的學習教師缺乏解決實際問題的經歷和經驗缺少合適的案例教學資源教學案例大都是為講解某個具體算法而設計的缺少實際的應用背景問題往往不完整,缺少從問題識別/定義、數據采集/實驗設計、數據分析、建模、評估、應用的全過程較為理想和干凈的數據源,簡化了現實中數據的復雜性改進的思路:在鞏固理論教學的同時,加強實踐教學環節教育部《教育部等部門關于進一步加強高校實踐育人工作的若干意見》(教思政[2012]1號)強化實踐教學環節:增加實踐教學比重,確保人文社會科學類本科專業不少于總學分(學時)的15%、理工農醫類本科專業不少于25%深化實踐教學方法改革:重點推行基于問題、基于項目、基于案例的教學方法和學習方法;支持學生開展研究性學習、創新性實驗、創業計劃和創業模擬活動。積極發揮學生主動性:支持和引導班級、社團等學生組織自主開展社會實踐活動,發揮學生在實踐育人中的自我教育、自我管理、自我服務作用。實踐教學的探索華南師范大學的探索課程考核學生必須參加與數據挖掘相關的學科競賽并成功提交論文才能獲得成績實踐課程(必修)數據挖掘實踐(1學分):學科競賽/大學生課外科技活動/論文或專利第二課堂:引入企業資源少學時(周二或集中兩周)、低年級、混合教學基于問題的學習、探究式學習企業負責學習評價實踐教學的探索數據挖掘方向專業實習的困難相對軟件開發,數據挖掘對人員的要求更高任務不是標準化的,非流水線型需要分析人員有業務經驗數據敏感,保密要求高很多業務要去客戶現場數據挖掘企業是智力密集型企業,辦公場地小無法大規模接納實習生實習的新形式:非現場實習(校內實習)把企業一線工程師/講師請進學校,降低實習成本真實案例下的情景教學實踐教學的探索調動學生的主動性:在學生中建立數據挖掘俱樂部學生自發組織,開展數據挖掘學習學生教學組每周定期為俱樂部成員講授R語言、Python及數據挖掘算法核心成員參加企業項目(2016年——)基于華為大數據平臺的零售行業渠道管理解決方案的開發項目基于微信端的商業智能服務解決方案的開發項目課程助教實踐教學的探索主要內容
泰迪杯數據挖掘挑戰賽歷史、賽制、發展、資源、合作
數據挖掘與數學建模關系、示例從一道競賽題目的解答情況看當前數據挖掘教學的問題
2017年競賽題目及背景解讀62A題基于市場資金流向分析的商品期貨量化交易策略出題單位——深圳數字動能信息技術有限公司量化投資借助現代統計學、數學的方法,從海量歷史數據中尋找能夠帶來超額收益的多種“大概率”策略,并紀律嚴明地按照這些交易策略所構建的數量化模型來指導投資(減少投資者情緒波動的影響),力求取得穩定的、可持續的、高于平均的超額回報。一個優秀的策略可以維持一個可觀且穩定的收益,且承受相對較小的風險,收益曲線平滑向上A題背景基于市場資金流向分析的商品期貨量化交易策略量化投資在海外已有30多年的歷史,投資業績穩定,市場規模和份額不斷擴大,得到了越來越多投資者的認可被譽為“最賺錢的基金經理”的西蒙斯,從1989年到2006年間,其量化投資年化收益率高達38.5%。他依靠的是用數學模型和計算機管理旗下基金,通過模型和策略來捕捉市場機會,由策略來做出投資決策。A題背景基于市場資金流向分析的商品期貨量化交易策略2016年的國內資本市場,使用量化投資方式進行管理的基金創造了驚人的業績。截至2017年1月12日,在上證綜指和創業板指近1年漲幅只有3.40%和-8.37%的情況下,公募主動量化基金獲得了16.05%的平均收益,遠超同期股票基金和混合基金5.49%和3.58%的收益。截至2017年1月12日,公募主動量化基金近3年的平均回報率為105.07%,收益率接近同期權益類基金的兩倍A題背景量化交易策略包含一系列交易條件的設置和交易信號的產生。比如對某只股票或者期貨,以前5根K線的收盤價(一般記作close)的平均值作為一個指標,當價格超過這個指標值的時候買入,而當價格低于這個指標值的時候賣出平倉,就是一個簡單的均線突破策略。在程序設計中可以使用if-then結構來實現。可以設制非常復雜的組合策略A題背景策略回測回測是指用歷史行情數據測試交易策略的過程。通過策略回測,我們可以知道給定的交易策略在遇到各種市場情況下的不同表現,以此來判斷該策略是否符合我們的設計預期,是否能獲得穩定的投資收益。數字動能為本次比賽提供策略研究軟件Auto-Trader,以供參賽者進行策略回測。Auto-Trader平臺使用MATLAB語言進行編程量化方法的流派選股單因子(改良技術指標、通過數學方法構造因子)、多因子、事件驅動、輿情分析都是比較熱門的。擇時(不同尺度,不同品種)個股擇時指數擇時(大盤指數,行業指數等)商品期貨、股指期貨擇時(擇機策略)國債指貨行業配置套利(ETF,配對交易……)A題背景題目的出發點:基于資金流向的價格預測“水漲船高”大量資金不斷流入的股票其價格會上漲資金大量流出的股票其股價可能下跌股票市場中常說“量于價先行”,這個“量”包括資金的流向和資金的流量,統稱為資金流向(moneyflow)。價格上漲,流動性低(交易量很小)A題背景資金流向反映市場當前對某只股票超額的需求或者供給,能夠幫助投資者透過指數(價格)漲跌的迷霧看到其他投資者的投資行為。股市資金流向計算:可以根據成交價格的漲跌來界定是資金流入還是流出A題問題問題使用2011年1月1日至2013年12月31日的商品期貨歷史數據,分析資金流向的規律,設計一個商品期貨量化交易策略。使用策略研究系統Auto-Trader回測引擎對2014年1月1日至2015年12月31日的數據進行策略回測。分析有監督的策略學習,從回測結果來改進量化交易策略題目數據的時間區間選擇:總量相對平穩A題問題樣本數據說明提供商品期貨歷史分鐘K線的樣本數據2011年1月1日至2013年12月31日的數據:訓練集2014年1月1日至2015年12年31日的數據:測試集包括開盤價、最高價、最低價、收盤價等信息。close:收盤價high:最高價low:最低價open:開盤價openinterest:持倉量time:時間turnover:成交金額volume:成交A題解讀股票市場中,當期資金流向與未來資金流向之間、資金流向與股票收益率之間存在著正相關關系。羊群效應如果機構投資者具有高度的同質性,他們通常關注同樣的市場信息,采用相似的經濟模型、信息處理技術、組合及對沖策略,那么容易產生“羊群效應”。“羊群效應”下,大量的投資者會采取跟隨行動,持續的買進或者賣出市場看好或者不看好的股票,導致了超額需求和超額供給的存在。A題解讀股票市場中,當期資金流向與未來資金流向之間、資金流向與股票收益率之間存在著正相關關系。資金流向不僅反映了當期股票的超額供給與需求,也反映了未來股票的超額供給與需求。交易中沖擊成本的存在,使得機構投資者在實行其投資目標的時候,會采取分批建倉或者分批減倉的行為,把大量的訂單進行分拆,以便降低市場的沖擊成本。持續的建倉或者減倉,使得當期資金流向與未來資金流向之間、資金流向與股票收益率之間存在著正相關關系A題技術路線(建議)從如下角度入手進行分析,并以此為基礎來構建策略模型運用分鐘級K線數據,構造資金流向模型。期貨市場資金流向沒有公認的唯一的計算方法,仍屬開放課題資金流向的構造注重對價格的影響資金流向對未來商品期貨的價格有什么影響?資金流向與價格在時間上的相關性(時間尺度的確定)資金流向是否具有持續性?只有具備持續性(慣性),才具有可操作性(可預測性)A題技術路線(建議)從如下角度入手進行分析,并以此為基礎來構建策略模型分析資金流向是否存在相似的特點,是否集中在某些行業板塊,是否有輪動效應?輪動意思是各個板塊輪流表現。比如現在是汽車股上漲,一會兒是機械股,再來是有色金屬股。不斷地有熱錢進入股市,不斷有人接盤。今天這個板塊漲,過幾天那個板塊漲。A題技術路線(建議)板塊輪動的本質我國的金融投資者分機構戶和個人戶,機構戶的資金比個人戶多得多,其中左右股價的是機構戶中的基金公司大筆資金/股票的主動交易可以拉升或降低幾個點普通散戶追漲殺跌,再遇到某些買入的理由(重組、估值低、政策之類)很多人就跟風買進價格上漲價格合適,機構出貨獲得資金,散戶在高位接盤機構離場,沒有新錢注入,版塊進入停漲,進入盤整階段:水平的波浪線(沒有趨勢)。另外一個版塊好像調整的充分了,就慢慢建倉,收購這些不漲的股票,接著炒作,股票又漲起來了。A題技術路線(建議)網上流傳炒股四季歌,揭秘A股市場各板塊輪動規律冬炒煤來夏炒電,五一十一旅游見逢年過節有煙酒,兩會環保新能源航空造紙人民幣,通脹保值就買地戰爭黃金和軍工,加息銀行最受益地震災害炒水泥,工程機械亦可取市場商品熱追捧,上下游廠尋蹤跡年報季報細分析,其中自有顏如玉量化策略從較客觀的數據出發研究輪動的捕捉和相應的策略A題技術路線(建議)從如下角度入手進行分析,并以此為基礎來構建策略模型統計各個板塊的資金流向,對比整個市場的資金流向、某一板塊的資金流向與單個標的的資金流向之間的關系。在一個相對固定的時間段內,資金的總量是相對確定的價格的傳導:房地產金融水泥鋼材B題中央空調系統的數據分析與控制策略出題單位——廣州泰迪智能科技有限公司
——美國伊利諾伊大學新加坡高等數字科學中心問題背景隨著氣候變暖,人們對空調的依賴越來越大中央空調系統成為城市的用電大戶中央空調常規的控制方法是采用恒定或人工修改設定參數的方式,系統的能耗和效率依賴于操作人員的經驗題目目標以實測數據為基礎開展中央空調系統的智能控制研究,實現系統控制的優化與節能。80我們看到的中央空調系統81冷卻塔管道出風口機組中央空調系統的工作原理圖82外循環內循環家用空調的制冷原理冷凝器將由壓縮機輸送過來的高壓高溫的冷媒汽體冷卻成高壓高溫的液體(大氣溫度低于冷媒蒸汽溫度)。蒸汽冷凝成液體會釋放熱量,其表面是熱(燙)的。蒸發器則將經節流器節流減壓后的冷媒液體蒸發成汽體冷媒液體汽化(蒸發)的過程是一個吸熱的過程,所以蒸發器表面是涼的(吸熱)。冷媒在室內機蒸發成汽態(吸熱)后循環至室外機經壓縮機壓縮冷凝成液態(放熱)。運轉的壓縮機像水泵一樣不斷地從蒸發器(位于室內)吸熱,然后再通過冷凝器(位于室外)散熱。本題研究的中央空調系統的結構示意圖84制冷裝置CHILLER冷卻塔CT冷凝水泵CWP冷水泵CHWP數據內容說明提供熱帶地區某城市的一套中央空調系統的實測數據年平均溫度為25至32攝氏度之間,平均濕度為85%左右系統采用根據外部環境條件和經驗由人工設定的策略控制數據共51個字段(見附件2數據說明):采集時間:年月日時分環境信息:室外相對濕度和溫度系統可控變量:設備的開關和運行參數系統采集信息:設備的耗電量、相關傳感器讀數(如冷凝水進/出冷卻裝置的水溫和流速等);系統運行相關信息:耗電量、冷卻負載、系統效率等。85數據內容說明附件2給出了數據的字段名、含義、單位等內容說明86數據內容說明系統的可控變量――設備狀態參數(開/關)(12個):冷水泵1~4的狀態參數:chwp1stat~chwp4stat冷凝水泵1~3的狀態參數:cwp1stat~cwp3stat冷卻裝置1~3的狀態參數:ch1stat~ch3stat冷卻塔1,2的狀態參數:ct1stat,ct2stat系統的可控變量――設備控制參數(3個):冷水泵轉速(設定值):chwp_pc冷凝水泵轉速(設定值):cwp_pc冷卻塔風扇轉速(設定值):ct_pc87數據內容說明其他由傳感器采集數據均為不可控參數,受可控參數、室外溫度和濕度等因素影響,決定系統耗電量和系統效率。例:設備功率受可控制參數和環境因素影響,不是可控變量競賽將提供來自同一個中央空調系統的三份數據樣例數據:2017年3月10日公布樣本數據建模數據:2017年4月7日公布建模使用的全部數據驗證數據:2017年4月23日上午8:00公布驗證數據,并于2017年4月23日上午11:59:59前提交驗證結果。88問題及解讀請利用題目所給數據,結合實際解決下列問題:問題一:從所給數據中挖掘出系統變化的特征和規律,研究冷卻負載、系統效率、耗電量與可控變量和不可控變量之間的關系模型,并檢驗模型的可靠性。空調系統建模輸入:冷卻負載、外部溫度濕度、可控變量...輸出:系統效率、耗電量89問題及解讀請利用題目所給數據,結合實際解決下列問題:問題一:從所給數據中挖掘出系統變化的特征和規律,研究冷卻負載、系統效率、耗電量與可控變量和不可控變量之間的關系模型,并檢驗模型的可靠性。冷卻裝置:冷卻負載-冷卻器出水溫度-冷凝器出水溫度-功率
單臺運行,多臺運行冷水泵:轉速-功率單臺運行,多臺運行
90問題及解讀問題二:按照數據中給出的時間、室外溫度和濕度、冷卻負載和設備狀態信息,給出通過調節設備運行參數(冷水泵轉速、冷凝水泵轉速和冷卻塔風扇轉速)的最優控制策略,并給出相應的系統總耗電量和系統效率。約束條件:時間、室外溫度和濕度、冷卻負載和設備狀態優化變量:冷水泵轉速、冷凝水泵轉速和冷卻塔風扇轉速建議:冷卻負載通常隨日期、時間變化,所以制定策略的第一步是進行冷卻負載預測91問題及解讀問題三:根據數據中給出的時間、室外溫度和濕度、冷卻負載和可控變量(冷水泵轉速、冷凝水泵轉速和冷卻塔風扇轉速)取值,給出所有設備狀態變量的最優控制策略,以及相應的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 海外留學工作經歷證明(5篇)
- 2025年殘疾人公務員錄用考試公安專業科目試卷
- 2025年水處理自動化系統項目立項申請報告
- 分析制造業中質量管理的關鍵要素
- 2025年征信考試題庫:征信市場監管案例分析試題
- 養殖業魚苗供應與銷售戰略合作協議
- 那場雨后的美景寫景作文7篇
- 共享辦公空間使用權協議
- 2025年會計職稱考試《初級會計實務》成本核算與管理重點難點全真試題
- 人股份合作協議書
- 工程結算審計實施方案(共8篇)
- 樂東221氣田投產專家驗收匯報
- 信任五環(用友營銷技巧)課件
- 2022年廣東省深圳市中考化學真題試卷
- 危險貨物道路運輸安全生產管理制度
- GB∕T 8110-2020 熔化極氣體保護電弧焊用非合金鋼及細晶粒鋼實心焊絲
- 【完美排版】山東科技出版社二年級下冊綜合實踐活動教案
- 公共政策學(第三版)-課件
- 齊魯醫學Lisfranc-損傷
- GB∕T 4162-2022 鍛軋鋼棒超聲檢測方法
- 基于motor的六相電機繞組分相設置
評論
0/150
提交評論