北航數理統計第二次論文_第1頁
北航數理統計第二次論文_第2頁
北航數理統計第二次論文_第3頁
北航數理統計第二次論文_第4頁
北航數理統計第二次論文_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、北京航空航天大學數理統計課程論文數理統計第二次課程論文基于spss的聚類分析和判別分析對2015賽季中超球隊分類學號: SY1527205 姓名: 郭謝有 摘要2015賽季共有16支球隊參加了中國足球超級聯賽,各隊風格迥異、戰術打法不盡相同,本文選取了參加2015賽季中超的16支球隊各自的9項統計數據,利用spss統計軟件通過聚類分析對16支中超球隊進行技術特點類型分類,可以看出各球隊所屬技術類型與實際情況相符,結果基本符合直觀判斷,并利用判斷分析對分類結果進行驗證。關鍵詞:聚類分析,判別分析,中超目錄摘要11.引言22.聚類分析32.1基本概念32.2.數據的采集和整理32.3聚類分析過程4

2、2.4結果分析83.判別分析83.1基本概念83.2判別分析過程83.3判別結果分析104.結論11參考文獻12致謝121.引言2015賽季,是中超聯賽歷史上競爭最激烈的一年,總共有16支球隊參加,每隊主客場雙循環都打了30輪比賽。但由于各隊資金投入、球員組成、教練風格等各不相同,所以各支球隊的水平還是存在較大差異。根據最終的排名,可以將16支球隊分為亞冠球隊、中游球隊、保級球隊、降級球隊等四種類型,而這只是一個在較大區域內大劃分,沒有對各支球隊的技戰術水平做出更近一步的劃分。考慮到各支球隊在各項技戰術方面都存在差異,有點擅長防守反擊、有的擅長高位逼搶、有的擅長控球打法,于是通過查閱搜達足球數

3、據庫和新浪中超數據庫,選取了9項技術統計來進行評價分類,這9項技術統計分別是:勝場數、平局場數、輸球場數、進球數、失球數、射門次數、被射門次數、角球次數、控球率。利用SPSS統計軟件進行聚類分析,并對聚類結果進行判別分析來判斷聚類分析結果的合理性和正確性。2.聚類分析2.1基本概念 聚類分析是研究對象的特征來對研究對象進行分類的多元分析技術的總稱,分類問題在科學研究、生產實踐、社會生活中到處可見。人們可以靠相關經驗和專業知識對事物實現分類,但當反映事物的性質、特性的指標較多,且對分類要求較高時,僅憑經驗和專業知識就不能達到確切的分類目的,于是數學方法就被引進到分類問題中來。2.2.數據的采集和

4、整理本文統計數據時,查閱了搜達足球數據庫和新浪體育中超數據庫,選取了2015賽季中超16支球隊的9項技術統計,如下表1所示: 表1. 中超各隊技術統計球隊勝場數平局場數輸球場數進球數失球數射門次數被射門次數角球次數控球率廣州恒大19101712849124718157上海上港1983633546730820154山東魯能1857664142639414654北京國安1686462643325318161河南建業1210835302993269244上海申花12612424435439214351石家莊永昌8157343128049612344重慶力帆9813375235633811848江蘇舜

5、天9813394836339912749長春亞泰81111394731038512751杭州綠城8913273530844112448遼寧宏運71013273532839113047天津泰達71013394636132613350廣州富力8715354138429815552貴州人和7815395238936513947上海申鑫4521307031150198442.3聚類分析過程將收集好的數據導入spss軟件中,選擇系統聚類方法,將球隊作為個案,其余數據作為變量,距離選擇平方歐式距離,分類方案范圍設為4,其他為軟件默認設置值,設置完成后點擊確定進行分析。表2.案例處理摘要表上表2給出了有效個

6、案和缺失個案及其總數,從表上可以看出所有的16個個案均為有效的。下表3為聚結狀態表,該表展示了進行聚類分析時,軟件總共進行的分析步驟,本次聚類分析一共進行了15步。表3.聚結狀態表表4.聚集成員分類表表4給出了通過spss聚類分析的結果,16支中超球隊可分為四類,具體分類如下所示:第一類:廣州恒大、上海上港、北京國安第二類:山東魯能第三類:河南建業、上海申花、重慶力帆、江蘇舜天、長春亞泰、杭州綠城、遼寧宏運、天津泰達、廣州富力、貴州人和第四類:石家莊永昌、上海申鑫圖1為冰柱圖表示聚類分析結果,圖中縱坐標為群集數,橫坐標為個案及個案號,圖中白色構成的每一列代表一個冰柱,從冰柱的長短變化可以看出聚

7、類的全過程。即如果個案或新類在第n步合并,則在圖中第n步以上合并項對應列中用黃色填充。圖2的聚類分析譜系圖清晰地表示出了聚類全過程,它將實際的距離按比例調整到025的范圍內,用逐級連線的方式連接性質相近的個案和新類,直至并為一類。本文選擇標聚類數為4時,聚類分析譜系圖中的分類與之前得到的結果一致。圖1. 垂直冰柱圖圖2 聚類分析譜系圖2.4結果分析利用系統聚類分析方法得到了2015賽季16支中超球隊的分類結果,對分類結果進行分析,第一大類的廣州恒大、北京國安和上港上港都是屬于最終排名前四強的球隊,球隊實力都毋庸置疑,三支球隊都是攻守均衡,廣州恒大和上港上港是聯賽進球最多的球隊,而北京國安是失球

8、最少的球隊,該分類與三支球隊都排在聯賽四強的結果是吻合的。第二大分類的山東魯能雖然最終排名聯賽第二,但它屬于頭重腳輕、攻防極不平衡的球隊,完全是聯盟中的一支奇特的球隊,進攻犀利進球多,但防守是最差的幾支球隊之一,所以山東魯能單獨分為一類是極其符合客觀情況的。第三大類球隊比較多,都是屬于排在聯賽中游的隊伍,有一定的特點和實力,但與前面的強隊有差距,比起之后降級的隊伍又有一定優勢,都是一些比上不足比下有余的隊伍,分類情況也與實際情況比較吻合。第四大類的石家莊永昌和上海申鑫都屬于進攻較弱的球隊,這兩支球隊都是進球數最少的之二,射門次數也都最少,控球率并列倒數第一,所以這兩支球隊在一大分類是符合預期的

9、。有一個問題是,雖然是同一類球隊,但最終的排名一個第16一個第8,排名存在較大差距的原因是石家莊永昌的失球數比較少,并且平局場次比上海申鑫的多。雖然排名有較大差距,但是從兩支球隊的技戰術來看,兩支球隊屬于同一類型。3.判別分析3.1基本概念判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統計分析方法。其基本原理是按照一定的判別準則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定系數,并計算判別指標,據此即可確定某一樣本屬于何類。3.2判別分析過程常用的判別方法包括距離判別法、Bayes判別法、Fisher判別法和逐步判別

10、法,本文選用Fisher判別和需要的輸出表格和圖,點擊確定進行計算后得到如下所示的結果。表5.分析案例處理摘要表6.特征值表6中各項為前三個判別函數的特征值、占總方差的百分數、累加百分數和正規相關系數。最大特征值應對應于組均值最大擴展方向上的特征向量,以此類推,本例中的第一個典型變量解釋了87.9的總方差。表7.Wilks的Lambda上表7中各項為Wilk值、卡方值、自由度和顯著性概率。當顯著性概率小于0.05時,拒絕原假設,認為組間均值不相等。表8.組的先驗概率上表8包括各類別和全部對應的先驗概率和參與分析的未加權和經過加權的個案數,在本文中類別數等于4,所以各類別的先驗概率均等于0.25

11、0。表9.分類函數系數表表10.分類結果表3.3判別結果分析從表9可以得到四大分類的Fisher判別方法的分類判別函數分別為:f1=86.436X1+69.223X2-27.304X3+13.286X4+5.827X5+1.290X6-3.777X7+30.131X8-2491.290f2=78.289X1+62.525X2-24.361X3+11.643X4+5.509X5+1.373X6-3.959X7+29.573X8-2250.184f3=75.414X1+63.015X2-24.471X3+12.112X4+5.196X5+1.230X6-3.545X7+26.864X8-1972.

12、599f4=72.152X1+61.825X2-23.593X3+11.842X4+5.043X5+1.289X6-3.533X7+25.963X8-1891.062其中,X1=勝場數,X2=平局場數,X3=進球數,X4=失球數,X5=射門次數,X6=被射門次數,X7=角球次數,X8=控球率從表10可知對初始球隊分組案例中的所有球隊都進行了正確的分類,交叉驗證分組案例的正確分類的正確率為68.8%,主要錯誤是將石家莊永昌從3類球隊判斷為4類,貴州人和以及天津泰達從4類球隊判斷為3類球隊。由于石家莊永昌、上海申鑫、貴州人和、天津泰達的進球數、射門次數均處于第3類和第4類之間,沒有很好的區分開來。

13、此外,山東魯能也處于在1類和2類球隊之間。4.結論通過前面的計算和分析可以看到,根據勝場數、平局場數、輸球場數、進球數、失球數、射門次數、被射門次數、角球次數、控球率等技戰術評價指標,將2015賽季參加中超的16支球隊可分為4大類。其中第一類的三支球隊球隊屬于聯盟中的強隊,它們攻防均衡,進球數排在所有球隊前列并且失球數較少。第二類的山東魯能也屬于強隊行列,但他進攻和防守不平衡,進攻犀利但防守欠佳,主要特點是進球多的同時失球數也很多。第三類的球隊占了大部分,這些球隊屬于比上不足比下有余的隊伍,第四類球隊的特點就是進攻疲軟,射門次數和進球少都比較少,雖然石家莊永昌最終排名較高,但他進球數、射門次數都較少,與上海申鑫歸為第四類是比較合理的。從實際情況來看,這個分類大致符合預期。畢竟足球屬于競技體育,一些場內外的偶然因素比較多,使得交叉驗證分組案例的正確分類的正確率為68.8%,這個正確率不算太高,這于統計的這些技戰術數據不夠多有一定關系,但從總體來看,該聚類分析基本達到了預期的目的和效果。參考文獻1 孫海燕,周夢,李衛國,馮

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論