判定樹在學生成績分析的應用_第1頁
判定樹在學生成績分析的應用_第2頁
判定樹在學生成績分析的應用_第3頁
判定樹在學生成績分析的應用_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

判定樹在學生成績分析的應用摘要數據挖掘是一種新的信息處理技術,其主要特點是對數據庫中的大量數據進行抽取、轉換、分析和其他模型化處理,并從中提取輔助決策的關鍵性數據。其中判定樹以其出色的數據分析效率、直觀易懂的結果展示等特點,倍受廣大用戶的關注。本文將討論數據挖掘中的判定樹在學生成績分析的應用。關鍵詞數據挖掘判定樹信息增益度一、 刖言隨著信息技術的迅速發展,數據庫的規模不斷擴大,從而產生了大量的數據。為了能給決策者提供一個統一的全局視角,在許多領域建立了數據倉庫,海量數據收集、存放在大型和大量數據庫中。但大量的數據往往使人們無法辨別隱藏在其中的能對決策提供支持的信息,理解它們已經遠遠超出了人的能力;而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)由此應運而生。數據挖掘技術也正是伴隨著數據倉庫技術的發展而逐步完善起來的。從廣義上來說,數據挖掘是指從存放在數據庫、數據倉庫、或其他信息庫中的大量數據中挖掘有趣知識的過程,發現的知識可以用于決策、過程控制、信息管理等等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘是數據庫中知識發現過程的一個基本步驟,它是一門涉及面很廣的交叉性新興學科,涉及到數據庫技術、人工智能、機器學習、神經網絡,模式識別等學科和領域。二、 判定樹簡介判定樹是一個類似于流程圖的樹結構,其中每個內部節點表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節點代表類或類分布。判定樹由決策結點、分支和葉子組成。判定樹中最上面的結點為根結點,每個分支是一個新的決策結點,或者是樹的葉子。每個決策結點代表一個問題或決策,通常對應于待分類對象的屬性。每一個葉子結點代表一種可能的分類結果。沿判定樹從上到下遍歷的過程中,在每個結點都會遇到一個測試,對每個結點上問題的不同的測試輸出導致不同的分支,最后會到達一個葉子結點,這個過程就是利用判定樹進行分類的過程。判定樹已經在廣泛的應用領域對數據進行分類,以此達到預測的目的。用于創建判定樹模型而被分析的數據元組稱為訓練數據集,判定樹方法先根據訓練數據集形成判定樹,如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到訓練集數據中,重復該過程一直到形成正確的決策集。三、判定樹歸納算法ID3:判定樹歸納的基本算法是貪心算法,其ID3版本是由Quinlan首先提出的。該算法是以信息論為基礎,以信息熵和信息增益度為衡量標準,從而實現對數據的歸納分類。以下是一些信息論的基本概念:定義1:若存在n個相同概率的消息,則每個消息的概率p是1/n,一個消息傳遞的信息量為Log2(n)定義2:若有n個消息,其給定概率分布為P=(p1,p2???pn),則由該分布傳遞的信息量

稱為P的熵,記為I(p)=-ZpiLog2(pi)(i=1..m)定義3:若一個記錄集合T根據類別屬性的值被分成互相獨立的類C1C2..Ck,則識別T的一個元素所屬哪個類所需要的信息量為Info(T)=I(p),其中P為C1C2???Ck的概率分布,即P=(|C1|/|T|,???..|Ck|/|T|)定義4:若我們先根據非類別屬性X的值將T分成集合T1,T2???Tn,則確定T中一個元素類的信息量可通過確定Ti的加權平均值來得到,即Info(Ti)的加權平均值為:Info(X,T)=Z((|Ti|/|T|)Info(Ti))定義5:信息增益度是兩個信息量之間的差值,其中一個信息量是需確定T的一個元素的信息量,另一個信息量是在已得到的屬性X的值后需確定的T一個元素的信息量,信息增益度公式為:Gain(X,T)=Info(T)-Info(X,T)四、利用判定樹技術研究學生考試成績與其科目之間的關系1、 數據實例某職業中學職中一年級會計專業的學生期末考試成績數據庫,數據庫(已經導出到EXCEL文件)中的數據按照一定格式排列顯示,其中的屬性有:學號、姓名、班級、語文、數學、英語、政治、會計基礎、計算機、體育、總分、名次。2、 研究步驟首先,要對數據進行規范處理。從數據庫導出的原始記錄表中,包含有五個班共262條記錄,從原始記錄表中選取了姓名、班級、語文、數學、英語、政治、會計基礎、計算機這八個屬性,另外生成了數據轉換表。在轉換表中,學生各科成績的值轉換為0或1,0表示成績小于60分;1表示成績大于或等于60分。這一轉換過程在Excel中可以使用IF函數來實現。如下圖所示:姓名班級語文數學姓名班級語文數學英語政治會計基礎計算機馬咼飛101687158674070蔡輝101779159927869仇淑君101908965797177方少嘉101937576876386鄧鳴丹101687441843758韋麗韻101887679886973肖婉瑩101778530506158葉詩俊101837774927274劉南煒101736346743059劉丹101906992868277原始表的部分數據號R小窿9---『U3U|[至房_.-5s-A-d =-I丑原始表!匚1,"[C1DE1P1G1 :] 1:姓皇靠學苧芹攻H會計基礎H噩I馬/飛mi01D101110111仇岬10111111方握10L11111花鳴丹10L1]C1D0韋麗韻101111111101110D10葉涎10111111劉南煒1011C1D0汩101]111原始數據在EXCEL中的轉換然后,采取整體抽樣的方法,從這些數據樣本中從中選取了一班和二班共106條學生成績記錄作為訓練集,并將這兩個班的成績記錄復制到訓練實例工作表中。利用EXCEL軟件中的統計函數,求出訓練集中單科成績及格的人數和不及格的人數。數據表如下:語文數學英語政治會計基礎計算機及格106928110268102不及格014254384有了以上數據,我們就可以利用信息增益度選取最能區別訓練集中實例的屬性。構造好的判定樹的關鍵在于如何選擇好的邏輯判斷或屬性。根據專家們的研究,一般情況下或具有較大概率地說,樹越小則樹的預測能力越強。要構造盡可能小的判定樹,關鍵在于選擇恰當的邏輯判斷或屬性。這里使用信息增益度進行屬性選擇。從學生考試成績來看,會計基礎成績較差,因此選取會計基礎科目為考察對象。P:會計基礎成績=1 68條記錄N:會計基礎成績=0 38條記錄1(,N)=-[(68/106)*Log(68/106)+(38/106)*Log2(68/106)]=0.941S11:語文成績=1且會計基礎成績=168條記錄S12:語文成績=1且會計基礎成績=038條記錄S21:語文成績=0且會計基礎成績=10條記錄S22:語文成績=0且會計基礎成績=10條記錄E(語文)=(106/106)*I(68,38)+(0/106)*I(0,0)=0.941Gain(語文)=I(P,N)-E(語文)二0如此計算可得:E(數學)=0.857Gain(數學)=0.084E(英語)=0.788Gain(英語)=0.153E(政治)=0.923Gain(政治)=0.018E(計算機)=0.923Gain(計算機)=0.018根據各學科的信息增益度的大小,我們應選擇英語學科成績這一屬性作為所建判定樹的根結點。由于學科成績的屬性值只有2個:1(表示及格),0(表示不及格)。在英語結點下可創建2條分支。利用EXCEL的篩選功能,顯示英語不及格且會計基礎及格的記錄只有6條。這說明,英語成績不及格,會計基礎的成績基本不及格。其準確率為(25-6)/25=76%。因此可以對英語不及格這條分支停止分割。英語學科成績及格人數為85人,其中會計基礎學科成績及格的人數有62人,不及格的人數有19人,對英語學科成績及格這條分支可進一步分割。由上面的各個信息增益度可知,應選取數學這一屬性作為分裂節點進行細化。再次利用EXECEL的篩選功能,顯示出英語及格且數學及格的記錄,并統計結果:會計基礎59人及格,13人不及格。同樣做法,顯示出英語及格且數學不及格的記錄,統計結果:會計基礎3人及格,6人不及格。因此可如下圖構建出數據的判定樹模型:隨著判定樹模型的生成,我們還可以對其它三個班的成績作為檢驗集,并用來檢驗所生成的判定樹的準確度。結論沿著該判定樹的根節點到樹葉節點的路徑,可以得出下列IF-THEN分類規則:(1)如果學生的英語成績不及格,那么其會計基礎成績通常也不及格。置信度二(25-6)/25=76%支持度二25/106=23.6%(2) 如果學生的英語成績及格且數學成績不及格,那么會計基礎成績通常也不及格。置信度二(9-3)/9=66.7%支持度二9/106=8.5%(3) 如果學生的英語成績及格且數學成績及格,那么會計基礎成績通常會及格。置信度二(72-13)/72=81.9%支持度二72/106=67.9%另外,從這兩個班的學習成績中還發現有6名學生比較特殊,他們的數學成績和會計成績及格,但是英語成績卻不及格。對于以上數據,我們可以這樣來描述這兩個班學生的學習情況。學生在英語學科的學習狀況對會計基礎學科的學習狀況有一定的影響,數學學科的學習與會計基礎學科的學習也有較大的聯系。這從側面也能夠說明一個問題,畢竟會計基礎是一個文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論