



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 基于實證分析的數據挖掘在家庭經濟困難學生精準識別過程中的應用探索 李書翔張沂紅摘 要:通過建立基于家庭經濟困難學生數據庫的數據挖掘模型對困難生精準識別進行實證角度的探索,通過數據預處理后的數據選取決策樹模型進行學生識別,評估模型顯示,該數據挖掘模型預測具有較高的準確率,能夠從一定程度上解決家庭經濟困難學生認定過程中存在的主觀性、片面性等問題。關鍵詞:數據挖掘模型;家庭經濟困難學生;精準識別;決策樹數據挖掘(data mining,dm)又稱數據庫中的知識發(fā)現(knowledge discover in database,kdd),是指從數據
2、庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的過程1。數據挖掘在很多領域都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售等商業(yè)領域。但是,數據挖掘在教育領域的應用尚處于理論探索階段,其他研究中已經證明,數據挖掘在高校家庭經濟困難學生精準識別的過程中具有理論上的可行性,本文通過建立基于家庭經濟困難學生數據庫的數據挖掘模型對困難生精準識別進行實證角度的探索,以期能夠解決家庭經濟困難學生認定過程中存在的主觀性、片面性等問題。本研究通過運用數據挖掘技術,對家庭經濟困難學生的數據進行量化分析、建模評價、以及結果分析。本文的主要設計思路為:針對學生的一系列評價家庭經濟困難程度的指標劃
3、分學生困難等級,有利于簡化家庭經濟困難學生的認定程序,降低錯誤率。一個完整的數據挖掘過程主要包括數據準備、建立模型進行挖掘、模型的評價與修正三個階段。借助數據庫中已有學生信息,使用數據挖掘方法開發(fā)出困難等級評分模型從已有數據中分析歸納出困難生識別的規(guī)則和標準。然后,將這些規(guī)則或標準應用于困難生認定過程。本文所采用的數據挖掘軟件為spss clementine 12.0。該軟件操作簡單、無需編程、界面人性化,是一款十分適用的數據挖掘軟件。圖1展示了基于數據挖掘的困難生精準識別所構建的模型。一、數據預處理數據預處理主要包括原始數據整理與數據分割兩部分。本研究采用原始數據來自2015年度某高校某學院
4、家庭經濟困難學生數據庫,該數據庫共有數據496條。從學生家庭情況調查表以及家庭經濟困難申請表中原因陳述結果可以看到,涉及到學生的特征指標包括戶籍性質(hj)(農村、城鎮(zhèn)),戶口所在地(hk)(東部、西部、中部),家庭人口數(rk),是否孤殘(gc),是否單親(dq),家庭人均年收入(sr),家庭健康情況(jk),家庭負債情況(fj)等一系列指標。數據經整理后能夠滿足clementine對數據挖掘的要求。數據分割的目的主要是為了驗證數據挖掘模型,根據一般原則,數據分割的比例配比為訓練集(40%),測試集(30%),驗證集(30%)。分割方法為簡單隨機抽樣,利用clementine 12.0的pa
5、rtition節(jié)點完成。分割后的三個數據集用新增變量partition的取值標識,但仍合并在同一個數據文件里。二、建立模型家庭經濟困難的等級與困難學生本身的特性是緊密相關的,經由這些特性能夠細分學生困難等級,常用的特征識別方法是分類樹。分類樹著眼于從一組無次序、無規(guī)則的事例中推理出分類樹表示的分類規(guī)則。現在比較常見的算法是基于信息論的方法的決策樹。本文選取決策樹模型來分析處于不同困難等級的學生所共有的一些個人信息,并對困難生認定提出相應的一些建議。符合以下幾條規(guī)則之一的,可以認定為家庭經濟條件特殊困難:(1)人均年收入少于2250元,家庭人口少于3.5;(2)家庭人口多于3.5,人均年收入少于
6、950元;(3)人均年收入高于2250元,家中有負債,人口數少于5人,家庭存在不健康因素。符合以下幾條規(guī)則之一的,可以認定為家庭經濟條件困難:(1)人均年收入大于1250元,家中有負債,農村戶口;(2)人均年收入大于1250元,戶籍所在地為中西部地區(qū);(3)人均年收入大于1250,家中人口多于5人,且有負債;(4)收入多于2250,人口數多于6人且家中不健康因素的。符合以下幾條規(guī)則之一的,可以認定為家庭經濟條件一般困難:(1)收入多于1250,家住農村,無負債;(2)收入在2250到2450之間,家住中東部,人口少于6人;(3)收入大于2450元。三、模型評估完成模型的制定以后,下一步就是對模
7、型進行評估,檢驗其預測能力的強弱。一般來說,模型的檢驗有兩種方式:樣本內檢驗和樣本外檢驗。在clementine中,模型評估主要采用圖形展示,例如gain圖、lift圖等。另外,也常用分類矩陣來比較預測結果與實際結果的吻合程度,分析結果如圖2。首先,從收益圖可以明顯的看出,利用決策樹得到預測模型準確率非常高,幾乎與理想模型重合,而基于客戶特征的細分變量的準確率也比較高。為了更好的評判預測效果,利用clementine 12.0中的analysis節(jié)點,可以得到如下關于決策樹模型在三個部分的數據集中的預測準確率。在大小為40%的訓練數據集中,模型的預測準確率達到86.03%;在大小為30%的檢驗
8、數據集中預測準確率為86.1%;在大小為30%的驗證數據集中,其預測準確率達到86.18%。可見,利用決策樹模型已經達到了相當好的估計效果。四、結論數據挖掘模型的運行結果在理論與實踐層面都得出了有益的結論。首先,數據挖掘的運行結果給出了困難生認定的一些普遍規(guī)則,這些規(guī)則基于困難生認定的原始數據所表現出來的困難生的特性,反映學生的方方面面。這些規(guī)則在困難生認定過程中將會是非常好的參考條件,甚至對困難生認定的準確度起決定作用。其次,數據挖掘應用于家庭經濟困難學生精準識別,對于數據挖掘在教育領域尤其是在學生管理與服務工作中的應用提供了有益的借鑒,這種借鑒也不應止步于此,應當進行更加深入的研究與應用,一遍提高高等學校學生工作的科學化水平。(作者單位:1.濟南大學外國語學院;2.濟南大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 歐洲招商活動方案
- 武侯區(qū)法治教育活動方案
- 永年過年活動方案
- 畢業(yè)年級教研活動方案
- 汽修洗車策劃活動方案
- 樓盤銀行圈層活動方案
- 氏族祭祖活動方案
- 汽貿店圣誕活動方案
- 母親節(jié)活動糕點活動方案
- 水頭志愿活動方案
- 黑龍江省2024年普通高校招生體育類本科批院校專業(yè)組投檔分數線(歷史類)
- 水閘地基施工方案
- 企業(yè)數字化轉型服務協(xié)議
- 《建立合適邊界:親子教育課件》
- DB37-T 4516-2022 高速公路邊坡光伏發(fā)電工程技術規(guī)范
- 變電所設備更換申請報告
- 2023年遺傳學考試題庫(含答案)
- 課題申報參考:基于多模態(tài)大數據的大學生心理危機預警機制研究
- 《消費者行為學》教學大綱
- 《礦井扇風機》課件
- 布氏桿菌護理查房
評論
0/150
提交評論