數據挖掘以及教育應用_第1頁
數據挖掘以及教育應用_第2頁
數據挖掘以及教育應用_第3頁
數據挖掘以及教育應用_第4頁
數據挖掘以及教育應用_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘以及教育應用數據挖掘是一門交叉學科,融合了數據庫、人工智能?、機器學習、統計 學等多個領域的理論和技術。一、數據挖掘是什么?定義 人們在日常生活中經常會遇到這樣的情況:超市的經營者希望將經常被同時購買 的商品放在一起,以增加銷售;保險公司想知道購買保險的客戶一般具有哪些特 征;醫學研究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同 特征,從而為治愈這種疾病提供一些幫助。對于以上問題,現有信息管理系統中的數據分析工具無法給出答案。因為無 論是查詢、統計還是報表,其處理方式都是對指定的數據進行簡單的數字處理, 而不能對這些數據所包含的內在信息進行提取。隨著信息管理系統的廣泛應用

2、和 數據量激增,人們希望能夠提供更高層次的數據分析功能,從而更好地對決策或 科研工作提供支持。正是為了滿足這種要求,從大量數據中提取出隱藏在其中的有用信息,將機器學習應用于大型數據庫的數據挖掘(Data Mining)技術得到了長足的發展。機器學習(Machine Learning) 是研究計算機怎樣模擬或實現人類的學習行 為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。 它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的 各個領域,它主要使用歸納、綜合而不是演繹。機器學習在人工智能的研究中具有十分重要的地位。一個不具有學習能 力的智能系統難以稱得上

3、是一個真正的智能系統,但是以往的智能系統都普遍缺 少學習的能力。例如,它們遇到錯誤時不能自我校正;不會通過經驗改善自身的 性能;不會自動獲取和發現所需要的知識。隨著人工智能的深入發展,這些局限 性表現得愈加突出。正是在這種情形下,機器學習逐漸成為人工智能研究的核心 之一。它的應用已遍及人工智能的各個分支,如專家系統、自動推理、自然語言 理解、模式識別、計算機視覺、智能機器人等領域。其中尤其典型的是專家系統 中的知識獲取瓶頸問題,人們一直在努力試圖采用機器學習的方法加以克服。定義1:數據挖掘(data mining),顧名思義就是從大量的數據中挖掘出有用的信息,即從大量的、不完全的、有噪聲的、模

4、糊的、隨機的數據中提取隱含在其中的、規律性的、 人們事先不知道的、但又是潛在有用的并且最終可被理解的信息和知識的非平凡過程定義2:數據挖掘,在人工智能領域,習慣上又稱為數據庫中的知識發現 (Knowledge Discover Database,KDD),是從大量數據中提取出可信、新穎、有 效并能被人理解的模式的高級處理過程。知識發現過程以下三個階段組成:(1) 數據準備,(2)數據挖掘,(3)結果表達和解釋。數據挖掘可以與用戶或知 識庫交互。圖L5電克數據栓掘系統的結構.數據挖掘對象根據信息存儲格式,用于挖掘的對象有關系數據庫、面向對象數據庫、數據 倉庫、文本數據源、多媒體數據庫、空間數據庫

5、、時態數據庫、異質數據庫以及 Internet 等。.數據挖掘流程定義問題:清晰地定義出業務問題,確定數據挖掘的目的。數據準備:數據準備包括:選擇數據-在大型數據庫和數據倉庫目標中提 取數據挖掘的目標數據集;數據預處理-進行數據再加工,包括檢查數據的完整 性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在凈化 和轉換過的數據集上進行數據挖掘。結果分析:對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶 理解的知識。知識的運用:將分析所得到的知識集成到業務信息系統的組織結構中去。4.數據檢索VS數據挖掘并非所有的信息發現任務都

6、被視為數據挖掘。例如,使用數據庫管理系統查 找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復 雜的算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特 征來創建索引結構,從而有效地組織和檢索信息。數據挖掘技術也用來增強信息 檢索系統的能力。從大量數據中提取出隱藏在其中的有用信息和知識的過程。二、數據挖掘能做什么?敖摭療柬技-七日町總寶通推比較賞泛“用木一斐幻輿這個成限-擔叩口的方抵I , S些萬法菰可以反莪I&中梅取有用的新信羸 蚊六神A氐也. Ii號知1七:攻心;

7、“;;S f !:】口諾1;:二: 項偵此pnyrmF;職告成美聯法財而酬 睥11牌噂D由SOtiflljftrt nd耕:1拇述;叫嘵億d*叫iiMi頓:3日1.虹虹1:.A戔或I作-炭計褂IT塑I.并于白攫的墳說適配上卜咔把:宓J直Ji 教揖壬成中一目杯虬犯聲珥得到的散-澳立我盅,用Aft禺-虬碧鞍罪米籍述我|沸玲卻1免 HEI:作.W啊戒財.嘩5先-j可W,51:挾斜控言:心 州Lurunu:,在心&敬3S況勤中一河背中的門州查扯.目標是打所擊禎;址中爰心此聯菁彌圣首由山芬野客取imwd.名士甘.給云封客迥事柳戲挪.如打頊4咒典W 的賣科玄商在在山的H定N,疑分浩船霽扼事勒笑擔表說為數掘

8、F-中秋N寸童.一命炎村過再是惜 ,嗦關/、國甄*奇記:/,.弟一軍中:垃成心樣明是材記京的史新.分罪工作的特點是先時不同卻莢別加以定加并由預先分類的岸本構成訓埠柴Fm如通 ”、在去是基建立一個(ft型并應用謳一模型時豐分,散懈進行丁賣,汁英工柞薊舉例包精; 敕網二E拉一浦寸帶按美母|司土在石同炎到中i 特悟用卡率謫者博低.中就 g 分斃;七運嶺,匕家粗的比酒屈上制的;箱徵客傳亨注常定鯽藏害生型分jft,二:以穴臥子-中圈亮別命*己明,旦昆有映的震甘姓和仁“確:妒分用在基一萱E,估計分類處理的是寓散的蜻果:如”是與“不是抵押和-購車貸款l估計處理的 是笠K的結用:在巳知一些輸入的數據后.我何可

9、以用佑H的方怯得H未知時遷續聚陲機使量的 咨一數虬例如收/V導商或話用卡的在*跋中,估計經,渚秋用來它,斶斤類的一.!一停.-個很凸試圖耍作出決元應該九-麟屹算蘆提 供購比財產廢胺.考忠的做法是將職甫的客由柿就借某.1,模用,模型治蝦個客jr ,牛吊仁釗1的分#L茵個分值實際上是某個客戶對申請儲裁積極響應的幅率估計值&這種方法格對個人過 去的記錄進行分析、然后對每個客戶費積祗IH應的程度排序口分類的任務括換成建立一個分數臨 界激值。如果一個人的得分大于等于這一臨界值,他就可SE是有賓趣的客%其他分類工作也可以a佑廿來實現剜虬客戶戴sim)模型餌瞟估計出睇客戶可能會轉機可以袖認為是就客戶是否要瞅

10、的分類成者可以被視為時顧客觸眼務時惻長度的一種估計, 估計的其他例子包括,對一個家庭中孩子個朕的估計:向對十家庭他收入的制;對-鼾護價d觥此多散情況R分第與枯什在一苦使用日例如戳據推裾在祓用來Hffl哪些客戶對銀行信用卡站 余轉奉服務有興趣at也耍同時估計從銀行F向僧用住費賬金敏的多少,預測認由,他測本目并不是一舛獨立存壓.的方法-.4 何的城湖都可以袖認h以分綽或姑一汁, 在聞之處*于禰強調的是什取p當數撮控揖就用來區分某一個電話是普通人網的電話還是帝有 敷詐行為的信用卡文易的電話時畿們芳澄有打算事后再來檢陞這f次分矣是否正禰,我們的分 安可能是時的,也可推控不時藥,不踴定科伐叫是由于氏機牌

11、知識尚KH備:氏為7T現實世早中, 扣.?能持*和沾是已經發生./、電話可能聯結到當地仗t聯匙幅各供貨商mis也可能不是.,忸 用旨易可能是-廉的,也可能是販詐的口如果我們罩維做大的工作.也可能對這些結果加以 整酩威而,怯機是不叫抵,因咒汜云日經扭賈/到的未來大或畏估計的未來數埴迎行一過訂 類;布徹摭中:射分類推晚性的拎通!I隴儒待事物發生后才能南定, 預測的騎尸包括;*遮個隹用一霧接曜棣勺侑用卡飴余轉服業務日二敢刨轉賬的.散領;波瀏芯塞六八北|可哪些客戶取消公仍的.眼務;,或測峙些電曲用F會巾誼使用二占迫話或留吉電諾的堆伯腰務.、在時訓練樣本進行預時分類初估計技術都可使用.訓本使用的是呀史數

12、據,嚓預刑 的壯M1M已巨的,浸用反史數搦建立模型閔H的是辯糙是前爰十的行方r如果將峭前蝕散蝸瑜 7冥瑯,功I以用來預捎未來伽I為.組合或美聯法則叩介垛時任務是璃定那些,鄂訶會一起出刖:典型的舸子是蜜迎定原客也超市:卜的時購買哪 些商品即購物籃或購崗車中都是哪些商品右零曾連馥店應用坦合法來安排貨架上的商品或商品 目錄-這樣將常常一起買的東西效在一起以方瘦顧窖凸螺合法還可以袖用來分析交叉曲物的機會 -IRlF.S - 5吒),以設汁首吸引力的寥種商品和服務的包裝與鼠合h關聯規則:我們有一個有趣的故事:”尿布與啤酒”的故事。在一家超市里,有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這 個奇怪

13、的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在 美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界 上最大的數據倉庫系統,為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對 其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃 爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基 礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是: ”跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,揭示了一個 隱藏在”尿布與啤酒”背后的美國人的一種行為模式:在美國,一些年輕的父親下 班后經常要到超市去買嬰兒尿

14、布,而他們中有30%40%的人同時也為自己買 一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小 孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。按常規思維,尿布與啤酒風馬牛不相及,若不是借助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內在這一有價值的規律的。聚斐騾芙芝士借是控柜岫步核分成一類,Zi.計麒大的事物分在年0的類中,康類七全賣的堅.出也聚關并不依翰于事血晰至將的如劑.在聚類中.沒白軍,荒勇忘駐的擔*.也沒有冉本.:己盤持叫日寺垮砰的相何,性采茉在芬河就. 類別中。帔據挖掘者來決定各類是否有帝義,意堂是什么-時扁逮果類后的某一特殊糞刑可能

15、就 是某神特疆Hj疾隊&音瓦材盤:停帶購買蹴據騾擒中的不同條利伸 I健批也屋丁不屆史化背 的群忡果美通*也牛為其隹效挪挖屯或建模汽,舞的笫一步丁普.例加,蜜斐頁K作% -市場劃分耕究 的第一步口對于“顧客們最喜丈什自樣的促銷方式M這樣的向鹿,不應簡單地采版單一的辦法,而 宙蜜首宵:叛精W客片劇乂刁慌迸行理美,丁吊出近購買刁頃葉恩客祓介在一 a探山,.不同隔類別 房或不同氓齡.尤-j隙嘿后-分別調改r臏每世.顧客戒喜汰的促鎰方描述與可掘化肖時.作糖足我fO逐行歌據蝴聃目晰噥是要對夏雜叩j御幗町札恐瓚 取樸靠M客一刊M W*一耐9游翔睇寸牌做 f郊岫臥,說乳甲戶 桃弟步E麒海的習嘛酗觥或EJ舔湖:

16、崔野通卷”法土斯 :件史“世TiX f美毗別仙治斷就噸節明,槌,而,期疽;說胸政障公備兄傍 A的斜3描述無蛹會禎記者甫辮就扮濟學寮搠再珈*晌竟興/.散握可視欠懸敷幗按捆的一神描述性的有強予程要做出官來暨的可觀化敬果不昌一#容偵jHE英法知就抵曄砒業荷奴因為人澎用=5貨 的赭受中抽最出有用的信史,數據挖掘一一客戶關系管理的科學與藝術2003三、數據挖掘技術有哪些?神經網絡算法、遺傳算法、決策樹、統計分析、粗糙集、模糊集。此外,還 有基于樣例的學習、貝葉斯學習神經網絡方法神經網絡由于本身良好的自組織自適應性、并行處理、分布存儲和高度容錯 等特性非常適合解決數據挖掘的問題,因此近年來越來越受到人們的

17、關注。典型 的神經網絡模型主要分3大類:以感知機、BP反向傳播模型、函數型網絡為代 表的,用于分類、預測和模式識別的前饋式神經網絡模型;以Hopfield的離 散模型和連續模型為代表的,分別用于聯想記憶和優化計算的反饋式神經網絡模 型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法。神 經網絡方法的缺點是黑箱性,人們難以理解網絡的學習和決策過程。(2)決策樹方法決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中 找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別 適合大規模的數據處理。最有影響和最早的決策樹方法是由Quinlan提出的著

18、名的基于信息熵的ID3算法。它的主要問題是:ID3是非遞增學習算法;ID3 決策樹是單變量決策樹,復雜概念的表達困難;同性間的相互關系強調不夠;抗 噪性差。針對上述問題,出現了許多較好的改進算法,如Schlimmer和Fisher 設計了 ID4遞增式學習算法;鐘鳴,陳文偉等提出了 IBLE算法等。信息是個很抽象的概念。我們常常說信息很多,或者信息較少,但卻很難說清楚 信息到底有多少。比如一本五十萬字的中文書到底有多少信息量。直到1948年,香農提出了 “信息嫡”(shang)的概念,才解決了對信息的量化度量問題。(3)遺傳算法遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生

19、 全局優化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它 在數據挖掘中被加以應用。Sunil已成功地開發了一個基于遺傳算法的數據挖掘工具,利用該工具對兩 個飛機失事的真實數據庫進行了數據挖掘實驗,結果表明遺傳算法是進行數據挖 掘的有效方法之一。遺傳算法的應用還體現在與神經網絡、粗集等技術的結合上。 如利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多余的連接 和隱層單元;用遺傳算法和BP算法結合訓練神經網絡,然后從網絡提取規則等。 但遺傳算法的算法較復雜,收斂于局部極小的較早收斂問題尚未解決。(10)統計分析方法在數據庫字段項之間存在兩種關系:函數關系(能用函數公式表

20、示的確定性 關系)和相關關系(不能用函數公式表示,但仍是相關確定性關系),對它們的分 析可采用統計學方法,即利用統計學原理對數據庫中的信息進行分析。可進行常 用統計(求大量數據中的最大值、最小值、總和、平均值等)、回歸分析(用回歸 方程來表示變量間的數量關系)、相關分析(用相關系數來度量變量間的相關程 度)、差異分析(從樣本統計量的值得出差異來確定總體參數之間是否存在差異) 等。(11)模糊集方法即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和 模糊聚類分析。系統的復雜性越高,模糊性越強,一般模糊集合理論是用隸屬度 來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統模糊理論和概率

21、統計的基礎 上,提出了定性定量不確定性轉換模型-云模型,并形成了云理論。、(12)粗集方法粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點: 不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。粗集 處理的對象是類似二維關系表的信息表。目前成熟的關系數據庫管理系統和新發 展起來的數據倉庫管理系統,為粗集的數據挖掘奠定了堅實的基礎。但粗集的數 學基礎是集合論,難以直接處理連續的屬性。而現實信息表中連續屬性是普遍存 在的。因此連續屬性的離散化是制約粗集理論實用化的難點。現在國際上已經研 制出來了一些基于粗集的工具應用軟件,如加拿大regina大學開發的kdd-r;美國

22、 kansas大學開發的lers等。四、數據挖掘技術在教育中的應用有哪些?數據挖掘的典型應用分類、文本和web挖掘。(一)Web數據挖掘的應用:Web挖掘技術已廣泛應用于各行各業,下面主要從電子商務、網站設計和搜索 引擎服務等方面作以介紹。電子商務中的應用隨著電子商務的興起和迅猛發展,未來Web挖掘的一個重要應用方向將是 電子商務系統。通過分析一定時期內站點上的用戶的訪問信息,便可以發現該商 務站點的潛在客戶群體、聚類客戶等,而這些信息對一個電子商務網站來說是非 常有價值的。此外,在電子商務模式下,客戶與銷售商之間的空間距離已經不復存在,那 么,銷售商就要盡量使客戶在自己的網站上駐留更長的時間

23、。利用Web挖掘 就可以獲得客戶的行為模式,了解客戶的興趣及需要,從而根據客戶的興趣及 需要動態調整Web頁面,以更好地滿足客戶。因為站點上的頁面內容的安排和 連接如同傳統商店中物品在貨架上的擺設一樣,可以利用Web挖掘,找出具有 一定支持度和信任度的相關聯的物品,并且針對客戶的動態變化調整站點的結 構,使客戶訪問關聯信息的連接更直接。網站設計中的應用通過對網站內容的挖掘,可以有效地組織網站信息,例如采用自歸類技術實 現網站信息的層次性組織;同時可以結合對用戶訪問日志記錄信息的挖掘,把握 用戶的興趣,從而有助于開展網站信息推送服務以及個人信息的定制服務。對 Web站點的鏈接結構的優化可從三方面來考慮:第一,通過對We

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論