



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、利用分類算法實現圖書分類管理 利用分類算法實現圖書分類管理2011-09-05 08:06 來源:未知 瀏覽次數: 關鍵字: 分類算法 圖書分類管理利用分類算法實現圖書分類管理張超一背景知識介紹隨著計算機技術的快速發展,計算機在企業管理中的應用普及,利用計算機實現圖書信息分類管理勢在必行。目前部分小型圖書館的借閱工作大部分還是手工管理,工作效率偏低,而且不能及時了解圖書的種類以及用戶們極力需求的圖書類型等,不能更好的適應大多數用戶的借閱要求。計算機信息化管理有著儲存量大,查詢速度快等許多優點,提供及時快捷的信息處理。因此,利用計算機提供給我們的信息
2、對學生們的借閱過程形成一整套動態的分類管理系統能夠極大地提高圖書管理的效率。將圖書分文別類地管理,不僅能夠提高管理員的工作效率,而且用戶可以快速地查詢到自己需要的類型的圖書,也提高了查詢的效率。二分類算法介紹涉及到圖書信息的分類,當然要對分類算法做進一步的介紹。分類算法被用來預測數據對象的離散類別,其應用非常普遍,對于圖書館管理系統,要涉及到對圖書種類的分類,出版日期的分類以及不同作者的分類查詢等等。分類算法經常表現為樹的表示和遍歷問題。那么,就涉及到以下6個問題:如果用數據庫中的一個表來表達樹型分類,應該有幾個字段;如何快速地從這個表恢復出一棵樹; 如何判斷某個分類是否是另一個分類的子類;
3、如何查找某個分類的所有產品; 如何生成分類所在的路徑;如何新增分類。下面我們重點以決策樹算法為例來介紹圖書分類管理的基本核心思想。三決策樹分類算法核心思想介紹決策樹表示方法是應用最廣泛的邏輯方法之一,具有分類的精度較高,成的模式相對簡單,對噪聲數據有相對較強的健壯性等優點,因而是目前應用比較廣泛的歸納推理算法之一,受到數據挖掘研究者的廣泛關注。決策樹歸納是經典的分類算法。它采用自頂向下遞歸,各個擊破的方式構造決策樹。樹的每一個結點使用信息增益度量來選擇測試邏輯判斷(即屬性)。可以從生成的決策樹中提取規則。決策樹構造的輸入是一組帶有類別標記的例子,構造的結果一般是一棵二叉樹或多叉樹。二叉樹的內部
4、節點,即非葉子節點一般表示成為一個邏輯判斷,樹的邊是邏輯判斷的分支結果。多叉樹的內部節點是屬性,邊是該屬性的所有取值,樹的葉子節點一般都定義為類別標記。構造決策樹的方法是采用自頂向下的遞歸方法,其思路是:以代表訓練樣本的單個結點開始建樹。如果樣本都在同一個類,則該結點成為樹葉,并用該類標記。否則,算法使用稱為信息增益的基于熵的度量作為啟發信息,選擇能夠最好地將樣本分類的邏輯判斷。該邏輯判斷稱為該結點的“測試”或“判定”屬性。值得注意的是,在這類算法中,所有的邏輯判斷都是取離散值的,連續值邏輯判斷必須離散化。對測試屬性的每個已知的值,創建一個分支,并據此劃分樣本。算法使用同樣的過程,遞歸地形成每
5、個劃分上的樣本決策樹。一旦一個屬性出現在一個結點上,就不必考慮該結點的任何后代。遞歸劃分步驟,當下列條件之一成立時停止:給定結點的所有樣本屬于同一類。沒有剩余屬性可以用來進一步劃分樣本。構造好的決策樹關鍵就在于如何選擇最優的邏輯判斷,對于同樣一組例子,猶豫選擇的邏輯判斷不同,可以生成很多不同的決策樹。下面利用ID3算法舉例說明如何構建一棵決策樹來實現對圖書的分類管理。對于ID3算法,首先要考慮如何選取合適的邏輯判斷來產生分支,這就需要介紹信息論的一系列概念:假設屬于第i類的訓練實例Ci,X中總的訓練實例個數為|X|,若一個實例屬于第i類的概率為p(Ci),則:p(Ci)=|Ci|/|X|信息熵
6、H(X):用來度量整個信息源X整體的不確定性。H(X)=-p(ai)log(p(ai) (i=1,2,.n)條件熵H(X|Y):如果信息源X受隨機變量Y的約束,用條件熵H(X|Y)來表示在收到隨機變量Y之后,對隨機變量X的不確定性。H(X|Y)=-p(ai|bj)log(p(ai|bj) (i=1,2,.n, j=1,2,m)平均互信息量I(X|Y):用它來表示信號Y所能提供的關于X的信息量的大小,其中I(X|Y)=H(X)-H(X|Y)。建立決策樹的過程就是將不確定度逐漸減小的過程,利用I(X|Y)表示的信息增益量選擇信息增益最大的屬性進行優先分類,下面舉例來說明如何利用決策樹分類算法實現圖書分類。表1給出了一個簡單的圖書樣本數據集,假設圖書的屬性有四個:種類,出版日期,出版社,作者。樣本數據集合被分為類別1和類別2,通過ID3算法構造決策樹將數據進行分類。 通過對每個屬性的信息熵和條件熵的計算,得到H(X|種類) <H(X|出版日期)< H(X|出版社) <H(X|作者),所以I(X|種類) >I(X|出版日期)> I(X|出版社) >I(X|作者)。可見應該選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現代學徒制試點人才培養方案編制框架現代學徒制試點工程造價專業2024年級人才培養方案
- 四上語文群文閱讀教學設計
- 選擇性閱讀教學設計
- 《記承天寺夜游》教案教學設計
- 電氣類專業學業水平模考試題(附答案)
- 油務工專業理論模擬考試題
- 職業技術學院2024級大數據與會計專業人才培養方案
- 2025年廣東省梅州市興寧市宋聲學校中考一模地理試題(原卷版+解析版)
- 統編高中政治必修四《哲學與文化》知識結構圖
- 航空器發動機故障排除與維修技巧考核試卷
- journal of affective disorders投稿格式要求
- 大白菜收獲機的設計
- IPMP課程培訓講義
- 簡述中國革命新道路的探索歷程
- 牙頜面畸形-牽張成骨技術(口腔頜面外科課件)
- 超實用槽式太陽能光熱發電系統設計
- 2023年大北農科技獎獎勵辦法實施細則
- 變電站視頻及環境監控系統施工工藝
- 2022年ESG發展白皮書商業調研報告
- 國際關系理論智慧樹知到答案章節測試2023年外交學院
- 導線測量等級劃分及精度要求
評論
0/150
提交評論