



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘
要:文章針對當前公共圖書館少兒閱讀推薦服務中存在的問題,研究了基于大數據挖掘的公共圖書館少兒閱讀推薦方法,通過對比實驗的方式證明了該方法的優越性,即對于少兒和少兒家長偏好度的提升效果更好,且能在滿足少兒閱讀需求的基礎上引導少兒養成良好的閱讀習慣。關鍵詞:大數據挖掘;公共圖書館;少兒閱讀;推薦方法中圖分類號:G258.2
文獻標識碼:A
文章編號:1003-1588(2024)01-0013-03公共圖書館是開展閱讀推廣的重要機構,承擔著培養少兒閱讀習慣,提升其閱讀能力的重要責任。在多元化時代背景下,少兒的閱讀環境發生了翻天覆地的變化,閱讀資源豐富,少兒的閱讀需求越來越多元化、個性化[1]。與成年人相比,少兒的閱讀能力和理解能力較弱[2],難以閱讀理論性較強或層次較深的圖書。因此,公共圖書館在為少兒讀者推薦閱讀資源的過程中,應積極利用大數據、云計算等現代化技術手段尋找適合其閱讀的資源[3]。大數據技術中的大數據挖掘是指利用特定算法深度挖掘隱藏信息,常被應用于計算機、醫學、經濟等領域,成效顯著,但在公共圖書館領域的研究和應用案例較少。1
基于大數據挖掘的公共圖書館少兒閱讀推薦方法1.1
公共圖書館少兒閱讀資源的獲取與處理為了保障少兒閱讀推薦服務的質量,公共圖書館需確保相關閱讀資源的數量和質量。在開展少兒閱讀資源建設的過程中,公共圖書館需要對各類信息資源進行清查、轉化、集成等處理,為后續開展數據信息的挖掘工作提供優質信息源,這些信息包括館藏圖書數據、讀者信息、圖書借閱數據等[4]。其中,館藏圖書數據是公共圖書館在日常運行過程中必不可少的數據信息,圖書數據包括書名、作者等一系列圖書屬性信息;讀者信息是少兒閱讀推薦方法必須用到的關鍵數據,包括讀者個人信息、讀者借閱情況聚類分析數據等[5];圖書借閱數據是取自公共圖書館借閱業務數據庫的數據信息,是研究少兒讀者閱讀行為的關鍵信息。公共圖書館在獲取少兒閱讀資源后,應對這些資源進行相應的預處理,處理流程如圖1所示。需要注意的是,公共圖書館應對相關數據進行空值數據處置和噪音數據過濾等處理,為每一本圖書設定獨立的索引,并對讀者信息中的空白項(空值)進行補全處理[6]。在該過程中,如果存在無法補全的問題,公共圖書館就需要清除相關數據信息,并及時清除數據源中的重復數據,以提高大數據挖掘效率。在完成數據清洗后,公共圖書館應將各類數據轉換為統一的格式[7],并進行數據集成,生成少兒基礎數據表、少兒節約數據表及少兒圖書數據表,為大數據挖掘奠定數據資源基礎。1.2
基于大數據挖掘的少兒讀者信息挖掘公共圖書館應對少兒讀者的信息進行聚類處理與分析,合理劃分少兒閱讀群體,科學選取符合不同少兒閱讀群體閱讀要求的閱讀資源開展少兒閱讀推薦服務。公共圖書館可按以下步驟挖掘少兒讀者信息。第一步,設置聚類個數,對已完成處理的數據源進行聚類解析,以隨機的方式獲取少兒讀者閱讀信息,利用K-means算法對數據表中的數據進行聚類和挖掘處理。王鳳燕結合公共圖書館的讀者借閱數據將少兒讀者分為活躍型、普通型及其他類型3類[8],因此筆者將聚類K值設定為3。在分類過程中,筆者引入歐氏距離計算公式,計算不同少兒讀者信息與所屬分類之間的歐式距離,計算公式為:d(x1,x2)=∑di=1(x1k-x2k)2其中,d(x1,x2)為兩個陳述屬性x1和x2之間的歐氏距離,x1k和x2k為兩個陳述屬性的詳細選值。公共圖書館根據該公式計算得出歐氏距離后,可基于聚類相關結構,重新設定k個簇,利用誤差平方等對聚類特性進行評定。假設在某一數據集中,k個簇的子集分別為各個簇的樣本數據,則其誤差平方和的計算公式為:E=∑ki=1‖p-m‖2其中,E為誤差平方和,p為簇的個數,m為各簇樣本數目。將數據集中的所有元素按照新的中心重新完成聚類,若匯總計算得出的誤差平方和不再發生明顯變化,則說明已完成聚類和收斂。第二步,在完成對準則函數是否收斂的判斷后,將各類少兒讀者信息進行分類存儲,并通過可視化的方式進行展示。第三步,將少兒讀者聚類挖掘的行為有效值設定為k,在此過程中,應知悉k的有效取值范圍會直接影響對少兒讀者信息聚類的效果。如果k的最終選值較小,則會在聚類后出現簇族覆蓋范圍過大的問題,甚至會出現聚類結果價值性信息較少的問題;如果k的最終選值較大,則會在聚類后出現簇族覆蓋范圍過小的問題,導致聚類數據分散,無法得到關聯性較強的數值。通常情況下,在初步完成對k的賦值后,必須通過持續調節的方式對k的值進行優化,得到一個簇間距較小的有效區間,在該區間內輸出合適的k值。1.3
基于大數據挖掘的少兒借閱信息挖掘在完成對少兒讀者信息的挖掘后,公共圖書館應利用大數據技術進一步挖掘少兒借閱信息,研究少兒讀者的潛在閱讀行為規律,并通過設置支持度有效閾值、借閱行為信度等方式,對不同圖書的價值與關聯度進行分析,具體的信息挖掘步驟如下。第一步,利用公共圖書館歷史數據庫中的信息資源建設少兒借閱信息數據庫。在數據庫建設過程中,公共圖書館可將部分圖書借閱記錄作為項數集合,以分析數據庫中信息的關聯性。第二步,定義少兒借閱信息行為的支持度S,行為有效置信度C及行為提升潛在空間lift,將這3個參數作為變量參數,并進行關聯處理,得到少兒借閱信息挖掘的關聯規則。公共圖書館通過調整參數有效范圍的方式,可實現對挖掘信息中關聯值的干擾,并通過迭代的方式,對關聯規則進行優化。在確認各參數之間具有強關聯性后,公共圖書館應對lift參數進行調整,僅保留大于lift值的數據,并將其作為關聯規則數值,并對相關信息進行強關聯處理,以深入挖掘少兒借閱信息。第三步,在完成對信息的處理后,通過設置項集的方式,對關聯信息進行集中展示,由終端技術人員負責對數據信息進行篩查,手動清除無關信息,優化信息挖掘成果。1.4
公共圖書館少兒閱讀個性化推薦在完成信息挖掘的基礎上,公共圖書館可有效開展少兒閱讀個性化推薦服務,在為少兒讀者推薦優質閱讀資源的同時,快速檢索并聚類相似度較高的讀者信息群。公共圖書館可收集少兒讀者的個人及檢索數據,利用大數據挖掘結果構建關聯模型,精準地為少兒讀者推薦閱讀資源。2
對比實驗為了驗證基于大數據挖掘的少兒閱讀推薦方法的效果,筆者分別將該方法與基于信息覓食的少兒閱讀推薦方法應用于某公共圖書館的相關實踐,對兩種方法的用戶偏好度進行對比,用戶偏好度計算公式為:U={(a1,b1),(a2,b2),…,(a3,b3)}其中,U為少兒閱讀推薦結果中的用戶偏好度,ai為某一類公共圖書館閱讀資源的評價數據,bi為某一類閱讀推薦方法的用戶評價指數,i的取值范圍均為1,2,3,……,n。根據實際情況,筆者將U的取值范圍設定為0到1之間,U的值越接近1,說明推薦的圖書越能夠滿足少兒讀者的閱讀需求。由于少兒的認知發育不夠健全,因此,公共圖書館在計算用戶偏好度的過程中,除考慮少兒讀者的閱讀需求外,還應考慮少兒家長的教育需求。表1為筆者針對兩種少兒閱讀推薦方法的用戶偏好度計算結果,基于大數據挖掘的少兒閱讀推薦方法的用戶偏好度明顯高于基于信息覓食的少兒閱讀推薦方法。3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設備連接使用情況統計表
- 出差人員辦公地點跟蹤表
- 體育賽事參與及表現綜合證明書(6篇)
- 教師素質提升與教育服務質量的相互關系
- 產品售后服務管理跟蹤表
- 人文素養培養:古詩詞賞析高中教案
- 孟子中的論說方法與作文技巧:高三語文選讀教學
- 我心中的英雄寫人文章(13篇)
- 學習生活中的一件小事讀后感11篇
- 公司車輛使用與保養記錄表
- 2020-2021年成都市青羊區五年級(下)數學期末試卷(附答案版)
- 2024秋期國家開放大學專科《現代教師學導論》一平臺在線形考(形成性考核任務一至四)+終結性考核(大作業)試題及答案
- 智能財務管理系統合同
- 專題06直角坐標系中三角形面積的相關問題(原卷版+解析)
- TQGCML 4301-2024 煤礦覆巖離層注漿充填開采設計施工及驗收規范
- 脛骨骨折課件
- 人教版(2024新版)九年級上冊化學:第四單元 課題3《物質組成的表示》教案教學設計
- 四川省高職單招餐飲類《中式烹飪技藝》復習備考試題庫-上(選擇題)
- 《建筑施工測量標準》JGJT408-2017
- 鋼結構廠房施工組織設計
- ups電源維修合同范本
評論
0/150
提交評論