




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第五章數字圖書館信息檢索2025/5/261第五章數字圖書館信息檢索本章內容5.1信息檢索概述5.2基于內容信息檢索5.3跨語言信息檢索5.4知識檢索2025/5/262第五章數字圖書館信息檢索5.1信息檢索概述5.1.1信息檢索概念5.1.2信息檢索模型5.1.3信息檢索的意義和作用5.1.4信息檢索發展趨勢2025/5/263第五章數字圖書館信息檢索5.1信息檢索概述5.1.1信息檢索概念就是基于信息組織形式,如字符串、結構化數據庫,應用信息處理方法,如排序、數據查找、字符匹配,實現信息查找以滿足信息需求的過程,本質上是對信息集合與需求集合的匹配與選擇。三種角度的認識:時間性通信角度的認識、信息處理角度的認識、文獻查找角度的認識。2025/5/264第五章數字圖書館信息檢索5.1信息檢索概述5.1.2信息檢索模型布爾模型布爾模型(BooleanModels)是基于特征項的嚴格匹配模型,文本查詢的匹配規則遵循布爾運算的法則。向量空間模型一般是從文本中抽取出關鍵詞,根據該詞在文本中的重要程度賦予其一定的權重,把用戶模板和待檢索文本均表示成向量空間中的向量,利用一些相似度計算方法(如夾角余弦、內積等)計算他們的相似度。概率模型概率模型基于概率排序原理,考慮了關鍵詞、文檔之間的內在聯系,它以貝葉斯公式為理論基礎,利用關鍵詞之間和關鍵詞與文檔之間的概率相依性進行信息檢索。2025/5/265第五章數字圖書館信息檢索5.1信息檢索概述5.1.3信息檢索的意義和作用(1)信息檢索是知識經濟時代現代人才的基本生存技能(2)信息檢索是信息社會人才個人素質的重要組成部分(3)信息檢索是開發情報信息資源,提高經濟效益的重要工具(4)信息檢索是避免重復研究,節省人力、物力和時間的必由之路(5)信息檢索是實現信息資源共享的重要途徑(6)信息檢索是科學研究和技術創新的重要組成部分2025/5/266第五章數字圖書館信息檢索5.1信息檢索概述5.1.4信息檢索發展趨勢個性化的信息檢索服務檢索交互與結果可視化跨語種信息檢索跨媒體信息檢索智能化信息檢索信息檢索精準性2025/5/267第五章數字圖書館信息檢索5.2基于內容信息檢索5.2.1內容信息檢索概念5.2.2內容信息檢索特點5.2.3圖像內容信息檢索5.2.4視頻內容信息檢索5.2.5音頻內容信息檢索2025/5/268第五章數字圖書館信息檢索5.2基于內容信息檢索5.2.1內容信息檢索概念通過對信息的模式識別和分析理解,從中抽取信息的有關內容特征并加以標示和組織,用戶以此作為檢索的依據,完成信息數據庫中存儲信息的匹配,從而實現信息的直接定位和查找。過程:①用戶提交查詢;②將查詢特征與數據庫中的特征按照一定的匹配算法進行匹配;③滿足一定相似性的一組候選結果按相似度大小排列返回給用戶;④對系統返回的一組初始特征的查詢結果。2025/5/269第五章數字圖書館信息檢索5.2基于內容信息檢索5.2.2內容信息檢索特點從媒體內容中提取信息線索基于內容的檢索是一種近似匹配例查詢(QuerybyExample)人機交互總之,基于內容的信息檢索,需要計算機技術、人工智能技術、數據庫技術等,它根據圖像、音頻、視頻等內在特征進行匹配,匹配結果是一種近似相同。2025/5/2610第五章數字圖書館信息檢索5.2基于內容信息檢索5.2.3圖像內容信息檢索兩個階段:基于文本的圖像檢索技術和基于內容的圖像檢索技術。存在的問題:①特征信息難以提取;②增加冗余信息;③檢索難度加大;④對于專用檢索系統,不僅需要計算機技術,而且還需要對相關專業十分了解。根據內在特征匹配,如①圖像的畫面內容特征;②圖像的主題對象特征;③圖像的著錄特征;④圖像的移動和組合特征。2025/5/2611第五章數字圖書館信息檢索5.2基于內容信息檢索5.2.4視頻內容信息檢索視頻數據結構分析鏡頭分割關鍵幀提取檢索2025/5/2612第五章數字圖書館信息檢索5.2基于內容信息檢索5.2.5音頻內容信息檢索語音檢索利用大詞匯語音識別技術進行檢索基于子詞單元進行檢索基于關鍵詞發現進行檢索基于說話人辨認進行分割音樂檢索基于內容的音樂檢索是根據音樂的內容特征來進行檢索,也就是根據音樂的旋律、節奏等音樂特征進行檢索音頻檢索音頻特征提取音頻分割2025/5/2613第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.1跨語言信息檢索概念5.3.2跨語言信息檢索的模式5.3.3翻譯技術5.3.4跨語言信息檢索解決問題5.3.5跨語言信息檢索優化技術5.3.6跨語言信息檢索系統2025/5/2614第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.1跨語言信息檢索概念跨語言信息檢索(CrossLanguageInformationRetrieval,CLIR),就是用戶用某種語言進行查詢,檢索其他語言表示的文檔集的過程,也就是一種跨越語言界限進行檢索的問題。在某種程度上來說,跨語言信息檢索要解決的就是查詢條件和查詢文檔集之間的語言障礙2025/5/2615第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.2跨語言信息檢索的模式查詢翻譯查詢翻譯指將提問用語種轉換成文獻用語種(如將中文提問轉換成英文提問),然后再進行單語言檢索文獻翻譯文獻翻譯指將源文獻語種轉換成提問用的語種(如將英文源文獻轉換成中文文獻),即不對提問式進行翻譯,而是對集合中的文獻翻譯成與提問用的語種一致的語言中間語種轉換中間語種轉換指將提問和文獻轉換成一種邏輯形式,或者第三方語言2025/5/2616第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.3翻譯技術機器翻譯技術一種方法是將用戶的查詢翻譯為與文檔相同的語種;另一種方法是將文檔翻譯為與查詢相同的語種,然后再用單語種的信息檢索系統進行檢索基于詞典的方法基于詞典的方法主要是利用雙語詞典,將用戶提交的提問式翻譯成目標語種,然后進行檢索基于語料庫的方法基于語料庫的方法從大規模的語料入手,從中抽取所需的信息,自動構建與應用有關的翻譯技術2025/5/2617第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.4跨語言信息檢索解決問題查詢詞與檢索到的文獻分屬不同語言詞的歧義和多義性查詢詞的切分文獻的多語言性輸出結果的排序方式對多語言資源的依賴2025/5/2618第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.4跨語言信息檢索解決問題由于漢語的特殊性,漢英跨語言文獻檢索還面臨如下問題:(1)中文文本之間沒有分隔符。(2)沒有較好的方法識別漢語中的新詞、外來詞、專有名詞、人名、地名和縮略語等語詞。(3)漢語沒有詞綴變化。(4)漢語句法、語義分析復雜。2025/5/2619第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.5跨語言信息檢索優化技術查詢擴展查詢擴展指的是利用計算機語言學、信息學等多種技術,把與原查詢相關的詞語或者與原查詢語義相關聯的概念添加到原查詢,得到比原查詢更長的新查詢,然后檢索文檔,以改善信息檢索的性能檢索反饋技術在跨語言信息檢索中,通過一次檢索往往得不到想要的結果目的文獻,這時就需要通過檢索結果中反饋的信息對提問式檢索方法或翻譯方法進行改進消除檢索詞多義性對查詢來說,確定查詢中檢索詞的確切含義是查詢擴展的基礎對于被檢索信息來說,明確信息中出現的檢索詞的含義是提高檢索準確率、確定信息相關性的關鍵。可以利用一種詞的共現技術來消除詞的多義性,以明確其含義2025/5/2620第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.6跨語言信息檢索系統Cindor系統特點:統一的字符編碼標準、自然語言檢索、查詢自動擴展、申請專利的跨語言檢索技術。核心技術:概念中間語言、語言分析、搜索管理。Keizai系統A、使用統一字符編碼檢索體系(USRA)和交互文檔摘要方法(MINDS)。B、提供自動和用戶幫助兩種方法,以構建和提高跨語言查詢的效率。C、有英文查詢輸入框、新聞源選擇框、翻譯查詢按鈕、提交查詢按鈕、存儲查詢按鈕等。它目前所提供的新聞源有英文、法文、德文、西班牙文、意大利文、中文、日文、韓文的新聞,支持以上幾種語言的跨語言翻譯和檢索,不過查詢只能是英文的。2025/5/2621第五章數字圖書館信息檢索5.3跨語言信息檢索5.3.6跨語言信息檢索系統Keizai系統查詢舉例:輸入英文單詞“rose”,選擇“XinHuaNews94-95(Chinese)”作為新聞源,點擊查詢翻譯按鈕,則一個翻譯清單顯示在屏幕上,排在最前有“花圣、紫月季、勝春、月季花”等。每種翻譯形式前有復選框,用戶可以選擇最適合自己需要的查詢。選擇了“花圣、紫月季、紅薔、月季花、芙蓉”作為所需要的查詢翻譯形式,提交查詢后,檢索到12份文檔。2025/5/2622第五章數字圖書館信息檢索5.4知識檢索5.4.1知識檢索概念5.4.2知識檢索技術5.4.3知識檢索案例2025/5/2623第五章數字圖書館信息檢索5.4知識檢索5.4.1知識檢索概念特征:①基于某種具有語義模型的知識組織體系。②對資源對象進行基于元數據的語義標注。。優勢:(1)實現信息服務向知識服務的轉化。(2)提供主動服務方式。(3)面向用戶。(4)集成和綜合應用各類知識和各種高效的智能與非智能技術,全面提高檢索效率。2025/5/2624第五章數字圖書館信息檢索5.4知識檢索5.4.2知識檢索技術本體技術CBR知識庫過程感知知識檢索2025/5/2625第五章數字圖書館信息檢索5.4知識檢索5.4.2知識檢索技術本體技術五個模塊:用戶界面模塊、查詢式語義標注模塊、領域本體構建模塊、檢索資源的語義標引模塊、檢索處理模塊。2025/5/2626第五章數字圖書館信息檢索5.4知識檢索5.4.2知識檢索技術CBR工作步驟:①檢索與待解決問題類似的案例;②重用類似案例推薦的解決方案;③修改或調整解決方案以更好地適應新問題;④考查新的問題、解決方案案例是否有價值作為一個新的案例保留;⑤保留步驟④中有價值的解決方案;⑥完善案例庫索引和特征權重。2025/5/2627第五章數字圖書館信息檢索5.4知識檢索5.4.2知識檢索技術知識庫知識庫(KnowledgeBase)是一種在線的、基于計算機的,有關某一專門領域的專家意見、知識、經驗等的文件倉庫,是對各種來源信息的收集、歸納和綜合。過程感知知識檢索通過明確描述過程和過程信息,過程感知知識檢索使計算機可以作出關于知識和信息來源的高度針對性的建議,同時協助工序的完成。一個過程感知知識檢索框架由過程描述、知識源結合體和整合過程感知檢索與現行工具的具體運作平臺機制構成,具有過程庫、知識來源庫、監測框架、自動控制、過程識別功能。2025/5/2628第五章數字圖書館信息檢索5.4知識檢索5.4.3知識檢索案例CNKI具體目標:一是大規模集成整合知識信息資源,整體提高資源的綜合和增值利用價值;二是建設知識資源互聯網傳播擴散與增值服務平臺,為全社會提供資源共享、數字化學習、知識創新信息化條件;三是建設知識資源的深度開發利用平臺,為社會各方面提供知識管理與知識服務的信息化手段;四是為知識資源生產出版部門創造互聯網出版發行的市場環境與商業機制,大力促進文化出版事業、產業的現代化建設與跨越式發展。2025/5/2629第五章數字圖書館信息檢索5.4知識檢索5.4.3知識檢索案例中國知網的服務內容:中國知識資源總庫中國知識資源總庫提供CNKI源數據庫、外文類、工業類、農業類、醫藥衛生類、經濟類和教育類等多種數據庫。數字出版平臺數字出版平臺是國家“十一五”重點出版工程。數字出版平臺提供學科專業
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025下半年有色金屬行業商品和金融屬性共振高景氣進一步擴散
- 發改委會議培訓管理制度
- 施工著裝安全管理制度
- 子公司辦公租賃管理制度
- 培訓機構上下課管理制度
- 亞馬遜美國倉庫管理制度
- 景區攤販擺放管理制度
- 公司服務器文件管理制度
- 幼兒園用氣安全管理制度
- 旅館衛生安全管理制度
- 長城招聘的心理測評答案
- 云災備與數據恢復策略
- 中小學食堂工作從業人員安全培訓會議記錄(40學時全)
- 酒店保潔服務投標方案(完整技術標)
- 中山市公安局三鄉分局輔警招聘考試題庫2023
- 穴位埋線療法療法
- 裝飾裝修工程售后服務具體措施
- 16J607-建筑節能門窗
- SA8000全套控制程序文件
- 小學二年級數學下冊無紙化測試題
- 原材料安全庫存管理制度
評論
0/150
提交評論