




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
資訊檢索技術參考資料: 林秋燕 曾元顯 卜小蝶,Chap.1、3 Chowdhury,Chap.91資訊檢索技術參考資料:1資訊檢索技術簡介目的利用電腦儲存與計算能力,協助使用者從大量缺乏結構化(Non-structural)資料中,快速擷取所需分析使用者資訊檢索需求意涵,嘗試提供解決方案涵蓋各種類型資料之處理文字、表格、圖片、文件結構化v.s.非結構化包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知2資訊檢索技術簡介目的2資訊檢索技術的發展—1/2發展歷程人工分類關鍵詞技術KWICKWOC全文檢索索引搜尋快速比對高品質全文檢索各種技術標準問世MARCSGMLHTMLZ39.50XML兩大發展族群System-centredmodelsUser-centredorcognitivemodels3資訊檢索技術的發展—1/2發展歷程各種技術標準問世3資訊檢索技術的發展—2/2比較重點早期研究方向最新研究方向資訊型態文字型態為主擴展至多媒體型式資料特性歷史性靜態資料及時性動態資料資料庫收錄範圍學術性,如書目文獻多元化,如即時新聞、WebPage等檢索技術以文字比對為基礎發展智慧型檢索技術服務層面允許有限人次檢索允許全球每日千萬人次上線檢索服務範疇限制在區域網路幾乎皆以廣域網路為目標服務型態以公眾服務為主開始個人化資訊服務參與學門資訊科學、圖書資訊學大量科際整合,如電腦工程、電機工程、語言學、新聞傳播等4資訊檢索技術的發展—2/2比較重點早期研究方向最新研究方向資系統導向之資訊檢索技術模組Booleanmodel(布林邏輯查詢)Cluster-BasedModel(串聯基礎模式)Vector-SpaceModel(向量模式)ProbabilisticModel(機率模式)Bestmatchsearchingmodel(最佳化查詢模式)Relevancefeedbackmodel(相關回饋模式)Naturallanguageprocessingmodel(自然語言處理模式)Hypertextmodel(超文件模式)5系統導向之資訊檢索技術模組Booleanmodel(布林邏Booleanmodel提供檢索詞彙間AND、OR、NOT的組合製作簡單、檢索速度快可用不同欄位資料來限定檢索範圍,對主題明確的檢索(如明確的作者名稱、標題名稱)非常有效但一般使用者比較難以利用此種模式表達較為複雜的查詢6Booleanmodel提供檢索詞彙間AND、OR、NOTCluster-BasedModel理論基礎假設相似的文件,應能符合類似的資訊需求以串聯技術分析文件中所使用的詞彙(Term),找出文件與文件間的相似性(Similarities),相似性一樣者形成一個串聯(Cluster)。利用此種自動歸類(AutomaticClustering)方式,便能將內容相近的文件歸成一類,除能藉由此關連找出未包含檢索詞彙的相關文件,更能提供進一步的歸納、摘要,與主題辨識。7Cluster-BasedModel理論基礎7Vector-SpaceModel將檢索系統所有的文件視為一個文件向量空間每一篇文件則為這個空間內的一個點(一個向量)使用者的查詢問句(query)亦視為文件向量空間的一個點計算代表文件的向量與代表查詢問句的向量的相似性系統依照文件與查詢問句相似性的大小,排列系統認為相關的文件
8Vector-SpaceModel將檢索系統所有的文件視為ProbabilisticModel以文件(document)機率的大小決定該文件是否與使用者之查詢問句(query)相關使用者之查詢問句為已知條件,依據該查詢問句計算文件之機率P(d|q)=P(d,q)/P(q)超過一定機率的文件則被檢索系統認為符合使用者的檢索需求機率的大小則為文件排序的依據9ProbabilisticModel以文件(documenBestmatchsearchingmodel採用Ranking理念(重要性排序)檢索結果按符合程度排序,以加快檢索結果的檢視整理與利用,此為布林邏輯模式難以達到的重要功能排序方式Termweighting將查詢字串或文獻內的索引詞彙,依重要性分別給予加權比數。呈現檢索結果時,權重高的詞彙排序在前面。DocumentRanking利用詞彙權重評比,來判斷文獻和檢索詞彙的相似度,可節省瀏覽無關資料的時間10Bestmatchsearchingmodel採用RaRelevancefeedbackmodel使用者根據系統對檢索條件的回應,將相關資料或條件回饋給系統,以導引系統搜尋的方向,逐步獲取自己所要的資料執行初次檢索後,使用者根據系統回應,指出哪些文件或相關詞跟他的檢索主題相關或完全不相關,並將此訊息回饋給系統,系統便據此訊息,再作進一步的搜尋相關回饋表現出來的檢索方式,常成為漸進式查詢(progressivequery)或範例查詢(querybyexample)的模式。11Relevancefeedbackmodel使用者根據系Naturallanguageprocessingmodel允許使用者以不限定的自然詞語、句法與系統溝通,因此使用者的負擔更輕,但系統的介面部份必須具備相當程度的人工智慧能力,以瞭解自然語言的意義。三種處理層次Syntacticanalysis(語句結構分析)Semanticanalysis(語意分析)Pragmaticanalysis(實際意涵分析)12NaturallanguageprocessingmoHypertextmodel採用互動導覽方式,允許使用者瀏覽文件中個別不同內容,或同一文獻集中的不同文件。跳脫原有線性循序閱讀方式惟仍受限於設計者的思維模式13Hypertextmodel採用互動導覽方式,允許使用者瀏改善檢索品質的使用者查詢模式InformationfilteringPersonalizedserviceQuerybyvoiceQuerybydialogFuzzysearchIntelligentsearchagentInformationMining14改善檢索品質的使用者查詢模式InformationfiltInformationfiltering(資訊過濾)此種模式與使用者主動查詢資料而系統被動反應相反。使用者向系統登錄自己的資訊需求、興趣或檢索條件後,由系統主動、持續的為使用者蒐集相關的資料,再定時或不定時傳給使用者,使用者只需被動接受檢索與過濾後的結果即可。因此,在一段期間內,使用者只需做一次檢索,即可獲得持續的檢索結果。15Informationfiltering(資訊過濾)此種Personalizedservice(個人化服務)AdaptiveInformationRetrieval檢索系統記錄個別使用者的資訊需求,或是把相同需求的使用者的記錄組合運用,讓使用者彼此的需求和興趣交互推薦,使得使用者查詢時,系統提供較符合個人興趣的回應,做到個別化的服務16Personalizedservice(個人化服務)AdQuerybyvoice(語音檢索)ConversationalInformationRetrieval由文字介面轉變為較為自然的口語語音介面,減低文字打字輸入的困難度,可以配合其他檢索模式運用。Speechrecognitionvoice-to-textSpeechsynthesistext-to-voice17Querybyvoice(語音檢索)ConversatQuerybydialog(對話式查詢)系統以文字或語音為介面同使用者對話,從對話中透露使用者的資訊需求與意圖,系統再據以檢索。此種模式強調的是使用者端運用較為精緻的人機介面技術,因此與檢索技術的實際運作原理可以較無關係。18Querybydialog(對話式查詢)系統以文字或語Fuzzysearch(模糊搜尋)即容錯式、全文式、非控制字彙、近似字串(proximity)、允許利用近似自然語言的方式表達檢索字串與條件的檢索模式。此種模式大大降低資訊檢索的複雜度,對不明確自己檢索主題的使用者幫助尤其顯著。尋易(CSmart)智慧型中文文件檢索系統
.tw/csmart/index.html19Fuzzysearch(模糊搜尋)即容錯式、全文式、非控Intelligentsearchagent
(智慧型檢索精靈)使用者將自己的資訊需求交代檢索精靈程式,由此精靈代替使用者到各個相關資料庫檢索資料,再回報回使用者。此種模式是以上各種模式與人機介面技術的綜合運用,使得資訊檢索可以達到時空無礙、虛擬實境的境界。20Intelligentsearchagent
(智慧型InformationMining(資訊探勘)發掘隱沒在大量文件內的訊息,協助使用者發現知識、蒐集情報。DataMining(資料探勘)從結構化資料中,找出資料的相關性DocumentMining(文本探勘)從非結構化的資料中,找出資料的相關性21InformationMining(資訊探勘)發掘隱沒在大使用者導向資訊檢索模式Ingwersen’smodel使用者的認知因其工作或興趣而不同,也造成其資訊需求和資訊行為的差異社會和組織環境也會影響之Belkin’smodelScanningtosearching、Goalofinteraction、Modeofretrieval、ResourcecondiseredSaracevic’smodelCognitive、Affective、Situational22使用者導向資訊檢索模式Ingwersen’smodel22資訊檢索技術參考資料: 林秋燕 曾元顯 卜小蝶,Chap.1、3 Chowdhury,Chap.923資訊檢索技術參考資料:1資訊檢索技術簡介目的利用電腦儲存與計算能力,協助使用者從大量缺乏結構化(Non-structural)資料中,快速擷取所需分析使用者資訊檢索需求意涵,嘗試提供解決方案涵蓋各種類型資料之處理文字、表格、圖片、文件結構化v.s.非結構化包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知24資訊檢索技術簡介目的2資訊檢索技術的發展—1/2發展歷程人工分類關鍵詞技術KWICKWOC全文檢索索引搜尋快速比對高品質全文檢索各種技術標準問世MARCSGMLHTMLZ39.50XML兩大發展族群System-centredmodelsUser-centredorcognitivemodels25資訊檢索技術的發展—1/2發展歷程各種技術標準問世3資訊檢索技術的發展—2/2比較重點早期研究方向最新研究方向資訊型態文字型態為主擴展至多媒體型式資料特性歷史性靜態資料及時性動態資料資料庫收錄範圍學術性,如書目文獻多元化,如即時新聞、WebPage等檢索技術以文字比對為基礎發展智慧型檢索技術服務層面允許有限人次檢索允許全球每日千萬人次上線檢索服務範疇限制在區域網路幾乎皆以廣域網路為目標服務型態以公眾服務為主開始個人化資訊服務參與學門資訊科學、圖書資訊學大量科際整合,如電腦工程、電機工程、語言學、新聞傳播等26資訊檢索技術的發展—2/2比較重點早期研究方向最新研究方向資系統導向之資訊檢索技術模組Booleanmodel(布林邏輯查詢)Cluster-BasedModel(串聯基礎模式)Vector-SpaceModel(向量模式)ProbabilisticModel(機率模式)Bestmatchsearchingmodel(最佳化查詢模式)Relevancefeedbackmodel(相關回饋模式)Naturallanguageprocessingmodel(自然語言處理模式)Hypertextmodel(超文件模式)27系統導向之資訊檢索技術模組Booleanmodel(布林邏Booleanmodel提供檢索詞彙間AND、OR、NOT的組合製作簡單、檢索速度快可用不同欄位資料來限定檢索範圍,對主題明確的檢索(如明確的作者名稱、標題名稱)非常有效但一般使用者比較難以利用此種模式表達較為複雜的查詢28Booleanmodel提供檢索詞彙間AND、OR、NOTCluster-BasedModel理論基礎假設相似的文件,應能符合類似的資訊需求以串聯技術分析文件中所使用的詞彙(Term),找出文件與文件間的相似性(Similarities),相似性一樣者形成一個串聯(Cluster)。利用此種自動歸類(AutomaticClustering)方式,便能將內容相近的文件歸成一類,除能藉由此關連找出未包含檢索詞彙的相關文件,更能提供進一步的歸納、摘要,與主題辨識。29Cluster-BasedModel理論基礎7Vector-SpaceModel將檢索系統所有的文件視為一個文件向量空間每一篇文件則為這個空間內的一個點(一個向量)使用者的查詢問句(query)亦視為文件向量空間的一個點計算代表文件的向量與代表查詢問句的向量的相似性系統依照文件與查詢問句相似性的大小,排列系統認為相關的文件
30Vector-SpaceModel將檢索系統所有的文件視為ProbabilisticModel以文件(document)機率的大小決定該文件是否與使用者之查詢問句(query)相關使用者之查詢問句為已知條件,依據該查詢問句計算文件之機率P(d|q)=P(d,q)/P(q)超過一定機率的文件則被檢索系統認為符合使用者的檢索需求機率的大小則為文件排序的依據31ProbabilisticModel以文件(documenBestmatchsearchingmodel採用Ranking理念(重要性排序)檢索結果按符合程度排序,以加快檢索結果的檢視整理與利用,此為布林邏輯模式難以達到的重要功能排序方式Termweighting將查詢字串或文獻內的索引詞彙,依重要性分別給予加權比數。呈現檢索結果時,權重高的詞彙排序在前面。DocumentRanking利用詞彙權重評比,來判斷文獻和檢索詞彙的相似度,可節省瀏覽無關資料的時間32Bestmatchsearchingmodel採用RaRelevancefeedbackmodel使用者根據系統對檢索條件的回應,將相關資料或條件回饋給系統,以導引系統搜尋的方向,逐步獲取自己所要的資料執行初次檢索後,使用者根據系統回應,指出哪些文件或相關詞跟他的檢索主題相關或完全不相關,並將此訊息回饋給系統,系統便據此訊息,再作進一步的搜尋相關回饋表現出來的檢索方式,常成為漸進式查詢(progressivequery)或範例查詢(querybyexample)的模式。33Relevancefeedbackmodel使用者根據系Naturallanguageprocessingmodel允許使用者以不限定的自然詞語、句法與系統溝通,因此使用者的負擔更輕,但系統的介面部份必須具備相當程度的人工智慧能力,以瞭解自然語言的意義。三種處理層次Syntacticanalysis(語句結構分析)Semanticanalysis(語意分析)Pragmaticanalysis(實際意涵分析)34NaturallanguageprocessingmoHypertextmodel採用互動導覽方式,允許使用者瀏覽文件中個別不同內容,或同一文獻集中的不同文件。跳脫原有線性循序閱讀方式惟仍受限於設計者的思維模式35Hypertextmodel採用互動導覽方式,允許使用者瀏改善檢索品質的使用者查詢模式InformationfilteringPersonalizedserviceQuerybyvoiceQuerybydialogFuzzysearchIntelligentsearchagentInformationMining36改善檢索品質的使用者查詢模式InformationfiltInformationfiltering(資訊過濾)此種模式與使用者主動查詢資料而系統被動反應相反。使用者向系統登錄自己的資訊需求、興趣或檢索條件後,由系統主動、持續的為使用者蒐集相關的資料,再定時或不定時傳給使用者,使用者只需被動接受檢索與過濾後的結果即可。因此,在一段期間內,使用者只需做一次檢索,即可獲得持續的檢索結果。37Informationfiltering(資訊過濾)此種Personalizedservice(個人化服務)AdaptiveInformationRetrieval檢索系統記錄個別使用者的資訊需求,或是把相同需求的使用者的記錄組合運用,讓使用者彼此的需求和興趣交互推薦,使得使用者查詢時,系統提供較符合個人興趣的回應,做到個別化的服務38Personalizedservice(個人化服務)AdQuerybyvoice(語音檢索)ConversationalInformationRetrieval由文字介面轉變為較為自然的口語語音介面,減低文字打字輸入的困難度,可以配合其他檢索模式運用。Speechrecognitionvoice-to-textSpeechsynthesistext-to-voice39Querybyvoice(語音檢索)ConversatQuerybydialog(對話式查詢)系統以文字或語音為介面同使用者對話,從對話中透露使用者的資訊需求與意圖,系統再據以檢索。此種模式強調的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 關于黃岡的七下數學試卷
- 貨品分析培訓課件圖片
- 肥城中考數學試卷
- 肛腸五項技術課件
- 燈塔市期末考試數學試卷
- 浮山中學數學試卷
- 高級中學期末數學試卷
- 2025年06月浙江溫州市蒼南縣衛生健康系統面向社會招聘120編外輔助人員2人筆試歷年專業考點(難、易錯點)附帶答案詳解
- 2025年01月2025安徽池州市人民醫院勞務派遣辦公室文員招聘1人筆試歷年專業考點(難、易錯點)附帶答案詳解
- 銷售技能培訓課件分類
- 地產 設計培訓課件
- 中國古建筑行業市場發展現狀及投資前景展望報告
- 浙江杭州市2024-2025學年高一下學期6月期末考試物理試題及答案
- 員工勸退方案文案(3篇)
- 閔行區2024-2025學年下學期期末考試六年級數學試卷及答案(上海新教材滬教版)
- 借款合同模版
- 2025年高考全國一卷數學真題-答案
- 義務教育英語課程標準(2022年版)
- 企業異地作業管理制度
- 蛇咬傷的急救處理措施
- 2025至2030年中國硫酸鈣晶須行業市場競爭現狀及投資前景研判報告
評論
0/150
提交評論