




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
信息檢索
第06章查詢處理技術軟件學院教研室陳鄞信息檢索系統的體系結構文本數據庫數據庫管理建索引索引查詢處理搜索排序排序后的文檔用戶反饋文本處理用戶界面檢出的文檔用戶需求文本提問邏輯視圖倒排文檔引言查詢處理主要包含兩方面內容將用戶輸入的原始查詢轉化為統一的查詢機內表示形式序號檢索模型查詢機內表示形式1布爾模型布爾表達式→合取向量的析取范式2向量空間模型向量3概率模型向量4基于統計語言模型的檢索模型詞串引言查詢處理主要包含兩方面內容將用戶輸入的原始查詢轉化為統一的查詢機內表示形式查詢重構為什么要重新構造查詢用戶檢索經驗不足,無法提供高質量的用戶查詢問題復雜,用戶無法提供恰當的表述潛在的真實需求(RealInformationNeed,RIN)意識到或感知到的需求(PerceptionInformationNeed,PIN)表達出的需求(Request)查詢(Query)用戶信息需求的不同狀態本章內容6.1相關反饋與查詢重構6.2自動的查詢擴展技術
6.1相關反饋與查詢重構相關反饋(RelevanceFeedback
)利用用戶對于最初的檢索結果的相關性評估信息對系統的搜索策略進行調整,以改進檢索效果的技術相關反饋的原理F:從用戶那里接受相關性評估,輸出相關文檔和不相關文檔G:實現相關反饋公式檢索過程FG原始Q排序輸出相關和不相關的文檔重新形成的queryQ’相關評估相關反饋主要利用了如下思想當用戶對文檔集不十分了解時,構造一個好的查詢很困難,但是讓用戶來判斷具體文檔的相關性卻是比較容易的用戶看到某些文檔之后可能會使他們對原來所理解的信息需求進行修正如何利用相關反饋信息重新構造查詢?本節主要內容6.1.1向量空間模型中的相關反饋6.1.2偽相關反饋與隱式相關反饋6.1.3概率模型中的相關反饋6.1.1向量空間模型中的相關反饋Rocchio,1971年提出基本思想對用戶最初給出的權值進行調整,對于查詢中的每個詞,如果其在相關文檔集合中的權重比較高,則提高其在查詢中的權重;如果其在不相關文檔集合中的權重比較高,則降低其在查詢中的權重6.1.1向量空間模型中的相關反饋Rocchio算法,1971年提出相關反饋實現中的一個經典算法20世紀70年代左右在Salton的SMART系統中引入并廣泛流傳基本思想對用戶最初給出的權值進行調整,對于查詢中的每個詞,如果其在相關文檔集合中的權重比較高,則提高其在查詢中的權重;如果其在不相關文檔集合中的權重比較高,則降低其在查詢中的權重
基本思想
向量中的權重分量如果為負值,那么該分量將會被忽略,即該分量權重設為0正反饋往往比負反饋更有價值,因此在很多IR系統中,會將參數設置成β>γ
一個合理的取值是α=1、β=0.75及γ=0.15實際上,很多系統都只允許進行正反饋,即相當于設置γ=0只取檢索系統返回結果中排名最高的標記為不相關的文檔進行負反饋Idedec-hi公式相關反饋可以同時提高召回率和正確率實際表明該技術在一些重召回率的場景下對于提高召回率非常有用。這其中的部分原因在于它對查詢進行了擴展修改后的查詢引入了一些新的索引詞,這些索引詞主要來自相關文檔實際應用中的迭代算法Rocchio算法實際應用中的問題長查詢檢索實現時更高的計算開銷,導致系統對用戶的應答時間更長,降低了系統的效率。部分解決方案是只改變相關文檔中某些關鍵詞項(比如文檔中詞項頻率最高的20個詞項)的權重例子
T1
T2
T3T4
T5Q=(5,0,3,0,1)→初始查詢d1=(2,1,2,0,0)→相關文檔d2=(1,0,0,0,2)→不相關文檔S(Q,
d1)=(52)+(01)+(32)+(00)+(10)=16S(Q’,d1)=(5.752)+(0.51)+(42)+(00)+(0.50)=20S(Q,d2)=(51)+(00)+(30)+(00)+(12)=7S(Q’,d2)=(5.751)+(0.50)+(40)+(00)+(0.52)=6.75=1,=1/2,=1/4文本搜索中相關反饋的例子Initialquery:Newspacesatelliteapplications1.0.539,08/13/91,NASAHasn’tScrappedImagingSpectrometer2.0.533,07/09/91,NASAScratchesEnvironmentGearFromSatellitePlan3.0.528,04/04/90,SciencePanelBacksNASASatellitePlan,ButUrgesLaunchesofSmallerProbes4.0.526,09/09/91,ANASASatelliteProjectAccomplishesIncredibleFeat:StayingWithinBudget5.0.525,07/24/90,ScientistWhoExposedGlobalWarmingProposesSatellitesforClimateResearch6.0.524,08/22/90,ReportProvidesSupportfortheCriticsOfUsingBigSatellitestoStudyClimate7.0.516,04/13/87,ArianespaceReceivesSatelliteLaunchPactFromTelesatCanada8.0.509,12/02/87,TelecommunicationsTaleofTwoCompaniesUserthenmarksrelevantdocumentswith“+”.+++查詢擴展成18個帶權重的詞項2.074new 15.106space30.816satellite 5.660application5.991nasa 5.196eos4.196launch 3.972aster3.516instrument 3.446arianespace3.004bundespost 2.806ss2.790rocket 2.053scientist2.003broadcast 1.172earth0.836oil 0.646measure查詢擴展后的檢索結果1.0.513,07/09/91,NASAScratchesEnvironmentGearFromSatellitePlan2.0.500,08/13/91,NASAHasn’tScrappedImagingSpectrometer3.0.493,08/07/89,WhenthePentagonLaunchesaSecretSatellite,SpaceSleuthsDoSomeSpyWorkofTheirOwn4.0.493,07/31/89,NASAUses‘Warm’SuperconductorsForFastCircuit5.0.492,12/02/87,TelecommunicationsTaleofTwoCompanies6.0.491,07/09/91,SovietsMayAdaptPartsofSS-20MissileForCommercialUse7.0.490,07/12/88,GapingGap:PentagonLagsinRaceToMatchtheSovietsInRocketLaunchers8.0.490,06/14/90,RescueofSatelliteBySpaceAgencyToCost$90Million2186.1.2直接反饋、間接反饋與偽相關反饋直接反饋 (用戶有意識)間接反饋 (用戶無意識)也叫隱式相關反饋點擊率間接反映了該文檔與查詢的相關性假設文摘質量比較好瀏覽時間等偽相關反饋 (無用戶)將返回結果的前K個文檔作為相關文本優點:實現起來比較方便缺點:迭代,會導致查詢漂移例:coppermines→minesinChile
→Chile6.1.3概率模型中的相關反饋第1步:初始化第2步:第3步:詞t狀態相關文檔不相關文檔合計t出現rtdft
–
rtdftt
不出現R-rtN-dft-(R-rt)N-dft合計RN-RN第4步:重復以上兩步直至收斂VSM與概率檢索模型中
相關反饋技術的比較VSM中的相關反饋概率模型中的相關反饋作用對象不同概率模型中的反饋直接作用于模型(參數),而不是查詢對查詢的擴展性不同概率模型沒有擴展查詢提綱6.1相關反饋與查詢重構6.2自動查詢擴展技術6.2自動查詢擴展技術查詢擴展用附加(額外的)的詞語補充原始查詢的過程查詢擴展的提出20世紀70年代,用于改善檢索結果查詢擴展的分類依據用戶的參與程度交互式查詢擴展擴展詞的選擇由用戶自己完成自動查詢擴展查詢擴展的分類依據用戶的參與程度交互式查詢擴展擴展詞的選擇由用戶自己完成自動查詢擴展擴展詞的選擇由系統自動完成依據擴展源基于相關文檔集合的查詢擴展基于相關反饋技術的局部分析法基于語義詞典的查詢擴展人工編撰計算機自動提取(基于全部文檔集合的全局分析法)基于用戶日志的查詢擴展6.2.1全局分析法基本思想通過對全部文檔集合的分析,自動獲取關鍵詞之間相似度的矩陣(相似度詞典)。當進行查詢時,使用與查詢相似度最高的關鍵詞作為新生成的查詢用詞如何從文檔集合中提取與查詢詞相似度高的關鍵詞?
相似度詞典的構造方法tjditndm兩個詞所處的文檔環境越相似,它們之間的相似度就越大wji的計算t1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnd1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn實際應用中的公式關鍵詞之間相似度自動生成詞典樣例基于關鍵詞相似度矩陣的查詢擴展關鍵詞tj與查詢q之間的相似度選擇相似度最高的r個關鍵詞作為候選的擴展用關鍵詞,相應的權值定義為設q’=(w’q1,w’q2,…,w’qn),則qe=q+q’其中r項不為0另外一種擴展辦法q=AddB=2AddA=1,D=1AddE=0.5AddB=0.5,E=0.5AddnothingA=5B=4.5C=1D=2E=1qe
=根據q不能找出僅包含E的文檔,但qe可以A=4B=2C=1D=1E=0Associated
term的權值系數為0.5
ABCDEA11000B11010
C00101
D01011
E00111
假設根據閾值將相似度轉化為二值的OriginaltermAssociatedtermABBA,DCEDB,EEC,D該方法也適用于人工編撰的同義詞典性能分析優點最大限度地探求關鍵詞之間的關系相似度詞典建立以后,查詢擴展效率較高缺點相似度詞典建立過程中的時間和空間開銷較大,降低了該方法的可行性詞典質量常常是一個問題6.2.2局部分析法基本思想利用初次檢索得到的與原查詢最相關的N篇文檔來確定擴展的詞語進一步分類基于直接相關反饋基于偽相關反饋局部上下文分析的方法算法要點從初始檢索得到的前k個段落中選擇與原查詢相關度最高的“概念”作為新的查詢用詞概念c與查詢q的相關程度由c與查詢q中的每一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 虛擬數字人虛擬空間應用-洞察及研究
- 血腦屏障修復機制-洞察及研究
- 先天性高肩胛癥
- 吉林省吉林市永吉縣2023-2024學年七年級下學期期末考試歷史試卷(含答案)
- 【課件】植物的營養器官(第3課時)++課件-2024-2025學年蘇教版生物七年級下冊
- 平臺戰略競爭分析-洞察及研究
- 3.1功、熱和內能的改變(課件)-【大單元教學】高二物理同步備課系列(人教版2019選擇性必修第三冊)
- 3.2交變電流的描述(課件)-【大單元教學】高二物理同步備課系列(人教版2019選擇性必修第二冊)
- 2025年超星爾雅學習通《勞動通論》章節測試附答案(能力提升)
- 成本費用預算執行情況報表
- 2025屆西藏林芝地區五下數學期末考試試題含答案
- 企業技術管理咨詢服務合同書
- 安全總監競聘上崗
- 污泥處置年產54000噸生物質燃料原材料項目可行性研究報告模板
- 化工廠急救知識培訓課件
- 2025屆廣東省深圳寶安區四校聯考中考生物全真模擬試卷含解析
- 高中家長會 共筑夢想,攜手未來課件-高二下學期期末家長會
- 國家中醫藥管理局機關服務中心人員招聘筆試真題2023
- 《混凝土灌注樁檢測》課件
- 防范非法金融活動
- 數字資產投資策略-洞察分析
評論
0/150
提交評論