海量規模網絡信息檢索評測語料庫的設計與實現

上傳人：l*** IP屬地：天津上傳時間：2022-03-07 格式：PPT 頁數：41 大?。?.13MB 積分：26 舉報 版權申訴

免費預覽已結束，剩余37頁可下載查看

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、多少人在使用搜索引擎全球范圍內84%的互聯網用戶使用搜索引擎，其中超過一半的人幾乎每天使用。 95%以上的中國網民使用過搜索引擎，84.5%的用戶將搜索引擎作為得知新網站的主要途徑。商用搜索引擎競爭日趨激烈(市場規模約56億元)。從2007年9月開始，中國成為全球首個每月搜索請求超過100億次的國家搜索引擎與性能評價對搜索引擎用戶：選擇最有效獲取信息的媒介對廣告商：選擇最有效的盈利平臺對研究人員：算法改進、性能監控效果評價是信息檢索相關研究的基礎內容評價在信息檢索系統的研發中一直處于核心的地位，以致于算法與它們的效果評價方式是合二為一的。（Saracevic, 1995）

2、如何對網絡信息檢索系統進行評價 Cranfield評價方法被應用在包括TREC在內的幾乎所有主流的信息檢索研究工作中。評價組成 (核心：評價語料庫) 文本語料，查詢語料，標注語料 Cranfield評價方式的優勢有效控制系統變量可以跨系統比較的評價結果網絡信息檢索評測語料庫建立評測語料庫的必要性信息檢索是實證學科真實規模的評測語料是算法有效性的保證研究人員各自獨立構建存在困難海量網絡資源抓取真實用戶需求獲取大規模用戶查詢的答案標注建立評測語料庫的可能性產業界與研究界的合作搜索引擎日志被合理應用文本信息檢索會議（TREC） NIST組織的研討文本檢索技術的國際性

3、論壇大規模文本檢索系統的標準評測平臺與網絡信息檢索相關的評測語料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 863中文信息處理與智能人機接口評測語料庫規模 30G 數據 30個查詢，pooling方式確定答案 4個系統參加評測現場評測參與系

4、統少側重系統穩定性和效率 SEWM評測北京大學網絡實驗室組織類似TREC的評測架構文本語料庫：CWT100g, CWT200g 去重、去除垃圾，37M網頁查詢語料庫：來自天網查詢日志 2005-2007 三年的時間 1185 導航類查詢 285 信息類查詢標注方式：人工標注，pooling方法經驗總結文本語料抓取相對高質量的網絡數據 VLC2 = WT10g，.GOV, .GOV2, CWT200g 查詢語料真實反映用戶需求 TREC Web, Terabyte, SEWM 標注語料規模保證 TREC million query track: efficiency, no

5、t effectiveness 主要困難文本語料庫構建規模問題 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 與中文用戶實際需求量匹配：100 Million量級達到100 Million/Terabyte量級，保證研究成果的可信性網頁質量篩選網頁質量相對較高：重復語料、垃圾語料的處理。輔助語料的構建問題鏈接關系語料點擊日志信息主要困難查詢語料庫構建規模問題有充分的代表性考慮到標注工作量查詢樣例選擇真實用戶需求有充分的代表性覆蓋不同用戶信息需求主要困難標注語料庫構建 Vo

6、orhees 估計，對一個規模為800萬的文檔集合進行針對1個查詢主題的相關性評判需要耗費1名標注人員9個月的工作時間 TREC提出pooling方法，在保證評價結果可靠性的基礎上大大減少了評判工作量缺點：處理的查詢數目少，針對小規模的查詢集合，仍需要耗費十余名標注人員1-2個月的工作時間設計思路海量規模、符合大多數研究機構的處理能力能夠代表中文互聯網的基本情況能夠代表中文搜索引擎用戶的需求情況客觀全面評價網絡信息檢索系統性能實現思路利用搜索引擎資源網頁抓取、查詢日志獲取、網頁質量評估數據獲取使用自動化的查詢語料標注方法構建過程網頁文本語料庫標注語料庫查詢語料庫檢索結果結

7、果池手工標注網頁文本語料庫查詢語料庫標注語料庫用戶查詢日志抓取傳統方式傳統方式SogouT構建方式構建方式自動標注生成查詢語料庫構建用戶查詢頻度的分布情況 2008年6月的日志數據查詢頻度最高的前10000個查詢詞用戶查詢總數的萬分之六點五，覆蓋超過56%的用戶需求抽樣方式 2008年6月搜狗搜索引擎查詢日志選取查詢量最高的10000個用戶查詢用戶查詢需求抽樣標注導航類約占30.6%，信息類約占69.4% 具有充分的代表性規模大: 我們所知最大規模的信息檢索評測查詢集合覆蓋率高：覆蓋56%以上的用戶查詢需求核心：提高標注語料構建的自動化程度前人工作利用偽相關反饋的方

8、法進行結果自動標注偽相關反饋的結果被認為是答案 Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 標注的準確程度和可靠性不高對查詢詞的近義詞集合進行標注根據結果網頁的查詢詞及近義詞詞頻進行評判 Amitay et.al, 2004 初始標注工作量大，評判的可靠性不高前人工作基于個體用戶行為分析 Joachims et.al.(1997) 創建了一個元搜索接口，將不同搜索引擎的結果加以混雜，把用戶點擊不同結果的情況加以記錄，并以此作為評判依據用戶行為分析的思路值得肯定缺點：改變用戶檢索習慣、個體用戶行為不可靠

9、等我們的研究思路通過對搜索引擎記錄下的用戶行為日志進行分析，不額外增加用戶負擔。隱式反饋信息用戶群體，而不是個體的點擊行為作為依據個體用戶可能在點擊過程中出現謬誤用戶群體的點擊信息則是很大程度上可靠的統計用戶群體的點擊行為，進而對查詢對應的結果進行標注對導航類查詢結果唯一，不存在“找不全”的問題搜索引擎檢索性能高，點擊準確度較可靠能夠發現用戶的關注熱點，如“163” = “搜狗” = 適合作為搜索性能自動評測的對象針對導航類查詢的結果自動標注利用單個搜索引擎的點擊信息即可完成焦點假設：不同用戶具有相同的導航類別檢索需求時，他們的點擊都會集中在其檢索目標網頁（或其鏡像

10、）上。網頁r 針對查詢q的點擊集中度 q的點擊集中度最高的r即為其檢索目標頁面)(#)(#),(qofSessionrclicksthatqofSessionrResultqQueryClickFocus 針對導航類查詢的結果自動標注標注算法：尋找針對q的ClickFocus值最大的r 標注樣例查詢自動標注的URL讀寫網http:/ 對信息事務類查詢查詢詞”電影” 不同搜索引擎的點擊分布差異大存在著搜索引擎對用戶行為的偏置性影響索引數據偏置檢索策略偏置結果不唯一，全面性難以保證不適合使用單一搜索引擎的日志信息，作為完全自動評測的對象00.00.250.30

11、.35123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27baidugoogleyahoosogou 針對信息事務類查詢需求的答案自動標注基于多搜索引擎用戶行為挖掘1. 利用單搜索引擎標注方式，進行各自獨立的標注2. 借鑒Pooling做法，綜合不同標注者（這里為搜索引擎用戶的宏觀行為）的意見需要考慮的因素用戶點擊行為差異用戶訪問量差異搜索引擎相對重要性的差異計算結果對于查詢的置信度)/(qurlPi 合并計算結果url對于查詢q的置信度基于單搜索引擎進行答案標注的可信度依據查詢用戶數來計算jjjiiqS

12、EPqSEurlPqurlP)|(),|()|()|(qSEPjjjjjSEinqofsessionSEinqofsessionqSEP)(log(#)(log(#)|( 單獨某個搜索引擎標注答案的可信程度依據此搜索引擎的用戶點擊的宏觀集中程度來確定),|(qSEurlPji)(#)(#),|(),|(jjijijiSEinqofSessionSEinurlclickthatqofSessionsqSEurlCDqSEurlP 查詢點擊分布合并模型其中，反映不同搜索引擎的在結果標注中的重要程度jjjijjjjjjjiiSEinqofSessionSEinurlclickthatqofSes

13、sionsSEinqofsessionSEinqofsessionqSEPqSEurlPqurlP)(#)(#)(log(#)(log(#)|(),|()|(j 例：查詢“瘋狂英語”BaiduGoogleY/ / // Sogou合并后的答案標注結果合并后的答案標注結果/ / 實驗數據 Sogou搜索8個月查詢日志(超過7億條日志信息) 針對其中高頻導航類查詢進行自動標注對每個時

14、間段抽取約5%的數據進行手工檢查時間段時間段標注查詢數標注查詢數檢驗樣例檢驗樣例數數準確度準確度Jun. 06 - Aug. 0613,902695 98.13%Sept.06 - Nov. 0613,884694 97.41%Dec. 06 - Jan. 0711,296565 96.64% 與手工評價結果類似利用用戶群體行為分析方法進行搜索引擎自動性能評價是可行的 SogouT自動標注語料庫 10000個查詢主題，65465個標注答案抽樣其中5%的查詢進行檢查（500個）由兩名標注人員手工檢查（1人標注，1人檢查）總數標注錯誤標注正確正確率信息類查詢對應的答案10114296995

15、.85%導航類查詢對應的答案3652534093.15% 文本語料庫構建網絡爬蟲種子選取策略標注語料庫所包含的65465個網頁 Sogou網絡爬蟲種子集合所包含的網站防止爬蟲黑洞必要的垃圾網頁過濾必要的低質量頁面、無內容網頁過濾只抓取HTML網頁內容滿足抓取量時停止文本語料庫構成 1.387億網頁存儲空間約5 Terabyte，gzip壓縮后約1.01 Terabyte 鏈接關系圖鏈接關系數目約33.4億條存儲空間約24 Gigabyte (gzip壓縮) 網頁質量評估數據所有網頁對應的SogouRank值(site-based PageRank) SogouT語料獲取

16、文本語料：http:/ 7z壓縮后約500G，硬盤方式發布，需交納硬盤成本費約500元。鏈接關系：http:/ 與文本語料共同發布查詢語料與標注語料訓練集：http:/ 500個經過手工檢驗的查詢及對應答案更大規模的查詢與標注語料如何獲取？ “搜索儀”在線評測系統搜索引擎評測：http:/searchE 檢索系統評測：http:/ SogouE1：500個查詢對應的標注語料 SogouE2：3000個查詢對應的標注語料 SogouE3：6500個查詢對應的標注語料 “搜索儀”在線評測系統用戶注冊后，即可獲取SogouE1 SogouE3對應的查詢語料(只有SogouE1對應的標注

17、語料) 用戶根據SogouE1對檢索系統進行訓練，并改進系統設計與算法用戶隨時提交對查詢語料進行檢索得到的檢索結果，并獲得根據SogouE2即時反饋的檢索評價搜索儀網站根據評價結果對用戶系統進行排名并隨時公布、更新。 “搜索儀”在線評測系統定期召開的信息檢索與內容安全全國會議(NCIRCS)上，組織專門的評測論壇使用SogouE3對用戶提交的結果進行進一步驗證邀請系統性能領先的研究人員進行交流 Http:/searchE 主要特點客觀真實反映搜索引擎總體性能近似即時反饋查詢語料規模大，且隨用戶關注情況更新，反映熱點功能演示！搜狗實驗室網站：http:/ Online at: http:/ Liu, Yupeng Fu, Min Zhang, Shaoping Ma, Liyun Ru. Automatic

人人文庫> 全部分類> 行業資料 > 信息產業

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

海量規模網絡信息檢索評測語料庫的設計與實現

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

海量規模網絡信息檢索評測語料庫的設計與實現

文檔簡介

溫馨提示

最新文檔

評論

相關文檔