



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 多少人在使用搜索引擎 全球范圍內84%的互聯網用戶使用搜索引擎,其中超過一半的人幾乎每天使用。 95%以上的中國網民使用過搜索引擎,84.5%的用戶將搜索引擎作為得知新網站的主要途徑。 商用搜索引擎競爭日趨激烈(市場規模約56億元)。 從2007年9月開始,中國成為全球首個每月搜索請求超過100億次的國家 搜索引擎與性能評價 對搜索引擎用戶:選擇最有效獲取信息的媒介 對廣告商:選擇最有效的盈利平臺 對研究人員:算法改進、性能監控 效果評價是信息檢索相關研究的基礎內容 評價在信息檢索系統的研發中一直處于核心的地位,以致于算法與它們的效果評價方式是合二為一的。 (Saracevic, 1995)
2、 如何對網絡信息檢索系統進行評價 Cranfield評價方法 被應用在包括TREC在內的幾乎所有主流的信息檢索研究工作中。 評價組成 (核心:評價語料庫) 文本語料,查詢語料,標注語料 Cranfield評價方式的優勢 有效控制系統變量 可以跨系統比較的評價結果 網絡信息檢索評測語料庫 建立評測語料庫的必要性 信息檢索是實證學科 真實規模的評測語料是算法有效性的保證 研究人員各自獨立構建存在困難 海量網絡資源抓取 真實用戶需求獲取 大規模用戶查詢的答案標注 建立評測語料庫的可能性 產業界與研究界的合作 搜索引擎日志被合理應用 文本信息檢索會議(TREC) NIST組織的研討文本檢索技術的國際性
3、論壇 大規模文本檢索系統的標準評測平臺 與網絡信息檢索相關的評測語料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 863中文信息處理與智能人機接口評測 語料庫規模 30G 數據 30個查詢,pooling方式確定答案 4個系統參加評測 現場評測 參與系
4、統少 側重系統穩定性和效率 SEWM評測 北京大學網絡實驗室組織 類似TREC的評測架構 文本語料庫:CWT100g, CWT200g 去重、去除垃圾,37M網頁 查詢語料庫:來自天網查詢日志 2005-2007 三年的時間 1185 導航類查詢 285 信息類查詢 標注方式:人工標注,pooling方法 經驗總結 文本語料 抓取相對高質量的網絡數據 VLC2 = WT10g,.GOV, .GOV2, CWT200g 查詢語料 真實反映用戶需求 TREC Web, Terabyte, SEWM 標注語料 規模保證 TREC million query track: efficiency, no
5、t effectiveness 主要困難 文本語料庫構建 規模問題 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 與中文用戶實際需求量匹配:100 Million量級 達到100 Million/Terabyte量級,保證研究成果的可信性 網頁質量篩選 網頁質量相對較高:重復語料、垃圾語料的處理。 輔助語料的構建問題 鏈接關系語料 點擊日志信息 主要困難 查詢語料庫構建 規模問題 有充分的代表性 考慮到標注工作量 查詢樣例選擇 真實用戶需求 有充分的代表性 覆蓋不同用戶信息需求 主要困難 標注語料庫構建 Vo
6、orhees 估計,對一個規模為800萬的文檔集合進行針對1個查詢主題的相關性評判需要耗費1名標注人員9個月的工作時間 TREC提出pooling方法,在保證評價結果可靠性的基礎上大大減少了評判工作量 缺點:處理的查詢數目少,針對小規模的查詢集合,仍需要耗費十余名標注人員1-2個月的工作時間 設計思路 海量規模、符合大多數研究機構的處理能力 能夠代表中文互聯網的基本情況 能夠代表中文搜索引擎用戶的需求情況 客觀全面評價網絡信息檢索系統性能 實現思路 利用搜索引擎資源 網頁抓取、查詢日志獲取、網頁質量評估數據獲取 使用自動化的查詢語料標注方法 構建過程網頁文本語料庫標注語料庫查詢語料庫檢索結果結
7、果池手工標注網頁文本語料庫查詢語料庫標注語料庫用戶查詢日志抓取傳統方式傳統方式SogouT構建方式構建方式自動標注生成 查詢語料庫構建 用戶查詢頻度的分布情況 2008年6月的日志數據 查詢頻度最高的前10000個查詢詞 用戶查詢總數的萬分之六點五,覆蓋超過56%的用戶需求 抽樣方式 2008年6月搜狗搜索引擎查詢日志 選取查詢量最高的10000個用戶查詢 用戶查詢需求 抽樣標注 導航類約占30.6%,信息類約占69.4% 具有充分的代表性 規模大: 我們所知最大規模的信息檢索評測查詢集合 覆蓋率高:覆蓋56%以上的用戶查詢需求 核心:提高標注語料構建的自動化程度 前人工作 利用偽相關反饋的方
8、法進行結果自動標注 偽相關反饋的結果被認為是答案 Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 標注的準確程度和可靠性不高 對查詢詞的近義詞集合進行標注 根據結果網頁的查詢詞及近義詞詞頻進行評判 Amitay et.al, 2004 初始標注工作量大,評判的可靠性不高 前人工作 基于個體用戶行為分析 Joachims et.al.(1997) 創建了一個元搜索接口,將不同搜索引擎的結果加以混雜,把用戶點擊不同結果的情況加以記錄,并以此作為評判依據 用戶行為分析的思路值得肯定 缺點:改變用戶檢索習慣、個體用戶行為不可靠
9、等 我們的研究思路 通過對搜索引擎記錄下的用戶行為日志進行分析,不額外增加用戶負擔。 隱式反饋信息 用戶群體,而不是個體的點擊行為作為依據 個體用戶可能在點擊過程中出現謬誤 用戶群體的點擊信息則是很大程度上可靠的 統計用戶群體的點擊行為,進而對查詢對應的結果進行標注 對導航類查詢 結果唯一,不存在“找不全”的問題 搜索引擎檢索性能高,點擊準確度較可靠 能夠發現用戶的關注熱點,如“163” = “搜狗” = 適合作為搜索性能自動評測的對象 針對導航類查詢的結果自動標注 利用單個搜索引擎的點擊信息即可完成 焦點假設:不同用戶具有相同的導航類別檢索需求時,他們的點擊都會集中在其檢索目標網頁(或其鏡像
10、)上。 網頁r 針對查詢q的點擊集中度 q的點擊集中度最高的r即為其檢索目標頁面)(#)(#),(qofSessionrclicksthatqofSessionrResultqQueryClickFocus 針對導航類查詢的結果自動標注 標注算法:尋找針對q的ClickFocus值最大的r 標注樣例查詢自動標注的URL讀寫網http:/ 對信息事務類查詢 查詢詞”電影” 不同搜索引擎的點擊分布差異大 存在著搜索引擎對用戶行為的偏置性影響 索引數據偏置 檢索策略偏置 結果不唯一,全面性難以保證 不適合使用單一搜索引擎的日志信息,作為完全自動評測的對象00.00.250.30
11、.35123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27baidugoogleyahoosogou 針對信息事務類查詢需求的答案自動標注 基于多搜索引擎用戶行為挖掘1. 利用單搜索引擎標注方式,進行各自獨立的標注2. 借鑒Pooling做法,綜合不同標注者(這里為搜索引擎用戶的宏觀行為)的意見 需要考慮的因素 用戶點擊行為差異 用戶訪問量差異 搜索引擎相對重要性的差異 計算結果對于查詢的置信度)/(qurlPi 合并計算結果url對于查詢q的置信度 基于單搜索引擎進行答案標注的可信度 依據查詢用戶數來計算jjjiiqS
12、EPqSEurlPqurlP)|(),|()|()|(qSEPjjjjjSEinqofsessionSEinqofsessionqSEP)(log(#)(log(#)|( 單獨某個搜索引擎標注答案的可信程度 依據此搜索引擎的用戶點擊的宏觀集中程度來確定),|(qSEurlPji)(#)(#),|(),|(jjijijiSEinqofSessionSEinurlclickthatqofSessionsqSEurlCDqSEurlP 查詢點擊分布合并模型其中, 反映不同搜索引擎的在結果標注中的重要程度jjjijjjjjjjiiSEinqofSessionSEinurlclickthatqofSes
13、sionsSEinqofsessionSEinqofsessionqSEPqSEurlPqurlP)(#)(#)(log(#)(log(#)|(),|()|(j 例:查詢“瘋狂英語”BaiduGoogleY/ / // Sogou合并后的答案標注結果合并后的答案標注結果/ / 實驗數據 Sogou搜索8個月查詢日志(超過7億條日志信息) 針對其中高頻導航類查詢進行自動標注 對每個時
14、間段抽取約5%的數據進行手工檢查時間段時間段標注查詢數標注查詢數檢驗樣例檢驗樣例數數準確度準確度Jun. 06 - Aug. 0613,902695 98.13%Sept.06 - Nov. 0613,884694 97.41%Dec. 06 - Jan. 0711,296565 96.64% 與手工評價結果類似 利用用戶群體行為分析方法進行搜索引擎自動性能評價是可行的 SogouT自動標注語料庫 10000個查詢主題,65465個標注答案 抽樣其中5%的查詢進行檢查(500個) 由兩名標注人員手工檢查(1人標注,1人檢查)總數標注錯誤 標注正確正確率信息類查詢對應的答案10114296995
15、.85%導航類查詢對應的答案3652534093.15% 文本語料庫構建 網絡爬蟲種子選取策略 標注語料庫所包含的65465個網頁 Sogou網絡爬蟲種子集合所包含的網站 防止爬蟲黑洞 必要的垃圾網頁過濾 必要的低質量頁面、無內容網頁過濾 只抓取HTML網頁內容 滿足抓取量時停止 文本語料庫構成 1.387億網頁 存儲空間約5 Terabyte,gzip壓縮后約1.01 Terabyte 鏈接關系圖 鏈接關系數目約33.4億條 存儲空間約24 Gigabyte (gzip壓縮) 網頁質量評估數據 所有網頁對應的SogouRank值(site-based PageRank) SogouT語料獲取
16、 文本語料:http:/ 7z壓縮后約500G,硬盤方式發布,需交納硬盤成本費約500元。 鏈接關系:http:/ 與文本語料共同發布 查詢語料與標注語料 訓練集:http:/ 500個經過手工檢驗的查詢及對應答案 更大規模的查詢與標注語料如何獲取? “搜索儀”在線評測系統 搜索引擎評測:http:/searchE 檢索系統評測:http:/ SogouE1:500個查詢對應的標注語料 SogouE2:3000個查詢對應的標注語料 SogouE3:6500個查詢對應的標注語料 “搜索儀”在線評測系統 用戶注冊后,即可獲取SogouE1 SogouE3對應的查詢語料(只有SogouE1對應的標注
17、語料) 用戶根據SogouE1對檢索系統進行訓練,并改進系統設計與算法 用戶隨時提交對查詢語料進行檢索得到的檢索結果,并獲得根據SogouE2即時反饋的檢索評價 搜索儀網站根據評價結果對用戶系統進行排名并隨時公布、更新。 “搜索儀”在線評測系統 定期召開的信息檢索與內容安全全國會議(NCIRCS)上,組織專門的評測論壇 使用SogouE3對用戶提交的結果進行進一步驗證 邀請系統性能領先的研究人員進行交流 Http:/searchE 主要特點 客觀真實反映搜索引擎總體性能 近似即時反饋 查詢語料規模大,且隨用戶關注情況更新,反映熱點 功能演示!搜狗實驗室網站:http:/ Online at: http:/ Liu, Yupeng Fu, Min Zhang, Shaoping Ma, Liyun Ru. Automatic
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 修正錯誤2025年稅法考試試題及答案
- 計算機一級Photoshop考試新技術應用試題及答案
- WPS智能助手使用體驗試題及答案
- 拉近差距2025年稅法考試試題及答案
- 現代漢語文學作品研究試題及答案
- 文學概論關鍵考點試題及答案
- 計算機一級wps考試應試準備清單試題及答案
- Msoffice能力培養策略試題及答案
- 理解漢語諺語與習語的技巧試題及答案
- WPS學習策略的一級考試試題及答案
- 智能海洋牧場裝備行業跨境出海戰略研究報告
- 麻醉鎮靜藥與阿片類
- 中考化學第一輪復習 物質的性質與應用(常見的酸堿鹽)測試題(解析版)
- 病理學課件-炎癥的機制
- 2025年全國保密教育線上培訓考試試題庫含答案(新)附答案詳解
- 2025世界高血壓日控住血壓穩住幸福高血壓健康講座
- 安徽卓越縣中聯盟2024-2025學年高三下學期5月份檢測政治試卷+答案
- 廣東省珠海市2024-2025學年下學期期中八年級數學質量監測試卷(含答案)
- 焊接工程師職業技能考核試題及答案
- 《神經網絡模型》課件
- 中小學教師資格筆試2024年考試真題解析
評論
0/150
提交評論