信息檢索與問答系統_第1頁
信息檢索與問答系統_第2頁
信息檢索與問答系統_第3頁
信息檢索與問答系統_第4頁
信息檢索與問答系統_第5頁
已閱讀5頁,還剩13頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、信息檢索與問答系統同濟大學TONGJI UNIVERSITYPage 2目錄目錄1. 問答系統概述與簡介2. 問答系統技術發展3. 基于問題答案對的問答系統4. 技術前沿Page 31. 1 研究背景 為什么要有問答系統 傳統搜索引擎存在不足 1. 返回結果太對 2. 檢索效果不好 據英國英里(MORi)調查公司的民意調查結果顯示,只有18的用戶表示總能在網上搜索到需要的信息,68的用戶說他們對搜索引擎很失望,28表示還可以,其余5為不知道。 以關鍵字為基礎的索引、匹配算法盡管簡單易行,畢竟停留在語言的表層,而沒有觸及語義,因此效果很難進一步提高。Page 41. 2 問答系統的定義 一個能回

2、答任意自然語言形式問題的自動機。 問答系統是信息檢索的一種,是在傳統的基于關鍵詞檢索的基礎上發展起來的精確檢索 一般都認為問答系統的輸入應該是自然語言形式的問題,輸出應該是一個簡潔的答案或者可能答案的列表,而不是一堆相關的文檔。Page 51. 3 問答系統基本流程 1. 問題處理 任務:任務:解析問句,理解語義 主要技術:主要技術:詞法分析、句法分析、問題分類、命名實體識別、句型識別、語義分析、語料庫技術 2. 信息檢索 任務:任務:獲取可能包含的網頁或答案 主要技術:主要技術:布爾檢索模型、向量檢索模型、概念檢索模擬、搜索引擎技術 3. 答案處理 任務:任務:從結果中判斷并找到結論返回給用

3、戶 主要技術:主要技術:命名實體識別、句法分析、相似度計算、語義分析Page 62 問答系統的發展歷程 基于結構化數據的問答系統 人工智能階段-BASEBALL和LUNAR 計算語言學階段-Unix Consultant 基于自由文本的問答系統 基于問題答案對的問答系統Page 72.1 基于結構化數據的問答系統 基于結構化數據的問答系統的主要思想是通過分析問題,把問題轉化為一個查詢(query),然后在結構化數據中進行查詢,返回的查詢結果即為問題的答案。Page 82.2 基于自由文本的問答系統 基于自由文本(freetext based)的問答系統屬于開放域問答系統,它只能回答那些答案存在

4、于這個文檔集合中的問題Page 92.2.1 步驟一:問題分析 問句分類的方法主要包括模式匹配方法和機器學習方法兩類。 模式匹配方法 為每一種問題類型建立一個模式集合,對于一個問句,只要與某種問題類型對應的模式相匹配,就被認為是這種類型的問題。 機器學習方法 首先定義一個問題的特征集合,然后在訓練數據上得到一個分類器,就可以對新的問句進行分類了。 主要技術: K最近鄰算法、決策樹、樸素貝葉斯、支持向量機。 主題詞提取Page 102.2.2 步驟二:信息檢索 主要目的:縮小答案的范圍,提高下一步答案抽取的效率和精度。 步驟: 1. 文檔檢索-文檔檢索是給定一個由問題產生的查詢,通過某個檢索模型

5、去得到相關的文檔。 2. 段落檢索-從候選文檔中檢索(抽取)出可能包含答案的段落。 常用的模型:布爾模型、向量空間模型、語言模型、概率模型等。 常用算法:MultiText算法、IBM的算法和SiteQ算法Page 112.2.3 步驟三:答案抽取 1. 候選答案集合的生成: 自然語言處理領域命名實體的識別已經能夠達到非常好的效果,如隱馬爾可夫模型HMM或者條件隨機域模型CRF 2. 答案提取:(獲取最佳答案) 基于表層特征的答案提取(判斷相關度、出現次數等) 通過關系抽取答案(判斷邏輯語義關系) 通過模式匹配抽取答案 利用統計模型抽取答案Page 122.3 基于問題答案對的問答系統 FAQ

6、和CQA的對比 FAQ:基于常問問題列表 CQA:基于社區問答 FAQ具有量大、問題質量高和組織好等優點,但是在特定領域問題數目相對較少,這個缺點制約了基于FAQ的問答系統的應用范圍。 自2005年末以來,一種新的問題答案對形式的數據開始大量出現,即CQA數據,不僅問題答案對的數量大,而且在特定領域問題答案對數目也特別多,同時還在不斷增加。相對FAQ問題答案對,CQA數據中的問題答案對的質量參差不齊,而且用語不規范,有很多口語和省略語。Page 132.3 基于問題答案對的問答系統Page 142.3.1 問題處理部分 除了前文用到的技術外,還涉及3個研究方向: 1. 問題的主客觀分析 2.

7、問題的緊急性分析 根據特征分類,例如SVM和決策樹 3. 研究query生成問題 由于CQA問題答案對數量巨大,微軟研究院的Lin指出用戶只提出一個查詢(query),然后通過這個查詢生成其對應的問題,就可以在CQA數據中找到相應的答案返回給用戶。 文中沒有給出具體的解決方案,但這是一個待研究的有趣問題。Page 152.3.2 信息檢索部分 基于問題答案對的問答系統已經有了問題和對應的答案,不必在文本中搜尋答案,因此在檢索部分只需找到和問題類似的問題,然后返回答案或者相似問題列表即可。 研究方向: 1. 問題答案對的檢索模型 2. 問題答案對的相似性Page 162.3.3 答案抽取部分 由于CQA中每個問題都有很多答案,雖然大部分問題都會有一個標記為Best Answer的答案,但是這個Best Answer未必就是最好的答案。因為形成這個Best Answer的機制有可能是投票或者系統自動標注得到的,所以非常有必要研究怎么從問題的眾多答案中選擇一個最好的答案,這就需要研究答案的質量。 答案質量判定: 1. 答案長度 2. 回答者回答的次數 3. 回答者的聲望。 。Page 172.3.4 CQA特有性質及

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論