信息檢索系統導論期末考試題庫_第1頁
信息檢索系統導論期末考試題庫_第2頁
信息檢索系統導論期末考試題庫_第3頁
信息檢索系統導論期末考試題庫_第4頁
信息檢索系統導論期末考試題庫_第5頁
免費預覽已結束,剩余8頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、選擇題1,下列哪項不屬于信息檢索的關鍵技術?(B)A.信息抽取 B.B.文本挖掘 C,自動文摘 D,鏈接分析2.TREC 測試集主要包括 3 個部分, 下列選項中不是 TREC 測試集的一部分的是:(C)A.主題 B.文檔集合 C.C.關鍵詞 D,相關性判斷3,對向量空間模型、布爾模型及概率模型的表述有誤的一項是:(D)A,向量空間模型與布爾模型相比具有較大的優勢B,向量空間模型無法揭示索引項之間的關系,因而向量空間模型在理論上還是不夠完善C.布爾模型是最早提出的信息檢索模型D.D.概率模型也稱二值獨立檢索模型。它是在向量空間模型的基礎上為解決檢索中存在的一些不確定性而引入的。4 利用文獻

2、后面所附的參考文獻進行檢索的方法稱為(A)A,追溯法 B,直接法 C,抽查法 D,綜合法11、PageRanK 法的理論基礎是隨機沖浪模型,該模型描述了網絡用戶對網頁的訪問行為。下列不屬于用戶訪問行為特點的是:()A 用戶選擇的起始網頁是固定的B 用戶會從起始網頁含有的超鏈接中隨機選擇一個頁面繼續瀏覽C 當用戶沿著超鏈接前進了一定數量的網頁后,可能會對本主題厭倦,這時用戶會重新隨機選擇一個網頁進行瀏覽D 用戶會重復以上的過程若干次12、信息過濾系統是應用信息過濾技術處理信息的應用系統,下列對其特點的說法錯誤的是:()A 信息過濾系統是針對無結構的或半結構化的數據設計的信息系統,這與傳統的數據庫

3、應用有著本質的區別B 信息過濾系統只處理文本信息C 信息過濾系統一般處理的數據為輸入信息流D 信息過濾系統要包含一組對用戶過濾需求的描述 13、中國學術期刊全文數據庫提供的文獻內容特征檢索途徑有()A,機構 B,篇名/關鍵詞/摘要 C.中文刊名 D.D.作者14、維護倒排文件通常需要的操作有(D)文檔或文檔集合5、邏輯與”運算符是用來組配()A.不同檢索概念,用于擴大檢索范圍C.不同檢索概念,用于縮小檢索范圍6、在中國學術期刊全文數據庫中,A.邏輯與 B.邏輯或 C.邏輯非B,相近檢索概念,擴大檢索范圍D,相近檢索概念,縮小檢索范圍不可以進行()檢索D.位置7、若想在中國學術期刊全文數據庫 中

4、提高檢索結果的查準率,可使用()A.在結果中檢索 B.優先算符 C,或者9、下列檢索式中,哪一種屬于邏輯“與”?A.室內裝飾+室外裝飾C.神雕俠侶-電視劇10、下列不屬于查詢構造方法的是:()D,位置檢索B)B.B.音樂*教學D.火星|金星A 分類查詢 B 單一詞查詢 C 布爾查詢D 上下文查詢A.插入 B.插入和刪除 C,刪除 D.D.插入、刪除、更新15、單一查詢是指由一個()構成的查詢。()A 單詞 B.單詞或詞語 C.詞語 D.單詞或句子16、下面哪項不是 863 信息檢索評測采用的評價指標(D)A:MAPB:R-PrecisionC:P10D:MRP16、下面那一項不是容易引起歧義的

5、符號(D)A:句號 B:撇號 C:連字符 D:D:分號18、下面哪一項不是信息檢索按照理論基礎的不同劃分的模型(D)A:布爾模型 B:向量空間模型 C:概率模型 D:D:統計語言模型19、下面哪種算法屬于著名的集合選擇算法?(B)A.KMPB.CORIB.CORIC.BMD.BF20、下列說法正確的是()A.形態還原就是詞干還原,即去除屈折型語言的詞尾形態變化,將其還原為詞的原形B.系統檢索出來的相關文檔位置越靠前(排序(rank)值越小),MRR 就可能越高C.概率模型可以采用相關反饋原理,可開發出理論上更為堅實的方法D.向量空間模型是最早提出的信息檢索模型21、下面關于平均排序倒數(MRR

6、)計算公式正確的是()A.MRRnkq_1/B.MRRry-1C. .MRR=-門一 E1D. .MRR=-&(M-1R1,B(L1)22、在信息檢索模型中,()是最早提出的信息檢索模型(17、 卜列哪一種符號可以用來構成合成詞(A 句點B 撇號C 連字符 D 其它符號第 i 個相關文檔位置A 向量空間模型B 概率模型 C 擴展模糊集合模型47、 知網是一個以英語和漢語的詞語所代表的概念為抽象對象,以(D 布爾模型A)為基本單位,揭示概念之間以及概念屬性之間的關系為基本內容的常識知識庫A 字節 B 字段 C 詞 D 比特23、關于向量空間模型的優點中,說法錯誤的是:(D)A 檢索結果的

7、相關性排序C 能夠進行相關性反饋B 可以控制輸出結果的數量D D 揭示了索引項之間的關系24、下列選項中不屬于信息檢索模型的是(D)A:布爾模型 B:向量空間模型C:概率模型 D:D:實數型25、準確率與召回率的表達式分別為(A)A.A.相關文檔數與檢出文檔數的比值,系統檢出的相關文檔數與實際相關文檔數的比值B.系統檢出的相關文檔數與實際相關文檔數的比值,相關文檔數與檢出文檔數的比值C.檢出文檔數與相關文檔數的比值,相關文檔數與檢出文檔數的比值D.相關文檔數與檢出文檔數的比值,檢出文檔數與相關文檔數的比值26、下列不屬于查詢構造方法的是(C)A.單一詞查詢 B 上下文查詢 C C 相鄰詞查詢

8、D 布爾查詢27、查詢處理技術中有單一查詢、下文查詢,D D 三種查詢擴展方法A、短語查詢 B、相鄰詞查詢 C、反饋查詢 D D、布爾查詢28、TREC 測試集主要包括文檔集合主題相關性判斷企業檢索任務()ABCD29、按照順序表述文獻檢索常用的五個步驟是(D)A.明確要求和分析課題,選擇檢索系統,獲取原文,確定檢索途徑和檢索策略,實施檢索以及調整檢索策略B.明確要求和分析課題,獲取原文,確定檢索途徑和檢索策略,實施檢索以及調整檢索策略選擇檢索系統C.明確要求和分析課題,實施檢索以及調整檢索策略選擇檢索系統,獲取原文,確定檢索途徑和檢索策略D.D.明確要求和分析課題,選擇檢索系統,確定檢索途徑

9、和檢索策略,實施檢索以及調整檢索策略,獲取原文30、萬方數據庫使用布爾邏輯算符 and/or/not.其中 AandB 表示(A)A:A:查找包括 A A 和 B B 的文獻,B;查找 A 與 B 其中之一的文獻,C:查找有 A 無 B 的文獻。31、具有概念交叉限定關系的兩個檢索詞之間應該使用(C)A.邏輯或 B.邏輯非 C.C.邏輯與 D.優先32、具有相近含義的同義詞或同族詞在構成檢索策略時應該使用(A)運算符予以組配。A.A.邏輯與 B.邏輯或 C.邏輯非 D.位置33.關于萬方數據資源的說法中,正確的是(A)A:A:以科技信息為主,涵蓋經濟,金融,人文信息B:以經濟信息為主,涵蓋科技

10、,金融,人文信息C:以金融信息為主,涵蓋人文,經濟,科技信息D:以人文信息為主,涵蓋金融,經濟,科技信息34、在 Lucene 中建立索引的主要步驟不包括()A 文檔解析 B 內容分析C 得出結論 D 生成索引35、下列哪項屬于典型的基于劃分的聚類方法()Ak-means 算法 B 樸素貝葉斯算法C 決策樹算法 D 統計學方法36、下列哪項不屬于信息過濾中應用的統計模型()37、下列屬于信息檢索中的關鍵技術的是()A 信息融合 B 信息抽取C 處理多源信息 D 話題檢測與跟蹤38、下列屬于信息檢索中的基礎研究課題是()A 文本挖掘 B 對抗式信息檢索B 數字圖書館 D 基因信息檢索39 屬于向

11、量空間模型的缺點的是()A 檢測結果的相關性排序 B 可控制輸出的結果和數量C 能夠進行相關性反饋 D 認為索引項相互獨立,未能結實詞語間關系40、下列不屬于文本操作技術中的斷詞操作技術的是()A 句點 B 撇號C 連字符 D 未登錄詞識別41、信息檢索系統需要事先做一些準備工作,這兩項準備工作是(B)A 信息的采集與分類 B B 信息的采集與加工C 信息的分類與標引 D 信息的分類與摘要42、信息檢索的處理對象是(C)A 結構化信息 B 信息集合 C C 非結構化信息 D 相關信息43、下面不屬于基于語言模型的檢索模型的是(D)A、查詢相似度模型 B、統計翻譯模型C、風險最小化模型 D D、

12、隱性語義索引模型44、試圖通過統計學和概率論對自然語言進行建模,從而獲取自然語言中的規律和特性,以解決語言信息處理中的特定問題。屬于下列的哪種的模型(A)A A、統計語言模型 B、擴展布爾模型C、概率模型 D、向量空間模型45、下列選項中不屬于文本操作技術的中文詞法分析的是(A)A A、斷詞 B、最大匹配法 C、歧義詞切分 D、未登錄詞識別46、利用選定的檢索工具由近及遠地逐年查找,直到查到所需文獻為止的檢索方法是(A)A A、倒查法 B、順查法 C、追溯法 D、抽查法47、下列那一個不是衡量一個語料的指標(A)A A 準確率 B 標注的一致性 C 錯誤率 D 標注規范48、只知道某書的 IS

13、BN,應選擇那種檢索途徑(D)A 分類檢索 B 主題檢索 C 著者檢索 D D 信息代碼途徑49、Google 是那種類型的檢索引擎(C)A 關鍵詞型 B 目錄型 C C 集合型 D 專用型50、下列哪項不是 web 搜索引擎系統的子系統(D)A:web 數據集系統 B:網頁預處理系統C:檢索結果排序系統 D:D:閱讀理解系統51、TREC 測試集主要包括幾個部分(B)A1 個 B3B3 個 C4 個 D5 個52、信息檢索的概念是(B)A 是指用來實現信息檢索功能的計算機軟件系統。B B 是指從非結構化的信息集合中找出與用戶需求相關的信息。A 向量空間模型C 語言模型B 布爾模型D 相關性模

14、型C 信息檢索是一門多學科的交叉的應用技術學科。D 信息檢索是利用各類媒體處理技術對信息進行加工,找出一定的機構。53、一般來說,關鍵詞出現在文獻的不同字段表達的相關性不同,以表達的相關性從強到弱排序如下:()A.關鍵詞標題文摘正文B.關鍵詞文摘正文標題C.標題關鍵詞文摘正文D.正文文摘關鍵詞標題54、信息檢索模型按照理論基礎的不同可劃分為布爾模型、()、概率模型以及基礎知識的模型。(B)A、統計模型 B B、向量空間模型 C、全文模型 D、數據模型55、統計語言模型試圖通過統計學和對自然語言進行建模,從而獲得自然語言中的規律和特性。(A)A A、概率論 B、布爾模型 C、高等數學 D、向量5

15、6、面向用戶的測度方法包括覆蓋率、新穎率、相對查全率、(C)。A、時間效率 B、空間效率 C C、召回率負擔 D、出錯率57、中文檢索系統主要有兩種檢索方案:基于字的檢索和(C)。A、基于句子的檢索 B、基于文章的檢索C C、基于詞的檢索 D、基于符號的檢索58、信息檢索的對象包括文字、(A)、音頻、視頻等。A、圖片 B、文檔 C、網頁 D D、數據59、下面不屬于基于語言模型的檢索模型的是(D D)A、查詢相似度模型 B、統計翻譯模型C、風險最小化模型 D D、隱性語義索引模型60、下列有關召回率與準確率正確的是(A A)A A準確率為檢索的相關文檔數與檢出文檔數的比值。B、準確率與召回率無

16、關。C、準確率越高則召回率就越高。D、準確率和召回率成等比負相關。二、填空題1、利用倒排文件進行檢索,通常分為三個步驟:詞匯表檢索、記錄表檢索和錄表操作。2、評價相關反饋的方法很多,但主要的評價方法有:準確率和召回率、壓縮文檔集合和分割文檔集合。3、一般情況下,分布式信息檢索按照應用的場景可以分為:合作環境下的分布式信息檢索和非合作環境下的分布式信息檢索。4、自動查詢擴展技術包括全局分析和局部分析的方法。5、查詢構造的基本方法包括單一詞查詢、上下文查詢和布爾查詢。6、常用的索引技術有倒排文件、后綴數組和簽名文件三種。7、倒排文件一般由詞匯表和記錄表組成。8、 國內的信息檢索評測會議包括: 86

17、3863 信息檢索評測和 SWEMSWEM 中文 WebWeb 評測英文的拼寫檢查包括形態還原技術、詞匯相似度計算技術。9、信息檢索的技術有全文檢索、數據檢索、知識檢索10、TREC 測試集主要包括文檔集合、主題、相關性判斷。11、信息檢索模型按照理論基礎的不同可以劃分為布爾模型、向量空間模型、也率模型以及基于知識的模型。12、為了能夠客觀準確的評價分詞系統的效果,需要制定一些指標來對分詞的結果進行評測,常用的評測指標有準確率 P P、召回率 R 和 EE。【第 4 章】13、單模式的字符串匹配技術,主要包括 BFBF、KMPKMP、BMBM 三種常用的精確匹配算法。14、倒排文件建立方法:基

18、于內存的、基于排序的、基于合并的倒排文件建立方法15、維護倒排文件通常需要的操作有:插入操作、刪除操作、更新文檔。16、TRECTREC(文本檢索會議)是信息檢索界為進行檢索系統和用戶評價而舉行的活動,它由美國國家標準技術協會和美國高級研究計劃局共同資助,開始于 19921992年。17、TREC 的評價是按照檢索到的相關文獻的數量來評價系統的有效性,主要要測量召回率和準確率。18、向量空間模型是存在不足之處的,即標引詞之間被認為是相互獨立的。19、 本體論是一種描述概念及概念之間的關系的概念模型,通過概念之間的關系來描述概念的語義。20、形態還原是去除曲折型語言的詞尾形態變化,將其還原為詞的

19、原型。21、以 TRECNTCIRCLEFTRECNTCIRCLEF 為代表的信息檢索評測在信息檢索領域有著深22、如果用戶能夠把他對返回結果中各個網頁相關性的判斷反饋給檢索系統,檢索系統就能夠更準確的理解用戶需求,重新給出一批更有可能滿足用戶需求的文檔,這一過程叫做相關反饋。23、信息檢索系統要解決的核心問題是:當用戶給定其查詢后,對文檔集中的每一個文檔與用戶查詢相關程度給出判斷。24、在合作的分布式信息檢索環境下,可以采用兩種方式對文檔集合進行劃分:將文檔集合進行隨機劃分、對文檔集合進行語義分割。25、目前,經過國內外的專家的努力,已經產生了一些具有規模并具有一定實用性的本體庫,其中最著名

20、的三個本體庫分別是知網、WordnetWordnet 和 SUMOSUMO26、中文檢索系統主要有兩種檢索方案:基干字的檢索和基于詞的檢索27、TREC 測試集主要包括:文檔集合、主題和相關判斷。28、在 Internet 上采集信息的軟件被稱為網絡機器人。29、本體論包括四層含義:概率模型、明確、形式化、共享。30、世界著名四大索引是 SCI(科學引文索引)、SSCI(社會科學引文索引)、_AHCI(藝術與人文科學引文索引)和 EI(工程索引)。31、表示主體的檢索詞有標題詞、單元詞、敘詞、關金津詞。32 .信息檢索工具常用的排驗方法有字序法、類序法。33 .搜索引擎按信息搜集方式分類:有目

21、錄式搜索引擎和機器人搜索引擎34、信息(文獻)檢索的途徑:時序涂徑:地序涂徑:介類涂徑:一題涂徑,題名檢索涂徑,責任者途徑。35、利用文獻后面所附的參考文獻進行檢索的方法稱為追溯法36 .在大多數情況下,檢索的目的是為了找到相關文獻.而不是“答案”。37 .二八定律在期刊文獻檢索中的體現是:20%勺期刊登載了 80%勺重要文獻,體現這種特性的期刊是核心期刊。38 .當查詢關鍵詞具有多個含義的時候,容易造成誤檢,使得查準率降低。39 .文獻檢索語言是標引與檢索共同使用的約定語言40 .使用網絡蜘蛛(spider)對廣域網的信息進行采集,提取關鍵詞建立索引,主要通過工鍵詞進行檢索,以上描述的搜索引

22、擎屬于索引型搜索引擎。41 .文獻獲取與利用的過程存在三重語言詞建,一分?J 為:自然痔言詞建、專業語言詞建、檢索語言詞建。42 .以內部特征進行檢索的最重要的兩種檢索途徑是:主題途徑、分類途徑。43、文本分類的算法有樸素貝葉斯、K-近鄰、決策樹方法、支持向量機、基于投票的方法等算法。44、信息過濾系統可概括地劃分為四個主要組成部分,分別是信息提供模塊、用戶需求描述模塊、過濾模塊和學習模塊。45 信息檢索中常用的一些詞典資源:停用詞、敘詞表、同義詞詞典。46 文本操作技術中在英文操作方面有段詞技術、詞干提取技術、拼寫檢查技術。47、單模式的字符串匹配技術,主要包括 BFBF、KMPKMP、BM

23、BM 三種常用的精確匹配算法48.WEB 檢索系統可以被分成主要的四個部分:webweb 數據采集系統,網頁預處理系統,索引檢索系統,檢索結果排序系統。49、簽名文件是基于散列技術的面向單詞的索引結構,索引空間大約為原始文檔的30%40%50、利用倒排文件進行檢索,通常分為三個步驟:詞匯表檢索、記錄表檢索、記錄表操作。51、倒排文件也稱倒排索引,索引對象是文檔或文檔集合中的單詞等,用來存儲這些單詞在一個文檔或者一組文檔中的存儲位置,是對文檔或文檔集合的一種最常用的索引機制,倒排文件一般由兩部分組成:詞匯表和記錄表。52、信息檢索中的關鍵技術:信息抽取、文本分類與聚類、自動文摘、鏈接分析、分布式

24、信息檢索、webweb 信息檢索。53、人們根據領域知識或者通用知識建立了一些詞典資源來輔助信息檢索,通常使用的詞典資源是敘詞表和同義詞詞典三、判斷題1,利用文獻后面所附的參考文獻進行檢索的方法稱為追溯法(V)2、CNKI 數據庫的全文閱讀格式有兩種,其中一種是(CAJ)(,)3、在進行信息檢索的研究時,對各種算法進行實驗需要使用大量的訓練和評價數據,而同一個算法在不同的數據條件下得到的結果可差異很大,因此,如果沒有同一的測試方法和共同的數據集合,幾乎不可能比較不同的算法。(,)4、常用的本體庫中最著名的是知網、WordNet、SUMO。(,)5、 認識論是一種描述概念及概念之間的關系的概念模

25、型, 通過概念之間的關系來描述概念的語義。 (X)6、TREC 的評價是按照檢索到的相關文獻的數量來評價系統的有效性,主要要測量召回率和準確率。(V)7、設 A、X、B 分別為漢字串,如果其組成的漢字串 AXB 滿足 AX 和 AB 同時為詞,則漢字串 AXB 為交集型歧義字段。(V)8.文獻檢索是一種相關性檢索,檢索結果與檢索人員的檢索技巧等有關(,)9、Google 沒有采用去停用詞策略。(x)10、維普資訊檢索系統可以進行學位論文檢索。(x)11、核心期刊是指經常使用的期刊(x)12、網頁預處理系統的功能主要是去掉重復的網頁(,)13、信息抽取是指從文本數據中抽取有價值信息和知識的計算機

26、技術,掘的一個分支,也是一個邊緣學科。(x x)14、詞干提取也稱詞干化、詞干法,它在信息檢索中的作用有兩個:提高檢索的準確率和減少索引文件的大小。(x x)解答:詞干提取的作用是提高檢索的召回率不是準確率。15、按照加工深度不同區分,文獻可以分成零次、一次、二次核三次文獻(,)文獻檢索的本質是用戶的文獻需求與存儲在文獻集合中的文獻內容進行匹配的過程(,)16、文獻檢索是一種相關性檢索,檢索結果與檢索人員的檢索技巧等有關(V V)17、近一兩個月內新發表的文獻可以通過瀏覽圖書館閱覽室現期期刊的方法獲取。(,)18、直接檢索法是通過各種檢索工具或數據庫查找文獻的方法(X X)19、作者途徑是按照

27、文獻信息所包含的作者信息,利用作者姓名進行檢索的途徑(V V)20、聯合目錄反映多個圖書館的書刊訂閱收藏情況。(V V)21、目錄是將圖書、報刊等文獻中論文的篇目按照一定的排檢方法編制而成,供人們查找篇目出處的工具(X X)22、檢索語言是用來描述文獻的內容特征、外表特征和表達情報提問的一種人工語百。(V V)22、倒排文件也稱為倒排索引,索引對象是文檔或文檔集合中的單詞等,用來存儲這些單詞在一個文檔或一組文檔中的存儲位置,是對文檔或文檔集合的一種最常用的索引機制。(,)23、在進行維護倒排文件時,一般不進行更新操作,而是使用插入+刪除操作代替。(V)24、信息檢索系統評價是指對信息檢索系統的

28、性能(主要是其滿足用戶需求的能力)進行評估的活動。(,)25、對于信息檢索系統的性能來說檢索結果不能按照相關度進行排序(X X)26、簽名文件是基于散列技術的面向單詞的索引結構,索引占用的空間大小約為原始文檔集得 50%60%。()()27、相關反饋是用戶對最終檢索出的相關文檔結果的反饋。(X X)28、相關反饋可以同時提高準確率和召回率。(V V)29、根據檢索手段的不同,信息檢索可分為手工檢索、光盤檢索、聯機檢索和網絡檢索四種方式(V V)30、邏輯運算符的優先順序為 AND、NOT、OR。(X X)31、Google 是目錄式搜索引擎。(V V)32、中國學術期刊全文數據庫的“在結果中檢

29、索”最多可以進行兩次。(X X)33、概率模型中沒有用到對用戶的查詢技術要求比較高的布爾邏輯方法,同時可以將文檔按照它們相關的概率的遞增順序排序(X X)34、本體論是一種描述概念及概念之間關系的模型,通過概念之間的關系來是數據挖1、什么是索引?答:索引(Index)(Index)是一種數據結構,其將關鍵詞與包含該關鍵詞的文檔(或關鍵詞在文檔中的位置)建立了一種映射關系,以加快檢索的速度。2、什么是信息檢索?信息檢索的處理對象是什么?答:(1)信息檢索是從非結構化的信息集合中找出與用戶需求相關的信息。(2)(2)信息檢索的處理對象:信息檢索系統處理的是“非結構化的信息”除文本外,還有圖像、圖形

30、、語言、視頻等多媒體信息。3、比較布爾模型和向量模型的優缺點?答:布爾模型的優點:檢索式的結構化一用布爾算法明確揭示了索引項之間的關系。不能對結構按相似度進行排序;不能控制返回文檔的數量;不能進行相關性反饋。向量模型的優點:(1)(1)檢索結果的相關性排序;(2)(2)可以控制輸出結果的數量;(3)(3)能夠進行相關性反饋。缺點:認為索引項相互獨立,未能揭示詞語之間的關系。4、TREC 的影響有哪些?5、相關反饋的步驟?答:(1)用戶提出一個簡短的查詢;(2)(2)用戶將檢索返回的文檔標識為“相關”或“不相關”(3)(3)根據用戶的反饋結果,檢索統計計算出一個更好的查詢的表達式;(4)(4)以

31、上過程可以反復多次。6、集中式 web 數據采集系統的結構包括哪些模塊?7、信息過濾研究主要包含哪幾個方面?各自的特點是什么?35、36、37、38、39、40、四、描述概念的語義。(V)早期 TREC 評測主要包括兩個任務,一個是 adhoc 檢索任務;?一個是固定主題檢索任務(V)為了提高檢索效率,人們根據領域知識或者通用知識建立了一些詞典資源來輔助信息檢索。其中包括兩種詞典資源:斜詞表和同義詞表。概率檢索模型可以采取相關反饋原理,可開發出離亂上更為見識的方法對于一個檢索系統,可以從功能和性能兩方面對其進行分析評價(V)中文檢索系統主要有三種檢索方案:基于字的檢索,基于詞的檢索,基于句的檢

32、索(X)百度采用了去停用詞的方法。(X)簡答題缺點:(1)(2)(2)(3)(3)答:8、請簡述布爾模型,向量空間模型和概率模型的優缺點。9、建立具體的信息檢索模型本質上取決于那幾個方面?答:(1)如何表示文本和查詢(2)如何看待和判斷查詢和文檔是否相關(3)如何計算查詢和文檔之間的相似度。10、簡述信息檢索的步驟和方法一般情況下使用的檢索步驟為弄清信息需求,明確檢索目的選擇數據庫,確定檢索途徑確定課題的概念組面和檢索標識11、常用的檢索方法有那些?答:(1)(1)順查法(2)(2)倒查法(3)(3)抽查法(4)(4)追溯法(5)(5)分段法(6)(6)瀏覽法12、什么是 TREC?答:TRE

33、CTREC 是文本檢索會議的簡寫,是信息檢索界為進行檢索系統和用戶評價而舉行的活動,它由美國國家標準技術協會和美國高級研究計劃局共同資助,開始于 19921992 年;13、假設查詢 q 為一個給定的查詢式,而包含 q 的相關文檔集 Rq 為下面的文檔集:Rq=d2,d5,d6,d9,d12,d23,d30,d34,d35而針對 q 的檢出文檔集為:Aq=d3,d4,d5,d6,d8,d10,d12,d19,d20,d23,d24,d26則 Ra 集為:Ra=d5,d12,d23求準確率,召回率。14、描述分布式 web 信息檢索系統進行查詢的過程答:用戶從客戶端發出查詢,經過分發服務器針對用戶的查詢進行集合選擇,選擇最適合的文檔集合進行檢索,用戶的查詢請求被發送到相應的信息檢索服務器上進行并發查詢;查詢的結果再經過結果合并過程返回給用戶。15、概率模型的優缺點?答:優點主要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論