新信息檢索在數學建模型中的應用_第1頁
新信息檢索在數學建模型中的應用_第2頁
新信息檢索在數學建模型中的應用_第3頁
新信息檢索在數學建模型中的應用_第4頁
新信息檢索在數學建模型中的應用_第5頁
已閱讀5頁,還剩46頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

新信息檢索在數學建模型中的應用信息檢索在數學建模中的應用計算機信息檢索,是指以計算機技術為手段,通過光盤和聯機等現代檢索方式進行信息檢索的方法。與手工檢索一樣,計算機信息檢索應作為未來科技人員的一項基本功,這一能力的訓練和培養對科技人員適應未來社會和跨世紀科研都極其重要,一個善于從電子信息系統中獲取信息的科研人員,必定比不具備這一能力的人有更多的成功機會,美國報道生活新方式的期刊POV也將交互網絡檢索專家作為未來十大熱門職業之一,這些情況都說明了計算機信息檢索越來越重要,故值得大家對這一技術予以重視。2文獻(1)科技文獻的結構等級一次文獻(primarydocument):是指作者以本人的研究成果為基本素材而創作或撰寫的文獻,不管創作時是否參考或引用了他人的著作,也不管該文獻以何種物質形式出現,均屬一次文獻。大部分期刊上發表的文章和在科技會議上發表的論文均屬一次文獻。信息檢索在數學建模中的應用二次文獻(secondary

document):是指文獻工作者對一次文獻進行加工、提煉和壓縮之后所得到的產物,是為了便于管理和利用一次文獻而編輯、出版和累積起來的工具性文獻。檢索工具書和網上檢索引擎是典型的二次文獻。三次文獻(tertiarydocument):是指對有關的一次文獻和二次文獻進行廣泛深入的分析研究綜合概括而成的產物。如大百科全書、辭典等。也有研究者在以上分類基礎上再加上零次文獻,它是指未經過任何加工的原始文獻,如實驗記錄、手稿、原始錄音、原始錄像、談話記錄等。零次文獻在原始文獻的保存、原始數據的核對、原始構思的核定(權利人)等方面有著重要的作用。(2)十大情報源所謂“十大情報源”,是指人們在進行科研及技術工作時使用頻率比較高的十種情報來源的總稱。信息檢索在數學建模中的應用科技圖書:是對某專門知識或某學科進行系統的論述或概括的一種情報來源。其主要特征是內容比較成熟,但相對比較陳舊。合法出版的圖書均有版權頁。科技期刊(periodical):又稱連續性出版物(serials),是一種定期或不定期連續出版的文獻載體,它一般有同樣的名稱,按一定時間編定卷號,每一卷又分若干期。其類型有:i.學術性、技術性刊物,是科技期刊的核心部分。刊名一般為:Acta(學報)、Journals(雜志)、annales(紀事)、Bulletin(通報)、Transactions(匯刊)、Preceedings(會刊)、Review(評論)、Progress;Advances

in...(進展)等。ii.快報型。Communication(通訊)、letters(通訊)、bulletin等。

iii.消息性(newsy

journals)。news(新聞)、news

letters等。iv.資料性(data

journals)。data、event等。科技期刊是最重要的一類文獻來源。信息檢索在數學建模中的應用c.科技報告:報道(記錄)研究和開發調查工作的成果或進展情況的一種文獻類型,一般都編有號碼,供識別報告本身及其發行機構可以說,報告是一種典型的機關團體出版物,常用的報告名稱有:科技報告按按報告的形式可分為:report(報告書),technicalnotes(技術札記),memorandum(備忘錄),papers(論文),bulletin(通報),technical

translations(技術譯叢),specialpublications(特種出版物)。按研究的進展情況分:primary

report(初步報告),progressreport(進展報告),interrim

report(中間報告),final

report(中間報告)。科技報告與其它文獻的顯著不同為根據科研水平的高低,科技報告分為若干密級,如top

secret(絕密)、secret(秘密)、confidential(保密)、restricted(非密限制發行)、unclassified(公開)、declassified(解密)。信息檢索在數學建模中的應用會議文獻:是指學術會議文獻,它往往反映出科學技術的發展趨勢,

其特點是與最新成果的間隔時間短,但其內容與期刊相比可能不太成熟。會議類型大致可分為國際會議、全國性會議及地區會議等。會議和會議

文獻常用的主要名稱有conference(大會)、meeting(小型會議)、symposium(討論會)、proceeding(會議錄)、paper(單篇論文)、transaction(匯報)等。專利文獻:在實行專利制度的國家,凡是本國或外國的個人和企業有

了創造發明,都可以根據專利法的規定,向本國或外國專利局提出申請,經審查合格,批準授予在一定年限內享有創造發明成果的權利,并在法

律上受到保護,這樣一種受到法律保護的技術專有權利叫做專利。專利

是與產業活動密切相關的,因而其實用性非常強。根據專利的技術水平和應用情況,其類型有invention(發明)、utility

patent(實用新型)、和design

patent(外觀設計)等。信息檢索在數學建模中的應用標準文獻:標準化主要包括三個方面:產品標準化,即產品質量要符合技術規定;產品規格化和系列化,即產品按型號大小來分檔,成系列的發展,從而保證以較少的品種來滿足廣泛的要求;零部件通用化,即同類機型零部件,特別是易損件要做到最大限度的通用互換性經過公認權威當局批準的標準化工作成果,可以采用文件形式或規定基本單位(物理常數)這兩種形式固定下來、以文件形式出現的標準化工作成果,就是標準文獻。學位論文:是高校研究生、畢業生為獲得學位進行科學研究而寫出的學術性論文。博士學位論文中,常含有獨創性的學術性文獻資料。產品資料:一般是指品樣本,即產品說明書。好的產品說明書含有豐富的內容,包括產品規格、產品特點、產品專利號等多種對生產有用的信息。信息檢索在數學建模中的應用I.技術檔案:是指在生產建設中和科技部門的技術活動中形成的,有一定的工程對象的技術文件的總稱。科技報紙:一些專門刊登科技類文獻的報紙對了解當前的學科前沿和水平以及科學新聞很有益處。十大情報源中,最重要的是期刊、會議論文和專利。3文獻的特征一篇文章、一本書、一份報告等一般都有以下特征:外表特征:題目、作者、作者工作單位,專利和科技報告還有專利號或報告號等,這些可以表征一篇特定文獻的特征可以在文獻的封面或扉頁,即不打開書本,或不看文獻的具體內容就可以確定一篇文獻。內容特征:假如我們深入到文獻內容中間,則可以發現還可用另外兩種方法來表征它:a.一般,一篇文獻都是論及某一方面的特定問題的,也就是說,與論題相關的詞出現的頻率較大。主題詞或關鍵詞即稱為文獻的主題特征信息檢索在數學建模中的應用b.另外,一篇文獻還可以按照各種自然科學和社會科學的分類方法進行歸類,如《中圖法》:是我國圖書館和情報單位普遍使用的一部綜合性的分類法。《中圖法》共分5個基本部類、22個大類。采用漢語拼音字母與阿拉伯數字相結合的混合號碼,用一個字母代表一個大類,以字母順序反映大類的次序,在字母后用數字作標記。為適應工業技術發展及該類文獻的分類,對工業技術二級類目,采用雙字母。新生入館教育馬列毛鄧哲學類系

C-K

社會科學N-X

自然科學Z

綜合性圖書簡表:馬克思主義、列寧主義、毛澤東思想A馬克思主義、列寧主義、毛澤東思想哲學B哲學社會科學C社會科學總論新生入館教育D政治、法律E軍事F經濟G文化科學教育體育H

語言文字I

文學藝術歷史地理自然科學N自然科學總論O數理科學和化學新生入館教育P天文學、地球科學Q生物科學R醫藥、衛生S農業科學T工業技術U交通運輸

V航空、航天X環境科學、勞動保護科學綜合性圖書Z綜合性圖書信息檢索在數學建模中的應用O4N

O自然科學總論

數、理、化O1

O3數學P

Q R

……天文、地理

生物

醫、衛O6

O7

……化學

晶體力學

物理O12

O13

……初等數學

高等數學O11古典數學O121

O122O123

O124算術初等代數初等幾何三角這樣,我們可以把某一篇文獻歸入某一類中,如有關三角方面的文獻可歸入O124中,O124即可稱為該文獻的分類特征。信息檢索在數學建模中的應用T工業技術(這是最為龐大的一個類目,下面又劃分許多子類目)

TB一般工業技術TH機械儀表工業TN無線電電子學,電信技術例如:《電視圖象信號處理》TN941.1TP自動化技術,計算機技術TP

311程序設計,軟件工程(數據結構,數據庫理論)TP

312程序語言TP

316操作系統TP

391信息處理(文字,圖像處理軟件方面)TP

393計算機網絡《中圖法》適用公共圖書館和高校圖書館。信息檢索在數學建模中的應用文獻的外表特征與文獻是一一對應的,即一組外表特征只對應一篇唯一的文獻,而文獻的內容特征與文獻卻是一種模糊的對應關系,即一篇文獻有多個主題詞(關鍵詞)或分類號,一個主題詞(關鍵詞)或分類號也可對應多篇甚至幾百篇文獻。正因為存在這兩種對應關系,使得兩種特征的用途大不相同。利用外表特征只能檢出很少的文獻,有時只用于特定情況下(如已經知道作者名等)。利用內容特征一次能檢出一批文獻,這對研究者來說是極其有用的。二計算機基本檢索方法一、布爾檢索利用布爾邏輯算符進行檢索詞或代碼的邏輯組配,是現代信息檢索系統中最常用的一種方法。常用的布爾邏輯算符有三種,分別是邏輯或“OR”、邏輯與“AND”、邏輯非“NOT”。用這些邏輯算符將檢索詞組配構成檢索提問式,計算機將根據提問式與系統中的記錄進行匹配,當兩者相符時則命中,并自動輸出該文獻記錄。檢索中邏輯算符使用是最頻繁的,對邏輯算符使用的技巧決定檢索結果的滿意程度。用布爾邏輯表達檢索要求,除要掌握檢索課題的相關因素外,還應在布爾算符對檢索結果的影響方面引起注意。另外,對同一個布爾邏輯提問式來說,不同的運算次序會有不同的檢索結果。二、截詞檢索截詞檢索就是用截斷的詞的一個局部進行的檢索,并認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中的文獻。按截斷的位置來分,截詞可有后截斷、前截斷、中截斷三種類型。不同的系統所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符只代表一個字符)和無限截詞(一個截詞符可代表多個字符)。下面以無限截詞舉例說明:后截斷,前方一致。如:comput?表示

computer,computers,computing等。前截斷,后方一致。如:?computer表示

minicomputer,microcomputers等。(3)中截斷,中間一致。如?comput?表示minicomputer,microcomputers等。截詞檢索也是一種常用的檢索技術,是防止漏檢的有效工具,尤其在西文檢索中,更是廣泛應用。截斷技術可以作為擴大檢索范圍的手段,具有方便用戶、增強檢索效果的特點,但一定要合理使用,否則會造成誤檢。四、加權檢索和聚類檢索1.加權檢索加權檢索是某些檢索系統中提供的一種定量檢索技術。加權檢索同布爾檢索、截詞檢索等一樣,也是文獻檢索的一個基本檢索手段,但與它們不同的是,加權檢索的側重點不在于判定檢索詞或字符串是不是在數據庫中存在、與別的檢索詞或字符串是什么關系,而是在于判定檢索詞或字符串在滿足檢索邏輯后對文獻命中與否的影響程度。加權檢索的基本方法是:在每個提問詞后面給定一個數值表示其重要程度,這個數值稱為權,在檢索時,先查找這些檢索詞在數據庫記錄中是否存在,然后計算存在的檢索詞的權值總和。權值之和達到或超過預先給定的閾值,該記錄即為命中記錄。運用加權檢索可以命中核心概念文獻,因此它是一種縮小檢索范圍提高檢準率的有效方法。但并不是所有系統都能提供加權檢索這種檢索技術,而能提供加權檢索的系統,對權的定義、加權方式、權值計算和檢索結果的判定等方面,又有不同的技術規范。2.聚類檢索聚類檢索是在對文獻進行自動標引的基礎上,構造文獻的形式化表示——文獻向量,然后通過一定的聚類方法,計算出文獻與文獻之間的相似度,并把相似度較高的文獻集中在一起,形成一個個的文獻類的檢索技術。根據不同的聚類水平的要求,可以形成不同聚類層次的類目體系。在這樣的類目體系中,主題相近、內容相關的文獻便聚在一起,而相異的則被區分開來。聚類檢索的出現,為文獻檢索尤其是計算機化的信息檢索開辟了一個新的天地。文獻自動聚類檢索系統能夠兼有主題檢索系統和分類檢索系統的優點,同時具備族性檢索和特性檢索的功能。因此,這種檢索方式將有可能在未來的信息檢索中大有用武之地。五、擴檢與縮檢1.擴檢擴檢是指初始設定的檢索范圍太小,命中文獻不多,需要擴大檢索范圍的方法。擴檢的方法主要可以有以下幾種:①概念的擴大;②范圍的擴大;③增加同義詞;④年代的擴大。2.縮檢縮檢是指開始的檢索范圍太大,命中文獻太多,或查準率太低,需要增加查準率的一個方法。縮檢與擴檢相反,即概念的縮小、范圍的限定、年代的減少等。此外,還可以通過以下方法進行限定:①核心概念的限定;②語種的限定;③特定期刊的限定。擴檢與縮檢是檢索過程中經常面臨的問題。在聯機檢索時,由于機時的限制,用戶應該在上機前就擬定好擴檢與縮檢的策略,也就是說,在擬定檢索策略時,應該同時考慮如命中文獻太少或太多時如何處理的辦法。否則,會大大增加機時,而且不易得到滿意的果。檢索效果的評價檢索效果是指利用檢索系統(或工具)開展檢索服務時所產生的有效結果。計算機檢索效果如何,直接反映檢索系統的性能,影響系統在信息市場上的競爭能力和用戶的利益。一、評價的目的、范圍評價系統的檢索效果,是為了準確地掌握系統的各種性能和水平,找出影響檢索效果的各種因素,以便有的放矢,改進系統的性能。檢索效果包括技術效果和社會經濟效果兩個方面。技術效果主要是指系統的性能和服務質量,系統在滿足用戶的信息需要時所達到的程度。社會經濟效果是指系統如何經濟有效地滿足用戶需要,使用戶或系統本身獲得一定的社會和經濟效益。因此,技術效果評價又稱為性能評價。社會經濟效果評價則屬于效益評價,而且要與費用成本聯系起來,比較復雜。二、評價標準判定一個檢索系統的優劣,主要從質量、費用和時間三方面來衡量。因此對計算機信息檢索的效果評價也應該從這三個方面進行。質量標準主要通過查全率與查準率進行評價。費用標準即檢索費用是指用戶為檢索課題所投入的費用。時間標準是指花費時間,包括檢索準備時間、檢索過程時間、獲取文獻時間等。查全率和查準率是判定檢索效果的主要標準,而后兩者相對來說要次要些。查全率是指系統在進行某一檢索時,檢出的相關文獻量與系統文獻庫中相關文獻總量的比率,它反映該系統文獻庫中實有的相關文獻量在多大程度上被檢索出來。查全率=[檢出相關文獻量/文獻庫內相關文獻總量]×100%查準率是指系統在進行某一檢索時,檢出的相關文獻量與檢出文獻總量的比率,它反映每次從該系統文獻庫中實際檢出的全部文獻中有多少是相關的。查準率=[檢出相關文獻量/檢出文獻總量]×100%查準率是用來描述系統拒絕不相關文獻的能力,有人也稱查準率為“相關率”。查準率和查全率結合起來,描述了系統的檢索成功率。實際上,影響檢索效果的因素是非常復雜的。根據國外有關專家所做的實驗表明,查全率與查準率是呈反比關系的。要想做到查全,勢必會要對檢索范圍和限制逐步放寬,則結果是會把很多不相關的文獻也帶進來,影響了查準率。企圖使查全率和查準率都同時提高,不是很容易的。強調一方面,忽視另一方面,也是不妥當的。應當根據具體課題的要求,合理調節查全率和查準率,保證檢索效果。三、影響檢索效果的因素查全率與查準率是評價檢索效果的兩項重要指標。查全率和查準率與文獻的存儲與信息檢索兩個方面是直接相關的,也就是說,與系統的收錄范圍、索引語言、標引工作和檢索工作等有著非常密切的關系。1.影響查全率的因素影響查全率的因素從文獻存儲來看,主要有:文獻庫收錄文獻不全;索引詞匯缺乏控制和專指性;詞表結構不完整;詞間關系模糊或不正確;標引不詳;標引前后不一致;標引人員遺漏了原文的重要概念或用詞不當等。此外,從情報檢索來看,主要有:檢索策略過于簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索系統不具備截詞功能和反饋功能2.影響查準率的因素影響查準率的因素主要有:索引詞不能準確描述文獻主題和檢索要求;組配規則不嚴密;選詞及詞間關系不正確;標引過于詳盡;組配錯誤;檢索時所用檢索詞(或檢索式)專指度不夠,檢索面寬于檢索要求;檢索系統不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數量有限;截詞部位不當,檢索式中使用邏輯“或”不當等等。信息檢索在數學建模中的應用第三節網絡信息搜索實用網絡搜索技巧/搜索技巧實用網絡搜索技巧

通過互聯網獲取信息,如何避免在浩瀚的互聯網海洋中迷失方向,掌握一些基本的網上搜索技巧可以說是必需的。基本搜索技巧1、使用邏輯詞輔助查找比較大的搜索引擎都支持使用邏輯詞進行更復雜的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(兩個單詞的靠近程度),恰當應用它們可以使搜索結果非常精確。另外,也可以使用括號將搜索詞分別組合,如[(新聞OR足球)AND米蘭)NOT(“新聞”OR足球]。2、使用雙引號進行精確查找如果查找的是一個詞組或多個漢字,最好的辦法就是將它們用雙引號括起來,這樣得到的結果最少、最精確。信息檢索在數學建模中的應用3、有針對性地選擇搜索引擎用不同的搜索引擎進行查詢得到的結果常常有很大的差異,這是因為它們的設計目的和發展走向存在著許多不同,有的專用于USENET的搜索引擎,而有的則是針對郵遞列表或IRC等的搜索引擎。使用時要根據自己的需要選擇合適的搜索引擎。4、使用加減號限定查找很多搜索引擎都支持在搜索詞前冠以加號“+”限定搜索結果中必須包含的詞匯,用減號“-”限定搜索結果不能包含的詞匯。5、細化查詢許多搜索引擎都提供了對搜索結果進行細化與再查詢的功能,如有的搜索引擎在結果中有“查詢類似網頁”的按鈕,還有一些則可以對得到的結果進行新一輪的查詢。信息檢索在數學建模中的應用6、根據要求選擇查詢方法如果需要快速找到一些相關性比較大的信息,可以使用目錄式搜索引擎的查找功能。如果想得到某一方面比較系統的資源信息,可以使用目錄一級一級地進行查找。如果要找的信息比較冷門,應該用比較大的全文搜索引擎查找。7、注意細節在Internet上進行查詢時如果能注意一些細節問題,常常能增加搜索結果的準確性,如許多搜索引擎都區分字母的大小寫,因此,如果你正在搜索人名或地名等關鍵詞,應該正確使用它們的大小寫字母形式。8、利用選項界定查詢目前越來越多的搜索引擎開始提供更多的查詢選項,利用這些選項人們可以輕松地構造比較復雜的搜索模式,進行更為精確的查詢,并且能更好地控制查詢結果的顯示。信息檢索在數學建模中的應用1.2快速搜索技巧網上的信息搜索技術越來越多,怎樣才能高效迅速地找到問題的答案呢?有幾種技術可以幫助你更加快捷地找到所需網頁。沒有一種技術是萬能的,但將幾種技術巧妙地結合起來使用會大大加快網頁搜索進程。1、搜索詞組如果只給出一個單詞進行搜索,經常會出現數以千計甚至以百萬計的匹配網頁。然而如果再加上一個單詞,那么搜索結果會更加切題。在搜索時,給出兩個關鍵詞,并將兩個詞用AND(與邏輯)結合起來,或者在每個詞前面加上加號“+”,這種與邏輯技術大大地縮小了搜索結果的范圍,從而加快了搜索。幸運的是,所有主要的搜索引擎都使用同樣的語法。一個帶引號的詞組意味著只有完全匹配該詞組(包括空格)的網頁才是要搜索的網頁。把這幾種符號結合起來使用,能大大提高搜索效率。信息檢索在數學建模中的應用2、選擇詞組一般說來在網頁搜索引擎中,用詞組搜索來縮小范圍從而找到搜索結果是最好的辦法。但是,運用詞組搜索涉及到如何使用一個詞組來表達某一具體問題。有時簡單地輸入一個問題作為詞組就能奏效,然而簡單明了地提問方法只對一部分搜索奏效。選擇合適的詞組對提高搜索效率是很重要的,實在找不出時可以試試下面的方法。3、查找信息源有時詞組搜索太精確或者一個詞組無法準確表達所需信息。那么可以直接到信息源,這種技術“簡單得似乎不值一提”,但卻很有效。根本不用搜索引擎,直接到提供某種信息組織的站點去。很多時候我們可以用公式“www.公司名.com”去猜測某一組織的特點。從而得到所要搜索的信息的主要詞組。信息檢索在數學建模中的應用一.數字圖書資源的檢索使用較通用的數字超星關鍵詞:數學建模

書目二.電子期刊資源的檢索使用中國期刊全文數據庫問題一:

2009

C題衛星和飛船的跟蹤測控方法一:根

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論