生物醫(yī)學(xué)文獻主題標(biāo)引:第十九章自動標(biāo)引的原理與方法_第1頁
生物醫(yī)學(xué)文獻主題標(biāo)引:第十九章自動標(biāo)引的原理與方法_第2頁
生物醫(yī)學(xué)文獻主題標(biāo)引:第十九章自動標(biāo)引的原理與方法_第3頁
生物醫(yī)學(xué)文獻主題標(biāo)引:第十九章自動標(biāo)引的原理與方法_第4頁
生物醫(yī)學(xué)文獻主題標(biāo)引:第十九章自動標(biāo)引的原理與方法_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第十九章自動標(biāo)引的原理與方法大綱一、概述二、自動標(biāo)引的基本原理與基本流程三、自動分詞四、矢量空間模型(VSM)五、NLM的II項目一、概述定義為什么要自動標(biāo)引?1.定義自動標(biāo)引(AutomaticIndexing)/計算機輔助標(biāo)引(ComputerAidedIndexing): 是根據(jù)文獻內(nèi)容,依靠計算機系統(tǒng)全部或部分自動給出標(biāo)引符號的過程。 自動主題標(biāo)引 自動分類標(biāo)引2.為什么要自動標(biāo)引?(1)自動標(biāo)引是信息資源快速增長的必然產(chǎn)物“信息爆炸”、“混沌信息空間”和“數(shù)據(jù)過剩”1999-2002年,全球新生產(chǎn)出的信息量翻了一番2002年,全球由紙張、膠片以及磁、光存儲介質(zhì)所記錄的信息生產(chǎn)總量達到5萬億兆字節(jié)3年的信息量足以填滿50萬座美國國會圖書館92%記錄在硬盤等磁存儲介質(zhì)上感到信息匱乏,無法快速高效地獲取自己所需的信息原因在于信息缺乏有效合理的組織手工標(biāo)引難以滿足需要希望借助計算機實現(xiàn)標(biāo)引工作(2)手工標(biāo)引存在難以克服的缺點費用高昂信息檢索系統(tǒng)中75%的運行費用要用于人工標(biāo)引效率低一致性差美國Cleverton發(fā)現(xiàn):兩位有經(jīng)驗的標(biāo)引員用同一敘詞表對同一文獻進行標(biāo)引,其標(biāo)引詞的同一率僅有30%左右兩個在同一庫中用同一檢索系統(tǒng)檢索同一問題的用戶,檢索出的結(jié)果同一率僅有40%兩位科研人員根據(jù)同一提問判斷一組指定文獻的相關(guān)性,其同一率不會超過60%(3)自動標(biāo)引相對手工標(biāo)引存在很大優(yōu)勢處理能力強處理速度快成本低穩(wěn)定性好美學(xué)者倫茲實驗發(fā)現(xiàn),6名標(biāo)引人員在不同時間標(biāo)引同一文獻,標(biāo)引一致率為0.158(假定完全一致為1.0)。由同一標(biāo)引人員在不同時間標(biāo)引同一文獻,標(biāo)引一致率為0.1619。若采用計算機自動標(biāo)引,不論何時對同一篇文獻總能標(biāo)引出相同的主題詞。(4)現(xiàn)代技術(shù)是自動標(biāo)引的催化劑計算機技術(shù)信息資源的電子化自動標(biāo)引的基本方法與原理自動標(biāo)引的基本流程二、自動標(biāo)引的基本原理與基本流程1.自動標(biāo)引的基本方法與基本原理統(tǒng)計法、語言法、人工智能方法…統(tǒng)計法的理論基礎(chǔ)是齊夫(Zipf)“省力法則”。典型代表是詞頻加權(quán)方法語言法是通過對構(gòu)成文獻的自然語言的分析,利用一定算法產(chǎn)生標(biāo)引詞,是從語言學(xué)角度對自動標(biāo)引方法的探索。語言法包括句法分析和語義分析兩種方法。人工智能。人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等2.自動標(biāo)引的基本流程輸入標(biāo)引源內(nèi)容預(yù)處理分詞處理確定關(guān)鍵詞轉(zhuǎn)換為受控詞給出主題標(biāo)識符確立標(biāo)引源(1)確立標(biāo)引源 主要標(biāo)引源:標(biāo)題文摘首尾章節(jié)章節(jié)的首尾段段落的首尾句(2)輸入標(biāo)引源內(nèi)容 方法:印刷型文獻(如紙張型期刊論文等),手工錄入或OCR輸入電子文檔(如XML、DOC、TXT等格式文檔),直接導(dǎo)入計算機自動標(biāo)引系統(tǒng)(3)文檔的預(yù)處理字符內(nèi)碼的檢測與轉(zhuǎn)換如BIG5碼GB碼格式檢測與轉(zhuǎn)換如DOC、XML、RTF等,去掉格式符號,轉(zhuǎn)換成純文本格式(4)詞語的切分將語句切分成由詞組成的集合詞語的自動切分詳見“自動分詞”一節(jié)(5)確定關(guān)鍵詞依據(jù):頻次、位置及詞性等方法:絕對詞頻統(tǒng)計法:理論基礎(chǔ)是齊夫定律詞頻權(quán)重法加權(quán)時考慮的因素主要有:詞頻位置詞性詞本身的價值:同一詞在不同學(xué)科中價值不同詞長度。詞越長專指性越好。 如:“癌”,“鱗癌”,“低分化鱗癌”三個詞的專指性依次增強,而概括性依次遞減。(6)轉(zhuǎn)換為受控詞關(guān)鍵詞與受控詞(主題詞、副主題詞和特征詞)之間存在著一定的關(guān)系如同義詞關(guān)系、上位關(guān)系、下位關(guān)系等使用一定方法,可以將關(guān)鍵詞轉(zhuǎn)換為受控詞關(guān)鍵詞-受控詞對照表關(guān)鍵詞--主題詞/副主題詞/特征詞詞匯相似度目前,計算詞匯相似度的算法主要有兩種:基于詞素的相似度算法詞匯之間通過詞素的相似情況來判斷相互關(guān)系實現(xiàn)詞與詞素之間的對應(yīng)轉(zhuǎn)換,需要建立詞素表構(gòu)建詞素表的方法:人工對主題詞進行字面拆分和概念拆分,形成詞素,再將這些詞素與主題詞的對應(yīng)起來。主題標(biāo)引

a)將詞素與關(guān)鍵詞進行匹配,根據(jù)完全匹配及最大匹配原理確定關(guān)鍵詞與主題詞的對應(yīng)關(guān)系,完成主題標(biāo)引。

b)匹配率計算公式為: C=(Ts/Tsh)×100%其中C為匹配率

Ts為關(guān)鍵詞與主題詞中含相同詞素個數(shù)

Tsh為主題詞詞素個數(shù)。基于單漢字的字面相似度算法

a)將關(guān)鍵詞自動拆分成單漢字

b)將這些單漢字與主題詞進行字面相似度匹配

c)根據(jù)相似度計算公式計算關(guān)鍵詞與主題詞的字面相似度d)相似率計算公式:C=(Cs+Cs

)*w1/M+(Ss+Ss)*w2/MCwCshSwSshC--匹配率Cs--相同字?jǐn)?shù)Cw--關(guān)鍵詞中的字?jǐn)?shù)Csh--主題詞中的字?jǐn)?shù)Ss--相同字的位置之和Sw--關(guān)鍵詞中全部字的位置之和Ssh--主題詞中全部字的位置之和w1、w2--加權(quán)系數(shù)M--閾值(7)給出主題標(biāo)引結(jié)果根據(jù)所確定的主題詞、副主題詞、特征詞,進行組配,給出主題標(biāo)引符號,完成自動標(biāo)引。三、自動分詞自動分詞的方法歧義切分的處理1.自動分詞的方法(1)基于詞典的分詞方法(2)基于統(tǒng)計的分詞方法(3)混合方法(1)基于詞典的分詞方法原理:按一定策略將待分析的字串與切分詞典系統(tǒng)中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功,切分出來。按掃描方向分正向匹配和逆向匹配;按不同長度優(yōu)先匹配的情況分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合,分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。分詞詞典停用詞詞表構(gòu)建時要堅持“非用”原則方法: ①根據(jù)收詞原則從相關(guān)詞典中收取,并利用相關(guān)的經(jīng)驗和知識進行補充; ②由停用詞處理系統(tǒng)對一定量的數(shù)據(jù)進行分詞實驗,也可以從分詞后剩下的“碎片”中篩選; ③根據(jù)齊夫定律,利用詞頻統(tǒng)計選取。特例詞表如:停用詞“的”、“也”,可以組成“的士”、“也門”等詞。關(guān)鍵詞表人名、機構(gòu)名和地名詞表匹配算法正向匹配法和逆向匹配法最大匹配法和最小匹配法采用最大匹配算法進行詞語切分,結(jié)果專指性高,效果較好,是目前使用得較多的一種匹配算法;最小匹配法由于切分出來的詞長度短,專指性差,切分效果不理想,在實際情況中,使用得非常少。3)詞典分詞法的優(yōu)缺點優(yōu)點:便于實現(xiàn),操作簡單,切分準(zhǔn)確率高缺點:岐義問題詞典問題詞綴問題名稱問題譯名問題改正手段:改進掃描方式將分詞和詞類標(biāo)注結(jié)合起來(2)基于統(tǒng)計的分詞方法

原理: 依據(jù)(兩個或多個)漢字同時出現(xiàn)(相鄰出現(xiàn))的概率,利用語料庫(corpus;

或corpora,corpuses)進行有監(jiān)督或無監(jiān)督的學(xué)習(xí),得到描述一種語言的“語言模型”(常用一階隱馬爾可夫模型(1’HMM)描述),然后再通過該模型對文本進行詞語的切分。

語料庫語料庫是統(tǒng)計法分詞的基礎(chǔ)語料庫是指按照一定的語言學(xué)原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片段,而建成的具有一定容量的大型電子文庫。 從其本質(zhì)上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本代表某一研究中所確定的語言運用總體。1)語料庫片段(示例)19980101-01-001-001/m邁向/v充滿/v希望/n的/u新/a世紀(jì)/n——/w一九九八年/t新年/t講話/n(/w附/v圖片/n1/m張/q)/w19980101-01-001-002/m中共中央/nt總書記/n、/w國家/n主席/n江/nr澤民/nr19980101-01-001-003/m(/w一九九七年/t十二月/t三十一日/t)/w19980101-01-001-004/m12月/t31日/t,/w中共中央/nt總書記/n、/w國家/n主席/n江/nr澤民/nr發(fā)表/v1998年/t新年/t講話/n《/w邁向/v充滿/v希望/n的/u新/a世紀(jì)/n》/w。/w(/w新華社/nt記者/n蘭/nr紅光/nr攝/Vg)/w19980101-01-001-005/m同胞/n們/k、/w朋友/n們/k、/w女士/n們/k、/w先生/n們/k:/w2)基本分詞原理訓(xùn)練語料庫詞計數(shù)詞概率wip(wi)

圖21-2語料訓(xùn)練

2)基本分詞原理原始文本結(jié)果(分詞處理后的文本)分詞處理詞概率wip(wi)

圖21-3文本分詞處理表21-1不同切分的可能性序號選定可能的切分可能性1

Ch1∧Ch2∧Ch30.052√Ch1Ch2∧Ch30.83

Ch1∧Ch2Ch30.014

Ch1Ch2Ch30.3假設(shè)一個字串由3個單字組成,其切分的可能性如表21-1所示2)基本分詞原理原始文本(未進行分詞處理)經(jīng)過分詞處理后的文本分詞處理詞計數(shù)詞概率

3)統(tǒng)計法分詞的優(yōu)缺點

優(yōu)點:降低生詞和名詞的影響缺點:非常難以做到“足夠訓(xùn)練”,實用性低(3)其它方法將以上兩種方法結(jié)合在一起目前有學(xué)者從認(rèn)知心理學(xué)和發(fā)展心理學(xué)的觀點出發(fā),研究分詞問題2.歧義切分的處理(1)從構(gòu)成形式上分:交集型歧義切分和組合型歧義切分。(2)交集型歧義 在字段AJB中,AJB∈W并且JB∈W,則稱AJB為交集型歧義字段。其中A、J、B為字串,W為詞表。 常用處理方法:統(tǒng)計方法和詞性方法。(3)組合型岐義

給定任意漢字字段AB,如果A∈W、B∈W、AB∈W,且切分“A”、“B”及“AB”在真實語境中均能實現(xiàn),則稱AB為組合型歧義切分字段(簡稱組合型歧義)。例如:(1a)這種絢爛與神秘可以說只能意會不能言傳。(1b)不可以個人的局部利益代替全局利益。(2a)今后項目審批工作必須依據(jù)國家中長期規(guī)劃進行。(2b)這是國際共產(chǎn)主義運動中長期沒有解決的一個重大理論問題。組合型歧義往往需要采用更大范圍的上下文,根據(jù)語義信息進行處理。(4)確定與不確定歧義 字段具有確定分法的歧義字段 例如:

“當(dāng)好人大代表”中的“好人大”

“好/人大”

“中國人為四化做貢獻”中的“人為”

“人/為”具有不確定分法的歧義切分字段 例如:

“研究生會采取行動”

“研究生/會/采取/行動”

“研究生會/采取/行動”

四、矢量空間模型(VSM)

VSM的基本思想文檔的表示權(quán)重的計算文檔的相似性與查詢1.VSM的基本思想(1)分別為文檔和查詢建立一個由矢量表達的空間

對于一個固定的文檔集合,從帶相關(guān)權(quán)重的術(shù)語集合中為每篇文檔以及每個查詢生成一個m維矢量,m是文檔集合中詞的種數(shù)。

(2)使用一個矢量相似性函數(shù)計算一篇文檔與查詢之間的相似性。2.文檔的表示假設(shè)文檔集合D由文檔Di組成每個文檔通過一個或多個標(biāo)引詞Tj標(biāo)識詞可以根據(jù)其重要性進行加權(quán)或不加權(quán),權(quán)值在0和1之間。假設(shè)有m個不同的詞可用作標(biāo)引,則每個文檔 Di用一個m維矢量表示:

Di=(wi1,wi1,…,wij,…,wim)

其中,wij為第j個詞在文檔Di中的權(quán)重,代表 第j個詞在文檔Di中的重要性。2.文檔的表示文檔集合D=(D1,D2,…,Di,…,Dn)可用以下矩陣表示:w11 w12 … w1j … w1m… … … … … …wi1 wi2 … wij … wim… … … … … …wn1 wn2 … wnj … wnmD=

詞語novagalaxyheatHollywoodfilmroledietfurD11.00.50.3D20.51.0D31.00.80.7D40.91.00.5D51.01.0D60.91.0D70.50.70.9D80.61.00.30.20.8D90.70.50.10.3文檔矢量表示示例文檔3.權(quán)重的計算方法有多種,最常見的一種方法為TF-IDF法,它考慮:每個標(biāo)引詞在文檔中的重要性標(biāo)引詞在文檔集合中的重要性詞頻(termfrequency,TF),用符號tf表示。標(biāo)引詞Tj在文檔Di中的詞頻用tfij表示。一個標(biāo)引詞的重要性與該詞在文檔集合的文檔中出現(xiàn)的頻率成反相關(guān)。即反轉(zhuǎn)文檔頻率(inversedocumentfrequency,IDF)。標(biāo)引詞Tj在文檔集合D中的反轉(zhuǎn)文檔頻率idfj可用以下公式計算出來: idfj=log(N/nj)其中,N:文檔數(shù)量

nj:包含標(biāo)引詞Tj的文檔數(shù)量標(biāo)引詞Tj在文檔集合中相對于文檔Di的權(quán)重可根據(jù)以上兩個因子用下式計算出來: wij=tfij×idfj=tfij×log(N/nj)4.文檔的相似性與查詢給定兩個文檔Di和Dj的標(biāo)引矢量,可以計算出兩者的相似系數(shù)s(Di,Dj

),以反映兩者在相應(yīng)的詞及其權(quán)重中的相似程度相似系數(shù)一般用夾角余弦公式進行計算:s(Di,Dj)=m∑wik2×k=1m∑wjk2k=1m∑wik×wjkk=1 其中,s(Di,Dj):文檔Di和Dj的相似系數(shù) m:維度(標(biāo)引詞種數(shù)) wik、wjk:標(biāo)引詞Tk在文檔集合D中對于文檔Di

和Dj的權(quán)重文檔集合中文檔可通過文檔的相似系數(shù)進行聚類,相似系數(shù)越大的兩個文檔放在一起。查詢時,將查詢策略也表示為有關(guān)標(biāo)引詞的一個矢量Q。計算矢量Q與文檔矢量Di之間的相似系數(shù)進行。相似系數(shù)達到或超過某個閥值則算命中查詢結(jié)果根據(jù)查詢矢量與文檔矢量之間的相似系數(shù)大小排隊輸出。五、NLM的II項目項目的背景項目的目的和目標(biāo)II系統(tǒng)NLM從20世紀(jì)90年代開始實施標(biāo)引創(chuàng)始項目(IndexingInitiative,簡稱II)開展II項目的理由:手工標(biāo)引是一種昂貴而且費力的勞動NLM標(biāo)引的總費用組成: 數(shù)據(jù)條目

NLM職員標(biāo)引和校訂 合同標(biāo)引 設(shè)備和通信費用對標(biāo)引人員要求:熟悉MEDLINE標(biāo)引實踐在MEDLINE數(shù)據(jù)庫所覆蓋的一個或多個主題領(lǐng)域接受過很好培訓(xùn)雇請有專門知識的標(biāo)引人員非常困難。標(biāo)引費用越來越高。越來越多的文獻可以電子形式獲得,而且越來越多的機構(gòu)為其收藏開發(fā)“數(shù)字圖書館”,需要獲得信息的自動化技術(shù)。手工標(biāo)引每篇文獻是不可能的,必須開發(fā)出新的標(biāo)引方法。NLM通過手工標(biāo)引人員的分析提供對生物醫(yī)學(xué)期刊文獻的訪問已經(jīng)有150多年的歷史。1966年起以電子形式提供訪問,包含書目摘要、手工標(biāo)引的MeSH受控詞描述符。1974年后,大多數(shù)文獻可提供作者文摘。20世紀(jì)90年代后期,由于醫(yī)學(xué)期刊從印刷形式向電子形式遷移,自1990年以來,由于收錄期刊種數(shù)的增長以及已收錄期刊中論文數(shù)量的增長,MEDLINE接收的論文數(shù)量呈大幅度穩(wěn)定增長MEDLINE包含大約1,100萬條記錄,所有這些記錄都是手工標(biāo)引的。目前正在以大約每年400,000條的速度增長,覆蓋4,300種國際生物醫(yī)學(xué)期刊標(biāo)引人員從19,000多個MeSH主題詞中選擇描述符,主題詞描述符可進一步用88個副主題詞進行限定面對不斷增長的工作量和逐步減少的資源,NLM啟動II項目,對MEDLINE的當(dāng)前標(biāo)引方法和非手工標(biāo)引方法進行研究2.項目的目的與目標(biāo)目的:研究出可部分或完全替代當(dāng)前標(biāo)引實踐工作的方法目標(biāo):第一,最終目標(biāo)是生物醫(yī)學(xué)文獻更好獲取;第二,NLM的MeSH詞表和UMLS知識源(UMLSKnowledgeSources)將繼續(xù)存在和增長;第三,標(biāo)題和文摘形式的自由文本將繼續(xù)可用,而電子形式的期刊論文全文也將越來越可獲取。3.II系統(tǒng)(1)MetaMap標(biāo)引(MMI)MMI由以下兩個部分組成:將MetaMap程序應(yīng)用到文本正文使用排隊函數(shù)產(chǎn)生的概念排序MetaMap發(fā)現(xiàn)超級敘詞表概念的步驟分解成短語使用SPECIALIST最小約定剖析器將文本分解成簡單的名詞短語。生成變量對于每個短語,生成一組變量,其中每個變量由一個或多個連續(xù)的短語單詞及其所有首字母縮寫詞、簡寫詞、同義詞、不同詞形和意義聯(lián)合組成。獲取候選詞獲取至少包含一個變量的所有超級敘詞表字符串的候選集合。候選詞評價計算從短語單詞到候選單詞的映射用語言學(xué)原理評價函數(shù)計算出映射強度,根據(jù)輸入文本,對每個超級敘詞表候選詞進行評價評價函數(shù)由以下四個屬性的加權(quán)平均數(shù)組成: 中心性(centrality)

變異性(variation)

覆蓋度(coverage)

內(nèi)聚性(cohesiveness)候選詞根據(jù)映射強度排序構(gòu)造映射完整的映射是通過聯(lián)合涉及短語中各組成部分的候選詞來構(gòu)建的,完整映射的強度只作為候選映射進行計算。分值最高的完整映射代表MetaMap對初始短語的最好解釋。MMI檢查所有MetaMap分配給指定引文的所有概念,并且根據(jù)其表達引文內(nèi)容的強弱進行排隊排隊函數(shù)是頻率因子和相關(guān)性因子的產(chǎn)物。相關(guān)性因子則是以下四個部分的加權(quán)平均數(shù):MeSH樹深度因子詞長因子字符數(shù)因子MetaMap得分因子(2)Trigram短語匹配Trigram短語匹配是識別具有高同義可能性短語的一種方法用從短語中抽取的字符三元模型(trigram)集合來表示短語使用余弦矢量相似法計算出短語的相似性。II根據(jù)以下算法進行處理:將文獻的標(biāo)題和文摘分解成所有可能的短語,由1到6個鄰近的單詞組成,不含內(nèi)部標(biāo)點。對于每個短語,計算其與UMLS中所有短語的相似性分值,記錄獲得分最高的短語。對于標(biāo)題和文摘中的每個單詞,記錄它所屬的、對UMLS得分最高的短語,同時也記錄產(chǎn)生最高分值的UMLS短語。形成許多“文獻短語-UMLS短語”對。對于以上每個短語對,計算其在文獻不同位置出現(xiàn)的次數(shù),返回短語對、分值和次數(shù)。(3)RestricttoMeSH方法UMLS中含義的表達是根據(jù)語義點(semanticlocality)原理組織的,在語義點中,表達概念間關(guān)系的幾種方法共同產(chǎn)生一簇語義相關(guān)的詞。語義點維度包括詞信息(同義關(guān)系、上位關(guān)系、下位關(guān)系)、在特定來源詞表中的上下文信息、醫(yī)學(xué)文獻中詞的共現(xiàn)信息以及在語義網(wǎng)絡(luò)中的概念范疇。在II中,以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論