




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第十九章自動(dòng)標(biāo)引的原理與方法大綱一、概述二、自動(dòng)標(biāo)引的基本原理與基本流程三、自動(dòng)分詞四、矢量空間模型(VSM)五、NLM的II項(xiàng)目一、概述定義為什么要自動(dòng)標(biāo)引?1.定義自動(dòng)標(biāo)引(AutomaticIndexing)/計(jì)算機(jī)輔助標(biāo)引(ComputerAidedIndexing): 是根據(jù)文獻(xiàn)內(nèi)容,依靠計(jì)算機(jī)系統(tǒng)全部或部分自動(dòng)給出標(biāo)引符號(hào)的過(guò)程。 自動(dòng)主題標(biāo)引 自動(dòng)分類標(biāo)引2.為什么要自動(dòng)標(biāo)引?(1)自動(dòng)標(biāo)引是信息資源快速增長(zhǎng)的必然產(chǎn)物“信息爆炸”、“混沌信息空間”和“數(shù)據(jù)過(guò)?!?999-2002年,全球新生產(chǎn)出的信息量翻了一番2002年,全球由紙張、膠片以及磁、光存儲(chǔ)介質(zhì)所記錄的信息生產(chǎn)總量達(dá)到5萬(wàn)億兆字節(jié)3年的信息量足以填滿50萬(wàn)座美國(guó)國(guó)會(huì)圖書(shū)館92%記錄在硬盤(pán)等磁存儲(chǔ)介質(zhì)上感到信息匱乏,無(wú)法快速高效地獲取自己所需的信息原因在于信息缺乏有效合理的組織手工標(biāo)引難以滿足需要希望借助計(jì)算機(jī)實(shí)現(xiàn)標(biāo)引工作(2)手工標(biāo)引存在難以克服的缺點(diǎn)費(fèi)用高昂信息檢索系統(tǒng)中75%的運(yùn)行費(fèi)用要用于人工標(biāo)引效率低一致性差美國(guó)Cleverton發(fā)現(xiàn):兩位有經(jīng)驗(yàn)的標(biāo)引員用同一敘詞表對(duì)同一文獻(xiàn)進(jìn)行標(biāo)引,其標(biāo)引詞的同一率僅有30%左右兩個(gè)在同一庫(kù)中用同一檢索系統(tǒng)檢索同一問(wèn)題的用戶,檢索出的結(jié)果同一率僅有40%兩位科研人員根據(jù)同一提問(wèn)判斷一組指定文獻(xiàn)的相關(guān)性,其同一率不會(huì)超過(guò)60%(3)自動(dòng)標(biāo)引相對(duì)手工標(biāo)引存在很大優(yōu)勢(shì)處理能力強(qiáng)處理速度快成本低穩(wěn)定性好美學(xué)者倫茲實(shí)驗(yàn)發(fā)現(xiàn),6名標(biāo)引人員在不同時(shí)間標(biāo)引同一文獻(xiàn),標(biāo)引一致率為0.158(假定完全一致為1.0)。由同一標(biāo)引人員在不同時(shí)間標(biāo)引同一文獻(xiàn),標(biāo)引一致率為0.1619。若采用計(jì)算機(jī)自動(dòng)標(biāo)引,不論何時(shí)對(duì)同一篇文獻(xiàn)總能標(biāo)引出相同的主題詞。(4)現(xiàn)代技術(shù)是自動(dòng)標(biāo)引的催化劑計(jì)算機(jī)技術(shù)信息資源的電子化自動(dòng)標(biāo)引的基本方法與原理自動(dòng)標(biāo)引的基本流程二、自動(dòng)標(biāo)引的基本原理與基本流程1.自動(dòng)標(biāo)引的基本方法與基本原理統(tǒng)計(jì)法、語(yǔ)言法、人工智能方法…統(tǒng)計(jì)法的理論基礎(chǔ)是齊夫(Zipf)“省力法則”。典型代表是詞頻加權(quán)方法語(yǔ)言法是通過(guò)對(duì)構(gòu)成文獻(xiàn)的自然語(yǔ)言的分析,利用一定算法產(chǎn)生標(biāo)引詞,是從語(yǔ)言學(xué)角度對(duì)自動(dòng)標(biāo)引方法的探索。語(yǔ)言法包括句法分析和語(yǔ)義分析兩種方法。人工智能。人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等2.自動(dòng)標(biāo)引的基本流程輸入標(biāo)引源內(nèi)容預(yù)處理分詞處理確定關(guān)鍵詞轉(zhuǎn)換為受控詞給出主題標(biāo)識(shí)符確立標(biāo)引源(1)確立標(biāo)引源 主要標(biāo)引源:標(biāo)題文摘首尾章節(jié)章節(jié)的首尾段段落的首尾句(2)輸入標(biāo)引源內(nèi)容 方法:印刷型文獻(xiàn)(如紙張型期刊論文等),手工錄入或OCR輸入電子文檔(如XML、DOC、TXT等格式文檔),直接導(dǎo)入計(jì)算機(jī)自動(dòng)標(biāo)引系統(tǒng)(3)文檔的預(yù)處理字符內(nèi)碼的檢測(cè)與轉(zhuǎn)換如BIG5碼GB碼格式檢測(cè)與轉(zhuǎn)換如DOC、XML、RTF等,去掉格式符號(hào),轉(zhuǎn)換成純文本格式(4)詞語(yǔ)的切分將語(yǔ)句切分成由詞組成的集合詞語(yǔ)的自動(dòng)切分詳見(jiàn)“自動(dòng)分詞”一節(jié)(5)確定關(guān)鍵詞依據(jù):頻次、位置及詞性等方法:絕對(duì)詞頻統(tǒng)計(jì)法:理論基礎(chǔ)是齊夫定律詞頻權(quán)重法加權(quán)時(shí)考慮的因素主要有:詞頻位置詞性詞本身的價(jià)值:同一詞在不同學(xué)科中價(jià)值不同詞長(zhǎng)度。詞越長(zhǎng)專指性越好。 如:“癌”,“鱗癌”,“低分化鱗癌”三個(gè)詞的專指性依次增強(qiáng),而概括性依次遞減。(6)轉(zhuǎn)換為受控詞關(guān)鍵詞與受控詞(主題詞、副主題詞和特征詞)之間存在著一定的關(guān)系如同義詞關(guān)系、上位關(guān)系、下位關(guān)系等使用一定方法,可以將關(guān)鍵詞轉(zhuǎn)換為受控詞關(guān)鍵詞-受控詞對(duì)照表關(guān)鍵詞--主題詞/副主題詞/特征詞詞匯相似度目前,計(jì)算詞匯相似度的算法主要有兩種:基于詞素的相似度算法詞匯之間通過(guò)詞素的相似情況來(lái)判斷相互關(guān)系實(shí)現(xiàn)詞與詞素之間的對(duì)應(yīng)轉(zhuǎn)換,需要建立詞素表構(gòu)建詞素表的方法:人工對(duì)主題詞進(jìn)行字面拆分和概念拆分,形成詞素,再將這些詞素與主題詞的對(duì)應(yīng)起來(lái)。主題標(biāo)引
a)將詞素與關(guān)鍵詞進(jìn)行匹配,根據(jù)完全匹配及最大匹配原理確定關(guān)鍵詞與主題詞的對(duì)應(yīng)關(guān)系,完成主題標(biāo)引。
b)匹配率計(jì)算公式為: C=(Ts/Tsh)×100%其中C為匹配率
Ts為關(guān)鍵詞與主題詞中含相同詞素個(gè)數(shù)
Tsh為主題詞詞素個(gè)數(shù)?;趩螡h字的字面相似度算法
a)將關(guān)鍵詞自動(dòng)拆分成單漢字
b)將這些單漢字與主題詞進(jìn)行字面相似度匹配
c)根據(jù)相似度計(jì)算公式計(jì)算關(guān)鍵詞與主題詞的字面相似度d)相似率計(jì)算公式:C=(Cs+Cs
)*w1/M+(Ss+Ss)*w2/MCwCshSwSshC--匹配率Cs--相同字?jǐn)?shù)Cw--關(guān)鍵詞中的字?jǐn)?shù)Csh--主題詞中的字?jǐn)?shù)Ss--相同字的位置之和Sw--關(guān)鍵詞中全部字的位置之和Ssh--主題詞中全部字的位置之和w1、w2--加權(quán)系數(shù)M--閾值(7)給出主題標(biāo)引結(jié)果根據(jù)所確定的主題詞、副主題詞、特征詞,進(jìn)行組配,給出主題標(biāo)引符號(hào),完成自動(dòng)標(biāo)引。三、自動(dòng)分詞自動(dòng)分詞的方法歧義切分的處理1.自動(dòng)分詞的方法(1)基于詞典的分詞方法(2)基于統(tǒng)計(jì)的分詞方法(3)混合方法(1)基于詞典的分詞方法原理:按一定策略將待分析的字串與切分詞典系統(tǒng)中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功,切分出來(lái)。按掃描方向分正向匹配和逆向匹配;按不同長(zhǎng)度優(yōu)先匹配的情況分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。分詞詞典停用詞詞表構(gòu)建時(shí)要堅(jiān)持“非用”原則方法: ①根據(jù)收詞原則從相關(guān)詞典中收取,并利用相關(guān)的經(jīng)驗(yàn)和知識(shí)進(jìn)行補(bǔ)充; ②由停用詞處理系統(tǒng)對(duì)一定量的數(shù)據(jù)進(jìn)行分詞實(shí)驗(yàn),也可以從分詞后剩下的“碎片”中篩選; ③根據(jù)齊夫定律,利用詞頻統(tǒng)計(jì)選取。特例詞表如:停用詞“的”、“也”,可以組成“的士”、“也門(mén)”等詞。關(guān)鍵詞表人名、機(jī)構(gòu)名和地名詞表匹配算法正向匹配法和逆向匹配法最大匹配法和最小匹配法采用最大匹配算法進(jìn)行詞語(yǔ)切分,結(jié)果專指性高,效果較好,是目前使用得較多的一種匹配算法;最小匹配法由于切分出來(lái)的詞長(zhǎng)度短,專指性差,切分效果不理想,在實(shí)際情況中,使用得非常少。3)詞典分詞法的優(yōu)缺點(diǎn)優(yōu)點(diǎn):便于實(shí)現(xiàn),操作簡(jiǎn)單,切分準(zhǔn)確率高缺點(diǎn):岐義問(wèn)題詞典問(wèn)題詞綴問(wèn)題名稱問(wèn)題譯名問(wèn)題改正手段:改進(jìn)掃描方式將分詞和詞類標(biāo)注結(jié)合起來(lái)(2)基于統(tǒng)計(jì)的分詞方法
原理: 依據(jù)(兩個(gè)或多個(gè))漢字同時(shí)出現(xiàn)(相鄰出現(xiàn))的概率,利用語(yǔ)料庫(kù)(corpus;
或corpora,corpuses)進(jìn)行有監(jiān)督或無(wú)監(jiān)督的學(xué)習(xí),得到描述一種語(yǔ)言的“語(yǔ)言模型”(常用一階隱馬爾可夫模型(1’HMM)描述),然后再通過(guò)該模型對(duì)文本進(jìn)行詞語(yǔ)的切分。
語(yǔ)料庫(kù)語(yǔ)料庫(kù)是統(tǒng)計(jì)法分詞的基礎(chǔ)語(yǔ)料庫(kù)是指按照一定的語(yǔ)言學(xué)原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù)的語(yǔ)言運(yùn)用文本或話語(yǔ)片段,而建成的具有一定容量的大型電子文庫(kù)。 從其本質(zhì)上講,語(yǔ)料庫(kù)實(shí)際上是通過(guò)對(duì)自然語(yǔ)言運(yùn)用的隨機(jī)抽樣,以一定大小的語(yǔ)言樣本代表某一研究中所確定的語(yǔ)言運(yùn)用總體。1)語(yǔ)料庫(kù)片段(示例)19980101-01-001-001/m邁向/v充滿/v希望/n的/u新/a世紀(jì)/n——/w一九九八年/t新年/t講話/n(/w附/v圖片/n1/m張/q)/w19980101-01-001-002/m中共中央/nt總書(shū)記/n、/w國(guó)家/n主席/n江/nr澤民/nr19980101-01-001-003/m(/w一九九七年/t十二月/t三十一日/t)/w19980101-01-001-004/m12月/t31日/t,/w中共中央/nt總書(shū)記/n、/w國(guó)家/n主席/n江/nr澤民/nr發(fā)表/v1998年/t新年/t講話/n《/w邁向/v充滿/v希望/n的/u新/a世紀(jì)/n》/w。/w(/w新華社/nt記者/n蘭/nr紅光/nr攝/Vg)/w19980101-01-001-005/m同胞/n們/k、/w朋友/n們/k、/w女士/n們/k、/w先生/n們/k:/w2)基本分詞原理訓(xùn)練語(yǔ)料庫(kù)詞計(jì)數(shù)詞概率wip(wi)
圖21-2語(yǔ)料訓(xùn)練
2)基本分詞原理原始文本結(jié)果(分詞處理后的文本)分詞處理詞概率wip(wi)
圖21-3文本分詞處理表21-1不同切分的可能性序號(hào)選定可能的切分可能性1
Ch1∧Ch2∧Ch30.052√Ch1Ch2∧Ch30.83
Ch1∧Ch2Ch30.014
Ch1Ch2Ch30.3假設(shè)一個(gè)字串由3個(gè)單字組成,其切分的可能性如表21-1所示2)基本分詞原理原始文本(未進(jìn)行分詞處理)經(jīng)過(guò)分詞處理后的文本分詞處理詞計(jì)數(shù)詞概率
3)統(tǒng)計(jì)法分詞的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):降低生詞和名詞的影響缺點(diǎn):非常難以做到“足夠訓(xùn)練”,實(shí)用性低(3)其它方法將以上兩種方法結(jié)合在一起目前有學(xué)者從認(rèn)知心理學(xué)和發(fā)展心理學(xué)的觀點(diǎn)出發(fā),研究分詞問(wèn)題2.歧義切分的處理(1)從構(gòu)成形式上分:交集型歧義切分和組合型歧義切分。(2)交集型歧義 在字段AJB中,AJB∈W并且JB∈W,則稱AJB為交集型歧義字段。其中A、J、B為字串,W為詞表。 常用處理方法:統(tǒng)計(jì)方法和詞性方法。(3)組合型岐義
給定任意漢字字段AB,如果A∈W、B∈W、AB∈W,且切分“A”、“B”及“AB”在真實(shí)語(yǔ)境中均能實(shí)現(xiàn),則稱AB為組合型歧義切分字段(簡(jiǎn)稱組合型歧義)。例如:(1a)這種絢爛與神秘可以說(shuō)只能意會(huì)不能言傳。(1b)不可以個(gè)人的局部利益代替全局利益。(2a)今后項(xiàng)目審批工作必須依據(jù)國(guó)家中長(zhǎng)期規(guī)劃進(jìn)行。(2b)這是國(guó)際共產(chǎn)主義運(yùn)動(dòng)中長(zhǎng)期沒(méi)有解決的一個(gè)重大理論問(wèn)題。組合型歧義往往需要采用更大范圍的上下文,根據(jù)語(yǔ)義信息進(jìn)行處理。(4)確定與不確定歧義 字段具有確定分法的歧義字段 例如:
“當(dāng)好人大代表”中的“好人大”
“好/人大”
“中國(guó)人為四化做貢獻(xiàn)”中的“人為”
“人/為”具有不確定分法的歧義切分字段 例如:
“研究生會(huì)采取行動(dòng)”
“研究生/會(huì)/采取/行動(dòng)”
“研究生會(huì)/采取/行動(dòng)”
四、矢量空間模型(VSM)
VSM的基本思想文檔的表示權(quán)重的計(jì)算文檔的相似性與查詢1.VSM的基本思想(1)分別為文檔和查詢建立一個(gè)由矢量表達(dá)的空間
對(duì)于一個(gè)固定的文檔集合,從帶相關(guān)權(quán)重的術(shù)語(yǔ)集合中為每篇文檔以及每個(gè)查詢生成一個(gè)m維矢量,m是文檔集合中詞的種數(shù)。
(2)使用一個(gè)矢量相似性函數(shù)計(jì)算一篇文檔與查詢之間的相似性。2.文檔的表示假設(shè)文檔集合D由文檔Di組成每個(gè)文檔通過(guò)一個(gè)或多個(gè)標(biāo)引詞Tj標(biāo)識(shí)詞可以根據(jù)其重要性進(jìn)行加權(quán)或不加權(quán),權(quán)值在0和1之間。假設(shè)有m個(gè)不同的詞可用作標(biāo)引,則每個(gè)文檔 Di用一個(gè)m維矢量表示:
Di=(wi1,wi1,…,wij,…,wim)
其中,wij為第j個(gè)詞在文檔Di中的權(quán)重,代表 第j個(gè)詞在文檔Di中的重要性。2.文檔的表示文檔集合D=(D1,D2,…,Di,…,Dn)可用以下矩陣表示:w11 w12 … w1j … w1m… … … … … …wi1 wi2 … wij … wim… … … … … …wn1 wn2 … wnj … wnmD=
詞語(yǔ)novagalaxyheatHollywoodfilmroledietfurD11.00.50.3D20.51.0D31.00.80.7D40.91.00.5D51.01.0D60.91.0D70.50.70.9D80.61.00.30.20.8D90.70.50.10.3文檔矢量表示示例文檔3.權(quán)重的計(jì)算方法有多種,最常見(jiàn)的一種方法為T(mén)F-IDF法,它考慮:每個(gè)標(biāo)引詞在文檔中的重要性標(biāo)引詞在文檔集合中的重要性詞頻(termfrequency,TF),用符號(hào)tf表示。標(biāo)引詞Tj在文檔Di中的詞頻用tfij表示。一個(gè)標(biāo)引詞的重要性與該詞在文檔集合的文檔中出現(xiàn)的頻率成反相關(guān)。即反轉(zhuǎn)文檔頻率(inversedocumentfrequency,IDF)。標(biāo)引詞Tj在文檔集合D中的反轉(zhuǎn)文檔頻率idfj可用以下公式計(jì)算出來(lái): idfj=log(N/nj)其中,N:文檔數(shù)量
nj:包含標(biāo)引詞Tj的文檔數(shù)量標(biāo)引詞Tj在文檔集合中相對(duì)于文檔Di的權(quán)重可根據(jù)以上兩個(gè)因子用下式計(jì)算出來(lái): wij=tfij×idfj=tfij×log(N/nj)4.文檔的相似性與查詢給定兩個(gè)文檔Di和Dj的標(biāo)引矢量,可以計(jì)算出兩者的相似系數(shù)s(Di,Dj
),以反映兩者在相應(yīng)的詞及其權(quán)重中的相似程度相似系數(shù)一般用夾角余弦公式進(jìn)行計(jì)算:s(Di,Dj)=m∑wik2×k=1m∑wjk2k=1m∑wik×wjkk=1 其中,s(Di,Dj):文檔Di和Dj的相似系數(shù) m:維度(標(biāo)引詞種數(shù)) wik、wjk:標(biāo)引詞Tk在文檔集合D中對(duì)于文檔Di
和Dj的權(quán)重文檔集合中文檔可通過(guò)文檔的相似系數(shù)進(jìn)行聚類,相似系數(shù)越大的兩個(gè)文檔放在一起。查詢時(shí),將查詢策略也表示為有關(guān)標(biāo)引詞的一個(gè)矢量Q。計(jì)算矢量Q與文檔矢量Di之間的相似系數(shù)進(jìn)行。相似系數(shù)達(dá)到或超過(guò)某個(gè)閥值則算命中查詢結(jié)果根據(jù)查詢矢量與文檔矢量之間的相似系數(shù)大小排隊(duì)輸出。五、NLM的II項(xiàng)目項(xiàng)目的背景項(xiàng)目的目的和目標(biāo)II系統(tǒng)NLM從20世紀(jì)90年代開(kāi)始實(shí)施標(biāo)引創(chuàng)始項(xiàng)目(IndexingInitiative,簡(jiǎn)稱II)開(kāi)展II項(xiàng)目的理由:手工標(biāo)引是一種昂貴而且費(fèi)力的勞動(dòng)NLM標(biāo)引的總費(fèi)用組成: 數(shù)據(jù)條目
NLM職員標(biāo)引和校訂 合同標(biāo)引 設(shè)備和通信費(fèi)用對(duì)標(biāo)引人員要求:熟悉MEDLINE標(biāo)引實(shí)踐在MEDLINE數(shù)據(jù)庫(kù)所覆蓋的一個(gè)或多個(gè)主題領(lǐng)域接受過(guò)很好培訓(xùn)雇請(qǐng)有專門(mén)知識(shí)的標(biāo)引人員非常困難。標(biāo)引費(fèi)用越來(lái)越高。越來(lái)越多的文獻(xiàn)可以電子形式獲得,而且越來(lái)越多的機(jī)構(gòu)為其收藏開(kāi)發(fā)“數(shù)字圖書(shū)館”,需要獲得信息的自動(dòng)化技術(shù)。手工標(biāo)引每篇文獻(xiàn)是不可能的,必須開(kāi)發(fā)出新的標(biāo)引方法。NLM通過(guò)手工標(biāo)引人員的分析提供對(duì)生物醫(yī)學(xué)期刊文獻(xiàn)的訪問(wèn)已經(jīng)有150多年的歷史。1966年起以電子形式提供訪問(wèn),包含書(shū)目摘要、手工標(biāo)引的MeSH受控詞描述符。1974年后,大多數(shù)文獻(xiàn)可提供作者文摘。20世紀(jì)90年代后期,由于醫(yī)學(xué)期刊從印刷形式向電子形式遷移,自1990年以來(lái),由于收錄期刊種數(shù)的增長(zhǎng)以及已收錄期刊中論文數(shù)量的增長(zhǎng),MEDLINE接收的論文數(shù)量呈大幅度穩(wěn)定增長(zhǎng)MEDLINE包含大約1,100萬(wàn)條記錄,所有這些記錄都是手工標(biāo)引的。目前正在以大約每年400,000條的速度增長(zhǎng),覆蓋4,300種國(guó)際生物醫(yī)學(xué)期刊標(biāo)引人員從19,000多個(gè)MeSH主題詞中選擇描述符,主題詞描述符可進(jìn)一步用88個(gè)副主題詞進(jìn)行限定面對(duì)不斷增長(zhǎng)的工作量和逐步減少的資源,NLM啟動(dòng)II項(xiàng)目,對(duì)MEDLINE的當(dāng)前標(biāo)引方法和非手工標(biāo)引方法進(jìn)行研究2.項(xiàng)目的目的與目標(biāo)目的:研究出可部分或完全替代當(dāng)前標(biāo)引實(shí)踐工作的方法目標(biāo):第一,最終目標(biāo)是生物醫(yī)學(xué)文獻(xiàn)更好獲取;第二,NLM的MeSH詞表和UMLS知識(shí)源(UMLSKnowledgeSources)將繼續(xù)存在和增長(zhǎng);第三,標(biāo)題和文摘形式的自由文本將繼續(xù)可用,而電子形式的期刊論文全文也將越來(lái)越可獲取。3.II系統(tǒng)(1)MetaMap標(biāo)引(MMI)MMI由以下兩個(gè)部分組成:將MetaMap程序應(yīng)用到文本正文使用排隊(duì)函數(shù)產(chǎn)生的概念排序MetaMap發(fā)現(xiàn)超級(jí)敘詞表概念的步驟分解成短語(yǔ)使用SPECIALIST最小約定剖析器將文本分解成簡(jiǎn)單的名詞短語(yǔ)。生成變量對(duì)于每個(gè)短語(yǔ),生成一組變量,其中每個(gè)變量由一個(gè)或多個(gè)連續(xù)的短語(yǔ)單詞及其所有首字母縮寫(xiě)詞、簡(jiǎn)寫(xiě)詞、同義詞、不同詞形和意義聯(lián)合組成。獲取候選詞獲取至少包含一個(gè)變量的所有超級(jí)敘詞表字符串的候選集合。候選詞評(píng)價(jià)計(jì)算從短語(yǔ)單詞到候選單詞的映射用語(yǔ)言學(xué)原理評(píng)價(jià)函數(shù)計(jì)算出映射強(qiáng)度,根據(jù)輸入文本,對(duì)每個(gè)超級(jí)敘詞表候選詞進(jìn)行評(píng)價(jià)評(píng)價(jià)函數(shù)由以下四個(gè)屬性的加權(quán)平均數(shù)組成: 中心性(centrality)
變異性(variation)
覆蓋度(coverage)
內(nèi)聚性(cohesiveness)候選詞根據(jù)映射強(qiáng)度排序構(gòu)造映射完整的映射是通過(guò)聯(lián)合涉及短語(yǔ)中各組成部分的候選詞來(lái)構(gòu)建的,完整映射的強(qiáng)度只作為候選映射進(jìn)行計(jì)算。分值最高的完整映射代表MetaMap對(duì)初始短語(yǔ)的最好解釋。MMI檢查所有MetaMap分配給指定引文的所有概念,并且根據(jù)其表達(dá)引文內(nèi)容的強(qiáng)弱進(jìn)行排隊(duì)排隊(duì)函數(shù)是頻率因子和相關(guān)性因子的產(chǎn)物。相關(guān)性因子則是以下四個(gè)部分的加權(quán)平均數(shù):MeSH樹(shù)深度因子詞長(zhǎng)因子字符數(shù)因子MetaMap得分因子(2)Trigram短語(yǔ)匹配Trigram短語(yǔ)匹配是識(shí)別具有高同義可能性短語(yǔ)的一種方法用從短語(yǔ)中抽取的字符三元模型(trigram)集合來(lái)表示短語(yǔ)使用余弦矢量相似法計(jì)算出短語(yǔ)的相似性。II根據(jù)以下算法進(jìn)行處理:將文獻(xiàn)的標(biāo)題和文摘分解成所有可能的短語(yǔ),由1到6個(gè)鄰近的單詞組成,不含內(nèi)部標(biāo)點(diǎn)。對(duì)于每個(gè)短語(yǔ),計(jì)算其與UMLS中所有短語(yǔ)的相似性分值,記錄獲得分最高的短語(yǔ)。對(duì)于標(biāo)題和文摘中的每個(gè)單詞,記錄它所屬的、對(duì)UMLS得分最高的短語(yǔ),同時(shí)也記錄產(chǎn)生最高分值的UMLS短語(yǔ)。形成許多“文獻(xiàn)短語(yǔ)-UMLS短語(yǔ)”對(duì)。對(duì)于以上每個(gè)短語(yǔ)對(duì),計(jì)算其在文獻(xiàn)不同位置出現(xiàn)的次數(shù),返回短語(yǔ)對(duì)、分值和次數(shù)。(3)RestricttoMeSH方法UMLS中含義的表達(dá)是根據(jù)語(yǔ)義點(diǎn)(semanticlocality)原理組織的,在語(yǔ)義點(diǎn)中,表達(dá)概念間關(guān)系的幾種方法共同產(chǎn)生一簇語(yǔ)義相關(guān)的詞。語(yǔ)義點(diǎn)維度包括詞信息(同義關(guān)系、上位關(guān)系、下位關(guān)系)、在特定來(lái)源詞表中的上下文信息、醫(yī)學(xué)文獻(xiàn)中詞的共現(xiàn)信息以及在語(yǔ)義網(wǎng)絡(luò)中的概念范疇。在II中,以
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 宣傳活動(dòng)總結(jié)13篇
- 會(huì)議進(jìn)度管理制度
- 汽修廠客戶滿意度調(diào)查數(shù)據(jù)分析制度
- 黑龍江雞西圖書(shū)館招聘試題帶答案分析2024年
- 2024珠海城市職業(yè)技術(shù)學(xué)院?jiǎn)握小段锢怼纺M試題及完整答案詳解
- 2023年度“安全生產(chǎn)事故隱患排查”知識(shí)競(jìng)賽通關(guān)題庫(kù)一套附答案詳解
- 2024年“安全生產(chǎn)事故隱患排查”知識(shí)競(jìng)賽預(yù)測(cè)復(fù)習(xí)附答案詳解
- Module 4 Unit 1Thanksgiving is my favourite festival 教案外研版英語(yǔ)六年級(jí)上冊(cè)
- 高教版中職數(shù)學(xué)拓展模塊一下冊(cè)8.3.2 二項(xiàng)式系數(shù)的性質(zhì)課件
- 建筑公司設(shè)備物聯(lián)網(wǎng)數(shù)據(jù)采集管理制度
- 湖南文理學(xué)院輔導(dǎo)員考試真題2022
- 中醫(yī)四大經(jīng)典知識(shí)競(jìng)賽真題模擬匯編(共702題)
- 蜱蟲(chóng)病的防治
- 數(shù)學(xué)建模部分概念期末復(fù)習(xí)
- 中石化定額章節(jié)官方解析交流148篇答疑
- 福佳大化安全技術(shù)規(guī)程
- 高考英語(yǔ)備考經(jīng)驗(yàn)交流
- 處方點(diǎn)評(píng)指南:靜脈輸液
- 臨床科研設(shè)計(jì)(詳細(xì)知識(shí)點(diǎn)總結(jié))
- 【課件】Unit 4 Reading for writing 課件-人教版(2019)選擇性必修第三冊(cè)
- 保潔工具使用方法
評(píng)論
0/150
提交評(píng)論