【畢業學位論文】(Word原稿)基于本體的高校數字圖書館語義檢索系統的研究與應用-軟件工程_第1頁
【畢業學位論文】(Word原稿)基于本體的高校數字圖書館語義檢索系統的研究與應用-軟件工程_第2頁
【畢業學位論文】(Word原稿)基于本體的高校數字圖書館語義檢索系統的研究與應用-軟件工程_第3頁
【畢業學位論文】(Word原稿)基于本體的高校數字圖書館語義檢索系統的研究與應用-軟件工程_第4頁
【畢業學位論文】(Word原稿)基于本體的高校數字圖書館語義檢索系統的研究與應用-軟件工程_第5頁
已閱讀5頁,還剩58頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

中圖分類號: 學校代碼: 10055 密級: 公開 碩 士 專 業 學 位 論 文 基于本體的高校數字圖書館語義檢索系統的研究與應用 要 I 摘 要 在知識大爆炸的信息化社會,高校數字圖書館成為重要的信息傳承介質,目前其檢索平臺完全采用字符匹配的模式,缺乏表達檢索需求的語義信息,致使 檢索結果與檢索需求出現偏差。 本論文深入研究了本體的概念、應用領域、描述語言以及本體的創建規則,提出了基于軟件工程方式的本體創建流程,以計算機圖書為例,詳細論述了需求分析、設計、形式化編碼以及本體評價的全過程。在分析傳統模型的基礎上,引入本體語義層,提出基于本體語義的檢索模型,設計了用戶交互層、數據管理層和本體語義層的應用功能,設計了檢索系統的整體結構模型。研究了數字圖書館檢索的擴展查詢,提出了基于單關鍵詞、多關鍵詞的查詢算法和處理流程,在研究目前推理機工作機制的基礎上,提出并設計了基于本體概念與關系的語義 推理模型。 在檢索模型設計的基礎上,詳細描述了檢索系統的本體維護、語義推理等操作的具體實現過程。通過樣例試驗數據驗證了本體檢索系統在查準率和查全率兩方面優于傳統檢索系統。論文實現的檢索系統可在目前高校圖書館中推廣應用,能夠提高書目檢索的查準率和查全率。 關鍵詞 :本體 ,語義檢索 ,語義推理 ,數字圖書館 I he an in on is of of so of of of on of in by an of On of of on of It of on of of of on of on of is to in be in it of 目錄 錄 第一章 緒論 . 1 第一節 研究的背景與意義 . 1 第二節 國內外研究現狀分析 . 2 內研究現狀 . 2 外研究現狀 . 3 第三節 論文的主要內容 . 3 第四節 論文的組織與結構 . 4 第二章 相關理論與技術 . 6 第一節 數字圖書館 . 6 第二節 本體概 念 . 6 體概念 . 6 體的應用 . 7 體的構成 . 8 體的描述語言 . 9 體庫建立 . 10 第三節 數字圖書館領域本體的形式化描述 . 11 第四節 本章小節 . 13 第三章 計算機圖書本體庫建設 . 14 第一節 計算機本體庫的構建背景 . 14 第二節 本體庫采用的語言和工具 . 14 第三節 計算機本體庫的構建步驟 . 15 求分析階段 . 16 計階段 . 16 目錄 形式化編碼 . 19 體的評價 . 20 第四節 本章小節 . 21 第四章 數字圖書館本體語義檢索模型設計 . 22 第一節 總體結構設計 . 22 統數字圖書館檢索系統總體結構 . 22 于本體的數字圖書館檢索系統總體結構 . 23 統總體流程結構 . 25 第二節 擴展查詢設計 . 26 第三節 資源映射管理設計 . 29 第四節 語義推理設計 . 31 第五節 基于語義檢索的關鍵技術 . 34 第六節 本章小節 . 36 第五章 數字圖書館本體語義檢索系統的實現 . 37 第一節 系統開發環境 . 37 第二節 系統總體結構實現 . 37 統服務總體結構 . 37 統模塊框架 . 38 第三節 本體庫維護處理的實現 . 40 體庫創建的實現 . 40 體文檔管理器的操作實現 . 41 體操作的實現方法 . 41 第四節 語義推理的實現 . 42 理機的創建 . 42 義推 理的實現 . 43 第五節 實驗分析 . 45 目錄 V 第六節 本章小結 . 50 第六章 總結與展望 . 51 第一節 總結 . 51 第二節 展望 . 52 參考文獻 . 53 致謝 . 56 個人簡歷 在學期間發表的學術論文與科研成果 . 57 第一章 緒論 1 第一章 緒論 第一節 研究的背景與意義 隨著信息化和知識經濟的不斷發展,高校圖書館作為我國教育的重要知識載體越來越龐大,存書量越來越大,形成千萬的圖書。同時由于近些年計算機技術、網絡技術和信息處理技術有很大的發展,促使了數字圖書館的產 生,對一所高校來說有兩個方面的重要影響,通過信息化的存儲對圖書館文獻資料的保存、繼承等方面起到重要的作用,同時通過計算機信息檢索技術的運用,為高校師生圖書檢索提供高效、快捷的手段,能夠讓檢索用戶快速找到出所需要的圖書文獻。 目前,國內大部分高校已經完成了數字圖書館的基礎建設,學校的圖書文獻索引、主題詞、作者信息、文獻題目等信息已經存檔入庫,已經建設了完善的基于關鍵字的圖書檢索方法,這種檢索方法是完全基于字符之間的匹配,即通過用戶輸入的查找關鍵字與圖書信息的關鍵字進行匹配,匹配成功后,找出找到相關圖書數據,很 明顯這種采用字符匹配的檢索方法,沒有準確地表達出關鍵詞豐富的語義信息,造成系統給出的檢索結果與用戶原有的檢索需求存在一定的偏差,使檢索結果不能完全表達出作者所想要的圖書信息,降低了檢索的查全率和查準率。 基于上述背景,作者所在高校為提高本校的數字圖書館中信息檢索的準確率和查全率,更好地讓圖書館為全校師生服務,在原有數字圖書館傳統的基于字符串匹配檢索技術的基礎上引入本體語義概念,研究了基于本體語義的數字圖書館檢索技術,本體概念的引入,能夠挖掘出概念之間復雜的語義關系,在檢索系統中運用本體,可以由原來的字符串匹 配方式完全轉為基于概念的匹配方式,實現能夠反映用戶檢索意圖的語義檢索。該技術的運用使檢索系統如同一個智能的領域專家,改變了傳統數字圖書館檢索系統的技術局限性,引入了語義,提高了檢索的精度和覆蓋率。 第一章 緒論 2 第二節 國內外研究現狀分析 內研究現狀 國內有關檢索系統的研究大部分面向公眾服務領域,如門戶的 索系統,這種檢索的特點是面向廣泛的搜索領域。針對一些特定領域的需求,要求檢索范圍限定于特定的專業范圍之內的檢索成為近年來的搜索領域研究的熱門課題。本體作為專業領域內的知識庫的存儲形式,這一概念的提出 給廣大檢索研究者,提供了信息的表示、存儲方面的研究方向的同時,更為重要的是為信息檢索、語義推理等方面提供研究方向。 目前國內有許多研究者將本體語義作為檢索數據結構、存儲、管理的載體,實現專業領域內語義檢索,把用戶模糊的需求轉化為概念的標準詞,提高了檢索精度。在這些研究過程中,一般都建立了本專業領域內的本體庫。如中國農業大學的李景 1在分析、歸納花卉學領域的基礎上,建立了此領域的本體,并通過開發檢索系統,研發了基于本體庫的專業檢索系統;趙慶齡 2在分析農業學科中的土壤專業、農業化學專業的基礎上,建立了土壤 和農業化學領域的本體庫,這一本體庫在農業領域內得到了較為廣泛的應用;另外以山西大學為代表的高校承擔的“現代漢語框架語義系統研究” 3,項目組構建了漢語框架語義知識本體庫,這些研究大部分集中在各個領域的本體庫的建設與檢索系統的開發上。 此外,國內許多學者對本體 檢索 理論和方法進行了深入的研究,比如 中國科學院計算技術研究所 的 武成鋼 4等人在本體理論的基礎上研究了基于本體的與多智能主體的信息檢索,設計了檢索服務器,此項成果可用在按專業領域分類處理互聯網上的數據,根據不同的關注度建立信息資源的索引,使用戶的信息 檢索模式得到了優化和規范,能夠動態地把互聯網上更新的數據分類索引,提高了檢索的準確率。 通過查閱相關參考文獻,近幾年來國內學者在本體領域方面的研究一般集中在以下幾個方面:( 1)具體專業本體庫的建設,本體庫是本體語義檢索的基礎,一些專業領域的專家根據多年來在本行業的知識積累,研究設計了基于本專業的本體庫。( 2)本體庫的應用方面的研究,一些學者根據已建本體庫研究了具體應用,如本體庫概念之間的關系研究、本體庫概念的邏輯規則研究和本體庫語義檢索的研究等。 第一章 緒論 3 外研究現狀 國外在本體檢索方面的研究比較早,形 成了一些較為成熟的研究成果,通過查閱文獻資料,國外的軍事國防、大型研究所、商業公司都對有關本體檢索進行了研究,把一些成果應用到具體的應用中。 美國國防部高級研究計劃署(究了 實施的高性能知識庫系統 (課題建立了一個基于智能學習的自適應知識庫,這個知識庫完全基于本體的組織形式的,在數據表示、存儲、檢索方面都基于本體庫中的概念實現的。 美國斯坦福大 學下屬的知識系統實驗室的學者對本論的應用、建模工具、管理等一些基礎層面的應用做了許多的研究成果,學者 在 1993 年提出了本體的定義,學者 計了本體的頂層結構。 項目是歐洲信息技術委員會實施的 信息社會技術 計劃中的一個課題,課題的研究是在眾多的分布式應用系統中引入本體庫,實現各種分布式資源的描述信息管理,為資源信息管理建立了一個可視化的本體維護工具。 意大利的國家生物工程研究所與 司合作完成了一項課題研究,研發了基于本體驅動的網上在線產品目 錄的檢索系統 ,系統通過運用本體與專業數據庫集成關聯,通過本體提供的概念,實現概念上的內容匹配,為檢索用戶提供在選定專業領域內的任意詞匯的組合的綜合智能檢索系統。 除此之外,國外許多科研學者,研發了許多面向 本體檢索系統。如 通過運用分布式數據的概念的結構化技術,用戶可以在此系統中檢索 已經存在的共享本體,實現信息的檢索。 通過查閱相關參考文獻,近幾年來國外在有關本體研究方面由本體庫的建設研究逐漸轉為本體的應用研究,國外的本體庫建 設已經逐步完善,并且提供一些開放的接口供其他科研單位使用,提高了本體庫的使用效率。隨著近幾年來互聯網技術的發展,基于本體的檢索系統不僅僅限于局部小范圍的應用,逐步在互聯網信息檢索方面應用。 第三節 論文的主要內容 1)本論文深入研究了本體的概念、定義、應用領域、采用的建模語言、描述語言以及本體的創建規則。提出了基于軟件工程方式的本體創建流程,以計第一章 緒論 4 算機圖書為例,詳細論述了需求分析、設計、形式化編碼以及本體評價的全過程。 2)結合數字圖書館的數據庫特征,設計了數字圖書館領域的本體形式化描述定義 ,并對本體的概念集 進行了規范的設計,提出了基于語義檢索要求的數字圖書館本體概念及關系的集合定義。 3)論文在研究傳統的數字圖書館檢索模型的基礎上,提出了基于本體語義檢索功能的改進的數字圖書館檢索系統框架,設計了用戶交互層、數據管理層和本體語義層的不同功能應用,提出了檢索系統的整體結構模型設計。 4)深入研究了數字圖書館檢索的擴展查詢,提出了基于單關鍵詞、多關鍵詞的查詢算法和處理流程,在研究目前推理機工作機制的基礎上,提出并設計了基于本體概念與關系的語義推理模型。 5)在檢索模型設計的基礎上,對檢索系統的整體流程做了詳細的實現 描述,詳細描述了本體的維護、語義推理等技術實現。系統設計實現完成后,通過輸入測試實驗數據,對比分析本系統與傳統檢索系統,驗證了本論文設計的檢索模型在查準率和查全率兩方面優于傳統檢索模型。 第四節 論文的組織與結構 本文具體結構如下: 第一章介紹論文的研究背景、國內外研究現狀以及本文所做的工作。 第二章介紹了數字圖書館的概念,研究了本論的概念、定義、描述語言、構建步驟和采用的工具,在此基礎上提出了數字圖書館領域本體的形式化描述。 第三章以計算機圖書為例介紹本體庫建設過程,提出了基于軟件工程方式的本體的創建流 程,詳細論述了計算機本體領域建設的需求分析、設計、形式化編碼以及本體評價的全過程。 第四章在研究傳統的數字圖書館檢索模型的基礎上,結合語義檢索的需求,設計了基于本體語義檢索功能的改進的數字圖書館檢索系統框架,詳細設計了用戶交互層、數據管理層和本體語義層的不同應用功能。 第五章對檢索系統的整體架構和功能進行實現的詳細描述,描述了本體的維護、語義推理的技術實現。通過樣例數據驗證了基于本體語義的數字圖書館檢索模型在查準率和查全率兩方面優于傳統檢索模型。 第一章 緒論 5 第六章總結論文的主要內容,總結了檢索模型的設計和實現,對此模 型的后期改進工作做了展望,提出了完善改進的方向。 第二章 相關理論與技術 6 第二章 相關理論與技術 第一節 數字圖書館 圖書館作為傳播知識的載體,它一直是學者、研究人員、師生等查閱文獻資料、獲取知識的重要場所。隨著信息化技術的發展和計算機應用普及 ,傳統的圖書館的服務模式逐漸向智能化方向轉變 ,尤其在檢索方式上需要更能夠達到檢索者的需求,在新的需求下,通過計算機建模實現圖書檢索的智能化在此背景下產生 9。數字圖書館突出的特征是提供信息檢索的工具,是圖書文獻數字化信息存儲和檢索的高層次的綜合應用平臺 10。 數字圖書館與傳 統圖書館相比,其在信息采集、存儲、檢索等方面有較大提高,數字圖書館綜合了圖書訂購入庫、數據更新、信息檢索與網上瀏覽等業務功能,使圖書資源實時更新,使傳統圖書館工作模式在信息存儲、管理、檢索等方面的效率得到較大的提高,最終為圖書管理人員、檢索者不受時間地點的限制實現信息的管理和檢索。數字圖書館發展的方向就是使圖書檢索模型和算法更為智能,滿足檢索者的需求,為讀者提供高質量的綜合信息服務 11 第二節 本體概念 體概念 在計算機學科中,數據信息的存儲與管理,是計算機研究的一個熱門課題,隨 著人工智能處理信息技術的出現,數據傳輸技術也有了突飛猛進的發展,海量數據的出現使許多海量數據處理技術應用產生,如何在海量數據中有效地對數據進行結構化管理,提供快捷的數據獲取模式是信息處理領域的學者和科研人員研究的重點方向,本體( 概念的管理的這種模式能夠滿足學者們研究需求。 本體概念最初的提出是來哲學領域,自本體引入到計算機中,使之成為信息資源組織和語義表達的工具,更多地通過概念層次去表達客觀世界。目前本體在信息檢索、數據管理等科學工程領域得到了較為廣泛的應用,其結構化數據描述和概念的關系 描述使其在有關數據處理領域中得到全面應用,如自然語言處理、情報檢索、人工智能、語義表述與推理等 13。 第二章 相關理論與技術 7 本體的定義的提出是經學者們經過多年逐步完善的,起初學者 出本體是由相關領域內詞匯術語組成,并且通過它定義其外延規則 14 ,隨后從事知識智能研究的 本體的定義進行了改進, 提出本體是針對概念模型的規范化表示 15, 士在 1997 年在以上學者研究的基礎上進一步完善其定義,從概念共享的角度定義本體 16,研究員 出了一個至今被廣泛認可的定義,提出 本體 的定義為:“本體是共享概念模型的明確的形式化規范說明” 17 。 從本體的定義來分析,其包含四層含義,分別是概念模型、明確、形式化和共享。“概念模型”指通過計算機語言進行抽象化處理,建立與現實世界無關的模型,能夠被計算機識別、存儲和處理。“明確”指通過定義,概念比較確切,各類條件標準明確,不存在其他的語義。“形式化”指通過本體建立的概念及關系能夠在計算機中識別、處理。“共享”指概念能夠遵照公共標準體系,能夠在其他研究領域中應用 18 19。 體的應用 1)本體的應用領域 本體的概念 一提出來,立即成為相關領域的概念、知識表示、管理的工具和平臺,其計算機的層面的表示,為信息系統中概念處理的引用提供了方便的計算機處理模型,隨著本體體系結構的不斷發展,逐漸成為數字圖書館、教育、語義網格、互聯網檢索等領域的知識管理的工具 20 21。除了本體作為知識庫管理的工具之外,越來越多的應用體現在信息集成,這是因為本體作為知識的表示,其存取遵循特定的標準,任何信息系統可根據此標準實現本體庫的維護與存取,多個系統可對同一本體庫進行操作,最終達到各個應用領域的數據和知識集成的目的 22 ,這種應用主 要體現在并發處理系統和一些商業系統的信息集成等方面。 根據本體的應用范圍和應用層面,本體的應用功能可分為三種:信息共享、信息傳輸和信息集成。 信息共享:本體通過統一的描述語言,實現對知識領域的概念的定義,這種規范化的定義最終通過計算機語言來描述,使不同層面的研究人員通過這種無二義的描述完成知識概念的理解和交流,達到實現領域知識的信息共享的目的 23。 信息傳輸:本體的最終表示通過計算機描述語言來表示,本體庫建立后,第二章 相關理論與技術 8 各使用者通過讀取存儲在計算機的本體庫完成在各不同應用的信息傳輸,同時在權限允許的條件下,一些 應用者可以更新、完善本體庫的概念結構和關系定義,這些方式的應用最終實現信息的傳輸。 信息集成:本體庫的構建過程采用軟件工程實施的方法和步驟,通過需求分析、設計、描述、實現、維護各個階段建立本體庫,這種方式有利于各個應用單位共同參與,實現信息的集成,同時建立的本體庫在不同的領域應用系統中作為信息管理的基礎平臺,通過此平臺可實現多應用系統中的信息集成 24 。 2)本體在信息檢索中的應用 一般來說信息檢索的應用要求兩個方面:第一需要最終信息的存儲表示,實現信息的存取和維護,另一方面需要信息組織方式的邏輯化,各 信息的存儲表示能夠為邏輯推理提供基礎。本體是通過概念之間的語義關聯實現推理的,此特征與檢索系統的需求相符合 25 26。 通過本體工具,在查詢系統中具體應用的步驟如下: ( 1) 構建本體庫:選取查詢的專業范圍或者子領域,通過咨詢本學科的專家或者由其直接參考,對領域內的主題概念進行分析、歸并,運用本體描述語言建立本體庫。 ( 2)本體的存儲:目前信息檢索的往往通過關系數據庫來實現,本體庫建立后,為提高信息檢索的效率和本體庫的管理,需要把本體庫按照規范的標準格式進行存儲。 ( 3)分析 用戶查索需求:把用戶提交 的查詢請求,解析成語義推理接受的模式,轉換成能夠借助推理機完成推理的表示,最終在數據庫中檢索能夠滿足檢索需求的信息。 ( 4)檢索結果處理 :把檢索的結果按照系統設定的規則進行排序,根據用戶興趣度或者設定的標準實現檢索結果的輸出。 體的構成 由本體的定義可知,本體包括兩部分:本體的概念和概念之間的關系。從數學角度分析, 7等人認為本體由概念、關系、函數、公理以及實例構成,具體描述如下: 1)概念( 指描述客觀世界中事物性質的特征集合,能夠通過計第二章 相關理論與技術 9 算機實現其事件的推 理。 2)關系( 表示領域內概念之間存在的相互作用,用數學語言描述為: : . . . . . 3 )函數( , 表 示 關 系 的 一 種 特 例 , 其 定 義 為 F : . . . . . 4)公理 (表示其定義的規則是永遠成立的,不需要證明的,常用來表示概念的屬性和關系的一些約定規則。 5)實例 (用來表示概念的一些具體的對象。如 體的描述語言 1) 本體描述語言的特征 本體的最終服務對象是檢索系統,從表示的結構分析,其結果能夠被計算機接受和處理,為此本體描述語言必須具備以下特征: ( 1)具備規范、精確的語法定義規則( 2)具備規范、精確的語義定義( 3)能夠支持邏輯推理( 4)具備強大的信息表達能力和處理規則 ( 5)表示形式易讀,方便維護。 2) 本體描述語言的類別 從應用領域和范圍來看,本體描述語言可分為基于 ( 1)基于 理應用,以標記語言作為基礎,通過這種開放性的語言表示概念的存儲和 處理,具有代表性的有以下幾種: 8、 ) 29、0、 1。 ( 2)基于人工智能處理的本體語言:此種描述規則為自行定義,沒有嚴格的統一標準,但定的規則能夠被自行編寫的程序識別和處理,如 233,這是一種本體的形式化定義, 4助一些邏輯謂詞用以概念的表示,這些本體語言一般都是根據各自的專業項目研究的描述規則,不具有開放、共享性。 3) 采用的標準 在實際應用中,本體描述語言一般有兩種:形式化和非形式化。非形式化方 式中可用自然語言描述本體,同時也可采用一些規范定義和標準來描述本體,第二章 相關理論與技術 10 如常見的語義網、資源框架等,比如與本體有關的語言標準有: 7語言標準包括了從網絡數據的表示、顯示處理、數據集成、數據傳遞的各個階段的 的應用,不同的操作系統平臺通過 現信息的交換和共享,具體標準包括基于 過結構化的標記語言,把數據結構和屬性分開表示,語義的定義通過規則約束來實現的,一般通過 結構定義,實現其與本體的概念結構相關聯,然后利用文檔結構中數據內容的表示將 數據項與本體的概念相關聯,最終實現對本體中的概念及其關系的描述,具體操作通過 現。 隨著本體概念的不斷完善, 能滿足描述的要求,為此 出了一種采用元語方式實現描述本體的方法,即通過 述簡單的本體, 一種基于三元組框架容器,它也是基于式實現數據的語義定義,數據采用 “ 資源 屬性值 ”形式,此結構能夠完全基于計 算處理的。 表示本體方面具有很大的不同,在 通過定義約束規則描述本體,而 通過標準化的元語或元語組合來實現的, 構的轉換機制實現最終 檔的生成,完成本體的描述。 雖然 本體描述方面功能有較大的提高,但隨著各領域對本體的語義推理的要求的規范化,一些弊端顯示出來,其表示不能準確地表示各概念之間的語義關系,為解決此弊端, 2001 年 計制定了 目前已成為行業標 準,通過 夠明確的表示概念含義及其之間的關系,與其他的描述語言相比, 通過更多的技術機制來實現語義的表達。 體庫建立 本體庫的建立方法一直是眾多學者研究的熱點,由于本體面向特定的專業領域,需要一套規范的、可行的技術路線作為指導,依照此路線或標準建設本體庫。 截止目前為止,國際上還未建立一套被普通認可的方法,但各個學者根據各自的項目、課題提出了一些原則、步驟和方法,一些學者提出了本體構建的第二章 相關理論與技術 11 規范,通過這些規范能夠使建立的本體庫在概念表示、語義處理方面更加規范,方便了應用系統的推理。雖然 目前尚未形成一套標準的本體構建方法,但 前較為廣泛地應用于本體庫的構建工作中,其五條規則包括:明確性和客觀性、完整性、一致性、可擴充性、最少約束。 在眾多的領域本體構建的方法中,斯坦福大學制定的七步法被廣泛采用,構建步驟為: 1)分析本體所在的專業領域,劃定知識結構范圍; 2)考慮是否能夠重用已經存在的本體庫; 3)詳細列舉、描述出本體構建領域的重要專業術語; 4)選擇本體描述語言和支撐環境; 5)定義本體中的概念的屬性及其關系;6)定義概念的屬性中存在的約 束條件; 7)構建概念的實例化。 第三節 數字圖書館領域本體的形式化描述 本體可通過形式化進行定義描述,通過描述可以表示概念、屬性、關系,定義描述是本體存存和語義推理的基礎。在本節中以計算機圖書的一部分概念子集為例說明本體的形式化描述。 計算機圖書館領域本體的本體為 包括概念集、屬性集、概念之間的關系、概念層次、推理規則。 假定本體定義 ,H,A,R,A, O n t o l o g y c其中, 計算機概念集合, 個概 念對應一個屬性集, 于表示計算機概念之間的關系集合, 個關系對應一個集合, 于表示計算機圖書概念的概念層次, 于表示推理規則或者公理。 下面通過選取計算機頂級的幾個概念說明描述的方法: 1)概念集合 計算機基礎理論與方法、基礎知識概念、計算機硬件知識、計算機軟件知識 2)概念的屬性集 = 計算機 基礎理論與方法 ), C 基礎知識概念 ), C 計算機硬件知識 ), 計算機軟件知識 ) 第二章 相關理論與技術 12 其中: 計算機基礎理論與方法 ) = 計算機編譯理論、離散數學、自動機理論、程序算法、系統結構 基礎知識概念 ) = 設備安全、系統的軟硬備份、數據庫的安全操作、數據加密、計算機日常維護 計算機硬件知識 ) =處理器、存儲設備、輸入輸出設備 計算機軟件知識 ) =操作系統、應用系統、程序語言、算法設計 3)概念之間的關系 由于計算機概念比較多,為表示概念之間的關系,在計算機其他概念作為說明。 聯網), 構化查詢語言), 件開發, 需求分析 ), 網絡,局域網), 4)關系的屬 性 = = 同義領域 = 部分關系 5)概念層次結構 ( 6)推理規則或公理 推理規則是推理的基礎,假如用 )表示概 念 ,其中的取值為 0 用 示概念 關系( 屬性 如同義關系的相關度為 1,則表示 2, 1)。如 聯網) =1。 第二章 相關理論與技術 13 第四節 本章小節 本章為相關知識和技術介紹部分,研究了本體的概念、定義、應用領域、采用 的建模語言、描述語言以及本體的創建規則,這些知識為后面的本體的建立和系統的設計提供基礎。 第三章 計算機圖書本體庫建設 14 第三章 計算機圖書本體庫建設 第一節 計算機本體庫的構建背景 本課題是研究基于本體語義的數字圖書館查詢系統,本體庫的建設是課題研究的重要內容,從前面的相關知識理論可以知道,本體庫是以專業領域中的知識概念為基礎實現語義上的知識庫的組織,課題本體庫是服務于數字圖書館數據檢索的,很顯然,目前數字圖書館數據庫中存儲的專業門類和領域復雜,知識分類比較龐雜,建設一個基于全部專業領域的本體庫是一件不可能完成的, 因此在課題的研 究過程中,以選取一個專業、學科的某一分支的知識為例進行本體庫的搭建是切實可行的。 基于論文的作者的專業知識,本論文以計算機類圖書為例,結合相關參考文獻,對現有的計算機類的主要概念進行提取、合并,構建語義上的關系來實現計算機圖書本體庫。論文中本體庫的構建的數據來源于作者所在高校的圖書館數據庫,在構建過程中,作者參考了中國文獻編目規則 38和 計算機科學技術漢語敘詞表 39,對計算機專業概念的術語、詞匯進行規范化處理。 第二節 本體庫采用的語言和工具 論文本體庫構建時采用的描述語言為 計的規范的基于專業領域的語言標準, 它能夠準確地表示出概念主題詞的含義及其之間的關系,能夠支持多種推理機,開發者可以通過其提供的程序二次開發編程接口實現對本體庫的操作。在課題研究中,我們通過運用 計算機的專業詞匯進行了準確的描述,并且設計了概念之間的關系。 本體庫構建采用了斯坦福大學設計開發的 0,目前它已經被廣泛使用,成為本體庫開發者的普通選用的工具,它支持 言,給創建者提供了本體的概念類、屬性、關系和實例的構建,其構建過程與具體的描述語言無關的。 第三章 計算機圖書本體庫建設 15 第三節 計 算機本體庫的構建步驟 由第二章相關理論內容可以知道,本體庫構建過程一般分為七步法來完成,每個過程清晰明確,但在課題項目的設計時,發現其過程不是建立在工程實踐的基礎上的,為達到構建本體庫的創建過程的流程化,使本體的設計、創建、維護工作減少工作量,實現其標準化,為此我們在課題研究時提出了一種借鑒計算機學科中軟件工程中的項目設計開發步驟來完成本體庫構建的,這種方法是參考了傳統的七步法和軟件工程方法,具體步驟如圖 示。 圖 體庫構建步驟 本體專業領域的確定 本體構建規劃 本體信息的獲取 需求分析階段 列舉本體中的重要術語 定義類及其繼承關系 定義屬性和關系 設計階段 定義屬性的限制 定義實例 形式化編碼 本體的評價 第三章 計算機圖書本體庫建設 16 求分析階段 1)本體專業領域的確定 近年來隨著計算機應用的普及,計算機專業知識已經成為一個應用范圍較廣的知識體系。論文建設的計算機領域本體是其中一個子集,由于計算機專業門類較為龐大,信息量大,不可能把全部的計算機知識點都考慮進去,并且本體庫需要更新維護的,需要一個更新維護、不斷完善的過程。本論文的本體庫構建好之后,將提供給語義檢索的用戶,通過本體對輸入的關鍵詞進行語義擴展,提高查全率。 2)本體構建規劃 本體構建規劃分為三個階段: 第一階段:確定本體領域,收集專業領域內的詞匯表。 第二階段 :對前一段收集的詞匯進行整理取舍,以概念的形式表示,在本階段詳細設計和形式化編碼,完成后需要進一步實施本體評價。 第三階段:屬于本體庫完善的過程,由本體庫維護人員根據學科的不斷發展,吸取新出現的專業詞匯,補充到本體概念中,并且刪除一些過時的概念。 3)本體信息的獲取 在本階段,以作者所在高校的圖書館的數據庫中計算機類圖書中的主題詞為基礎進行分析、歸類,結合計算機專業的漢語敘詞表,把這些概念合同整理后,得到本體信息的基礎數據。 計階段 1)列舉本體中重要的術語 由于計算機領域知識繁雜,分類較多, 本體的頂層結構的劃分是個比較復雜的問題,作者根據計算機學科的框架結構,把計算機本體的頂層結構劃分為四部分:計算機基礎理論與方法、基礎知識概念、計算機硬件知識以及計算機軟件知識。其結構圖 示。 計算機基礎理論與方法是針對有關計算機理論方面的概念的集合,一般集中在計算理論、組合數學、算法等相關課程。 基礎知識問題一般包括計算機方面的日常維護知識,具體包括計算機設計方面的工藝、日常維護和檢修方面的知識。計算硬件知識主要針對計算機體系結構、計算機組成原理課程涉及的相關概念。具體性能計算、體系結構、硬件第三章 計算機圖書本體庫建設 17 結構等。 計算機軟件知識主要從軟件工程、操作系統、程序設計等課程組合的相關知識等。 圖 算機本體庫概念結構 以上分類是作者在自己的計算機知識結構的基礎上,再通過征求老師意見形成的框架結構,基本涵蓋了計算機領域的知識,以上框架的分類不是唯一的,在本課題研究中,采用了以上框架結構設計了計算機本體庫。 ( 1)計算機理論與方法概念 本論文本體庫劃定的計算機理論與方法概念主要面向一些計算機學科的基礎理論,包括計算機編譯理論、離散數學、自動機理論、程序算法、系統結構等。 ( 2)基礎知識概念 本論文本體庫劃定的基礎知識 概念主要指一些有關計算機硬件工藝設計、制造、硬件檢測和故障排查等方面的概念。具體包括計算機的設備安全、系統的軟硬備份、數據庫的安全操作、數據的加密和計算機日常維護等知識。 第三章 計算機圖書本體庫建設 18 ( 3)計算硬件知識概念 本論文本體庫劃定的計算硬件知識概念主要硬件數字電路、邏輯電路等方面的知識;具體包括計算機基礎組成的處理器、存儲設備、輸入輸出設備等方面的概念知識;還包括有關網絡的硬件資源,如 域網、城域網、局域網絡等方面的網絡設備知識概念,如網卡、集線器、路由器等。 ( 4)計算軟件知識概念 本論文本體庫劃定的計算 軟件知識概念主要包括操作系統、應用系統、程序語言、算法設計等,另外還包括計算機網絡的軟件資源,如網絡的操作系統、網絡協議、網絡算法等。 2)定義類及其繼承關系 本體中的類的繼承結構可采用自頂向下或自底向上的方法,從層次結構模式中可采用自頂向下的方法,先建立頂層開涮,然后逐步添加其下屬子概念,最終完成所有子類的定義,例如“計算機軟件知識”概念中的“程序設計”、“操作系統”、“應用軟件”等這些概念形成了“ 系,可把其作為“計算機軟件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論