計算機新技術_第1頁
計算機新技術_第2頁
計算機新技術_第3頁
計算機新技術_第4頁
計算機新技術_第5頁
已閱讀5頁,還剩127頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、計算機新技術學術講座報告人:黃 超個人簡介復旦大學計算機軟件與理論 博士東南大學電子商務系 副教授東南大學經濟決策與信息管理研究所 副所長主要研究方向: 數據庫/數據倉庫、數據挖掘與知識發現、智能信息處理。已在國內外計算機類核心期刊發表論文十余篇,其中多篇論文被EI檢索。研究課題:數據挖掘應用平臺研制及應用 (國家863項目)智能交通數據挖掘平臺(信息產業部攻關項目)環球多市場金融信息平臺(上海市科委攻關項目)2主要內容計算機硬件與互聯網技術計算機軟件技術智能信息處理技術3計算機硬件與互聯網技術集群計算技術網格計算技術普適計算本體論與語義網絡4集群計算技術什么是集群集群是使用兩臺或兩臺以上的服

2、務器組成的服務器集合,用以提供高性能的不停機服務,每臺服務器均承擔部分計算任務和容錯任務,但是整體上表現為一個單一系統。與傳統的并行計算模型相比,集群中各節點的復雜度中等,但是在單一系統映像、可靠性和可伸縮性上更優越。由于集群大多使用標準的商用部件,因此能夠大幅度降低企業成本,如下頁表所示。5集群計算技術特征MPPSMP集群分布式系統節點個數100-100010-10010010-1000節點復雜性低中中高中高節點通信消息傳遞、共享變量共享存儲器消息傳遞共享文件、PRC、消息單一系統映像部分支持支持完全支持不支持任務調度主機單一隊列單一運行隊列多隊列協同獨立運行隊列系統可用性中低高中系統可擴展

3、性低中(100CPU以下)高中6集群計算技術集群系統的組成部分后臺共享存儲設備集群內部網絡通訊公共網絡虛擬的前臺界面無虛擬內存的的集群系統為了進一步提高集群系統的效率,使用高速網絡將各主機的內存連接起來,當一個任務的內存不夠時,它可以通過遠程缺頁的方式使用遠程結點的內存,這樣可以通過高速網絡共享全局內存。7集群計算技術無虛擬內存集群系統的難點整個資源的分配概念發生了變化,它是基于內存的資源分配;一個結點可能需要訪問另外一個結點的內存,這就需要解決結點內存的所有權和自治問題;需要解決全局內存管理問題(集中式還是分散式),通過全局內存管理,應能達到減少網絡流量,降低延遲和數據本地優化的目的。 目前

4、的操作系統還沒有實現上述的處理,我們需要重構操作系統以方便內存資源共享。8集群計算技術集群的分類科學計算集群該集群主要用于大規模數值計算,解決復雜的科學問題。這種集群上一般運行專用軟件,能夠將數據分布到不同的服務器上進行解決。針對不同的科學計算任務,一般有以下兩種方式:任務分片方式:將任務分成多個子任務并分配到各節點,每個節點單獨運行出結果,最后匯總計算結果;并行計算方式:各個節點可以進行具有強藕合關系的運算,運算中交換大量數據。9集群計算技術負載均衡集群該集群的目的是使負載盡量在各個節點中均衡分布,如計算負載、網絡流量負載等。高可用性集群該集群的目的是使服務系統的運行速度和響應速度盡可能快,

5、通過將程序運行在冗余節點上,集群具有更好的容錯性。高可用性集群可以分為主從方式、雙機備份方式和多機備份方式。10集群計算技術并行數據庫集群近年來興起的集群類型,同時具有并行計算、高可用性和負載均衡等多種特征,主要用于高端數據庫領域,如Oracle RAC和 IBM DB2 EEE。Oracle RAC系統每臺主機擁有獨立的CPU和內存,但是共享磁盤空間,主要針對于大量用戶并行的訪問,I/O沖突采用數據庫的鎖機制解決;DB2 EEE中各計算機擁有獨立的CPU、內存和磁盤,并且高速相連,對每一次訪問,每個節點查詢本地表中的相應結果,返回給協調程序,最后匯總成最終查詢結果。11網格計算技術網格的基本

6、概念什么是網格(GRID)網格是以Internet技術和分布計算技術為基礎,將地理上分散的各類計算資源、存儲資源、數據資源、應用資源、儀器設備等構成統一的虛擬環境,采用開放標準的協議,實現資源的有效共享,為動態參與的、由多機構所形成的虛擬組織協同完成高性能計算、信息處理等各類應用,提供可擴展的、安全的、一致的、不同等級質量的服務。網格是集群系統的進一步發展。12網格計算技術網格計算的產生背景分布式計算、高性能計算、大規模的資源共享、協同工作、數據密集型的科學計算。網格的本質特征是分布與資源共享高度抽象自相似動態性和多樣性高可擴展性網格計算的示例(見下頁圖所示)13網格計算技術Tier 1Tie

7、r2 Centre 1 TIPSOnline SystemOffline Processor Farm 20 TIPSCERN Computer CentreFermiLab 4 TIPSFrance Regional Centre Italy Regional Centre Germany Regional Centre InstituteInstituteInstituteInstitute 0.25TIPSPentium II 300 MHzPentium II 300 MHzPentium II 300 MHzPentium II 300 MHzPhysicist workstatio

8、ns100 MBytes/sec100 MBytes/sec622 Mbits/sec1 MBytes/secHPSSHPSSPhysics data cachePBytes/sec 622 Mbits/sec or Air Freight (deprecated)HPSSHPSSHPSSTier2 Centre 1 TIPSTier2 Centre 1 TIPSTier2 Centre 1 TIPSCaltech 1 TIPS622 Mbits/secTier 0Tier 2Tier 414網格計算技術網格的系統結構(見下頁圖所示)網格結點:地理上獨立的計算和信息中心,由Internet 上

9、孤立、異構的各類資源組成;網格中間件:網格體系結構的核心部分,其功能是屏蔽網格資源層中計算資源的分布、異構性,向網格應用層提供透明、一致的服務接口,如遠程進程管理、資源分配、存儲訪問和安全控制等。網格應用工具層:提供更為專業化的服務和組建不同類型的應用。網格應用層:應用層包括各種應用軟件的研究、高速網格的建設等,它可以使用戶方便地共享網格中的各種資源。15網格計算技術16網格計算技術典型的網格系統(1)Globus系統什么是GlobusGlobus 是一個研究性的項目,其主要的研究目標是網格基礎技術研究,以及相應軟件的開發和標準的制定。Globus 是網格技術的典型代表,也是目前事實上的規范。

10、 Globus 是一種軟件基礎設施,它以單一虛擬機的方式處理分布異構的計算資源,其核心在于Globus Metacomputing Toolkit ( GMT) ,它提供了建構一個計算網格所需的基本服務,如安全、資源定位、管理和調度、通訊服務等。17網格計算技術Globus的五層結構應用層多科學模擬光線追蹤匯聚層(面向問題)聯合求解器,分布式數據文檔檢查點,作業管理,故障避免,分段運輸匯聚層(通用)資源發現,資源代理,系統監控,社團授權,收回證書資源層訪問計算,訪問數據,訪問系統結構,狀態與性能信息連接層通信(IP),服務發現(DNS),認證,授權,代理構造層存儲系統,計算機,網絡,代碼庫,目

11、錄18網格計算技術典型的網格系統(2)TeraGrid系統TeraGrid網格系統基本情況與主要應用TeraGrid網格系統最初包括4個節點,后擴充到9節點,節點間通過 10-30 GB/s 的專用網絡互聯,具有超強的計算能力和存儲能力。協作進行分布式數據集的分析和交換:各節點進行獨立的數據分析,整個項目的完成依賴于快速和頻繁的分析結果交換,如研究宇宙射線項目;多個機構共享的分布式模擬:例如規模龐大的地震模擬計算在不同的節點進行,任何節點的科學家可以通過高速網絡快速獲取各個不同階段的計算結果;19網格計算技術網格計算的關鍵技術安全技術網格安全機制相當復雜,各種自治資源交互時既不能影響資源本身的

12、可用性,又不能在系統中引入漏洞。Globus 提出了網格安全基礎設施GSI ,GSI 主要集中在網絡的傳輸層和應用層,采用X1509 認證和安全套接層(SSL)通信協議,GSI 中的主要安全技術包括安全認證、安全身份相互鑒別、通信加密等。20網格計算技術異構系統的單一系統映像技術網格包含多種異構資源,實現異構機器間的合作和轉換,向用戶提供統一、透明的服務是首要問題。Globus 中使用使用輕量級目錄訪問協議(LDAP)作為訪問該信息的接口。 通過使用LDAP服務器,MDS 在公共接口中提供了中間件信息,從而將統一的圖像放在全異資源的頂部。21網格計算技術網格統一資源管理技術網格資源管理包括資源

13、信息的組織、查詢與更新等, 網格資源分為計算類和非計算類資源。 計算類資源信息包括所有網格結點及網絡的靜態和動態信息,如結點計算能力、存儲能力、網絡結構和性能指標;非計算類資源信息指網格中服務于系統和用戶的信息,如網格用戶信息、軟件信息、服務功能信息等。Globus 使用GRAM 處理資源請求、執行遠程應用、分配資源等任務,并根據計算資源的情況,把資源更新信息發送給MDS。22網格計算技術網格技術的缺陷和局限網格系統對數據通訊速率要求很高,影響了系統效率或提高了成本;網格系統的維護費用比集群等高得多;由于目前網絡帶寬比CPU資源昂貴得多,且因特網成本降低的速度低于芯片成本降低的速度,因此網格系

14、統目前比較適合于計算復雜、但數據傳輸量小的應用。對于大多數應用,集群系統方案綜合看來更優越。23網格計算技術網格技術在數字油藏模擬中的應用背景當前被模擬的油藏模型從幾十萬個單元到幾千萬個單元, 運行平臺主要是專業的并行機。隨著老油區開發難度的增大,油藏模型的面積和數量將會明顯地增加和擴大,繼續用傳統的并行計算機來模擬,為了達到理想的模擬速度和效果,其硬件平臺的投資將很高。同時隨著隨著并行機市場不斷萎縮,其系統的擴容、維護等都存在很大的問題。24網格計算技術目的為獲得低成本、高性能的計算平臺,以滿足企業對油藏模擬不斷增長的計算需求,國外石油公司逐步采用了基于網格技術的PC 集群系統(即以PC 集

15、群作為網格主節點,再通過網格中間件并入其他異構系統)替代并行機來進行油藏模擬。對比實驗選擇了國外某油田100 萬個網格 、8 個斷層、7 個組分、100 個井的模型,模擬時間20 年。對比IBM SP2并行機與基于千兆以太網、Myrinet 高速交換技術和AMD Opteron 64 位CPU的PC 集群系統。(基于VIP 模擬軟件)25網格計算技術實驗結果(新疆油田勘探開發研究院提供)在模擬計算的精度和穩定性上,PC集群系統與并行機結果相當;到IBM SP2 的4 個節點8 CPU 的并行機上模擬,系統運行了30.2 個小時后,同樣CPU 個數的基于Myrinet 的PC 集群的運算時間為1

16、1.66 小時;基于千兆以太網的PC集群運算時間是16 小時,在運算速度上,比IBM SP2 提高了2.61.9 倍;VIP 軟件的計算節點之間需要大量的數據交換,去計算相鄰網格單元邊緣處的偏移。在PC 集群系統中,當計算節點很多時,存在著訪問網絡的瓶頸問題。26普適計算普適計算普適計算的定義普適計算是信息空間與物理空間的融合,在這個融合的空間中人們可以隨時隨地、透明地獲得數字化的服務。隨時隨地是指人們可以在工作、生活的現場就可以獲得服務,甚至是由系統主動提供;透明是計算機技術已經滲透到人們的日常生活中,以致于人們根本沒有意識到這些技術。普適計算強調把計算機嵌入到環境或日常工具中去,讓計算機本

17、身從人們的視線中消失,讓人們注意的中心回歸到要完成的任務本身。27普適計算普適計算的研究內容智能環境和不可見的計算即物理環境與信息環境有效地融合,信息環境能夠自動、智能地感知物理環境中的變化。常用的方法包括:(1)直接在物體上嵌入一定的感知、計算、通信能力,使其同時具有物理空間和信息空間中的用途;(2)為每個物體添加可以被計算機自動識別的標簽,如紅外或者RFID。28普適計算無縫的可移動性用戶能夠在不同的服務空間中很自然地移動,可以把應用從一個設備移動到另一個設備中。普遍的信息訪問通過網絡和服務器的支持,用戶能在任何時間和地點檢索信息,利用任何種類的交互設備與遠程聯網的設備進行交互。覺察上下文

18、的計算系統能覺察在當時的情景中與交互的任務有關的上下文,并據此做出決策和自動地提供相應的服務。29普適計算普適計算的實例RFID(無線射頻識別標簽)通常為一片帶有存儲單元和天線的半導體芯片,通過天線與讀取器進行非接觸通信。普適計算環境下,帶有RFID標簽的衣服能夠在商場收銀臺顯示商品的價格,能夠將衣服的布料成分傳遞給洗衣機和電熨斗,使洗滌、烘干程序和熨燙溫度均可以自動設定。家庭計算機可以通過RFID信息了解到衣物的保暖、防風性能,自動比較主人外出前穿戴衣物的保暖性能是否適應室外的氣候,包括當時的氣候和一段時間之后的氣候。如果主人出遠門,計算機還會通過訂票信息了解目的地的氣候情況并進行分析,這些

19、分析會根據每個個體的衣著習慣進行。 30本體論與語義網絡本體論與語義網絡什么是本體(Ontology)在哲學界,本體作為表述哲學理論的術語,是指形成現象的根本實體。在信息技術與知識領域,本體是用于描述或表達某一領域知識的一組概念或術語,可用于組織知識庫較高層次的知識抽象,也可用來描述特定領域的知識。總的來說,本體就是通過對于概念、術語及其相互關系的規范化描述,勾畫出某一領域的基本知識體系和描述語言。31本體論與語義網絡研究本體的意義本體可以在不同的建模方法、范式、語言和軟件工具之間進行翻譯和映射,以實現不同系統之間的互操作和繼承。本體和數據庫在功能上有些相似,但是定義本體的語言,在詞法和語義上

20、都比數據庫所能表示的信息豐富得多,并且本體提供的是一個領域嚴謹豐富的理論,而不單單是一個存放數據的結構。本體是領域內重要實體、屬性、過程及其相互關系形式化描述的基礎,這種形式化的描述可成為軟件系統中可重用和共享的組件。32本體論與語義網絡對于知識管理系統來說,本體就是一個正式的詞匯表。本體可以將對象知識的概念和相互間的關系進行較為精確的定義。在這樣一系列概念的支持下進行知識搜索、知識積累、知識共享的效率將大大提高,真正意義上的知識重用和知識共享也能成為現實。本體適合表示抽象的描述,而企業模型是人們對企業或者企業的某些模型的抽象描述,因此在企業邏輯建模中,本體的使用可以幫助我們清楚地理解企業特定

21、領域的相關元素、關系和概念,讓知識表達更加準確便捷,幫助人們進行更好的企業決策。33本體論與語義網絡本體的分類頂層本體描述的是最普遍的概念及概念之間的關系,如空間、時間、事件、行為等等,與具體的應用無關,其他種類的本體都是其的特例;領域本體描述的是某個特定領域(如醫藥、地理等)中的概念及概念之間的關系;任務本體描述的是特定任務或行為中的概念及概念之間的關系;應用本體描述的是依賴于特定領域和任務的概念及概念之間的關系。 34本體論與語義網絡語義網絡的產生背景現有互聯網技術只是按照URI來定位信息,并沒有對信息的含義進行描述,但對信息的內容并不關心,因此互聯網上信息處理的自動化、智能化程度是很低的

22、。語義Web通過擴展現有互聯網,在信息中加入表示其含義的內容,使計算機可以自動與人協同工作,提高信息處理的自動化和智能化。語義Web是要把Web 上的資源(如一篇文章里的關鍵詞的含義和主題思想)用本體論語言標注明確其語義,然后進行基于語義的查詢和推理。35本體論與語義網絡語義Web的分層結構基于XML的語法層XML允許用戶為文檔添加結構信息,但并不能說明這些結構的含義,語義Web 結構中使用XML 作為語法層,為語義Web 的建立提供語法基礎。基于資源描述框架(RDF)的數據層RDF 是對結構化的元數據編碼、交換和重用的基礎。在語義Web 模型中,信息統一以RDF 句子的形式存儲,便于機器理解

23、。RDF 數據模型表示為一個有向標記圖,該圖獨立于實現且可以用XML 來序列化。36本體論與語義網絡基于本體的語義層本體適合于描述互聯網上各種不同的、分散的、半結構化的信息資源。通過定義共享的、通用的領域知識, 本體幫助人和機器進行語義級的交換, 而不僅是語法級的。邏輯層邏輯層提供了規則, 從而便于進行推理。證據層在邏輯層基礎上交換推理的結果,為了檢查這些結果,需要將內部推理機制轉化為一種通用的證據表示語言。37本體論與語義網絡語義Web的應用研究Web services 是一系列用來促進跨平臺的程序間通信的標準。語義Web 可以提高用戶對Web services 進行定位、選擇、運用、組合和

24、監控的自動化程度。語義Web 用本體來描述各種網上資源,網絡中的知識將用一種結構化、邏輯化、語義化的方式來表示。代理(Agent)可以在本體的指導下對網上知識進行讀取和推理,并形成一個動態聯系的Agent網絡,傳統的C/S計算模式將可能被一種基于Agent的分布式計算模式所取代。38本體論與語義網絡現有的搜索引擎是基于關鍵字,詞語中的多義詞和同義詞降低了查詢的精確性。盡管研究者們提出許多算法來解決這個問題, 但從網頁的文本內容入手僅能得到有限的語義信息,而語義Web則可以較好的處理這個問題。近年來大量的數字化多媒體數據被加入互聯網,傳統的基于內容的多媒體數據檢索技術,不能有效利用網上的多媒體數

25、據。基于語義的查詢能夠利用多媒體資源的高級特征,從而使各種多媒體數據資源得到有效利用。39計算機軟件技術數據庫技術數據倉庫空間數據庫、移動數據庫實時數據庫、數據流技術XML數據庫、微型數據庫商用數據庫新進展數據庫新技術在地礦行業的應用軟件工程技術軟件工程中的知識管理40數據庫技術數據倉庫數據倉庫數據倉庫的定義面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。數據倉庫的主要特點:數據倉庫面向分析型數據處理,用于支持決策,不同于企業現有的操作型數據庫;數據倉庫是對多個異構數據源進行的有效集成,并按主題進行重組,數據一般也不再修改。 41數據庫技術數據倉庫數據倉庫的體系結構圖

26、數據倉庫抽取轉換加載更新OLAP引擎分析查詢報表數據挖掘監測集成元數據數據源前端工具數據集市操作數據庫其它數據源數據存儲OLAP 服務器42數據庫技術數據倉庫數據倉庫與聯機分析處理OLAPOLAP是使分析人員能夠從多角度對信息進行快速、一致、交互地訪問,從而獲得對數據的更深入了解的一種軟件技術,其目標是滿足在多維環境下特定的查詢和報表需求。 OLAP的核心是將數據按照多維結構(即數據立方體)進行組織與處理,即將實體的重要屬性定義為“維”,并且“維”可以包含復雜的層次結構。 根據“維”的結構層次不同,OLAP分析的常見操作包括下鉆、上卷、切片、切塊以及旋轉等。 43數據庫技術數據倉庫數據立方體的

27、實例美國的電視機年度銷售總額日期產品國家All, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum44數據庫技術數據倉庫數據倉庫與OLAP的實現方式MOLAP:使用多維數組存儲數據。多維數據在存儲中將形成“立方體”的結構。 ROLAP:以關系數據庫為核心,以關系表進行多維數據的表示和存儲。ROLAP將多維結構劃分為兩類表,即事實表(存儲數據和維關鍵字)和維表(用于存放維的層次、成員類別等描述信息)。常見的組織形式包括“星型模式”和“雪花模式”。 HOLAP:基于混合形式的實現,例如低層是關系型的,高層是多維矩陣,該方式更具靈活

28、性。45數據庫技術數據倉庫星型模式實例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch

29、46數據庫技術數據倉庫數據倉庫實施的難點業務模型與數據模型的建立;相關主題領域的確定;元數據的設計和管理;數據的凈化和集成;自下而上和自上而下實施策略的選擇;47數據庫技術空間數據庫空間數據庫空間數據庫的出現背景:GIS的普及使用。傳統RDBMS管理地理信息數據的局限地理信息數據一般為連續數據,并具有較強的空間相關性;地理信息數據的實體類型多,空間關系復雜;地理信息數據的數據項復雜,變長記錄居多;地理信息數據需要大量的空間操作和查詢,如拓撲關系查詢和相似性查詢等;48數據庫技術空間數據庫空間數據庫的實現方式混合模式 :將非空間數據存儲在RDBMS中,將空間數據存放在文件系統中。缺點:空間數據無

30、法獲得DBMS的有效管理,文件的通用性差。 集成模式:將空間數據和屬性數據全部存儲在數據庫中,這是目前空間數據庫的發展方向。 空間數據引擎:處于應用程序和RDBMS之間的中間件技術,客戶通過引擎對RDBMS中的空間數據進行訪問,如MapInfo提供的中間件產品SaptialWare。 通用空間數據庫 :在DBMS中管理空間數據,如OracleSpatial 。這類數據庫一般采用對象-關系模型, 使用R-tree等高效空間索引結構,并支持SQL語言查詢。49數據庫技術空間數據庫空間數據庫未來的主要研究方向支持場實體的數據庫必須具有高效的柵格處理能力,如柵格的存儲策略、索引形式等;更高效的高維空間

31、索引結構,已出現的新的結構包括R*-tree、TV-tree、X-tree、M-tree等;如何高效地進行基于內容的查詢,如“查找所有背景為海洋,前景為海灘的圖像”;空間數據倉庫中,空間數據的各種分析操作以及結果的可視化顯示,都有待于進一步研究;各種空間數據挖掘技術。50數據庫技術移動數據庫移動數據庫移動數據庫的定義移動數據庫是傳統的分布式數據庫的延伸和擴展,是一個由無線網絡和有線網絡組成的復雜的、異構的分布式系統,各種移動用戶可以通過移動設備訪問固定網絡中的信息。移動數據庫的新特點移動性、頻繁的斷接性網絡的多樣性和非對稱性資源的有限性51數據庫技術移動數據庫移動數據庫系統結構52數據庫技術移

32、動數據庫RDBMS在管理移動對象方面的不足不支持移動對象的數據模型和查詢語言;針對移動對象需要處理大量的位置信息,操作性能不高;移動數據庫需要解決的關鍵問題移動對象的位置表示模型與數據存儲方法 ;移動對象索引、位置更新策略與空間查詢處理;新的事務管理策略和處理機制; 數據的同步與一致性;數據的安全性。53數據庫技術移動數據庫上述問題的解決方法設計新的移動對象模型,一般與GIS對象模型的國際標準兼容;使用對象關系數據庫(ORDB),擴展SQL查詢語言,設計新的存儲和索引機制;新的事務處理機制(如新的兩階段提交模型),例如根據連接速度決定事務優先級,移動事務的結果實時更新等;新的數據同步機制,如普

33、遍采用的樂觀復制法;對移動終端進行認證,對無線傳輸進行加密,保證數據的安全。54數據庫技術實時數據庫實時數據庫(RTDB)基本概念實時數據庫就是其數據和事務都有顯式定時限制 的數據庫,系統的正確性不僅依賴于事務的邏輯 結果,而且依賴于該邏輯結果所產生的時間。 實時數據庫是實時系統和數據庫技術相結合的產 物 ,用于處理不斷更新、快速變化的數據,以及具有時間限制的事務處理。但是實時數據庫并不是上述兩種技術的簡單結合,而是涉及到一系列的整合技術。55數據庫技術實時數據庫實時數據庫的基本特征數據特征:實時數據庫中的數據對象由當前值、采樣時間和外部有效期 三個分量組成,數據必須滿足內部一致性(傳統數據庫

34、的完整性和一致性)、外部一致性(數據與外部對象在時間上一致)和相互一致性(導出數據的時間有效性)。事務特征:實時數據庫中事務的執行有顯式的時限,并且事務必須在指定的時間內被正確執行。此外,由于受到時間因素的影響,事務間存在多種語義相關性,如 結構相關、數據相關等。56數據庫技術實時數據庫實時數據庫的主要技術實時數據模型與語言;(傳統模型引入時間維)實時事務模型與處理;(非原子型的復雜事務模型,與多個時間屬性相關的新的優先級、調度機制和并發控制)數據存儲與緩存管理;(使用內存數據庫技術降低I/O對時間效率的影響,不同優先級事務的緩存管理)恢復;(實時數據庫的恢復可能影響到活動事務,有些事務從時間

35、的角度是不可恢復的,需要用到補償事務)57數據庫技術實時數據庫實時數據庫的訪問方式使用API訪問;(效率高、簡單)使用ODBC訪問;(由于實時數據庫與關系數據庫差異較大,該方法效果有限)使用OPC (OLE for Process Control)方式訪問;(OPC是為了給眾多的API訪問算法,提出一個統一標準的存儲接口,超過200家產商已經加入OPC組織)58數據庫技術實時數據庫實時數據庫的產品與應用Aspentech公司的Infoplus.21 (石化行業)OSI公司的PI (Plant Information System)(電力行業)(數據壓縮效率極高,性能好)Honeywell公司的

36、PHD( Process History Database)(內嵌Oracle數據為后臺)Wonderware公司的Industrial SQL 國內公司的SuperInfo 和RealInfo 59數據庫技術數據流技術數據流技術數據流的基本概念數據流由一系列按序到達的數據組成,也可以看作是信息傳輸過程中經編碼處理的數字信號串。數據流的典型實例包括網絡監測信號、Internet中的IP數據包、WEB服務器上的用戶登錄記錄、電信公司的通話記錄、股票交易信息等。60數據庫技術數據流技術數據流的特點數據連續、實時地到達,并且在時間維度上嚴格有序 ;數據量巨大,有可能具有無限長度;數據流中的數據經常發

37、生較大的變化,并且往往需要快速、實時地處理和響應;數據一經處理,除非特意保存,否則不能被再次取出處理(即一次性處理),或者再次提取數據的代價昂貴;大多數數據流都需要進行抽象化、層次化處理。61數據庫技術數據流技術數據流的基本模型滑動窗體:設置一個窗口,隨著數據的不斷到達,舊數據從窗口的一端移出,新數據從窗口另一端移入。界標模型:數據范圍從某一個已知的初始時間點,一直到當前時間點為止的所有數據。快照模型:兩個預定義時間戳之間的所有數據。 滑動窗體模型和界標模型能夠處理不斷到來的新數據,更接近于真實應用,因而得到更加廣泛的研究和使用。62數據庫技術數據流技術數據流領域的主要研究內容數據流管理系統6

38、3數據庫技術數據流技術數據流查詢數據流的查詢與傳統DBMS顯著不同,如單調與非單調的連續查詢、自適應查詢(如數據流速率變化時)與分布式查詢(從多個源查詢數據時如何減少網絡通信)。數據概要設計使用各種概要信息(或總結信息)代替無限的數據。常見的概要信息包括:直方圖、小波系數以及各種統計量(如均值、方差、頻率、回歸系數等)。基于數據流的各種算法包括查詢算法、分析與挖掘算法等,這些算法大多屬于單遍掃描算法,并需要使用數據的概要信息。64數據庫技術數據流技術數據流管理系統的兩大類型在傳統的DBMS中加入數據流管理的功能,這一方向進展不大,目前主流的商用數據庫中都未實現該功能;專用的數據流管理系統斯坦福

39、大學的STREAM :拓展SQL語言在數據流上的處理功能,開發新的查詢語言,通過特殊的窗口操作將流數據轉換為關系處理。伯克利大學的TelegraphCQ :一個連續查詢處理系統,重點在于共享查詢估算和自適應查詢處理;65數據庫技術XML數據庫XML數據庫什么是XML數據庫XML數據庫是可以對XML文檔進行存取、管理和查詢的數據庫。 XML數據存儲的問題目前大量的XML 數據以文本文檔方式存儲,這種方式難以支持復雜高效的查詢應用;用傳統關系數據庫可以將 XML 文檔分開放到關系表中,或者直接將其看作一個大的二進制對象,主要問題在于模式映射帶來的效率下降,以及數據語義的丟失。66數據庫技術XML數

40、據庫XML數據庫的分類純XML數據庫管理系統(NXD)NXD是專門針對XML 格式的文檔進行存取、管理和查詢的數據庫;Tamino XML數據庫是全球第一個完全的XML DBMS,能夠處理各種結構化和非結構化的數據,適合開發基于XML標準的商業應用。Tamino 能保存層次結構的XML文檔,允許XML數據的直接存儲、集成和交換,不需要將其轉化為關系型的表格格式,因此在性能上優于附帶XML轉換器的關系型數據庫,并且具有很好的擴展性。67數據庫技術XML數據庫支持XML的數據庫(XEDB)XEDB是在傳統數據庫的基礎上,通過增加對XML數據的管理功能,從而實現對XML數據的管理的數據庫。XEDB的

41、主要用途是實現數據關系不太復雜的XML文檔與傳統數據庫之間的轉換。微軟公司的SQL Server 2005可以存儲和處理XML數據,且無須將這些數據轉換為關系列和行,更不需要將其存儲為二進制大型對象。編程人員可以使用XQuery來檢索XML數據。其他商業數據庫,如DB2和Oracle等都加入了對XML的支持。68數據庫技術XML數據庫XML數據庫的一些關鍵技術如何定義完善的查詢代數(半結構化數據的特點使得定義完善的查詢代數很困難);如何將XML的復雜路徑轉換為系統識別的查詢路徑;XML的樹狀結構使得查詢代價計算和查詢優化的實施很困難;XML的高效索引結構設計;XML底層數據的存儲。69數據庫技

42、術微型數據庫微型數據庫系統微型數據庫系統的基本概念微型數據庫系統是一個只需很小的內存來支持的數據庫系統內核。內存限制是決定微小型數據庫系統特征的重要因素。根據占用內存的大小又可以分為:超微:占用10-50K的內存,適用于智能卡等設備;微小:占用50-500K的內存,適用于手機等設備;嵌入式:占用1-2M的內存,適用于掌上電腦等設備;70數據庫技術微型數據庫微型數據庫的設計原則 移動設備大多計算能力弱、存儲空間小、帶寬有限,并且在閃存上進行讀寫速度慢,因此設計微型數據庫應遵循以下原則:壓縮性原則:數據結構和代碼都要精簡;RAM 原則:最小化RAM 的使用;寫原則:最小化寫操作以減少寫代價;讀原則

43、:充分利用快速讀操作;存取原則:利用低粒度和穩定內存的直接訪問能力進行讀和寫;71數據庫技術微型數據庫微型數據庫的主要產品智能卡數據庫:主要包括Gnat-DB 和Pico-DBMS(精簡高效,但數據格式不通用,資料交換困難)。手持設備數據庫:Sybase SQL Anywhere、IBM DB2 Everyplace、Oracle 9i Lite、Informix Cloudscape(支持多平臺、Java、手持設備與多種無線通訊協議,高性能和高可伸縮性,易于使用和管理)以及 SQL Server CE 。72數據庫技術 商用數據庫新進展商用數據庫新進展IBM以數據庫為基礎構建SOA(面向服務

44、)架構,與WebSphere中間件更緊密地結合企業信息資源,屏蔽信息資源底層的復雜結構;數據庫以XML為基礎,全面增強對半結構化和非結構化數據的管理能力;進一步增強數據挖掘和商業智能功能;提供主數據(Master Data)管理,為企業提供統一的信息資源視圖。73數據庫技術 商用數據庫新進展Oracle在提供傳統數據庫產品和服務的基礎上,近年來主要向嵌入式數據庫、移動數據庫領域發展,主要產品包括Oracle Lite和Oracle TimeTen。Sybase ASE15設計新的查詢處理引擎,提供新的并行查詢功能,并通過一系列新特性(如Plan View、查詢進程矩陣、自動更新統計信息等),從

45、而充分利用系統資源,降低企業總擁有成本TCO。同時ASE15具有獨特的消息發布功能,當系統中發生重要事件時,能自動通知用戶。74數據庫技術 商用數據庫新進展Microsoft SQL Server 2005支持XML、Webservice等新應用,并且在企業級支持、商業智能應用、管理開發效率等方面有了顯著的增強。 SQL Server 2005提供集成的數據管理和分析平臺,幫助企業進行信息管理、運行復雜的商務應用和高級商務智能。InterSystems公司的CacheCache突破了1NF,即屬性值可以為非原子,關系可以由子關系組成,稱為后關系數據庫,根據相關研究報告,Cache比RDBMS節

46、約空間2/3,速度快20倍左右。75數據庫技術 地礦行業的應用數據庫新技術在地礦行業的應用(1)基于WebGIS技術,中國石化石油勘探開發研究院開發了“中國1: 50萬地質圖數據庫系統”。該系統基于ASP/COM技術,實現網絡訪問地質圖數據,其中GIS應用服務器為中地公司的MapGIS IMS,系統使用 Oracle數據庫存儲地質圖空間數據,通過空間數據引擎訪問數據。該系統已經投入使用,能為科技人員進行油氣勘探開發研究提供全國各探區的地質空間數據,系統性能優越,Web結構也大大降低了系統的安裝、部署和維護。76數據庫技術 地礦行業的應用數據庫新技術在地礦行業的應用(2)蘭州石化公司選用美國As

47、penTech公司的Infoplus.21實時數據庫系統,建成了覆蓋公司7000個主要裝置的生產信息采集系統。在該系統的基礎上,開發了流程圖瀏覽、實時工藝數據查詢、報警查詢、事故追憶等應用系統。上述實時數據庫系統和應用系統的建立,使得公司能夠對生產裝置中的關鍵設備進行在線監控,對實時變化的過程進行實際響應,迅速決策,從而為優化生產管理、提高產品質量提供支持。77軟件工程技術 軟件工程中的知識管理軟件工程中的知識管理(KM)知識管理的基本概念定義1:知識管理是一種對知識的組織和再組織,從而在大量的信息中進行知識挖掘,以及對人的顯性和隱性知識進行管理。定義2:知識管理是一個形成管理和均衡企業智力資

48、源的業務過程,它使企業從合作式的、整合式的方法提升到信息財富的創造、獲取、組織、傳播和應用這樣一個高度。 78軟件工程技術 軟件工程中的知識管理知識管理的主要研究內容組織中需要的知識是什么?現有的知識在哪里?從哪里可以獲取?知識如何有效地傳播?如何生成新的知識?知識如何存儲、更新、保護以及如何表示?如何有效地利用知識?79軟件工程技術 軟件工程中的知識管理知識管理技術知識管理技術是指能夠協助人們實現知識管理的基于計算機的現代信息技術,它是一個龐大的技術體系,覆蓋了知識管理的各環節。IBM企業知識管理白皮書認為,知識管理技術分為商業智能技術、電子協作技術、知識傳遞技術、知識發現技術和知識地圖技術

49、。知識管理技術本身處于不斷發展和不斷成熟的過程中,下圖給出了知識管理技術的體系結構和發展趨勢。 80軟件工程技術 軟件工程中的知識管理知識管理技術體系結構與發展趨勢圖81軟件工程技術 軟件工程中的知識管理知識系統 知識系統是為整個組織的知識管理服務的,一般具有以下功能:能夠高效率的獲取與組織知識;能夠有效地保護和存儲知識;能夠及時有效地傳播知識;能夠高效的開發新的知識產品;能夠創造有利于知識生成、轉移、使用的組織文化。82軟件工程技術 軟件工程中的知識管理軟件工程中的知識管理問題大型軟件項目開發的成敗,已經主要取決于概念設計與需求分析這兩個階段。軟件企業競爭的焦點也越來越集中在客戶需求的理解上

50、。從知識管理的角度看,如何在這兩個階段實現軟件企業、用戶之間無障礙的知識共享和交流,就成為軟件工程的關鍵問題。在系統設計、編程的過程中,如何有效地運用已有的知識提高軟件開發的效率和質量,如何在軟件工程的各階段將隱性知識顯性化,這些都是軟件工程中的知識管理問題。83軟件工程技術 軟件工程中的知識管理軟件工程中知識管理的關鍵問題知識傳遞與共享:知識在人員間的有效傳遞和共享。對于軟件行業這種隱性知識占主導地位、經驗豐富與否可以決定其成敗的行業里,顯得尤為重要。知識重用:軟件復用是當前軟件工程發展的一個趨勢,如何采用各種技術手段(如規范化的文檔管理、采用可復用的設計等),盡量提高軟件復用的層次和范圍,

51、是一個重要問題。84軟件工程技術 軟件工程中的知識管理如何在軟件工程中有效地進行知識管理軟件工程中人的管理是知識管理的核心知識管理的目的是希望保留團隊中成員的經驗,特別是過程的模式、流程、數據等,以實現知識的共享和重用。實現知識管理還要考慮企業的自身特色及其所處的文化氛圍,使員工對知識共享和重用有認同感。在軟件工程的知識管理中,必須建立強有力的激勵制度,鼓勵和刺激員工向知識庫中提交自己的觀點與經驗,營造知識共享和重用的氛圍。85軟件工程技術 軟件工程中的知識管理建立高效的知識管理系統(KMS)知識管理系統是實現知識管理的工具,能有效地促進知識共享與重用。知識管理系統中需要提供多種知識表達與存儲

52、方式,如文本、圖像、視頻等。系統也需要提供多種接口形式,能夠讓員工便捷的向知識庫中錄入相關知識。知識管理系統需要采用先進的知識分類方法,能夠根據需求變化動態改變知識信息的分類,從而使用戶更容易確定其提交知識的類別。知識管理系統可以將傳統的檢索方法與神經網絡等技術相結合,從而增強知識檢索的準確性和合理性。86智能信息處理技術數據挖掘技術數據挖掘技術概述關聯分析、序列分析分類分析、聚類分析異常檢測數據挖掘的應用領域時間序列挖掘數據流挖掘空間數據庫挖掘87數據挖掘技術概述數據挖掘技術概述什么是數據挖掘數據挖掘指的是從大量的數據中提取隱含的、未知的、并具有潛在的使用價值的信息的過程。數據挖掘是一種決策

53、支持過程,它基于數據庫、統計學、人工智能、機器學習、模式識別、數據可視化等多種技術,自動化地分析企業歷史數據,從中挖掘出供決策使用的高層次的知識,幫助決策者提高決策質量和效率。 88數據挖掘技術概述數據挖掘的過程數據挖掘的一般過程可以分為三個階段:數據準備、模式發現與結果表達,如圖所示。89數據挖掘技術關聯分析關聯分析什么是關聯分析關聯分析是尋找給定數據記錄集中數據項之間的相互關系的一種分析過,所發現的關系(或規則)稱為關聯規則。關聯規則的形式: A1A2Am B1B2Bn 關聯規則的度量支持度與置信度90數據挖掘技術關聯分析關聯分析的算法步驟關聯規則的概念由Agrawal等人提出,關聯規則本

54、身屬于描述型的模式,發現關聯規則的算法屬于無監督的學習方法。一般分為兩個步驟: 在數據項集中找出所有頻繁數據項集,即找出支持度超過指定閾值的數據項集;在頻繁數據項集中生成候選關聯規則,驗證置信度后生成關聯規則。 在上述兩步中,頻繁數據項集的生成是最關鍵的。 91數據挖掘技術關聯分析關聯分析的典型算法Apriori算法Apriori算法是較早提出的關聯規則挖掘算法,包括候選頻繁項集的生成和剪枝兩個步驟(如下頁圖所示)。由于該算法要生成大量的候選頻繁項集,并且由候選k項集生成頻繁k項集時必須掃描一遍數據庫,因此效率比較低。常見的優化方法主要包括劃分、采樣、哈希、事務壓縮、動態項集計數等。 92數據

55、挖掘技術關聯分析93數據挖掘技術關聯分析FP-Growth算法FP-Growth算法是一個具有更好性能和伸縮性的頻繁項集挖掘算法,其最大特點是不需要生成大量的候選項集。算法將數據庫壓縮進一棵前綴樹中,之后的挖掘就在這棵相對于原數據庫要小很多的樹上進行,避免了掃描龐大的數據庫。算法采用模式增長的方法,不需要產生候選項集,而且算法采用基于分區的分治法,有效的降低了搜索空間。因此該算法比起Apriori算法具有明顯的性能提升。 94數據挖掘技術關聯分析關聯分析的典型應用市場營銷廣告、推薦系統醫療診斷、醫療保險交通流量、交通事故分析金融市場客戶行為、股票漲跌地質現象與地質規律95數據挖掘技術序列分析序

56、列分析與關聯分析相似,序列分析的目的也是為了挖掘數據項之間的聯系。但是關聯分析關注于發現同一時間內呈現出的模式,而序列分析在于分析在不同時間的前后關系。 序列分析的模型、挖掘算法以及應用場合都與關聯規則類似,不再贅述。96數據挖掘技術分類分析分類分析什么是分類分析分類分析是從已知分類信息的數據(稱為訓練集)中總結出一個預測模型,從而預測實際數據的類別信息(見下頁圖所示)。分類分析的典型應用包括:預測哪些客戶最可能對營銷活動做出回應,判斷銀行的客戶信用等級的高低,以及地質領域中對儲層類型、油層類型進行判別等。分類分析的典型模型包括決策樹、人工神經網絡以及支持向量機等。97數據挖掘技術分類分析訓練

57、集分類算法IF rank = professorOR years 6THEN tenured = yes 分類器模型98數據挖掘技術分類分析ClassifierTestingDataUnseen Data(Jeff, Professor, 4)Tenured?99數據挖掘技術分類分析決策樹模型決策樹是使用較多的一種分類模型,如下圖所示。構建一棵決策樹分為學習和剪枝兩個步驟。age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40100數據挖掘技術分類分析經典的決策樹學習算法包括ID3、C4.5以及CART等

58、。這些算法都假定訓練集能夠載入內存,而實際應用中往往使用大量的訓練集,因此具有很大的局限性。其他改進的決策樹學習算法還包括SLIQ算法、SPRINT算法、RainForest算法等。常見的決策樹剪枝算法包括代價復雜性剪枝、悲觀估計剪枝和基于MDL的剪枝等,其中MDL剪枝算法能夠生成較小的樹且具有較高的準確度,是一種理想的剪枝算法。101數據挖掘技術分類分析人工神經網絡技術人工神經網絡是一種應用類似于大腦神經突觸聯接的結構進行信息處理的數學模型。在這一模型中,大量的節點(即神經元)之間相互聯接構成網絡,稱為神經網絡,以達到處理信息的目的。人工神經網絡的工作過程也分為兩個步驟,即訓練網絡結構和使用

59、網絡。人工神經網絡在使用過程中最大的問題在于,初始網絡結構和系統參數的選擇存在一定的偶然性,影響了最終的分析結果。102數據挖掘技術分類分析支持向量機SVM什么是支持向量(以線性分類為例)支持向量小間隔大間隔103數據挖掘技術分類分析支持向量機的基本思路對于原始空間中的非線性分類問題,通過非線性變換轉化為某個高維空間中的線性分類問題,在變換空間中求最優分類面。支持向量機的優點SVM專門針對有限樣本情況,其目標是得到現有信息下的最優解,而非樣本趨于無窮多時的最優值;SVM最終將轉化成為一個二次型尋優問題,從理論上得到的將是全局最優點,而非局部最優點;SVM算法的復雜度與樣本的維數無關,僅與支持向

60、量個數有關,能有效的解決“維災”問題。104數據挖掘技術分類分析支持向量機的缺點和研究方向在解決二次型尋優問題時由于需要大量的矩陣運算,因此速度較慢,內存消耗太大。因此研究新的、更高效率的對偶尋優問題算法,是提高支持向量機運行效率的關鍵,如固定工作樣本集方法、塊算法等;在進行空間映射時,需要使用到核函數,盡管一些實驗結果表明核函數的具體形式對分類效果的影響不大,但是核函數的形式以及其參數的確定決定了分類器的類型和復雜程度。核函數選擇的理論研究仍然是目前的一個難點。105數據挖掘技術聚類分析聚類分析什么是聚類分析聚類分析是把整個目標數據分成不同的組,使得組與組之間差別明顯,而組內數據盡量相似。聚

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論