




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、IP地址由國際組織按級別統一分配,機構用戶在申請入網時可以獲取相應的IP地址。1)Network Information Center(NIC)。最高一級IP地址由國際網絡信息中心(NIC)負責分配。其職責是分配A類IP地址、授權分配B類IP地址的組織并有權刷新IP地址。2)InterNIC、APNIC和ENIC。 分配B類IP地址的國際組織有三個:ENIC負責歐洲地區的分配工作,InterNIC負責北美地區,設在日本東京大學的APNIC負責亞太地區。我國的Internet地址由APNIC分配(B類地址),由郵電部數據通信局或相應網管機構向APNIC申請地址。3)分配C類地址。 由地區網絡中心
2、向國家級網管中心(如CHINANET的NIC)申請分配。8/29/20221域名系統(domain name system, DNS)域名末尾部分為一級域,代表國家或機構等節點;域名的倒數第二部分為二級域,代表部門或隸屬于一級域的下級機構;如:, 其中cn為最高域,代表中國為第二級域,代表中國教育與科研網為第三級域,代表南京林業大學8/29/202222.2.7 與Internet的連接方式用戶終端遠程服務器ModemModem電話線局域網遠程服務器專用通信線路路由器撥號上網連接局域網直接連接8/29/202232.2.8 Internet 提供的服務主機遠程登錄FTP:遠程文件傳送E-mai
3、lFTP (文件轉輸協議)安裝和使用Serv-U (Ftp服務器軟件)安裝和使用AbsoluteFtp (Ftp客戶端軟件)USENET:電子公告板8/29/20224www(world wide web)由歐洲粒子研究中心發起。其初衷是為了讓科學家們以更方便的方式彼此交流思想和研究成果,目前已成為一種最受歡迎的游覽工具。 WWW主要由一些應用軟件以及一系列協議和約定組成,使用超文本和多媒體技術,在計算機網絡上進行超文本信息的發布和瀏覽。8/29/20225提供:文本、圖像、聲音和視頻等信息也提供基本的Internet服務8/29/20226WWW使用的幾項關鍵技術和基本元素包括:1. HTM
4、L ( hypertext markup language ,超文本標記語言) 設計HTML語言的目的是為了能把存放在一臺電腦中的文本或圖形與另一臺電腦中的文本或圖形方便地聯系在一起,形成有機的整體,人們不用考慮具體信息是在當前電腦上還是在網絡的其他電腦上。這樣你只要使用鼠標在某一文檔中點取一個圖標,Internet就會馬上轉到與此圖標相關的內容上去,而這些信息可能存放在網絡的另一臺電腦中。HTML可以說明文字、圖形、動畫、聲音、表格、鏈接等。8/29/202272、URL(uniform resource locator,統一資源定位器)是WWW上簡單的尋址機制,使得W能夠連接世界各地計算機
5、上的信息。URL的格式從左到右由下面各部分組成:模式、服務器地址、端口、路徑等組成。:8080/index.html8/29/202283、HTTP:是WWW瀏覽器和服務器之間傳送消息的協議,它基于客戶機/服務器模型的信息分布方式,按原本設計意思“請求/響應模型”,即信息文件存放在服務器上,用戶通過程序向服務器發出請求并訪問服務器上的數據。8/29/202294. MINE類型:計算機上的數據文件只是二進制數位的集合,必須經過解釋才有用。例如,為了正確顯示文件“index.html ,瀏覽器必須知道它是HTML格式。8/29/2022105、網頁網頁是用戶通過客戶端瀏覽器觀察到的超文本信息內容
6、。簡單的靜態網頁圖文并茂網頁動態網頁8/29/2022112.3 Internet 上的高級信息管理Web上的數據最大特點就是結構化特征較弱.往往是半結構化的,有時還可能是無結構的。為有效利用WWW上的數據,需要處理半結構化數據源,解決半結構化數據的查詢與集成問題。尋找一個半結構化的數據模型是解決問題的關鍵所在。8/29/202212從WWW到XML (extensible markup language)以XML為基礎的新一代WWW環境可以更好地實現Web中的信息共享與交換,XML可看作一種半結構化的數據模型,可以很容易地將XML的文檔描述與關系數據庫中的屬性對應起來,實施精確的查詢與模型抽
7、取。8/29/202213XML是由W3C設計的一種元標注語言,可提供資料的結構化描述能力。具體來說,XML類似于HTML,被設計用來描述數據,但XML提供了一種獨立的運行程序的方法來共享數據。XML與HTML更大的區別可能體現在它明確地區分了文檔的內容和表現這兩個概念。XML文檔專注于內容,而這些內容的表現則有相應的擴展樣式表XSL來規定。因此,同樣的內容可以有不同的表現,甚至還能夠對內容進行不同的取舍。8/29/202214在尋求有效管理網上海量信息的探索中,人們還提出了數字圖書館的解決方案。數字圖書館可理解為有組織的信息收藏及相關服務,信息以數字化形式保存,并通過網絡進行訪問。數字圖書館
8、包含各式各樣的可用數據,供不同用戶使用,規模可大可小,并可使用各類計算設備和相關軟件。但所有數字圖書館都有著共同的特點:信息在計算機內得以組織并通過網絡加以利用,數字圖書館帶有選擇信息、組織信息、存儲信息和發布信息的程序。8/29/202215建立數字圖書館的主要原因是人們相信數字圖書館能夠比過去的模式更好地應用信息。其潛在的優點有:(1)可及時獲取世界任何地方發布的信息;(2)強大的信息搜索和瀏覽能力;(3)信息共享和信息交流;(4)易于保持最新信息;(5)支持數據模型、應用程序、仿真軟件等新型信息。8/29/2022162.4 JAVA及移動計算從事生物信息學研究與開發,一般需采用計算機軟
9、件從大量的數據中篩選出所需信息。目前有多種計算機程序設計語言可供用戶選擇。如Visual Basic語言、C語言、Perl語言、PHP語言、Java語言和FORTRAN語言等。其中,Perl和PHP兩種語言因為執行效率高、可移植性好及在網絡上有著豐富的免費代碼等特點使得他們成為生物信息學軟件編程的主要腳本語言。8/29/202217目前,數據庫研究和應用中一個很重要的問題就是如何有效地利用既存數據,發現和提取有價值的信息和知識,而不僅僅是處理和保存數據。數據倉庫、數據挖掘和數據庫中的知識發現就是解決上述問題的重要技術。數據倉庫一詞尚沒有一個統一的定義。著名的數據倉庫專家W.H.Inmon在其著
10、作Building the Data Warehouse一書中給予如下描述:數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持戰略決策的制訂。2.5 數據倉庫與數據挖掘8/29/202218數據倉庫概念的兩個層次功能上:數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;內容和特征上:數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。8/29/202219數據倉庫的組成: 數據庫為整個數據倉庫環境的核心,是數據存放的地方,其提供對數據檢索的支持。相對于操縱型數據庫來說,其突出
11、特點是對海量數據的存儲和快速的檢索技術。 數據抽取工具、元數據、訪問工具、數據集市、數據倉庫管理、信息發表系統8/29/202220數據挖掘的概念: 就是從數據庫中抽取具有潛在應用價值的隱含信息的過程。與傳統分析工具不同的是,數據挖掘屬于基于知識發現的方法,它運用模式匹配和其他算法決定數據之間的聯系。 數據挖掘技術綜合了機器學習、統計分析和數據庫技術,主要內容包括規則生成、分類、聚類、序列分析等。8/29/202221數據挖掘的目的: 趨勢預測數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。例子:市場預測問題數據挖掘使用過去有關促銷的
12、數據來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的群體。8/29/202222數據挖掘的目的: 關聯分析若兩個或多個變量的取值之間存在某種規律性的現象稱為關聯,可分為簡單關聯、時序關聯、因果關聯目的:找出數據庫中隱藏的關聯關系。因有時并不知數據庫中數據的關聯函數,因此關聯分析生成的規則帶有可信度。 8/29/202223數據挖掘的目的: 聚類分析數據庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。8/29/202224數據挖掘的目的:
13、概念描述概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。8/29/202225數據挖掘的目的: 偏差檢測數據庫中的數據常有一些異常記錄或稱為偏差。偏差包括很多潛在的知識,如分類中的反常實例、不符合規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。 8/29/2022268/29/2022272.6 其他的計算機知識2.6.1 算法和算法分析2.6.2 相似性度量2.6.3 配對算法2.6.4 分類與聚類2.6.5 隱
14、馬爾可夫模型2.6.6 人工神經網絡8/29/2022282.6.1 算法和算法分析生物信息學中涉及大量的計算,不可避免地用到算法的概念。算法是一個定義良好并會終止的計算過程,它接收一組輸人數據并輸出一組數據。 算法的好壞一般是通過稱作算法分析的過程來評定的。算法分析是一種在抽象的計算模型上對算法所需資源進行評估的過程,它有助于比較某個問題的不同求解算法的資源耗費,剔除無效方案而不用真正地編寫程序,更不必在計算機上實際運行。算法的復雜度是指當問題的規模增大時,算法的代價增長的速度。復雜度研究中所謂的代價通常指的是算法所用的時間和所要的儲存空間,即算法的時空復雜性。8/29/2022292.6.
15、2 相似性度量 序列比較,包括同一序列內不同片斷的比較和多個序列的對比在生物信息學工作中占有重要的地位。一般而言,在涉及兩個對象的比較和匹配問題時,需要度量(或距離)的概念。例如,生物信息學工作中廣泛存在的序列和結構的相似性計算就需要考慮度量或距離函數的問題。8/29/202230 對于DNA或蛋白質序列,可以根據字符串來構造距離函數。從生物學的意義上來說,核酸和蛋白質序列對位的基礎是假定這兩個序列同源,但在各自的演化過程中由于變異的積累形成了不同的序列。如果將每個序列看做是有限字符集組成的字符串,那么變異就能夠借用字符串的編輯(插人、刪除、修改)來體現。于是,編輯距離就是一個最簡單判定序死相
16、似度的指標。所謂編輯距離指的是一個字符串變到另一個字符串時插人、刪除和置換的最少個數。8/29/2022312.6.3 配對算法 選擇合適的相似性度量是成功的第一步。在此基礎上找出序列最佳配對的算法設計才是開啟成功之門的鑰匙。遺憾的是,由于“組合爆炸”的原因,序列的配對無法通過窮盡的搜索獲得“最佳”的結果。只能通過一些啟發式的方法獲得“可滿足的”解答?;蛟谝欢ǖ挠嬎愦鷥r下尋求較好的結果。8/29/202232為了盡快定位候選序列,排除無效的配對,可以在數據庫中使用索引技術或其他的一些限制。這是一種啟發式的方法。以BLAST為代表的一些算法為例,事先對數據庫中的所有序列按一定的長度(如DNA序列
17、長度取11,蛋白質序列長度取5)提取類型特征并建立索引。同時,對提交的序列按同樣的方式提取特征。依靠預先建立的索引,只有那些與提交序列的特征兼容的庫中序列才參與比較,這可大幅度地減少比較次數。8/29/2022332.6.4 分類與聚類 生物信息學中涉及大量的分類和聚類工作。分類是根據預先設定的準則將數據分成各自獨立的類別,聚類則是依據數據集本身的特性達到歸類的目的。因此,它們有時也被分別稱作“有監督的分類”和“無監督的分類”方法。聚類分析還能夠自然離析出數據集合中包含的“另類”對象8/29/2022342.6.5 隱馬爾可夫模型 馬爾可夫鏈模型通過構造離散隨機過程,對未來事件的發生做出統計意
18、義上的預測。馬爾可夫鏈模型中需要初始概率分布和狀態的轉移矩陣,均由訓練得到。 隱馬爾可夫模型( HMM)是由馬爾可夫鏈發展擴充而來的一種隨機模型。在馬爾可夫鏈中,每一個狀態對應一個可觀察的事件。隱馬爾可夫模型對馬爾可夫鏈作了推廣,使得可觀察的是狀態的一個概率函數,而狀態本身則是不可觀察的。8/29/202235 而隱馬爾可夫模型能很好地對真核生物DNA序列建模。隱馬爾可夫模型將DNA序列的形成看做一個隨機過程。模型的統計規律是未知的,而隱馬爾可夫模型能自動尋找出其隱藏的統計規律,因此它具有獨特的優越性。 可以說,隱馬爾可夫模型使基因預測從原來單純的編碼序列預測發展到了基因整體結構的預測。8/29/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論