




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
醫學數據挖掘與分析第一頁,共三十五頁,編輯于2023年,星期五8.1
數據挖掘的基本概念8.1.1數據挖掘的定義8.1.2數據挖掘的內容8.1.3數據挖掘的功能第二頁,共三十五頁,編輯于2023年,星期五8.1.1數據挖掘的概念
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又有潛在的有用信息和知識的過程。這個定義包括幾層含義:數據源必須是真實的、大量的、含噪聲的,發現的是用戶感興趣的知識,發現的知識要可接受、可理解、可運用,并不要求發現放之四海皆準的知識,僅支持特定的發現問題。數據挖掘一般有以下幾個主要步驟:數據收集;數據整理;數據挖掘;數據挖掘結果的評估;分析決策。第三頁,共三十五頁,編輯于2023年,星期五8.1.2數據挖掘的內容1.廣義知識(Generalization)2.關聯知識(Association)3.分類知識(Classification&Clustering)4.預測型知識(Prediction)第四頁,共三十五頁,編輯于2023年,星期五8.1.3數據挖掘的功能1.自動預測趨勢和行為2.關聯分析3.聚類4.概念描述5.偏差檢測第五頁,共三十五頁,編輯于2023年,星期五8.2常用的數據挖掘技術8.2.1決策樹8.2.2關聯規則8.2.3聚類分析第六頁,共三十五頁,編輯于2023年,星期五8.2.1決策樹第七頁,共三十五頁,編輯于2023年,星期五基本概念決策樹方法(decisiontree)是通過一系列規則對數據進行分類的過程。具體講是利用信息論中的互信息(信息增益)尋找數據庫中具有最大信息量的屬性字段,建立決策樹的一個節點,再根據該屬性字段的不同取值建立樹的分支,在每個分支子集中重復建立樹的下層節點和分支的過程。第八頁,共三十五頁,編輯于2023年,星期五決策樹種類按照分類精確度和樹復雜程度的大小,分為單個決策樹和多個決策樹,多個決策樹是由單個決策樹合并得到。根據分割內部節點時使用統一的還是不同的算法,分為單一決策樹和復合決策樹。其中,單一決策樹又可分為單變量(特征)決策樹和多變量決策樹,前者在樹中每一內部節點處由數據的單一屬性決定樹的分支,后者在內部節點處由通過數學或邏輯算子將某些屬性組合起來的新屬性決定樹的分支;復合決策樹中常用的算法有決策樹算法、線性判別函數和K最臨近分類器。根據每一樹葉子節點內是否只含有相同類別的對象,可分為確定性決策樹和非確定性決策樹。根據分類或預測變量的特征,分為分類樹和回歸樹,分類樹是對離散變量做決策樹,回歸樹是對連續變量做決策樹。第九頁,共三十五頁,編輯于2023年,星期五決策樹特點決策樹學習屬于機器學習的范疇,是一種類似于判別分析的有監督的學習方法。從統計角度看,與假定數據源呈一固定概率分布,然后進行參數估計的常規分類方法相比,決策樹屬于嚴格“非參”方法,對于輸入數據高維屬性和分類標識具有更好的彈性和穩健性。決策樹對于問題的分類是基于邏輯,而不是像傳統統計分類模型一樣基于樣本的統計屬性。決策樹分類耗時短,占用計算機資源少,效率高。分類結果簡單、明確、結構直觀,適用于較大規模的數據集研究。與神經網絡和貝葉斯分類相比,決策樹更容易理解,能處理缺失值,同時處理有數值型、兩分類和多分類,有序型變量的數據,能清楚顯示對分類或預測有意義的變量,并可生成一些規則(從根節點到每個葉子節點對應的路徑就是“規則”)為決策提供依據。第十頁,共三十五頁,編輯于2023年,星期五決策樹應用疾病診斷治療基因與高分子序列分析醫院信息系統挖掘醫療政策分析醫療衛生保健醫療資源利用評價第十一頁,共三十五頁,編輯于2023年,星期五8.2.2關聯規則第十二頁,共三十五頁,編輯于2023年,星期五基本概念關聯規則是形如X=>Y的表達式,其中X和Y是不相交的項集。關聯規則的強度可以用它的支持度和置信度來度量。支持度確定規則可以用于給定數據集的頻繁程度,而置信度確定Y在包含X的事務中出現的頻繁程度。第十三頁,共三十五頁,編輯于2023年,星期五關聯規則種類基于規則中處理的變量的類別,關聯規則可以分為布爾型和數值型。基于規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則。基于規則中涉及到的數據的維數,關聯規則可以分為單維的和多維的。第十四頁,共三十五頁,編輯于2023年,星期五關聯規則算法Apriori算法基于劃分的算法FP-樹頻集算法第十五頁,共三十五頁,編輯于2023年,星期五關聯規則挖掘過程
首先,先從收集的數據集合中找出所有的高頻項目組。既指某一項目組出現的頻率相對于所有記錄而言,必須達到某一水平;然后利用前一步驟的高頻項目組來產生規則,在最小支持度的限制下,若一規則所求得的信賴度滿足最小支持度,稱此規則為關聯規則。其中同層關聯規則可以采用兩種支持度策略:(1)統一的最小支持度。對于不同的層,都使用同一個最小支持度。(2)遞減的最小支持度,不同層次的最小支持度也不同,較低層次的最小支持度相對較小。第十六頁,共三十五頁,編輯于2023年,星期五關聯規則的應用關聯技術的主要應用領域是商業,它的主要挖掘對象是事務數據庫。利用關聯技術從交易數據庫發現規則的過程稱為購物籃分析(marketbasketanalysis)。通過對商業數據庫中的海量銷售記錄進行分析,提取出反映顧客購物習慣和偏好的有用規則(或知識),可以決定商品的降價、擺放以及設計優惠券等,也可以把得到的信息應用到促銷和廣告中,還可以服務于cross-sale。關聯技術不但在商業分析中得到了廣泛的應用,在其他領域也得到了應用,包括工程、醫療保健、金融證券分析、電信和保險業的錯誤校驗等。第十七頁,共三十五頁,編輯于2023年,星期五8.2.3聚類分析第十八頁,共三十五頁,編輯于2023年,星期五基本概念聚類是人類一項最基本的認識活動,如“物以類聚,人以群分”。所謂聚類就是按照事物的某些屬性,把事物聚集成類,使類間的相似性盡量小,類內的相似性盡量大。其數學描述為:設給定數據集合,其中νi
為數據對象,根據數據對象間的相似程度將數據集合分成κ組,并滿足:則該過程稱為聚類,稱為簇。聚類的基本方法經常是定義兩個對象之間的距離,也可采用不依賴于距離的方法:首先定義一個優化目標,再優化得到某個局部最小值。
第十九頁,共三十五頁,編輯于2023年,星期五聚類分析方法的分類
聚類分析方法很多,通常是針對數據庫中的記錄,根據一定的分類規則,合理地劃分記錄集合,確定每個記錄所在類別(如,κ-平均算法、κ-中心點算法、基于凝聚的層次聚類和基于分裂的層次聚類等)。一般來說,對于相同的數據集,若采用不同的聚類方法,可能有不同的劃分結果。(1)按聚類的標準分,有統計聚類方法和概念聚類方法(2)按聚類的對象分,有數值聚類方法和符號值聚類方法(3)按聚類尺寸分,有基于距離聚類、基于密度聚類和基于連續的聚類第二十頁,共三十五頁,編輯于2023年,星期五聚類常用的算法聚類問題本質上是一個優化問題,即通過一種迭代運算使得系統的目標函數達到一個極小值。該目標函數為劃分的評價函數。通常采用距離作為劃分的評價標準,對數值屬性主要采用歐氏距離,而對符號屬性則通常采用Hamming距離。基于劃分的聚類算法通過優化一個評價函數把數據集劃分為個部分。當采用聚類內的距離的平方作為評價函數時,聚類內的所有點向聚類中心匯集,因此采用基于距離的劃分評價函數方法得到的聚類是球形的。一般,不同的評價函數會優先選擇不同的聚類結構。(1)κ-平均法(2)κ-中心點方法(3)層次聚類第二十一頁,共三十五頁,編輯于2023年,星期五聚類分析的應用①經濟領域:②生物學領域:③有貢獻的研究領域:數據挖掘(聚類可伸縮,各種復雜形狀類的識別,高維聚類等)統計學(主要集中在基于距離的聚類分析,發現球狀類)機器學習(無指導學習---聚類不依賴預先定義的類,不等同于分類)空間數據技術第二十二頁,共三十五頁,編輯于2023年,星期五8.3數據挖掘在醫藥領域的應用1.數據挖掘在DNA分析中的應用2.數據挖掘在疾病輔助診斷中的應用3.數據挖掘在藥物開發中的應用4.數據挖掘在中醫藥研究中的應用第二十三頁,共三十五頁,編輯于2023年,星期五數據挖掘在DNA分析中的應用隨著人類基因組計劃(HumanGenomeProject)以及分析生物學、信息科學的發展,DNA、RNA以及蛋白質等生物數據空前增長,同時功能基因組和蛋白質組的大量數據已開始涌現。如何分析這些數據,從中獲得生物結構、功能的相關信息是基因組研究取得成果的決定性步驟。數據挖掘技術可以應用于異構、分布式基因數據庫的語義集成、DNA序列間相似搜索和比較、基因組合和基因間連鎖互換現象的關聯分析以及可視化工具和遺傳數據分析。第二十四頁,共三十五頁,編輯于2023年,星期五數據挖掘在疾病輔助診斷中的應用采用數據挖掘可以通過對患者資料數據庫中大量歷史數據的處理,挖掘出有價值的診斷規則,這樣根據患者的年齡、性別、輔助檢查結果、生理生化指標等就可以做出診斷結論,從而排除了人為因素的干擾,客觀性強,此外由于處理的數據量很大,因此所得到的診斷規則有著較好的應用普遍性。目前國外已有不少這方面的成功案例,如采用貝葉斯學習分類方法對男女患者的CT圖像進行自動診斷、利用關聯規則找出頭部創傷患者作CT檢查的適應癥以及將數據挖掘用于肝癌遺傳綜合征的自動檢測、鈾礦工人中非惡性呼吸系統疾病流行的種族差異的研究都取得了理想的效果,顯示出數據挖掘技術用于疾病輔助診斷的廣闊的應用前景。第二十五頁,共三十五頁,編輯于2023年,星期五數據挖掘在藥物開發中的應用在新藥的研究、開發過程中,先導化合物(leadcompound)的發掘是關鍵環節,有兩種基本途徑,①是隨機篩選與意外發現。②是定向發掘。到目前為止國內外在天然藥物研究領域主要采用的是隨機篩選,但是采用這種方法的開發周期長、研究費用高,采用數據挖掘技術建立的藥物開發系統可以用來尋找同藥效學相關的有效化學物質基礎,確定藥效基團,指導新藥的研究與開發,從而縮短新藥的研究開發周期,降低研究開發費用。第二十六頁,共三十五頁,編輯于2023年,星期五數據挖掘在中醫藥研究中的應用目前,數據挖掘技術正逐漸在中醫藥研究中得到應用,成為促進中醫藥科研發展和實現中醫藥現代化的重要組成部分。姚美村等綜合文獻指出對中醫藥理論和實踐進行信息化、數字化、知識化能夠克服中醫名詞術語過于繁雜造成的中醫發展障礙,對于中醫藥信息進行文本數據挖掘是促進中醫藥信息結構化的途徑之一,該問題的解決,克服了中醫發展的最大障礙,極大的促進中醫藥現代化發展的進程。數據挖掘技術在中藥指紋圖譜、化學成分研究等方面也有文獻報道。馮雪松等對中藥指紋圖譜的特點及數據挖掘技術在其中的應用作了綜述。同時分析指出中藥指紋圖譜具有統計數學中多元隨機分布的“模糊性”,利用模糊數學、統計學、計算機技術等建立一種同時反應這兩種特征數據庫,存儲中藥指紋圖譜信息,在此基礎上應用數據挖掘技術發現和解析其中潛在的信息,以評價和控制中藥質量及研究中藥定量組效關系。在中藥計算機化學研究中,陳凱先等認為對大量中藥化學成分進行藥效基團的建模研究,并對中藥化學成分數據庫進行柔性搜索,能夠為更充分利用中藥化學成分所含的化學信息提供技術支持。第二十七頁,共三十五頁,編輯于2023年,星期五數據挖掘在中醫藥研究中的應用在方劑研究方面,姚美村等應用數據挖掘技術對消渴病復方配伍規律進行了關聯規則分析,將《中醫方劑大辭典》中治療消渴病的三消方劑共106個輸入設計好的數據庫中(以MS的Access為數據庫工具,建立數據庫),選擇SAS公司的數據挖掘系統EnterpriseMiner(EM)4.1為工具,應用其中的關聯規則方法進行消渴病復方特征的關聯性研究。結果顯示單味藥、兩味藥組合、三味藥組合的應用規律與歷代中醫在消渴病治療用藥方面的論述是一致的。蔣永光等從《中醫大辭典?方劑分冊》中篩選出1355首脾胃方;按照數據挖掘技術中對原始數據的預處理要求,進行方劑數據的規范化、結構化和數字化處理;根據方劑的數據特點,選用聚類分析、對應分析和頻繁集方法,進行多角度、多層次和量化的分析和處理,并形成了有關技術規則和處理程序。就脾胃方的核心藥物、方劑結構、藥對藥組和“方藥證”的對應關聯所進行的數據挖掘,結果基本符合中醫脾胃方組方用藥的一般規律和特點,并發現了一些值得深入研究的特殊配伍現象和模式。研究表明,數據挖掘與傳統的數據處理方法不同,能以線性和非線性方式進行數據解析,適宜對包含大量模糊和非量化數據的中醫方劑配伍規律的研究。但由于數據挖掘對數據質量的要求高,因而數據預處理在方劑數據挖掘中工作量大,技術性強,是實現方劑配伍規律的知識發現的關鍵所在。第二十八頁,共三十五頁,編輯于2023年,星期五8.4常用數據挖掘工具1.QUEST2.MineSet3.DBMiner4.MATLAB第二十九頁,共三十五頁,編輯于2023年,星期五QUEST
QUEST是IBM公司Almaden研究中心開發的一個多任務數據挖掘系統,目的是為新一代決策支持系統的應用開發提供高效的數據開采基本構件。第三十頁,共三十五頁,編輯于2023年,星期五QUEST特點提供了專門在大型數據庫上進行各種開采的功能:關聯規則發現、序列模式發現、時間序列聚類、決策樹分類、遞增式主動開采等。各種開采算法具有近似線性(O(n))計算復雜度,可適用于任意大小的數據庫。算法具有找全
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 半角題目及答案
- 安全綜合知識試題及答案
- 鋼水燙傷培訓課件
- 可穿戴醫療設備市場潛力分析:2025年技術創新與需求變化報告
- 安全生產選擇試題及答案
- 數字藝術市場2025年交易活躍度研究報告:藝術與虛擬現實結合的新領域001
- 安全檢查工試題及答案
- 安全管理模擬試題及答案
- 預防燃氣泄漏培訓課件
- 中國原始社會美術課件
- 西藏2021年中考數學真題試卷(含答案)
- 沂蒙紅色文化與沂蒙精神智慧樹知到期末考試答案章節答案2024年臨沂大學
- 中國地理(廣州大學)智慧樹知到期末考試答案章節答案2024年廣州大學
- 課程與教學論(海南師范大學)智慧樹知到期末考試答案2024年
- 校園超市經營投標方案(技術方案)
- 2023年遼寧省高中學業水平合格性考試物理試卷真題(答案詳解)
- NBA-PPT簡介(文字圖片技巧)
- 一例壓力性損傷的個案護理
- 初高中生物銜接課件
- 高壓電動機預防性試驗課件
- 2022-2023學年北京市西城區部編版五年級下冊期末考試語文試卷
評論
0/150
提交評論