




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔-傾情為你奉上專心-專注-專業文本數據挖掘算法應用小結文本數據挖掘算法應用小結1、基于概率統計的貝葉斯分類2、ID3 決策樹分類3、基于粗糙集理論 Rough Set 的確定型知識挖掘4、基于 k-means 聚類5、無限細分的模糊聚類 Fuzzy Clustering6、SOM 神經元網絡聚類7、基于 Meaning 的文本相似度計算8、文本模糊聚類計算9、文本 k-means 聚類10、文本分類11、關聯模式發現12、序列模式發現13、PCA 主成分分析1、基于概率統計的貝葉斯分類、基于概率統計的貝葉斯分類算法概述算法概述:貝葉斯公式是由英國數學家( Thomas Bayes
2、1702-1763 )創造,用來描述兩個條件概率之間的關系,比如 P(A|B) 為當“B”事件發生時“A”事件發生的概率,按照乘法法則:P(AB)=P(A)*P(B|A)=P(B)*P(A|B),可導出貝葉斯公式:P(A|B)=P(B|A)*P(A)/P(B)貝葉斯分類基本思想為:設決策變量為 D,D1,D2,Di,Dk 為 n 條記錄組成的樣本空間 S 的一個劃分,將 n 條記錄劃分成 k 個記錄集合,如果以 P(Di)表示事件 Di 發生的概率,且 P(Di) 0 ( i=1,2,k)。對于任一事件 x,P(x)0,則有:貝葉斯分類的基本原理,就是利用貝葉斯條件概率公式,將事件 X 視為多
3、個條件屬性 Cj 各種取值的組合,當 x 事件發生時決策屬性 Di 發生的條件概率。貝葉斯分類是一種概率型分類知識挖掘方法,不能百分之百地確定 X 事件發生時 Di 一定發生。解決問題解決問題:預測所屬分類的概率。通過已知 n 條樣本集記錄,計算各種條件屬性組發生的概率,得出“貝葉斯分類”規則,給定一個未知“標簽”記錄,選擇最大概率為其所屬“分類” 。2、ID3 決策樹分類決策樹分類算法概述:算法概述:ID3 算法是 J. Ross Quinlan 在 1975 提出的分類算法,當時還沒有“數據挖掘”的概念。 該算法以信息論為基礎, 以信息熵和信息增益度來確定分枝生成決策樹 D-Tree。 I
4、D3算法以決策樹 D-Tree 構建分類知識模型,D-Tree 中最上面的節點為根節點 Root,每個分支是一個新的決策節點,或者是樹的葉子。每個決策節點代表一個問題或決策,每一個葉子節點代表一種可能的分類結果, 沿決策樹在每個節點都會遇到一個測試, 對每個節點上問題的不同取值導致不同的分支,最后會到達一個葉子節點為確定所屬分類。精選優質文檔-傾情為你奉上專心-專注-專業解決問題解決問題:預測所屬分類。通過已知樣本集記錄,生成一顆“分類知識樹” , 給定一個未知“標簽”記錄,通過“分類知識樹”來確定其所屬分類。3、基于粗糙集理論、基于粗糙集理論 Rough Set 的確定型知識挖掘的確定型知識
5、挖掘算法概述:算法概述:1982 年波蘭學者 Z. Paw lak 提出了粗糙集理論 Rough Sets Theory,它是一種刻劃不完整性和不確定性的數學工具,能有效分析不精確、不一致(Inconsistent)、不完整(Incomplete) 等各種不完備信息,利用數據進行分析和推理,從中發現隱含的知識,揭示潛在的規律。粗糙集理論是繼概率論、模糊集、證據理論之后的又一個處理不確定性事物的數學工具。 粗糙集理論是建立在分類機制的基礎上的, 它將分類理解為在特定空間上的等價關系,而等價關系構成了對該空間的劃分。粗糙集理論將知識理解為對數據的劃分,每一被劃分的集合稱為概念。 其主要思想是利用已
6、知的知識庫, 將不精確或不確定的知識用已知的知識庫中的知識來(近似) 刻畫。解決問題解決問題: 預測所屬分類。 粗糙集分類將樣本空間 S 劃分為上近似集 (Upper approximation)、下近似集(Lower approximation) 、邊界集(Boundary region),挖掘條件屬性 C 與決策屬性D 集合所包含的不可分記錄(不能再細分,該集合中的所有記錄都屬于某一決策屬性 Di 的取值) ,這些記錄形成不可辨識的關系(Indiscernibility relation),由此確定分類規則:IF THEN 即,如果滿條件 C,則其所屬分類為 Di。IF 中的條件 C 可以
7、是單一條件,也可以是組合 and(并且)組合條件。BIC 給出的是“最小分類規則” 。所謂“最小分類規則”是,最少的條件組合。例如一個人屬于“高” 、 “富” 、 “帥” ,條件為: “身高” 、 “財富” 、 “工資性收入” 、 “財產性收入” 、 “產業收入” 、 “臉型” 、 “眼睛大小” 、 “鼻梁形狀” 、 “英俊”等條件來判別,通過“粗糙集”分類計算,得出最小分類規則可能是“IF 財富=XXX1 and 身高=185cm and 相貌=英俊”其他條件可以忽略不計,這就是“最小分類規則” 。“粗糙集”分類規則為“百分之百確定型”分類規則,這是對樣本集的統計結果,如果出現非“樣本集”中
8、出現過的條件變量屬性,將無法得出“粗糙集” ,可轉而使用概率型“貝葉斯分類”進行計算。4、基于、基于 k-means 聚類聚類算法概述:算法概述:給定一個包括 n 條記錄、每條記錄有 m 個屬性 的樣本集,再給出分類數 k,要求將樣本集中的記錄,按記錄間的相似性大小(或距離遠近) ,將相似性最大(或距離最近)的記錄劃分到 k 個類中, 相同分類中記錄間的距離要盡可能地小, 而分類之間的距離要盡可能地大。精選優質文檔-傾情為你奉上專心-專注-專業BIC 改進了常規的 k-means 聚類算法,在聚類過程中,同時計算分類質量(類內均差 、類間均距和) ,并求解最優聚類 max。解決問題解決問題:將
9、 n 條記錄聚成 k 個分類。對 n 個樣本集記錄,指定分類個數 k,為 k 個分類指定初始迭代記錄為 k 個分類中心, 通過計算其他記錄對 k 個分類中心的距離, 對不斷變換分類、變換類中心,收斂都當分類不再變化時,計算結束。由此,將 n 個樣本集記錄分配到 k個分類中,得到 k 個分類中心指標。5、無限細分的模糊聚類、無限細分的模糊聚類 Fuzzy Clustering算法概述:算法概述:在實際解決聚類問題時,很多數事物是“模糊”的,其特征屬性 A 無法確進行量化,如:人的相貌、人與人之間的關系、人的性格、購買商品的意愿等,這就需要用模糊數學來進行相似性計算。模糊數學是伴隨著上世紀五六十年
10、代興起的控制論、信息論、系統論 (俗稱 “老三論” ) 而形成的一種決策方法, 是美國加利福尼亞大學伯克利分校 Lotfi Zadeh教授于 1965 年創立的。模糊聚類基本計算步驟為:(1)將樣本集中的 n 條記錄變換成 n x n 的模糊相似矩陣;(2)通過傳遞包卷積計算將模糊相似矩陣變換成等價相似矩陣;(3)最后通過截矩陣將 n 條記錄分成 1-n 個分類。K-means 聚類需事先確定聚類數 k,而模糊聚類 Fuzzy Clustering 無需事先確定聚類數 k,可以從最小的 k=1(所有學習集中的 n 條記錄為 1 個分類) ,到 k=n(所有學習集中的 n 條記錄各為 1 個分類
11、) 。解決問題:解決問題:將 n 條記錄聚成 1-n 個分類。模糊聚類 Fuzzy Clustering 算法完全基于數據自然狀況進行聚類,可產生聚類的解集合(k=1,2,n),因此,可以在解集合中求解最優聚類max,這對觀察分析樣本集的數據性態非常有用,可供觀察不同情況下的“聚類”狀況。6、SOM 神經元網絡聚類神經元網絡聚類算法概述算法概述:人類對事物的認知是一個不斷積累的過程,通過對事物的觀察,不斷地認識和修正因果關系,最后逐漸穩定為認知規則。醫學證明,人眼的視網膜、脊髓和海馬中存一種側抑制現象,即,當一個神經細胞興奮后,會對其周圍的神經細胞產生抑制作用。這種側抑制使神經細胞之間呈現出競
12、爭, 開始時可能多個細胞同時興奮, 但一個興奮程度最強的神經細胞對周圍神經細胞的抑制作用也最強, 其結果使其周圍神經細胞興奮程度減弱, 從而該神經細胞是這次競爭的“勝者” ,其它神經細胞在競爭中失敗。1981 年芬蘭學者 kohonen 提出一個稱為自組織特征映射 (Self Organization Feature Map-SOM或 SOFM)網絡,前述大腦神經細胞興奮規律等,在該網絡中都得到了反應。在競爭層神經元之間的連線, 它們是模擬生物神經網絡層內神經元相互抑制現象的權值, 這類抑制性權值滿足一定的分布關系,如距離近的抑制強,距離遠的抑制弱。精選優質文檔-傾情為你奉上專心-專注-專業通
13、過上述可知,SOM 聚類算法設計的核心思想是體現神經元在認知過程中的 3 個特性:(1)根據樣本比較,逐步積累、不斷修正、漸近穩定特性?(2)神經元之間的側抑由近到遠、逐步衰弱制特性?(3)神經元興奮區域隨認知次數逐步縮小范圍特性?BIC 采用歐氏距離作為輸入模式 Xi 與各輸出神經元 Wj 之間的相似度,選擇具有最小距離的神經元為興奮神經元;采用(1-ti/tm)作為學習衰減函數,其中 ti 為當前學習次數(第幾次樣本訓練) ,tm 為總的學習數,以此來體現上述特性“1” ; 采用(1-ti/T) 、C/Wij 作為神經元側抑制函數,其中 C 為設定的常數、Wij 為被選中的神經元與其他神經
14、元最遠距離,來體現上述特性“2” 、 “3” 。解決問題解決問題:將 n 條記錄按 m 個輸出神經元聚成 m 個分類。模仿人類的學習方法,對事物的認識是一個由淺入深、逐步學習、修正的過程,將對各種要素組態的認識逐步穩定到認知領域,由此進行“聚類” 。7、基于、基于 Meaning 的文本相似度計算的文本相似度計算算法概述算法概述: 給出一組 n 個文檔 D, BIC 為每個文檔計算出一組最具有代表性的詞組,同時,計算出相互間內容接近度及接近序列。BIC 的 Meaning 挖掘與自動搜索不同于現有 Baidu、Google 人工輸入關鍵詞的搜索方式,現有搜索引擎不考慮語義和語境,只考慮詞 W
15、與文檔 D 的包含關系和詞在文檔內的頻數 TF,因此,關鍵詞的搜索與文檔內容無關。例如: “姚明”是中國籃球的驕傲,但“姚明”還投身于公益事業,如果在搜索引擎中輸入“姚明” , 不見得搜索的文檔內容只包含與籃球相關的內容, 還可能包括公益及其他包含 “姚明”的文檔,可見,關鍵詞搜索具有不確定性。如果在搜索引擎輸入一組詞 “姚明” 、 “得分” 、 “籃板”,搜出文檔是籃球比賽內容的概率更大,顯然 ,形成的交集縮小了搜索范圍,但組詞 “姚明” 、 “得分” 、 “籃板”是經過人思考給出的。BIC 通過計算得出文檔代表詞組,相當于人工輸入 “姚明” 、 “得分” 、 “籃板”,同時計算詞在句子中語
16、序關系的發生概率與馬爾科夫鏈,因此, 能夠更好地確定搜索詞的語義和語境, 通過對文檔間的相關性 (接近度) 進行聚類計算,可按 Meaning“接近度”進行自動搜索而無需人工干預,并隨文檔內容的變化而自動跟蹤Meaning 變化,使搜索更加準確、更加自動化,讓搜索“隨用戶的心而動” 。BIC 可用于基于 Meaning 計算的搜索、輿情分析、特定情報分析、垂直搜索和相似內容推薦精選優質文檔-傾情為你奉上專心-專注-專業等文本挖掘。解決問題:解決問題:計算兩個文本的相似度。8、文本模糊聚類計算、文本模糊聚類計算算法概述:算法概述:基于模糊聚類算法,BIC 首先計算將 n 個文本組成相似矩陣(第
17、i 個文本文檔對第 j 個文本文檔的相似度) ,然后將相似矩陣變成模糊相似矩陣,通過求模糊相似矩陣的等價矩陣和截矩陣,將 n 個文本文檔分成 1-n 個分類,同時,按相同分類中的文本具有最接近的內容相似度 Min, 不同文本分類間具有最大差異 Max, 來求解按文本內容進行最優分類方案。解決問題解決問題:在不確定將文本劃分成幾類的情況下,將 n 個文本聚成 1-n 個分類,以此來觀察“聚類”效果。9、文本、文本 k-means 聚類聚類算法概述:算法概述:基于 k-means 聚類,在 BIC 平臺上,用戶上傳或輸入 n 個文本,確定希望分類數量 k 和 k 個分類樣本,BIC 將以 k 個樣
18、本作為初始迭代點進行 k-means 聚類計算,將 n 個文本分成 k 個分類。解決問題:解決問題:在已經確定了 k 個分類的情況下,將文本劃分到 k 個“分類”中。10、文本分類、文本分類算法概述算法概述:通過“文本模糊聚類”或“文本 k-means”聚類,BIC 不僅將 n 個文本按內容相似度進行分類,同時挖掘出各個分類的“分類代表詞組” ,以后,用戶任意給出一個文本,BIC 將根據其對各個“分類代表詞組”的相似度,選擇最相似的分類 MaxSimi,將該待分類文檔分配到 MaxSimi類。解決問題:解決問題:在已經完成文本聚類的情況下,將不確定的文本劃分到“分類”中。11、關聯模式發現、關
19、聯模式發現算法概述算法概述:關聯分析的目的是挖掘隱藏的關聯(Association) 模型,最著名的關聯模式應用是挖掘“購物籃”問題,是從發現購買行中,發現商品之間的關聯關系。給定一組交易記錄:每筆交易 ID 包含 m 個商品,n 條記錄組成二維表,構成 矩陣,BIC 可計算得出任意兩商品組合的 Confidence(A-B)=P(A | B)置信度和支持度Support(A-B)=P(AU B),可用于分析商品之間的關聯性“購物籃”問題。BIC 的關聯模式發現是一個快速、交互式 Apriore 計算過程:從發現最基本的 2 個 Item 關聯高頻項集開始,計算支持度 Support(A-B)
20、=P(A U B)和置信度 Confidence(A-B)=P(A | B),精選優質文檔-傾情為你奉上專心-專注-專業逐步計算和發現 2、3、4Item 關聯頻繁項集。因為:(1) 任何求解高頻關聯事務 T 中的項數 Item 必然大于等于 2, 如果只有 1 個 Item 不存在關聯;(2)任何交易記錄 T 中無論有多少個 Item 組合,如果存在大于 2 個 Item 的高頻組合,都必然存在 2 關聯的高頻真子集。如:交易記錄 T1=Item1,Item2,交易記錄 T2=Item1,Item3,Item4,Item2,則 T1 為T2 的非空真子集 T1T2。所以,如果存在 3 關聯的
21、高頻 Item 組合,必然存在 2 關聯的高頻組合;如果存在 4 關聯的Item 高頻組合, 必然存在 3 關聯高頻組合。 BIC 就是通過最基本的 2 關聯高頻項集發現開始,逐步縮小記錄集合,逐步發現所有任意數量 Item 組合的高頻項集。因此,BIC 的關聯計算是一個快速、交互式計算的 Apriore 算法。解決問題:解決問題:從樣本集中發現有較強“置信度”的關聯規則。12、序列模式發現、序列模式發現算法概述:算法概述:算法原理同“關聯分析” ,但統計點在于事物(或商品購買)發生的先后序列。如商品購買行為預測:汽車改裝愛好者,購買某種品牌增壓器的人,很多人后來還購買了活塞環、又購買了某品牌
22、機油,通過序列分析,發現其購買序列、預測下一步購買行為;如疾病診斷:患有某種疾病的人,先出現 A 癥狀、后出現 B 癥狀、又出現 C 癥狀,通過出現癥狀的序列分析,發現疾病發生、發展的序列模式,對疾病進行診斷;如 Web 訪問行為模式發現:每個 IP 訪問網站都是一個 Web 會話 Session,每個 Session 由一系列的 URL 序列組成,通過 Session 計統計得到高頻 URL 序列,預測用戶的訪問行為;不限于上述例子,還包括生物進化序列模式、DNA 序列、地震、火災、戰爭沖突爆發序列模式預測等,序列規律是大量存在的,只要有足夠的統計數據,都可以通過 BIC 發現最率并進行預測
23、。序列模式發現與關聯模式發現在算法上很相似,但序列模式強調 Item 的先后順序,而關聯模式發現不關心順序,只看是否在一個事物 T 中 2 個 Item(或多個)是否同時出現。BIC 的序列模式發現是一個快速、交互式 Apriore 計算過程:從發現 2 個 Item 序列高頻序列開始,計置信度 Confidence(A-B)=P(A | B),逐步計算和發現 2、3、4Item 序列頻繁序列。因為:(1) 任何求解高頻序列事務 T 中的項數 Item 必然大于等于 2, 如果只有 1 個 Item 不存在關聯;(2)任何事務記錄 T 中無論有多少個 Item 序列組合,如果存在大于 2 個
24、Item 的高頻序列組合,都必然存在 2 序列的高頻序列真子集。如:事務序列記錄 T1=Item1,Item2,事務序列記錄 T2=Item1,Item3,Item4,Item2,則 T1 為 T2 的非空真子集 T1T2。所以,如果存在 3 個 Item 序列的高頻 Item 組合,必然存在 2 序列的高頻序列組合,如果存在 4 個 Item 的高頻序列組合,必然存在 3 高頻序列組合。BIC 就是通過最基本的 2 序列高頻序列發現開始,逐步縮小記錄集合,逐步發現所有任意數量 Item 組合的高頻序列組合。因此,BIC 的序列計算是一個*快速、交互式計算的 Apriore 算法。解決問題解決問題:序列模式發現的目的是挖掘事務發生、發展的序列 (Sequencing)模式,從樣本集發現有較強“置信度”的序列規則。13、PCA 主成分分析主成分分析算法概述算法概述:假設一個事物由多種因素構成,設有 n 個樣本,每個樣本共有 m 個屬性(指標、構成要素) ,構成一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DZ/T 0253.4-2014生態地球化學評價動植物樣品分析方法第4部分:氟量的測定擴散-分光光度法
- DZ/T 0222-2006地質災害防治工程監理規范
- DZ/T 0196.4-1997測井儀通用技術條件人工核測井儀
- CJ/T 511-2017鑄鐵檢查井蓋
- CJ/T 5026-1998鐵質廢物箱技術條件
- CJ/T 462-2014直連式加壓供水機組
- CJ/T 446-2014泥水平衡盾構機
- CJ/T 364-2011管道式電磁流量計在線校準要求
- CJ/T 350-2010電動公共汽車通用技術條件
- CJ/T 112-2000IC卡家用膜式燃氣表
- 江蘇省南京市2022-2023學年四年級下學期數學期末試卷(含答案)
- 江蘇省南京市建鄴區2022-2023學年五年級下學期期末數學試卷
- 提高感染性休克集束化治療完成率工作方案
- 肝硬化病人健康宣教課件
- 心力衰竭病人的護理課件
- 0-3歲兒童適應性行為的發展與教育
- 【多功能自動跑步機機械結構設計4800字(論文)】
- 動物生理學血細胞計數實驗報告
- 高血壓患者的健康管理隨訪
- 發那科注塑機講義
- 初中英語詞匯表(帶音標)
評論
0/150
提交評論