序列模式挖掘.ppt

上傳人：y*** IP屬地：廣東上傳時間：2020-01-15 格式：PPT 頁數：21 大小：1.94MB 積分：20 舉報 版權申訴

已閱讀5頁，還剩16頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

知識背景序列模式是神馬 1 顧客購買產品X 很可能在一段時間內購買購買產品Y 時間序列模型 2 在某個點發現了現象X 很可能在下一個點發現現象Y 空間序列模型知識背景序列模型VS關聯規則關聯規則序列模型序列模型關聯規則時間空間維度知識背景序列模型VS時間序列模型時間序列模型序列模型序列模型一系列研究對象在某段時間內的行為模式分析如顧客購買序列模式的發現時間序列模型一個特定對象變量在某段時間內的變化趨勢具有時間自相關性如股票分析知識框架 1 1概念定性序列模式挖掘是挖掘頻繁出現的有序事件或子序列定量給定一個正整數min sup 表示最小支持度閾值如果序列在序列數據庫S中存在support S min sup 則序列是頻繁序列也叫做序列模式 1 2 定義序列將與對象A有關的所有事務按時間戳增序排序就得到對象A的一個序列s 事務序列是事務的有序列表可以記作s 項事務e是一個項集可以記作e x1 x2 x3 xn 當只有1項時直接記作x1 序列包含的項的數量記作序列的長度長度為L的序列記作L序列序列數據庫包含一個或多個序列數據的數據集子序列設序列序列 ai和bi都是元素如果存在整數1 j1 j2 jn m 使得a1 bj1 a2 bj2 an bjn則稱序列為序列的子序列又稱序列包含序列記為包含3個序列 S1 S2 S3 假設有S4 S1包含3個事務 8個項長度即為8 成為8序列 S2以及S3都為S1的子序列 S4則不是S1的子序列 2 1GSP算法和SPADE算法算法介紹屬于類Apriori算法基于原理序列模式的每個非空子集都是序列模式基于候選產生測試模式進行挖掘主要步驟 1 掃描序列數據庫得到長度為1的序列模式L1 作為初始的種子集 2 根據長度為i的種子集Li 通過連接操作和修剪操作生成長度為i 1的候選序列模式Ci 1 然后掃描序列數據庫計算每個候選序列模式的支持度產生長度為i 1的序列模式Li 1 并將Li 1作為新的種子集 3 重復第二步直到沒有新的序列模式或新的候選序列模式產生為止 L1 C2 L2 C3 L3 C4 L4 2 1GSP算法和SPADE算法連接操作如果去掉序列模式S1的第一個項與去掉序列模式S2的最后一個項所得到的序列相同則可以將S1于S2進行連接即將S2的最后一個項目添加到S1中其中 1 若S2的最后兩個項本來屬于同一個事務則合并后與S1序列的最后一個項合并為同一個同一個事務 2 否則 S2最后一項則單獨成為一個事務剪切階段若某候選序列模式的某個子序列不是序列模式則此候選序列模式不可能是序列模式將它從候選序列模式中刪除頻繁3序列候選產生候選剪枝 2 1GSP算法和SPADE算法 GSPVSSPADE 區別在于數據庫中存儲數據的結構不一樣因此掃描數據庫的效率不一樣 2 1GSP算法和SPADE算法如果序列數據庫的規模比較大則有可能會產生大量的候選序列模式需要對序列數據庫進行循環掃描對于序列模式的長度比較長的情況由于其對應的短的序列模式規模太大本算法很難處理類Apriori算法存在的問題 2 2PrefixSpan算法算法介紹基于FP增長算法采用分治的思想不斷產生序列數據庫的多個更小的投影數據庫然后在各個投影數據庫上進行序列模式挖掘前綴與后綴假定序列S 則序列等都是S的前綴 S關于的后綴為 S關于的后綴為 S關于的后綴為 2 2PrefixSpan算法投影數據庫設為序列數據庫S中的一個序列模式則的投影數據庫為S中所有以為前綴的序列相對于的后綴記為S 例序列模式的投影數據庫為 2 2PrefixSpan算法主要步驟 1 得到長度為1的序列模型 2 劃分搜索空間 3 找出序列模式的子集 a 找出序列數據庫D關于的投影數據庫 b 掃描投影數據庫得到局部頻繁項 c 遞歸過程 4 匯集 S S1 Sm S11 S1n Sm1 Smp 2 2PrefixSpan算法 1 1序列模型為 4次 4次 4次 3次 3次 3次 2 劃分搜索空間根據 1 中的結果劃分前綴為的子集前綴為的子集前綴為的子集等 2 2PrefixSpan算法 3 找出序列模型的子集 a 建立的投影數據庫 b 掃描上述投影數據庫找出局部頻繁項分別為 c 遞歸地尋找以為前綴的序列模型 4 匯總以上挖掘的序列模型子集 2 2PrefixSpan算法 PrefixSpan算法分析 PrefixSpan算法不需要產生候選序列模式從而大大縮減了檢索空間相對于原始的序列數據庫而言投影數據庫的規模不斷減小PrefixSpan算法的主要開銷在于投影數據庫的構造 3 1多維多層次的序列模式挖掘購買數碼相機的退休顧客很可能在一個月內購買彩色打印機購買筆記本的年輕人很可能在兩周內購買打印機這些例子的序列模式挖掘都是多維多層次的多維體現在年輕人與老人多層次體現在彩色打印機與打印機 3 2基于約束的序列模式挖掘 1 序列的長度例顧客在1周內購買的商品序列 2 序列間事務的最大間隔例用戶的Web頁面瀏

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

序列模式挖掘.ppt

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

序列模式挖掘.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關文檔