




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據挖掘感想通過學習一個學期的數據挖掘課對數據挖掘有了一定的理解,也掌握了,理解了一些數據挖掘中用到的重要的算法。在這個數據膨脹的大數據時代我們需要篩選,查詢數據,處理數據。我們看到的聽到的都是數據,在這互聯網時代數據更多,信息很多。但是有些網站比如百度,谷歌,雅虎等為我們的學習生活帶來了很多便利。我們為了更正確更有效的利用和處理數據必須要利用數據挖掘技術,因為有了這技術我們以后的數字化生活變得更方便,不會因為數據多,信息多而感到反感。所以我真正的體會到了數據挖掘的優越性。同時我學習一些算法過后也感覺到了其復雜性,因為數據挖掘算法眾多,掌握起來比較困難。我們主要學習了貝葉斯分類算法,決策樹分類
2、算法等算法,這些是比較簡單并且利用比較廣泛的算法。也學習了數據的概念,數據理解包括收集原始數據、數據描述、數據探索分析和數據質量描述。我們首先收集大量的數據然后對此進行數據描述分類數據,然后優化凈化數據,并對此進行分類整理,保存查詢,搜索數據等。貝葉斯算法:貝葉斯分類基于貝葉斯定理,貝葉斯定理是由18世紀概率論和決策論的早起研究者Thomas Bayes發明的,故用其名字命名為貝葉斯定理。分類算法的比較研究發現,一種稱為樸素貝葉斯分類法的簡單貝葉斯分類法可以與決策樹和經過挑選的神經網絡分類器相媲美。用于大型數據庫,貝葉斯分類法也已表現出高準確率和高速度。2 / 9 目前研究較多的貝葉斯分類器主
3、要有四種,分別是:Naive Bayes、TAN、BAN和GBN。樸素貝葉斯分類是一種十分簡單的分類算法,思想基礎是這樣的:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類。貝葉斯定理(Bayes theorem)是概率論中的一個結果,它跟隨機變量的條件概率以及邊緣概率分布有關。在有些關于概率的解說中,貝葉斯定理能夠告知我們如何利用新證據修改已有的看法。 通常,事件A在事件B(發生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關系,貝葉斯定理就是這種關系的陳述。 貝葉斯公式提供了從先驗概率P(A)、P(B)和
4、P(B|A)計算后驗概率P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B) ,P(A|B)隨著P(A)和P(B|A)的增長而增長,隨著P(B)的增長而減少,即如果B獨立于A時被觀察到的可能性越大,那么B對A的支持度越小。 舉例:一個天氣估計問題 兩個假設H: h1=晴天、h2=非晴天 可觀察到的數據:溫度高+和溫度低- 先驗知識p(h) 北京晴天的概率0.99: P(h1)=0.99 非晴天0.01: P(h2)=0.01 觀察到的概率P(D|h): P(溫度高 | 晴天) = 0.85 P(溫度低 | 非晴天) = 0.93 問題:現在觀察到溫度低,判斷是否非晴天? 極大似然
5、計算l P(非晴天 | 溫度低) P(溫度低|非晴天) = 0.93l P(晴天 | 溫度低) P(溫度低|晴天) = 0.15l 答案:非晴天決策樹:決策樹:訓練集:數據的集合,用于生成樹(模型)測試集:用于測試樹(模型)的性能決策樹作用:主要就是訓練數據除去臟數據l 通過訓練集l 算法指導下l 生成決策樹l 新數據進行劃分l 否則是“三拍”決策N個分割屬性的訓練集l 種決策樹方案哪個好?怎么生成好的?數據大量產生,技術的成熟提供基礎數據大量產生這一點就不用說了,看看我們每個人一天的生活里會有多大的比例泡在網上,再加上未來各種可穿戴設備,物聯網的普及,數據量之大難以想象。我主要想談談技術,也
6、許技術這個詞不夠專業,自己在編程,數據存儲方面也不是特別了解,這里就說說算法這一部分。記得原先在數據結構和算法一開篇就提到關于等差數列求和的計算機求和計算,我們從小就知道等差數列的求和可利用算法公式,該算法利用了首尾兩個數據和是一樣的數據結構特征從而更簡潔。告訴計算機進行求和命令可以是兩種方法 1.一項項的加,2.直接利用算法,利用第一個方式可能在數據量少的時候計算速度與第二種相比不會有太大的差異,但如果數據量很大,后者的優越性將很明顯。后來在接觸到Apriori算法時候里用看到算法會用到一些剪枝手段減少計算機運算量的時候忍不住拍案叫絕。另外,各式各樣的統計軟件的背后都有著大量的contrib
7、utors將自己的算法程序包分享到網上,供后來人更便捷的調用使用。互聯網的這種集體智慧的共享創造方式讓后來人站在前人的肩膀上,走的更遠。但是在調用這些算法的過程中還是要對算法本身有一些原理上的理解,算法和數據結構是鑰匙和鎖,我們在實際操作的過程中還需要根據具體的情況靈活和適當的使用,會在后面的分享里細說。信息也是產品許多公司所擁有的客戶信息不僅僅對自己有價值,同時對他人也同樣具有價值。如今很多的淘寶店鋪之間也有了很多的消費者數據的共享。互聯網也改變了品牌和品牌之間的關系,一個擁有很多青少年兒童數據的公司完全可以將自己的數據分享給做兒童食品的公司,或者更進一步,分享彼此所擁有的平臺。2.數據挖掘
8、 for “actionable”insightsdiscovery數據挖掘有很多不同的名稱,例如KDD(knowledge discovery in database),或者BI(businessintelligence),預測建模(predictive model)等,但針對我們業務感受,我更愿意把數據挖掘定義為發現能夠讓品牌商產生真正落地行為的洞察或發現。以下舉兩個在項目中的小例子:在電商的數據挖掘中,我們通過對消費者的表達研究了解消費者購買產品的關注重點是什么,影響產品滿意度的重要因素是什么,其次我們會對消費者的線上購買行為數據進行研究,去看消費者購買除了買自己品牌的商品同時還會購買哪些競品品牌。結合這表達和行為的洞察,再深入探究競品的商品展示,宣傳,品牌形象,等等各方面和本品之間的差異點。這樣品牌商在電商運營中更能有方向性的去改進產品和消費者之間的溝通方式。所以,數據挖掘是在一項探測大量數據以發現有意義的模式和規則的業務流程,我們關注的重點在于發現的知識是否有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 租賃店鋪的殘疾人士服務考核試卷
- 鑄造過程中的質量管理方法創新與實踐案例分析考核試卷
- 銀礦市場動態監測與投資決策分析考核試卷
- 過敏性休克病人急救護理
- 呼吸道疾病預防及措施
- 院前急救的常見護理技術
- 機場應急救援淺析課件
- 影像學呼吸系統概述
- 外科手部護理標準流程
- 感染控制管理規范實施框架
- 2025年高考英語全國二卷試題含答案
- 網絡服務器配置與管理(微課版) 教案 項目02 虛擬化技術和VMware-2
- 國家開放大學2025年《創業基礎》形考任務3答案
- SL631水利水電工程單元工程施工質量驗收標準第1部分:土石方工程
- 江岸區2023-2024學年下學期期末七年級數學試卷(含答案)
- 《成本會計學(第10版)》課后參考答案 張敏
- LNG加氣站質量管理手冊
- (正式版)HGT 22820-2024 化工安全儀表系統工程設計規范
- 企業運營與模擬競爭智慧樹知到期末考試答案2024年
- 提升員工質量意識培訓課件
- 光伏基礎螺旋樁引孔方案
評論
0/150
提交評論