




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
程設計目錄1.緒論21.1項目背景2TOC\o"1-5"\h\z\o"CurrentDocument"1.2提出問題 22數據庫倉庫與數據集的概念介紹 22.1數據倉庫 2\o"CurrentDocument"2.2數據集 23數據倉庫33.1數據倉庫的設計 3\o"CurrentDocument"3.1.1數據倉庫的概念模型設計 33.1.2數據倉庫的邏輯模型設計 33.2數據倉庫的建立 33.2.1數據倉庫數據集 3\o"CurrentDocument"3.2.2建立維表 4數據挖掘操作 44.1數據預處理 44.1.1描述性數據匯總 4\o"CurrentDocument"4.2決策樹 45、 實驗心得126、大總結12緒論1.1項目背景在現在大數據時代,各行各業需要對商品及相關關節的數據進行收集處理,尤其零售行業,于企業對產品的市場需求進行科學合理的分析,從而預測出將來的市場,制定出高效的決策,給企業帶來經濟收益。1.2提出問題對于超市的商品的購買時期和購買數量的如何決定,才可以使銷售量最大,不積壓商品,不缺貨,對不同時期季節和不同人群制定不同方案,使企業收益最大,通過數據挖掘對數據進行決策樹分析,關聯分析,順序分析與決策分析等可以制定出最佳方案。2數據庫倉庫與數據集的概念介紹2.1數據倉庫數據倉庫是為企業所有級別的決策制定過程提供支持的所有類型數據的戰略集合。它是單個數據存儲,出于分析性報告和決策支持的目的而創建。為企業提供需要業務智能來指導業務流程改進和監視時間、成本、質量和控制。數據倉庫是決策系統支持(dss)和聯機分析應用數據源的結構化數據環境。數據倉庫研究和解決從數據庫中獲取信息的問題。數據倉庫的特征在于面向主題、集成性、穩定性和時變性。2.2數據集數據集是指一種由數據所組成的集合。Dataset(或dataset)是一個數據的集合,通常以表格形式出現。每一列代表一個特定變量。每一行都對應于某一成員的數據集的問題。它列出的價值觀為每一個變量,如身高和體重的一個物體或價值的隨機數。每個數值被稱為數據資料。對應于行數,該數據集的數據可能包括一個或多個成員。3數據倉庫3.1數據倉庫的設計3.1.1數據倉庫的概念模型設計概念模型的設計是整個概念模型開發過程的三階段。設計階段依據概念模型分析以及分析過程中收集的任何數據,完成星型模型和雪花型模型的設計。如果僅依賴ERD,那只能對商品、銷售、客戶主題設計成如圖所示的概念模型。這種模型適合于傳統的數據庫設計,但不適合于數據倉庫的設計。3.1.2數據倉庫的邏輯模型設計邏輯建模是數據倉庫實施中的重要一環,因為它能直接反映出各個業務的需求,同時對系統的物理實施有著重要的指導作用,它的作用在于可以通過實體和關系勾勒出企業的數據藍圖,數據倉庫的邏輯模型設計任務主要有:分析主題域,確定要裝載到數據倉庫的主題、確認粒度層次劃分、確認數據分割策略、關系模式的定義和記錄系統定義、確認數據抽取模型等。邏輯模型最終設計成果包括每個主題的邏輯定義,并將相關內容記錄在數據倉庫的元數據中、粒度劃分、數據分割策略、表劃分和數據來源等。3.2數據倉庫的建立3.2.1數據倉庫數據集一般說來,一個數據集市是按照某一特定部門的決策支持需求而組織起來的、針對一組主題的應用系統。例如,財務部擁有自己的數據集市,用來進行財務方面的報表和分析,市場推廣部、銷售部等也擁有各自專用的數據集市,用來為本部門的決策支持提供輔助手段。數據集市大都采用多維數據庫技術,這種技術對數據的分析而言也許是最優的,但肯定不適合于大量數據的存儲,因為多維數據庫的數據冗余度很高。為了提高速度,對數據集市中的數據一般都建立大量的索引。換言之,數據集市中往往靠對數據的預處理來換取運行時的高速度,當業務部門提出新的問題時,如果不在原來設計的范圍內,則需要數據庫管理員對數據庫作許多調整和優化處理。3.2.2建立維表維是分析問題的角度,度量是要分析的問題。多維視圖:用包含度量和維的表的數據結構可以創建一個多維視圖,用試題和維創建的多維模型稱為星型模型,星型模型生成的主要表格被稱為事實表。事實表的屬性值幾乎都有連續值。事實表是規范化的。與維表不同不是隨時間的推移變化,而是不斷變大。維表:星型模型也具有非常小的表,用來裝載描述信息。維表是逆規范化的。如果把維表置于第二范式中,這樣的表稱為雪花模型。維表包括主鍵,通常對應事實表的外部鍵。如果維表的主鍵不在實事表中,這個主鍵字便被稱作退化的維。創建維表:有3種方法:星型模型、雪花模型和星暴模型。星暴模型含有兩張以上的事實表。基本有些充當維事實表。星型模型:所有信息維都放在同一個維表中。維表信息包含一個唯一的標識符(ID)和通過這個維表建立的所有維所需的屬性。星型模型由小的維表與大的事實表組成,多稱為“小表和大表”。事實表一般是標準表。雪花模型:把信息分為3種標準格式。產品表、類別表、子類別表。把這些信息放到一起需要一定數據的連接。雪花模型比星型模型效率低,占空間少。所有的事實表都有一個與之相關的時間維表。數據挖掘操作4.1數據預處理4.1.1描述性數據匯總對于許多數據預處理任務,希望知道關于數據的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(median)、眾數(mode)和中列數(midrange),而數據離中趨勢度量包括四分位數(quartiles)、四分位數極差(interquartilerange,IQR)和方差(variance)。這些描述性統計量有助于理解數據的分布。4.2決策樹(1) 讀取文本數據使用變量文件節點讀取定界文本數據。可以從選項板中添加變量文件節點,方法是單擊源選項卡找到此節點,或者使用收藏夾選項卡(默認情況下,其中包含此節點)。然后,雙擊新添加的節點以打開相應的對話框。如圖1所示。圖1單擊緊挨“導入文件”框右邊以省略號“...”標記的按鈕,瀏覽到系統中的Clementine安裝目錄。打開目標文件目錄,然后選擇名為sales.xls的文件。選擇從文件讀取字段名,并注意已載入此對話框中的字段和值。如圖2所示。圖2單擊過濾選項,可以把用不到的信息給過濾掉。如圖3所示。圖3類型選項卡可幫助了解數據中的更多字段類型。還可以選擇讀取值來查看各個字段的實際值,具體取決于在值列中的選擇。此過程稱為實例化。如圖4所示。圖4(2) 添加表現在已載入數據文件,可以瀏覽一下某些記錄的值。其中一個方法就是構建一個包含表節點的流。要將表節點添加到流中,可雙擊選項板中的表節點圖標或將其拖放到工作區。如圖5所示。圖5雙擊選項板中的某個節點后,該節點將自動與流工作區中的選定節點相連接。此外,如果尚未連接節點,則可以使用鼠標中鍵將源節點與表節點相連接。要模擬鼠標中鍵操作,請在使用鼠標時按下Alt鍵。如圖6所示。圖6要查看表,請單擊工具欄上的綠色箭頭按鈕執行流,或者右鍵單擊表節點,然后選擇執行。如圖7所示。(3)創建分布圖將分布節點添加到流,并將其與源節點相連接,然后雙擊該節點以編輯要顯示的選項。選擇商品名稱作為要顯示其分布的目標字段。然后,在對話框中單擊執行。如圖8所示。圖8最終圖表將有助于查看數據的“結構”。結果表明,商品300g壺瓶棗和400g沁州黃賣的最多。如圖9所示。圖9此外,還可以在“輸出”選項卡中找到數據審核節點。如圖10所示。圖10一添加并執行數據審核節點,同時快速瀏覽所有字段的分布圖和直方圖。如圖11所示。圖11(4) 創建散點圖現在我們來看一下有哪些因素會對商品出售(目標變量)產生影響。作為一名消費者,我們一定知道銷售模式對銷售數量有著重要的影響。所以創建一個關于商品名稱和銷售模式的散點圖。將散點圖節點放在工作區中,并將其與源節點相連接,然后雙擊該節點對其進行編輯。如圖12所示。圖12在“散點圖”選項卡中,選擇商品名稱作為乂字段,選擇銷售模式作為丫字段,并選擇銷售金額作為交疊字段。然后單擊執行。如圖13所示。圖13此散點圖清楚地顯示商品在零售和特價模式下銷售金額的不同。商品在特價的銷售模式下,銷售金額明顯高于零售模式下的銷售金額。如圖14所示。圖14(5) 創建直方圖因很多數據不能夠直接顯示,所以我們要建立直方圖,直方圖能夠很清晰的顯示數據。首先,將網絡節點與您工作區中的源節點相連接。如圖15所示。圖15在“直方圖”選項卡中,選擇商品序號作為乂字段,選擇銷售數量作為交疊字段。然后單擊執行。如圖16所示。圖16此直方圖能夠清楚地顯示不同商品銷售數量的不同。由圖可以看出序號為1的商品銷售數量最多,序號為9的商品銷售數量最少。如圖17所示。圖175、實驗心得在本次實驗中,從新建工作流一直到獲得最終結果,整個流程讓我對數據挖掘中數據分析處理的基本方法有了深入的了解,特別是決策樹模型應用的理解,同時,也學會了如何使用決策樹通過建模和直觀化顯示發現數據庫中的關系(即鏈接)以及利用這些鏈接與數據中的案例組相對應關系可以通過建模可詳細研究這些組并描繪其特征,增強了運用決策樹模型和聚類分析模型的能力。通過這次學習讓我意識到,對于數據我們不僅要能利用統計來分析它的規律,也要能會通過數據挖掘軟件來挖掘數據當中的潛在信息,并且利用數據挖掘所得到的有利信息更好的服務于數據使用者。6、大總結堅持好一段時間,終于把完成了任務,通過這幾次實驗報告的實踐操作,我收獲很大,不但學習相關數據挖掘的知識,關于spssT解更多,操作也比原來熟練多了。雖然過程中有點折磨過,但當你克服了,耐心去一步一步操作,那些煩躁的心情就會慢慢消失,還得要有耐心,認真的態度去操作,才能有結果。關聯分析是一個很有用的數據挖掘模型,能夠幫助企業做很多很有用的產品組合推薦、優惠促銷組合,同時也能指導貨架擺放是否合理,還能夠找到更多的潛在客戶,的確真正的把數據挖掘落到實處。?關聯分析具體能用來做什么呢?可以一句話來概括:最大限度地從你口袋里面掏出更多的錢買我的產品。通過關聯規則,推出相應的促銷禮包或優惠組合套裝,快速幫助提高銷售額。如自行車針對不同人群,來制定有效的銷售方案。零售超市或商場,可以通過產品關聯程度大小,指導產品合理擺放,方便顧客最購買更多其所需要的產品。最常見的就是超市里面購買肉和購買蔬菜水果等貨架會擺放得很近,目前就是很多人會同時購買肉與蔬菜,產品的合理擺放也是提高銷售的一個關鍵。進行相關產品推薦或者挑選相應的關聯產品進行精準營銷。最常見的是你在亞馬遜或京東購買產品的時候,旁邊會出現購買該商品的人,有百分之多少還會購買如下的產品,快速幫助顧客找到其共同愛好的產品。物以類聚,人以群分。例如,窮人一般和窮人在一起,富人也喜歡和富人在一起。還有數據挖掘的人喜歡和數據挖掘的人打交道,都離不開這些鳥道理。尋找更多潛在的目標客戶。例如:100人里面,購買A的有60人,購買B的有40人,同時購買A和B的有30人,說明A里面有一半的顧客會購買B,反推而言。如果推出類似B的產品,除了向產品B的用戶推薦(因為新產品與B的功能效果比較類似)之外,還可以向A的客戶進行推薦,這樣就能最大限度地尋找更多的目標客戶。決策樹分析法是常用的風險分析決策方法。該方法是一種用樹形圖來描述各方案在未來收益的計算。比較以及選擇的方法,其決策是以期望值為標準的。人們對未來可能會遇到好幾種不同的情況。每種情況均有出現的可能,人們目前無法確知,但是可以根據以前的資料來推斷各種自然狀態出現的概率。在這樣的條件下,人們計算的各種方案在未來的經濟效果只能是考慮到各種自然狀態出現的概率的期望值,與未來的實際收益不會完全相等。決策樹法是管理人員和決策分析人員經常采用的一種行之有效的決策工具。它具有下列優點:1.決策樹列出了決策問題的全部可行方案和可能出現的各種自然狀態,以及各可行方法在各種不同狀態下的期望值。能直觀地顯示整個決策問題在時間和決策順序上不同階段的決策過程。在應用于復雜的多階段決策時,階段明顯,層次清楚,便于決策機構集體研究,可以周密地思考各種因素,有利于作出正確的決策。當然,決策樹法也不是十全十美的,它也有缺點,如使用范圍有限,無法適用于一些不能用數量表示的決策;對各種方案的出現概率的確定有時主觀性較大,可能導致決策失誤;等等預測分析法是根據客觀對象的已知信息而對事物在將來的某些特征、發展狀況的一種估計、測算活動。運用各種定性和定量的分析理論與方法,對事物未來發展的趨勢和水平進行判斷和推測的一種活動
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷熱源方案分析報告
- 池塘養魚可行性研究報告
- DB62T 4059-2019 馬鈴薯品種 定薯4號
- 影視技術專業實習心得與體會
- 小學足球社團交流活動方案
- 小學階段足球比賽組織方案
- 蘇教版二年級學期評估與反饋計劃
- DB62T 4126-2020 高速公路高邊坡設計與施工技術指南
- DB62T 4023-2019 旱作區馬鈴薯-蠶豆輪作高產栽培技術規程
- 農業合作社年度總結會議紀要范文
- 超星爾雅學習通《公文寫作規范(黑龍江大學)》2025章節測試附答案
- 2025-2030中國劃船機行業市場發展分析及前景趨勢與投資研究報告
- 2025年青桐鳴高三語文3月大聯考作文題目解析及相關范文:道理是直的道路是彎的
- 腫瘤免疫治療綜述
- 《基于Android客戶端的助老APP的設計與實現》8400字(論文)
- 三菱D700變頻器說明書
- 高校實驗室安全教育
- 2025-2030年中國威士忌酒行業運行動態及前景趨勢預測報告
- 小學生記憶小竅門課件
- 婚姻家庭與法律知到智慧樹章節測試課后答案2024年秋延邊大學
- 手術患者評估制度理論考核試題
評論
0/150
提交評論