數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試驗(yàn)報(bào)告_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試驗(yàn)報(bào)告_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試驗(yàn)報(bào)告_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試驗(yàn)報(bào)告_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試驗(yàn)報(bào)告_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一、上機(jī)目的及內(nèi)容目的:.理解數(shù)據(jù)挖掘的基本概念及其過程;.理解數(shù)據(jù)挖掘與數(shù)據(jù)倉庫、OLAP之間的關(guān)系.理解基本的數(shù)據(jù)挖掘技術(shù)與方法的工作原理與過程,掌握數(shù)據(jù)挖掘相關(guān)工具的使用。內(nèi)容:將創(chuàng)建一個(gè)數(shù)據(jù)挖掘模型以訓(xùn)練銷售數(shù)據(jù),并使用Microsoft決策樹”算法在客戶群中找出購買自行車模式。請(qǐng)將要挖掘的維度(事例維度)設(shè)置為客戶,再將客戶的屬性設(shè)置為數(shù)據(jù)挖掘算法識(shí)別模式時(shí)要使用的信息。然后算法將使用決策樹從中確定模式。下一步需要訓(xùn)練模型,以便能夠?yàn)g覽樹視圖并從中讀取模式。市場部將根據(jù)這些模式選擇潛在的客戶發(fā)送自行車促銷信息。要求:利用實(shí)驗(yàn)室和指導(dǎo)教師提供的實(shí)驗(yàn)軟件,認(rèn)真完成規(guī)定的實(shí)驗(yàn)內(nèi)容,真實(shí)地記錄實(shí)驗(yàn)中遇到的各種問題和解決的方法與過程,并根據(jù)實(shí)驗(yàn)案例繪出模型及操作過程。實(shí)驗(yàn)完成后,應(yīng)根據(jù)實(shí)驗(yàn)情況寫出實(shí)驗(yàn)報(bào)告。二、實(shí)驗(yàn)原理及基本技術(shù)路線圖(方框原理圖或程序流程圖)關(guān)聯(lián)分析:關(guān)聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的一類重要方法。時(shí)序模式:通過時(shí)間序列搜索出重復(fù)發(fā)生概率較高的模式。分類:分類是在聚類的基礎(chǔ)上對(duì)已確定的類找出該類別的概念描述,代表了這類數(shù)據(jù)的整體信息,既該類的內(nèi)涵描述,一般用規(guī)則或決策樹模式表示。三、所用儀器、材料(設(shè)備名稱、型號(hào)、規(guī)格等或使用軟件)臺(tái)PC及MicrosoftSQLServer套件四、實(shí)驗(yàn)方法、步驟(或:程序代碼或操作過程)及實(shí)驗(yàn)過程原始記錄(測試數(shù)據(jù)、圖表、計(jì)算等)創(chuàng)建AnalysisServices項(xiàng)目打開BusinessIntelligenceDevelopmentStudio。在“文件”菜單上,指向“新建”,然后選擇“項(xiàng)目”。確保已選中“模板”窗格中的“AnalysisServices項(xiàng)目”。在“名稱”框中,將新項(xiàng)目命名為AdventureWorks。單擊“確定”。更改存儲(chǔ)數(shù)據(jù)挖掘?qū)ο蟮膶?shí)例在BusinessIntelligenceDevelopmentStudio的“項(xiàng)目”菜單中,選擇“屬性”。在“屬性頁”窗格的左側(cè),單擊“部署”。在“目標(biāo)”選項(xiàng)部分,驗(yàn)證數(shù)據(jù)庫名稱是否為localhosto如果使用的是其他實(shí)例,請(qǐng)鍵入該實(shí)例的名稱。單擊“確定”。創(chuàng)建數(shù)據(jù)源在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源”文件夾,然后選擇“新建數(shù)據(jù)源”。|系統(tǒng)將打開數(shù)據(jù)源向?qū)АT凇皻g迎使用數(shù)據(jù)源向?qū)А表撁嬷校瑔螕簟跋乱徊健卑粹o。在“選擇如何定義連接”頁上,單擊“新建”向AdventureWorks數(shù)據(jù)庫中添加連接。系統(tǒng)將打開“連接管理器”對(duì)話框。在“連接管理器”的“提供程序”列表中,選擇“本機(jī)OLEDB\MicrosoftOLEDBProviderforSQLServer”。在“服務(wù)器名稱”列表中,鍵入或選擇承載AdventureWorksDW的服務(wù)器的名稱。在“登錄到服務(wù)器”組中,選擇身份驗(yàn)證方法,并輸入憑據(jù)。在“選擇或輸入數(shù)據(jù)庫名稱”列表中,選擇AdventureWorksDW,再單擊“確定”按鈕。單擊“下一步”按鈕進(jìn)入向?qū)У南乱豁摗T凇澳M信息”頁中,選擇“使用服務(wù)帳戶”,再單擊“下一步”。請(qǐng)注意,在“完成向?qū)А表撝校瑪?shù)據(jù)源名稱默認(rèn)為AdventureWorksDW。單擊“完成”。新的數(shù)據(jù)源AdventureWorksDW將顯示在解決方案資源管理器的“數(shù)據(jù)源”文件夾中。創(chuàng)建數(shù)據(jù)源視圖

在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源視圖”,選擇“新建數(shù)據(jù)源視圖”。系統(tǒng)將打開數(shù)據(jù)源視圖向?qū)АT凇皻g迎使用數(shù)據(jù)源視圖向?qū)А表撋希瑔螕簟跋乱徊健薄T凇斑x擇數(shù)據(jù)源”頁的“關(guān)系數(shù)據(jù)源”下,系統(tǒng)將默認(rèn)選中您在上一個(gè)任務(wù)中創(chuàng)建的AdventureWorksDW數(shù)據(jù)源。單擊“下一步”。若要?jiǎng)?chuàng)建新數(shù)據(jù)源,請(qǐng)單擊“新建數(shù)據(jù)源”,啟動(dòng)數(shù)據(jù)源向?qū)АT凇斑x擇表和視圖”頁上,選擇下列各表,然后單擊右箭頭鍵,將這些表包括在新數(shù)據(jù)源視圖中:單擊“下一步”。在“完成向?qū)А表撋希J(rèn)情況下,系統(tǒng)將數(shù)據(jù)源視圖命名為AdventureWorksDW0單擊“完成”。系統(tǒng)將打開數(shù)據(jù)源視圖設(shè)計(jì)器,顯示AdventureWorksDW數(shù)據(jù)源視圖。1.創(chuàng)建用于目標(biāo)郵件方案的挖掘結(jié)構(gòu)1.在解決方案資源管理器中,右鍵單擊“挖掘結(jié)構(gòu)”并選擇“新建挖掘結(jié)構(gòu)”啟動(dòng)數(shù)據(jù)挖掘向?qū)АT凇皻g迎使用數(shù)據(jù)挖掘向?qū)А表撋希瑔螕簟跋乱徊健薄T凇斑x擇定義方法”頁上,確保已選中“從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,再單擊“下一步”。在“創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)”頁的“您要使用何種數(shù)據(jù)挖掘技術(shù)?”下,選擇“Microsoft決策樹”。單擊“下一步”。在“選擇數(shù)據(jù)源視圖”頁上,請(qǐng)注意已默認(rèn)選中AdventureWorksDW。在數(shù)據(jù)源視圖中,單擊“瀏覽”查看各表,然后單擊“關(guān)閉”返回該向?qū)А螕簟跋乱徊健薄T凇爸付ū眍愋汀表撋希x中vTargetMail表旁邊“事例”列中的復(fù)選框,再單擊“下一步”。在“指定定型數(shù)據(jù)”頁上,確保已選中CustomerKey列旁邊Key列中的復(fù)選框。如果數(shù)據(jù)源視圖中的源表表示一個(gè)鍵,則數(shù)據(jù)挖掘向?qū)⒆詣?dòng)選擇該列作為模型的鍵。選中BikeBuyer列旁邊的“輸入”和“可預(yù)測”。單擊“建議”打開“提供相關(guān)列建議”對(duì)話框。只要選中至少一個(gè)可預(yù)測屬性,即可啟用“建議”按鈕。“提供相關(guān)列建議”對(duì)話框?qū)⒘谐雠c可預(yù)測列關(guān)聯(lián)最密切的列,并按照與可預(yù)測屬性的相互關(guān)系對(duì)屬性進(jìn)行排序。值大于的列將被自動(dòng)選中,以包括在模型中。閱讀建議,然后單擊“取消”忽略建議并保留向?qū)гO(shè)置的原始值。選中以下各列旁邊的“輸入”復(fù)選框:AgeCommuteDistanceEnglishEducationEnglishOccupationFirstNameGenderGeographyKeyHouseOwnerFlagLastNameMaritalStatusNumberCarsOwnedNumberChildrenAtHomeRegionTotalChildrenYearlyIncome單擊“下一步”。在“指定列的內(nèi)容和數(shù)據(jù)類型”頁上,單擊“檢測”以運(yùn)行對(duì)數(shù)值數(shù)據(jù)進(jìn)行取樣并確定數(shù)值列是否包含連續(xù)或離散值的算法。例如,某列可包含薪金信息,用以作為連續(xù)的實(shí)際薪金值,也可包含整數(shù),用以表示離散的編碼薪金范圍(例如1=<$25,000;2=從$25,000到$50,000)。單擊“檢測”后,請(qǐng)查看“內(nèi)容類型”和“數(shù)據(jù)類型”列中的各項(xiàng);如有必要,請(qǐng)進(jìn)行更改,以確保設(shè)置與下表所示一致。通常,向?qū)?huì)檢測數(shù)值,并分配相應(yīng)的數(shù)值數(shù)據(jù)類型;但有些情況下,您可能想要將數(shù)值作為文本處理。例如,GeographyKey應(yīng)作為文本處理,因?yàn)閷?duì)此標(biāo)識(shí)符進(jìn)行數(shù)學(xué)運(yùn)算是不對(duì)的。列 內(nèi)容類型 數(shù)據(jù)類型

AgeContinuousLongBikeBuyerDiscreteLongCommuteDistanceDiscreteTextCustomerKeyKeyLongEnglishEducationDiscreteTextEnglishOccupationDiscreteTextFirstNameDiscreteTextGenderDiscreteTextGeographyKeyDiscreteTextHouseOwnerFlagDiscreteTextLastNameDiscreteTextMaritalStatusDiscreteTextNumberCarsOwnedDiscreteLongNumberChildrenAtHomeDiscreteLongRegionDiscreteTextTotalChildrenDiscreteLongYearlyIncomeContinuousDouble單擊“下一步”。在“將數(shù)據(jù)拆分為定型集和測試集”頁上,對(duì)于“測試數(shù)據(jù)百分比”,請(qǐng)保留默認(rèn)值30。對(duì)于“測試數(shù)據(jù)集中的最大事例數(shù)”,請(qǐng)鍵入1000。單擊“下一步”。在“完成向?qū)А表撋系摹巴诰蚪Y(jié)構(gòu)名稱”中,鍵入TargetedMailing。在“挖掘模型名稱”中,鍵入TM_Decision_Tree。選中“允許鉆取”復(fù)選框。單擊“完成”。測試挖掘模型的準(zhǔn)確性映射輸入列如果使用外部數(shù)據(jù)測試挖掘模型,則必須確保挖掘結(jié)構(gòu)中的列與輸入數(shù)據(jù)中的列匹配。為此,可以使用“指定列映射”對(duì)話框。如果直接映射列名,則數(shù)據(jù)挖掘設(shè)計(jì)器將自動(dòng)創(chuàng)建關(guān)系。若要?jiǎng)h除兩列之間的映射,請(qǐng)選擇將“挖掘結(jié)構(gòu)”表中的列鏈接到“選擇輸入表”表中的列的行,再按Delete鍵。還可以通過單擊“選擇輸入表”中的列并將其拖到“挖掘結(jié)構(gòu)”中相應(yīng)的列來手動(dòng)創(chuàng)建映射。將輸入列映射到挖掘結(jié)構(gòu)在數(shù)據(jù)挖掘設(shè)計(jì)器中的“挖掘準(zhǔn)確性圖表”選項(xiàng)卡的“輸入選擇”選項(xiàng)卡中,選擇選項(xiàng)“指定其他數(shù)據(jù)集”。單擊“指定其他數(shù)據(jù)集”選項(xiàng)右側(cè)的(…)按鈕。此時(shí)將打開“指定列映射”對(duì)話框。如果您要測試的結(jié)構(gòu)未顯示在“挖掘結(jié)構(gòu)”窗格中,請(qǐng)單擊“選擇結(jié)構(gòu)”并選擇目標(biāo)郵件。在“選擇輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對(duì)話框。在此對(duì)話框中選擇包含表或需要使用的表的數(shù)據(jù)源視圖,然后選擇該表。用于確定模型準(zhǔn)確性的數(shù)據(jù)必須包含可以映射到可預(yù)測列的列。為了實(shí)現(xiàn)本教程的教學(xué)目標(biāo),您需要對(duì)用于處理模型的輸入列使用相同的數(shù)據(jù)并對(duì)數(shù)據(jù)應(yīng)用篩選器。但是,理想情況下,您將使用用于處理該模型的數(shù)據(jù)中保留的測試數(shù)據(jù)集。在“選擇輸入選擇”選項(xiàng)卡上選擇選項(xiàng)“使用挖掘結(jié)構(gòu)測試事例”,將選擇該數(shù)據(jù)作為輸入。在“數(shù)據(jù)源”列表中,確保已選中AdventureWorksDW。在“表/視圖名稱”列表中,選擇vTargetMail,再單擊“確定”。挖掘結(jié)構(gòu)中的列會(huì)自動(dòng)映射到輸入表中具有相同名稱的列。篩選輸入行如果選擇“指定其他數(shù)據(jù)集”選項(xiàng),則可以通過使用顯示事例表列和嵌套表列的一組對(duì)話框生成篩選條件。可以從運(yùn)算符、類型值的列表中進(jìn)行選擇,并連接條件與邏輯運(yùn)算符,以創(chuàng)建限制測試所用事例的復(fù)雜條件。對(duì)測試數(shù)據(jù)應(yīng)用篩選器在數(shù)據(jù)挖掘設(shè)計(jì)器中的“挖掘準(zhǔn)確性圖表”選項(xiàng)卡的“輸入選擇”選項(xiàng)卡上,單擊“打開篩選器編輯器”。|此時(shí)將打開“vTargetMail數(shù)據(jù)集篩選器”對(duì)話框。在此網(wǎng)格內(nèi),輸入轉(zhuǎn)換為將應(yīng)用于源表的WHERE子句的條件,以限制用于測試的事例。在“挖掘結(jié)構(gòu)列”下,單擊網(wǎng)格內(nèi)頂部的行。選擇vTargetMail。單擊“值”單元。此時(shí)將打開“篩選器”對(duì)話框,該對(duì)話框可幫助您對(duì)vTargetMail表設(shè)置條件。在第一行中,單擊“挖掘結(jié)構(gòu)列”下的網(wǎng)格,然后從列的列表中選擇Age。單擊Age旁邊的“運(yùn)算符”框,并選擇>(大于)運(yùn)算符。在同一行單擊“值”框,并鍵入20。單擊“表達(dá)式”窗格以刷新該表達(dá)式,并驗(yàn)證它是否正確。單擊“確定”。再次單擊“確定”,關(guān)閉“篩選數(shù)據(jù)集”對(duì)話框。“輸入選擇”選項(xiàng)卡中的“篩選表達(dá)式”窗格會(huì)顯示剛才創(chuàng)建的篩選表達(dá)式vTargetMail:([Age]>20)。當(dāng)制作提升圖時(shí),模型將僅使用其年齡大于20的客戶進(jìn)行測試。顯示模型的提升在“選擇要在提升圖中顯示的可預(yù)測的挖掘模型列”下,確保已在每個(gè)模型的“可預(yù)測的列名”列表中選中BikeBuyer。在“預(yù)測值”列中,選擇1。對(duì)于具有相同可預(yù)測列的每個(gè)模型,將自動(dòng)填充相同的值。顯示模型的準(zhǔn)確性在“選擇要在提升圖中顯示的可預(yù)測的挖掘模型列”下,確保已在每個(gè)模型的“可預(yù)測的列名”列表中選中BikeBuyer。將“預(yù)測值”列保留為空。查看提升圖若要查看提升圖,請(qǐng)切換到“挖掘準(zhǔn)確性圖表”的“提升圖”選項(xiàng)卡。當(dāng)您單擊該選項(xiàng)卡時(shí),便會(huì)對(duì)服務(wù)器和數(shù)據(jù)庫的挖掘結(jié)構(gòu)和輸入表或測試數(shù)據(jù)運(yùn)行預(yù)測查詢。預(yù)測結(jié)果隨后會(huì)與已知的實(shí)際值進(jìn)行比較,并將繪制在圖上。有關(guān)如何使用該圖的詳細(xì)信息,請(qǐng)參閱提升圖(AnalysisServices-數(shù)據(jù)挖掘)。創(chuàng)建查詢創(chuàng)建預(yù)測查詢的第一步是選擇挖掘模型和輸入表。選擇模型和輸入表1. 在數(shù)據(jù)挖掘設(shè)計(jì)器”挖掘模型預(yù)測”選項(xiàng)卡的“挖掘模型”框中,單擊“選擇模型”。系統(tǒng)將打開“選擇挖掘模型”對(duì)話框。2.在整個(gè)樹中導(dǎo)航到“目標(biāo)郵件”結(jié)構(gòu),展開該結(jié)構(gòu)并選擇TM_Decision_Tree,再單擊“確定”。2.在“選擇輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對(duì)話框。在“數(shù)據(jù)源”中,選擇AdventureWorksDW。在“表/視圖名稱”中,選擇ProspectiveBuyer表,再單擊“確定”。選擇輸入表之后,預(yù)測查詢生成器便會(huì)根據(jù)各列的名稱在挖掘模型和輸入表之間創(chuàng)建默認(rèn)映射。生成預(yù)測查詢?cè)凇巴诰蚰P皖A(yù)測”選項(xiàng)卡上的網(wǎng)格內(nèi)的“源”列中,單擊第一個(gè)空行中的單元格,然后選擇ProspectiveBuyer。在ProspectiveBuyer行的“字段”列中,選擇ProspectAlternateKey。這會(huì)將唯一標(biāo)識(shí)符添加到預(yù)測查詢中,以便標(biāo)識(shí)誰可能購買自行車,以及誰不可能購買自行車。在“源”列中,單擊下一個(gè)空行,然后選擇TM_Decision_Tree。在TM_Decision_Tree行的“字段”列中,選擇BikeBuyer。這將會(huì)輸出Microsoft決策樹模型中作為預(yù)測目標(biāo)的列。在“源”列下,單擊下一個(gè)空行,然后選擇“預(yù)測函數(shù)”。在“預(yù)測函數(shù)”行的“字段”列中,選擇PredictProbability。預(yù)測函數(shù)提供有關(guān)模型如何進(jìn)行預(yù)測的信息。PredictProbability函數(shù)提供有關(guān)正確預(yù)測的概率信息。您可以在“條件/參數(shù)”列中指定預(yù)測函數(shù)的參數(shù)。在PredictProbability行的“條件/參數(shù)”列中,鍵入[TM_Decision_Tree].[BikeBuyer]。這將指定PredictP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論