數據挖掘課后題答案_第1頁
數據挖掘課后題答案_第2頁
數據挖掘課后題答案_第3頁
數據挖掘課后題答案_第4頁
數據挖掘課后題答案_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘概念概念與技術Jiawei HanMicheline Kamber著 范明孟曉峰 譯第 1 章 引言1.1 什么是數據挖掘?在你的回答中,針對以下問題:1.2 1.6 定義下列數據挖掘功能:特征化、區分、關聯和相關分析、預測聚 類和演變分析。使用你熟悉的現實生活的數據庫,給出每種數據挖掘功 能的例子。解答: 特征化是一個目標類數據的一般特性或特性的匯總。例如,學生的特征 可被提出,形成所有大學的計算機科學專業一年級學生的輪廓,這些特 征包括作為一種高的年級平均成績(GPA:Grade point aversge) 的信息, 還有所修的課程的最大數量。 區分是將目標類數據對象的一般特性與

2、一個或多個對比類對象的一般 特性進行比較。例如,具有高 GPA 的學生的一般特性可被用來與具有 低 GPA 的一般特性比較。最終的描述可能是學生的一個一般可比較的 輪廓,就像具有高 GPA 的學生的 75%是四年級計算機科學專業的學生, 而具有低 GPA 的學生的 65%不是。 關聯是指發現關聯規則,這些規則表示一起頻繁發生在給定數據集的特 征 值的 條 件。 例 如, 一 個數 據 挖掘 系 統可 能 發現 的 關聯 規 則為 :major(X, “ computing science”) owns(X, “personal computer” ) support=12%, confid e

3、nce=98%其中,X 是一個表示學生的變量。這個規則指出正在學習的學生,12%(支持度)主修計算機科學并且擁有一臺個人計算機。這個組一個學生 擁有一臺個人電腦的概率是 98%(置信度,或確定度)。 分類與預測不同,因為前者的作用是構造一系列能描述和區分數據類型 或概念的模型(或功能),而后者是建立一個模型去預測缺失的或無效 的、并且通常是數字的數據值。它們的相似性是他們都是預測的工具: 分類被用作預測目標數據的類的標簽,而預測典型的應用是預測缺失的 數字型數據的值。 聚類分析的數據對象不考慮已知的類標號。對象根據最大花蕾內部的相 似性、最小化類之間的相似性的原則進行聚類或分組。形成的每一簇可

4、 以被看作一個對象類。聚類也便于分類法組織形式,將觀測組織成類分 層結構,把類似的事件組織在一起。 數據延邊分析描述和模型化隨時間變化的對象的規律或趨勢,盡管這可 能包括時間相關數據的特征化、區分、關聯和相關分析、分類、或預測, 這種分析的明確特征包括時間序列數據分析、序列或周期模式匹配、和 基于相似性的數據分析1.3 1.9 列舉并描述說明數據挖掘任務的五種原語。 解答:用于指定數據挖掘任務的五種原語是: 任務相關數據:這種原語指明給定挖掘所處理的數據。它包括指明數據 庫、數據庫表、或數據倉庫,其中包括包含關系數據、選擇關系數據的 條件、用于探索的關系數據的屬性或維、關于修復的數據排序和分組

5、。 挖掘的數據類型:這種原語指明了所要執行的特定數據挖掘功能,如特 征化、區分、關聯、分類、聚類、或演化分析。同樣,用戶的要求可能 更特殊,并可能提供所發現的模式必須匹配的模版。這些模版或超模式(也被稱為超規則)能被用來指導發現過程。 背景知識:這種原語允許用戶指定已有的關于挖掘領域的知識。這樣的 知識能被用來指導知識發現過程,并且評估發現的模式。關于數據中關 系的概念分層和用戶信念是背景知識的形式。 模式興趣度度量:這種原語允許用戶指定功能,用于從知識中分割不感 興趣的模式,并且被用來指導挖掘過程,也可評估發現的模式。這樣就 允許用戶限制在挖掘過程返回的不感興趣的模式的數量,因為一種數據 挖

6、掘系統可能產生大量的模式。興趣度測量能被指定為簡易性、確定性、 適用性、和新穎性的特征。 發現模式的可視化:這種原語述及發現的模式應該被顯示出來。為了使 數據挖掘能有效地將知識傳給用戶,數據挖掘系統應該能將發現的各種 形式的模式展示出來,正如規則、表格、餅或條形圖、決策樹、立方體或其它視覺的表示。1.4 1.13 描述以下數據挖掘系統與數據庫或數據倉庫集成方法的差別:不耦 合、松散耦合、半緊耦合和緊密耦合。你認為哪種方法最流行,為什么?解答: 數據挖掘系統和數據庫或數據倉庫系統的集成的層次的差別如下。 不耦合:數據挖掘系統用像平面文件這樣的原始資料獲得被挖掘的原始 數據集,因為沒有數據庫系統或

7、數據倉庫系統的任何功能被作為處理過 程的一部分執行。因此,這種構架是一種糟糕的設計。 松散耦合:數據挖掘系統不與數據庫或數據倉庫集成,除了使用被挖掘 的初始數據集的源數據和存儲挖掘結果。這樣,這種構架能得到數據庫 和數據倉庫提供的靈活、高效、和特征的優點。但是,在大量的數據集 中,由松散耦合得到高可測性和良好的性能是非常困難的,因為許多這 種系統是基于內存的。 半緊密耦合:一些數據挖掘原語,如聚合、分類、或統計功能的預計算, 可在數據庫或數據倉庫系統有效的執行,以便數據挖掘系統在挖掘-查詢 過程的應用。另外,一些經常用到的中間挖掘結果能被預計算并存儲到 數據庫或數據倉庫系統中,從而增強了數據挖

8、掘系統的性能。 緊密耦合:數據庫或數據倉庫系統被完全整合成數據挖掘系統的一部 份,并且因此提供了優化的數據查詢處理。這樣的話,數據挖掘子系統 被視為一個信息系統的功能組件。這是一中高度期望的結構,因為它有 利于數據挖掘功能、高系統性能和集成信息處理環境的有效實現。從以上提供的體系結構的描述看,緊密耦合是最優的,沒有值得顧慮的技術 和執行問題。但緊密耦合系統所需的大量技術基礎結構仍然在發展變化,其實現 并非易事。因此,目前最流行的體系結構仍是半緊密耦合,因為它是松散耦合和 緊密耦合的折中。1.5 1.14 描述關于數據挖掘方法和用戶交互問題的三個數據挖掘挑戰。第 2 章 數據預處理2.1 2.2

9、 假設給定的數據集的值已經分組為區間。區間和對應的頻率如下。年齡頻率1520051545015203002050150050807008011044計算數據的近似中位數值。解答: 先判定中位數區間:N=200+450+300+1500+700+44=3194;N/2=1597 200+450+300=950<1597<2450=950+1500; 2050 對應中位數區間。 我們有:L1=20,N=3197,(freq) l=950,freqmed ian=1500,width=30,使用公式(2.3): N / 2 ()freq l 3197 / 2 950 median = L

10、1 + width = 20 + × 30 = 32.97 freq median 1500 median=32.97 歲。2.2 2.4 假定用于分析的數據包含屬性 age。數據元組的 age 值(以遞增序) 是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(a) 該數據的均值是什么?中位數是什么?(b) 該數據的眾數是什么?討論數據的峰(即雙峰、三峰等)。(c) 數據的中列數是什么?(d) 你能(粗略地)找出數據的第一個四分位數(Q1)和第三個四分位數(Q3)嗎?

11、(e) 給出數據的五數概括。(f) 畫出數據的盒圖。(g) 分位數分位數圖與分位數圖的不同之處是什么? 解答:(a) 該數據的均值是什么?中位數是什么?N 1 N均值是: x = xii=1個,即 x14=25=Q2。= 809 / 27 = 29.96 30 (公式 2.1 )。中位數應是第 14(b) 該數據的眾數是什么?討論數據的峰(即雙峰、三峰等)。 這個數集的眾數有兩個:25 和 35,發生在同樣最高的頻率處,因此是雙峰眾數。(c) 數據的中列數是什么? 數據的中列數是最大術和最小是的均值。即:midrange=(70+13)/2=41.5。(d) 你能(粗略地)找出數據的第一個四分

12、位數(Q1)和第三個四分位數(Q3) 嗎?數據集的第一個四分位數應發生在 25%處,即在(N+1)/4=7 處。所以:Q1=20。 而第三個四分位數應發生在 75%處,即在 3×(N+1)/4=21 處。所以:Q3=35(e) 給出數據的五數概括。一個數據集的分布的 5 數概括由最小值、第一個四分位數、中位數、第三個 四分位數、和最大值構成。它給出了分布形狀良好的匯總,并且這些數據是:13、20、25、35、70。(f) 畫出數據的盒圖。 略。(g) 分位數分位數圖與分位數圖的不同之處是什么? 分位數圖是一種用來展示數據值低于或等于在一個單變量分布中獨立的變量的粗略百分比。這樣,他可

13、以展示所有數的分位數信息,而為獨立變量測得的 值(縱軸)相對于它們的分位數(橫軸)被描繪出來。但分位數分位數圖用縱軸表示一種單變量分布的分位數,用橫軸表示另一單變量分布的分位數。兩個坐標軸顯示它們的測量值相應分布的值域,且點按照 兩種分布分位數值展示。一條線(y=x)可畫到圖中,以增加圖像的信息。落在 該線以上的點表示在 y 軸上顯示的值的分布比 x 軸的相應的等同分位數對應的值 的分布高。反之,對落在該線以下的點則低。2.3 2.7 使用習題 2.4 給出的 age 數據回答下列問題:(a) 使用分箱均值光滑對以上數據進行光滑,箱的深度為 3。解釋你的步驟。 評述對于給定的數據,該技術的效果

14、。(b) 如何確定數據中的離群點?(c) 對于數據光滑,還有哪些其他方法? 解答:(a) 使用分箱均值光滑對以上數據進行光滑,箱的深度為 3。解釋你的步驟。 評述對于給定的數據,該技術的效果。用箱深度為 3 的分箱均值光滑對以上數據進行光滑需要以下步驟: 步驟 1:對數據排序。(因為數據已被排序,所以此時不需要該步驟。) 步驟 2:將數據劃分到大小為 3 的等頻箱中。箱 1:13,15,16 箱 2:16,19,20 箱 3:20,21,22 箱 4:22,25,25 箱 5:25,25,30 箱 6:33,33,35 箱 7:35,35,35 箱 8:36,40,45 箱 9:46,52,7

15、0 步驟 3:計算每個等頻箱的算數均值。 步驟 4:用各箱計算出的算數均值替換每箱中的每個值。箱 1:44/3,44/3 ,44/3 箱 2:55/3 ,55/3,55/3 箱 3:21,21,21箱 4:24,24,24 箱 5:80/3,80/3,80/3 箱 6:101/3,101/3 ,101/3箱 7:35,35,35 箱 8:121/3,121/3 ,121/3 箱 9:56,56,56 (b) 如何確定數據中的離群點? 聚類的方法可用來將相似的點分成組或“簇”,并檢測離群點。落到簇的集外的值可以被視為離群點。作為選擇,一種人機結合的檢測可被采用,而計算機 用一種事先決定的數據分布

16、來區分可能的離群點。這些可能的離群點能被用人工 輕松的檢驗,而不必檢查整個數據集。(c) 對于數據光滑,還有哪些其他方法?其它可用來數據光滑的方法包括別的分箱光滑方法,如中位數光滑和箱邊界 光滑。作為選擇,等寬箱可被用來執行任何分箱方式,其中每個箱中的數據范圍 均是常量。除了分箱方法外,可以使用回歸技術擬合成函數來光滑數據,如通過 線性或多線性回歸。分類技術也能被用來對概念分層,這是通過將低級概念上卷 到高級概念來光滑數據。2.4 2.10 如下規范化方法的值域是什么?(a) min-max 規范化。(b) z-score 規范化。(c) 小數定標規范化。 解答:(a) min-max 規范化

17、。 值域是new_min, new_max。 (b) z-score 規范化。值域是(old _min mean)/ ,(old_max mean)/,總的來說,對于所有可能 的數據集的值域是(,+)。(c) 小數定標規范化。 值域是(1.0,1.0)。2.5 2.12 使用習題 2.4 給出的 age 數據,回答以下問題:(a) 使用 min-max 規范化將 age 值 35 變換到0.0,1.0區間。(b) 使用 z-score 規范化變換 age 值 35,其中 age 的標準差為 12.94 歲。(c) 使用小數定標規范化變換 age 值 35。(d) 對于給定的數據,你愿意使用哪種

18、方法?陳述你的理由。解答:(a) 使用 min-max 規范化將 age 值 35 變換到0.0,1.0區間。 min A=13,maxA=70,new _min A=0.0,new _maxA=1.0,而 v=35,v' =v min AA(new _ maxA new _ minA) + new _ minmaxA min A= 35 13 (1.0 0.0 ) + 0.0 = 0.386070 13(b) 使用 z-score 規范化變換 age 值 35,其中 age 的標準差為 12.94 歲。A = 13 + 15 + 2 × 16 + 19 + 2 ×

19、 20 + 21 + 2 × 22 + 4 × 2527+ 30 + 2 × 33 + 4 × 35 + 36 + 40 + 45 + 46 + 52 + 7027N = 809 = 29 .96327A 2 = (Ai A )i=1N= 161.2949 , A =AN 2 = 12.7002A或 s 2 = (Ai A )i=1N= 167 .4986 , sA =As 2 = 12.9421v=35v ' = v A = 35 29.963 =5.037= 0.3966 0.400 A 12.700212.7002s或 v ' =

20、v A = 35 29.963 =5.037= 0.3892 0.39sA 12.942112.9421(c) 使用小數定標規范化變換 age 值 35。由于最大的絕對值為 70,所以 j=2 。 v' =v10 j= 3510 2= 0.35(d) 對于給定的數據,你愿意使用哪種方法?陳述你的理由。略。2.6 2.14 假設 12 個銷售價格記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃分成三個箱。(a) 等頻(等深)劃分。(b) 等寬劃分。 (c) 聚類。 解答:(a) 等頻(等深)劃分。bin15,10,11,

21、13bin115,35,50,55(b) 等寬劃分。bin1 72,91,204,215每個區間的寬度是:(215-5)/3=70bin15,10,11,13,15,35,50,55,72bin191bin1204,215(c) 聚類。我們可以使用一種簡單的聚類技術:用 2 個最大的間隙將數據分成 3 個箱。bin15,10,11,13,15bin135,50,55,72,91bin1204,2152.7 2.15 使用習題 2.4 給出的 age 數據,(a) 畫出一個等寬為 10 的等寬直方圖;(b) 為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為

22、 5 的樣本和層“青年”,“中年”和“老年”。解答:(a) 畫出一個等寬為 10 的等寬直方圖;87654321015 25 35 45 55 65(b) 為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。元組:T 113T 1022T 1935T 215T 1125T 2035T 316T 1225T 2135T 416T 1325T 2236T 519T 1425T 2340T 620T 1530T 2445T 720T 1633T 2546T 821T 1733T 2652T 922T 1835T 277

23、0SRSWOR 和 SRSWR:不是同次的隨機抽樣結果可以不同,但前者因無放回所以不能有相同的元組。SRSWOR(n=5)SRSWR(n=5)T 416T 720T 620T 720T 1022T 2035T1125T 2135T 2652T 2546聚類抽樣:設起始聚類共有 6 類,可抽其中的 m 類。Sample1Sample2Sample3Sample4Sample5Sample6T 113T620T 1125T 1633T 2135T 2652T 215T720T 1225T 1733T 2236T 2770T 316T821T 1325T 1835T 2340T 416T922T 1

24、425T 1935T 2445T 519T 1022T 1530T 2035T 2546Sample2 Sample5T 620T2135T 720T2236T 821T2340T 922T2445T 1022T2546分層抽樣:按照年齡分層抽樣時,不同的隨機試驗結果不同。T113youngT 1022youngT 1935middle ageT215youngT 1125youngT 2035middle ageT316youngT 1225youngT 2135middle ageT416youngT 1325youngT 2236middle ageT519youngT 1425youn

25、gT 2340middle ageT620youngT 1530middle ageT 2445middle ageT720youngT 1633middle ageT 2546middle ageT821youngT 1733middle ageT 2652middle ageT922youngT 1835middle ageT 2770seniorT416youngT 1225youngT 1733middle ageT 2546middle ageT 2770Senio r2.8 55555555555555555555555555第 3 章 數據倉庫與 OLAP 技術概述3.1 3.4

26、 假定 BigUniversity 的數據倉庫包含如下 4 個維:student(student_name,area_id , major, status, university) , course(course_name, department) , semester(semester, year) 和 instructor(dept, rank);2 個度量:count 和 avg_grade。 在最低概念層, 度量 avg_grade 存放學生的實際 課程成績。在較高概念層, avg_grade 存放給定組合的平均成績。(a) 為該數據倉庫畫出雪花形模式圖。(b) 由 基 本 方 體 s

27、tudent, course, semester, instructor 開 始 , 為 列 出 BigUniversity 每個學生的 CS 課程的平均成績,應當使用哪些特殊 的 OLAP 操作。(c) 如果每維有 5 層(包括 all),如“student<major<status<university<all ”, 該立方體包含多少方體?解答:a) 為該數據倉庫畫出雪花形模式圖。雪花模式如圖所示。b) 由 基 本 方 體 student, course, semester, instructor 開 始 , 為 列 出 BigUniversity 每個學生的 CS

28、 課程的平均成績,應當使用哪些特殊的 OLAP 操作。這些特殊的聯機分析處理(OLAP )操作有:i.沿課程(course)維從 course_id “上卷”到 department。ii.沿學生(student)維從 student_id “上卷”到 university 。iii. 取 department= “CS ”和 university= “Big University ”,沿課程(course)維和學生(student)維切片。iv.沿學生(student)維從 university 下鉆到 student_name。c) 如果每維有 5 層(包括 all),如“student&

29、lt;major<status<university<all ”, 該立方體包含多少方體?這個立方體將包含 54=625 個方體。course維表univstudent_idstudent_idcourse_idstudent namesemester_idarea_idinstructor_idmajorcountstatusavg_gradeuniversity事實表student維表course_id course_namedepartmentsemester維表semester_id semester yearinstructor維表 Instructor_id de

30、ptrankarea維表 area_id cityprovincecountry題 3.4 圖 題 3.4 中數據倉庫的雪花形模式3.2 22222223.3 3333333第 4 章 數據立方體計算與數據泛化4.1 2008-11-294.2 有幾種典型的立方體計算方法,4.3 題 4.12 考慮下面的多特征立方體查詢:按item ,regio n,month 的所有 子集分組,對每組找出 2004 年的最小貨架壽命,并對價格低于 100 美元、貨架 壽命在最小貨架壽命的 1.251.5 倍之間的元組找出總銷售額部分。d) 畫出該查詢的多特征立方體圖。e) 用擴充的 SQL 表示該查詢。f)

31、這是一個分布式多特征立方體嗎?為什么? 解答:(a) 畫出該查詢的多特征立方體圖。 R 0R1(1.25*min(shelf)and1.5*min(shelf) (b) 用擴充的 SQL 表示該查詢。select item, region, month, Min(shelf), SUM(R1)from Purchase where year=2004cube by item, region, month: R1such that R1.shelf1.25*MIN(Shelf) and (R1.Shelf1.5*MIN(Shelf) andR1.Price<100(c) 這是一個分布式多特

32、征立方體嗎?為什么? 這不是一個分布多特征立方體,因為在“such that”語句中采用了“”條 件。4.4 2008-11-294.5 2008-11-29第 5 章 挖掘頻繁模式、關聯和相關5.1 Aprio ri 算法使用子集支持度性質的先驗知識。5.2 5.2.2 節介紹了由頻繁項集產生關聯規則的方法。提出了一個更有效的方 法。解釋它為什么比 5.2.2 節的方法更有效。(提示:考慮將習題 5.1(b)和習題 5.1(c) 的性質結合到你的設計中。)5.3 數據庫有 5 個事物。設 min_sup=60%,min_conf=80 。 TID 購買的商品 T100 M, O, N, K,

33、 E, YT200 D, O, N, K, E, Y T300 M, A, K, ET400 M, U, C, K, YT500 C, O, O, K, I, Eg) 分別使用 Aprio ri 和 FP 增長算法找出所有的頻繁項集。比較兩種挖掘過程的效率。h) 列舉所有與下面的的元規則匹配的強關聯規則(給出支持度 s 和置 信度 c),其中,X 是代表顧客的變量,item 是表示項的變量(如“A”、 “B ”等):xtransaction, buys(X, item 1)buys(X, item 2)buys(X, item 3) s, c解答:(a) 分別使用 Aprio ri 和 FP

34、增長算法找出所有的頻繁項集。比較兩種挖掘過 程的效率。Aprio ri 算法:由于只有 5 次購買事件,所以絕對支持度是 5×min_sup=3。M3O3 N25 K E4C1 = Y3 D1M3O3L1 = K5E4MO 1 3MKME 2 2MYOK 3 C2 = OE 3 OY2 MK33 OKL2 = OE34 KEOKE 32C3 = KEY A 1 Y3U 1 C 21 I3L = OKE 3 KE KY EY4 3 2 KY 3FP-growth:數據庫的第一次掃描與 Aprio ri 算法相同,得到 L 1。再按支持度計數的遞減序排序,得到:L=(K:5), (E:4

35、), (M:3), (O:3), (Y:3)。掃描沒個事 務,按以上 L 的排序,從根節點開始,得到 FP-樹。RootK:5E:4M:1O:1M:2O:2 Y:1Y:1Y:1題 5.3 圖 FP 增長算法項條件模式基條件 FP 樹產生的頻繁模式Y O MEK,E,M,O:1 ,K,E,O:1,K,M:1K,E,M:1 ,K,E:2K,E:2 ,K:1K:4K:3K:3 ,E:3K:3K:4K,Y:3K,O:3,E,O:3 ,K,E,O:3K,M:3K,E:4效率比較:Aprio ri 算法的計算過程必須對數據庫作多次掃描,而 FP-增長算 法在構造過程中只需掃描一次數據庫,再加上初始時為確定

36、支持度遞減排序 的一次掃描,共計只需兩次掃描。由于在 Aprio ri 算法中的自身連接過程產 生候選項集,候選項集產生的計算代價非常高,而 FP-增長算法不需產生任 何候選項。(b) 列舉所有與下面的的元規則匹配的強關聯規則(給出支持度 s 和置信度 c),其中,X 是代表顧客的變量,item 是表示項的變量(如“A”、“B ” 等):xtransaction, buys(X, “K”) buys(X, “O”)buys(X, “E ”) s=0.6, c=1xtransaction, buys(X, “E ”)buys(X, “E”) buys(X, “K”) s=0.6, c=1或也可表

37、示為K,OEs(support)=0.6 或 60%,c(confid ence)=1 或 100% E,OKs(support)=0.6 或 60%,c(confid ence)=1 或 100%5.4 (實現項目)使用你熟悉的程序設計語言(如 C+或 Java),實現本章介 紹的三種頻繁項集挖掘算法:5.5 2008-12-015.6 2009-01-09第 6 章 分類和預測6.1 簡述決策樹分類的主要步驟。6.2 6.11 下表由雇員數據庫的訓練數據組成。數據已泛化。例如,age “3135”表示年齡在 3135 之間。對于給定的行,count 表示 department,status

38、,ag e和 salary 在該行具有給定值的元組數。departmentstatusagesalarycountsalessenior313546K50K30salesjunior263026K30K40salesjunior313531K35K40systemsjunior212546K50K20systemssenio r313566K70K5systemsjunior263046K50K3systemssenio r414566K70K3marketingsenior364046K50K10marketingjunior313541K45K4secretarysenior465036K

39、40K4secretaryjunior263026K30K6i)如何修改基本決策樹算法,以便考慮每個廣義數據元組(即每一行)的 count?j)使用修改過的算法,構造給定數據的決策樹。k) 給定一個數據元組,它的屬性 department,age 和 salary 的值分別為 “systems”,“2630”,和“46K50K”。該元組 status 的樸素貝葉 斯分類是什么?l)為給定的數據設計一個多層前饋神經網絡。標記輸入和輸出層節點。m) 使用上面得到的多層前饋神經網絡,給定訓練實例(sales,senior ,3135,46K50K),給出后向傳播算法一次迭代后的權重值。指出解答:你使用的初始權重和偏倚以及學習率。(a) 如何修改基本決策樹算法,以便考慮每個廣義數據元組(即每一行) 的count?(b) 使用修改過的算法,構造給定數據的決策樹。(c) 給 定一 個數 據元 組, 它的 屬性 department ,age 和 salary 的 值分 別為 “systems”,“2630”,和“46K50K”。該元組 status 的樸素貝葉斯分 類是什么?解一:設元組的各個屬性之間相互獨立,所以先求每個屬性的類條件概率:P(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論