




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.一、 考慮表中二元分類問題的訓練樣本集1. 整個訓練樣本集關于類屬性的熵是多少?2. 關于這些訓練集中a1,a2的信息增益是多少?3. 對于連續屬性a3,計算所有可能的劃分的信息增益。4. 根據信息增益,a1,a2,a3哪個是最佳劃分?5. 根據分類錯誤率,a1,a2哪具最佳?6. 根據gini指標,a1,a2哪個最佳?答1.P(+) = 4/9 and P() = 5/94/9 log2(4/9) 5/9 log2(5/9) = 0.9911.答2:(估計不考)答3:答4: According to information gain, a1 produces the best split.
2、答5:For attribute a1: error rate = 2/9.For attribute a2: error rate = 4/9.Therefore, according to error rate, a1 produces the best split.答6:二、 考慮如下二元分類問題的數據集 1. 計算a.b信息增益,決策樹歸納算法會選用哪個屬性2. 計算a.b gini指標,決策樹歸納會用哪個屬性?這個答案沒問題3. 從圖4-13可以看出熵和gini指標在0,0.5都是單調遞增,而0.5,1之間單調遞減。有沒有可能信息增益和gini指標增益支持不同的屬性?解釋你的理由Ye
3、s, even though these measures have similar range and monotonousbehavior, their respective gains, , which are scaled differences of themeasures, do not necessarily behave in the same way, as illustrated bythe results in parts (a) and (b).貝葉斯分類1. P(A = 1|) = 2/5 = 0.4, P(B = 1|) = 2/5 = 0.4,P(C = 1|)
4、= 1, P(A = 0|) = 3/5 = 0.6,P(B = 0|) = 3/5 = 0.6, P(C = 0|) = 0; P(A = 1|+) = 3/5 = 0.6,P(B = 1|+) = 1/5 = 0.2, P(C = 1|+) = 2/5 = 0.4,P(A = 0|+) = 2/5 = 0.4, P(B = 0|+) = 4/5 = 0.8,P(C = 0|+) = 3/5 = . P(A = 0|+) = (2 + 2)/(5 + 4) = 4/9,P(A = 0|) = (3+2)/(5 + 4) = 5/9,P(B = 1|+) = (1 + 2)/(5
5、 + 4) = 3/9,P(B = 1|) = (2+2)/(5 + 4) = 4/9,P(C = 0|+) = (3 + 2)/(5 + 4) = 5/9,P(C = 0|) = (0+2)/(5 + 4) = 2/9.4. Let P(A = 0,B = 1, C = 0) = K5. 當的條件概率之一是零,則估計為使用m-估計概率的方法的條件概率是更好的,因為我們不希望整個表達式變為零。1. P(A = 1|+) = 0.6, P(B = 1|+) = 0.4, P(C = 1|+) = 0.8, P(A =1|) = 0.4, P(B = 1|) = 0.4, and P(C = 1|
6、) = 0.22.Let R : (A = 1,B = 1, C = 1) be the test record. To determine itsclass, we need to compute P(+|R) and P(|R). Using Bayes theorem, P(+|R) = P(R|+)P(+)/P(R) and P(|R) = P(R|)P()/P(R).Since P(+) = P() = 0.5 and P(R) is constant, R can be classified bycomparing P(+|R) and P(|R).For this questio
7、n,P(R|+) = P(A = 1|+) P(B = 1|+) P(C = 1|+) = 0.192P(R|) = P(A = 1|) P(B = 1|) P(C = 1|) = 0.032Since P(R|+) is larger, the record is assigned to (+) class.3.P(A = 1) = 0.5, P(B = 1) = 0.4 and P(A = 1,B = 1) = P(A) P(B) = 0.2. Therefore, A and B are independent.4.P(A = 1) = 0.5, P(B = 0) = 0.6, and
8、P(A = 1,B = 0) = P(A =1) P(B = 0) = 0.3. A and B are still independent.5.Compare P(A = 1,B = 1|+) = 0.2 against P(A = 1|+) = 0.6 andP(B = 1|Class = +) = 0.4. Since the product between P(A = 1|+)and P(A = 1|) are not the same as P(A = 1,B = 1|+), A and B arenot conditionally independent given the class.三、 使用下表中的相似度矩陣進行單鏈和全鏈層次聚類。繪制樹狀況顯示結果,樹狀圖應該清楚地顯示合并的次序。 There are no apparent relationships between s1, s2, c1, and c2.A2: Percentage of frequent itemsets = 16/32 = 50.0% (including the nullset).A4:Fals
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司組織建黨節目活動方案
- 2025年智能制造與工業轉型相關知識考試試卷及答案
- 2025年生物醫學工程師職業資格考試題及答案
- 2025年青少年心理健康教育課程考試試題及答案
- 2025年民俗文化與社會變遷考試試題及答案
- 2025年就業指導與職業規劃考試試卷及答案
- 2025年婚姻家庭咨詢師職業資格考試試卷及答案
- 2025年國際貿易知識考試及其答案
- 2025年法律法規與社會責任考試試卷及答案
- 2025護理科內自查分析討論
- 外輪理貨業務基礎-理貨單證的制作
- 《水火箭制作》課件
- 網絡安全預防電信詐騙主題班會PPT
- 農村垃圾清運投標方案
- 優秀物業管理項目評選方案
- GB/T 5470-2008塑料沖擊法脆化溫度的測定
- 圖書管理系統畢業論文參考文獻精選,參考文獻
- 中國當代舊體詩選讀幻燈片
- 吉林省全省市縣鄉鎮衛生院街道社區衛生服務中心基本公共衛生服務醫療機構信息名單目錄995家
- 倔強的小紅軍-精講版課件
- 信息隱藏與數字水印課件(全)全書教學教程完整版電子教案最全幻燈片
評論
0/150
提交評論