習題3(第三章-分類技術)_第1頁
習題3(第三章-分類技術)_第2頁
習題3(第三章-分類技術)_第3頁
習題3(第三章-分類技術)_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優質文檔-傾情為你奉上習題3(第三章 分類技術)1. 在決策樹歸納中,選項有:(a)將決策樹轉化為規則,然后對結果規則剪枝,或(b)對決策樹剪枝,然后將剪枝后的樹轉化為規則。相對于(b),(a)的優點是什么?解答:如果剪掉子樹,我們可以用(b)將全部子樹移除掉,但是用方法(a)的話,我們可以將子樹的任何前提都移除掉。方法(a)約束更少。2. 在決策樹歸納中,為什么樹剪枝是有用的?使用分離的元組集評估剪枝有什么缺點?解答:決策樹的建立可能過度擬合訓練數據,這樣就會產生過多分支,有些分支就是因為訓練數據中的噪聲或者離群點造成的。剪枝通過移除最不可能的分支(通過統計學方法),來排除這些過度擬合的

2、數據。這樣得到的決策樹就會變得更加簡單跟可靠,用它來對未知數據分類時也會變得更快、更精確。使用分離的元組集評估剪枝的缺點是,它可能不能代表那些構建原始決策樹的訓練元組。如果分離的元組集不能很好地代表,用它們來評估剪枝樹的分類精確度將不是一個很好的指示器。而且,用分離的元組集來評估剪枝意味著將使用更少的元組來構建和測試樹。3. 畫出包含4個布爾屬性A,B,C,D的奇偶函數的決策樹。該樹有可能被簡化嗎?ABCDClassTTTTTTTTFFTTFTFTTFFTTFTTFTFTFTTFFTTTFFFFFTTTFFTTFTFTFTTFTFFFFFTTTFFTFFFFFTFFFFFT解答:決策樹如下,該

3、樹不可能被簡化。4. X是一個具有期望Np、方差Np(1-p)的二項隨機變量,證明X/N同樣具有二項分布且期望為p方差為p(1-p)/N。解答:令r=X/N,因為是二項分布,同樣具有二項分布。期望,Er = EX/N = EX/N = (Np)/N = p;方差,E = E= E/ = Np(1-p)/ = p(1-p)/N5. 當一個數據對象同時屬于多個類時,很難評估分類的準確率。評述在這種情況下,你將使用何種標準比較對相同數據建立的不同分類器。解答:一個數據對象可能同時屬于多個類,然而,該數據對象可能屬于某個類的概率更高。因此,一個評估標準就是選擇正確預測出該數據對象通常屬于哪個類的分類器

4、。受此啟發,一個分類預測如果滿足第一或第二最可能的類,那么就被認為是正確的。其他的評估標準包括速度、魯棒性、可伸縮性和可解釋性。通常,我們選擇的分類器一般趨向于含有這樣的特征:最小化計算開銷,即使給予噪聲數據或不完整數據也能準確預測,在大規模數據下仍然有效工作,提供簡明易懂的結果。6. 證明準確率是靈敏性和特效性的函數,即證明式accuracy = sensitivity+specificity解答:accuracy = = + = + = sensitivity+specificity7. 支持向量機是一種具有高準確率的分類方法。然而,在使用大型數據元組集進行訓練時,該方法的處理速度很慢。討

5、論如何克服這一困難,并未大型數據集有效的SVM分類開發一種可伸縮的SVM算法。解答:我們可以使用micro-clustering技術("Classifying large data sets using SVM with hierarchical clusters" by Yu, Yang, and Han, in Proc. 2003 ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD'03), pages 306-315, Aug. 2003 YYH03)來克服這一困難。一種基于簇的SVM

6、方法如下描述:(1) 使用CF樹構建微簇;(2) 在微簇的中心訓練SVM;(3) 打散邊界附近的條目;(4) 用其他的條目重復SVM訓練;(5) 重復上面的步驟直到收斂。8. 通過對預測器變量變換,有些非線性回歸模型可以轉化成線性模型。指出如何將非線性回歸方程y=轉換成可以用最小二乘方求解的線性回歸方程。解答:運用替換:,=,,可以獲得線性模型:。9. 什么是提升(Boosting)?陳述它為何能夠提決策樹歸納的準確性?解答:提升(Boosting)是一種用來提高分類準確度的技術。現有一個包含s個元組的元組集S,訓練集(t=1,2,T),給中的元組賦予一定的權值。在中創建一個分類器。當創建好以后,更新中元組的權重,這樣如果元組造成分類錯誤的話,在接下來的分類器創建時,容易被發現。這樣就可以提高接下來的分類器的準確性。運用這種技術,就可以保證每一個分類器都比之前的分類器具有更高的準確度。最終的分類器組合每個個體分類器,其中每個分類器投票的權重是其準確率的函數。10. 下表匯總了具有三個屬性A、B、C,以及兩個分類標號+、-的數據集,請根據此建立一棵兩層的決策樹ABC實例數+-TTT50FTT020TFT200FFT05TTF00FTF250TFF00FFF025解答:ABCclass11000+1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論