《機器學習-Python實踐》試卷及答案 卷5_第1頁
《機器學習-Python實踐》試卷及答案 卷5_第2頁
《機器學習-Python實踐》試卷及答案 卷5_第3頁
《機器學習-Python實踐》試卷及答案 卷5_第4頁
《機器學習-Python實踐》試卷及答案 卷5_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1頁,共1頁一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、點擊率預測是一個正負樣本不平衡問題(例如99%的沒有點擊,只有1%點擊)。假如在這個非平衡的數據集上建立一個模型,得到訓練樣本的正確率是99%,則下列說法正確的是?()A.模型正確率很高,不需要優化模型了B.模型正確率并不高,應該建立更好的模型C.無法對模型做出好壞評價D.以上說法都不對2、如果在大型數據集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種做法是正確的?()A.增加樹的深度B.增加學習率C.減小樹的深度D.減少樹的數量3、我們想要訓練一個ML模型,樣本數量有100萬個,特征維度是5000,面對如此大數據,如何有效地訓練模型?()A.對訓練集隨機采樣,在隨機采樣的數據上建立模型B.嘗試使用在線機器學習算法C.使用PCA算法減少特征維度D.以上都對4、機器學習中做特征選擇時,可能用到的方法有?(多選)()a.卡方b.信息增益c.平均互信息d.期待交叉熵5、如何在監督式學習中使用聚類算法(多選)?()A.首先,可以創建聚類,然后分別在不同的集群上應用監督式學習算法B.在應用監督式學習算法之前,可以將其類別ID作為特征空間中的一個額外的特征C.在應用監督式學習之前,不能創建聚類D.在應用監督式學習算法之前,不能將其類別ID作為特征空間中的一個額外的特征6、下面哪句話是正確的?()A.機器學習模型的精準度越高,則模型的性能越好B.增加模型的復雜度,總能減小測試樣本誤差C.增加模型的復雜度,總能減小訓練樣本誤差D.以上說法都不對7、如果使用線性回歸模型,下列說法正確的是?()A.檢查異常值是很重要的,因為線性回歸對離群效應很敏感B.線性回歸分析要求所有變量特征都必須具有正態分布C.線性回歸假設數據中基本沒有多重共線性D.以上說法都不對8、以下關于Bagging特點的描述不正確的是()A.Bagging是一個很低效的集成學習算法B.Bagging復雜度與基學習器同階C.由于每一個樣本被選中的概率相同,因此bagging并不側重于訓練數據集中的任何特定實例。D.對于噪聲數據,bagging不太受過分擬合的影響。9、下面哪個選項中哪一項屬于確定性算法?()A.隨機森林B.PCAC.KmeansD.GBDT10、下列屬于無監督學習的是()A、k-meansB、SVMC、最大熵D、CRF二、判斷題(本大題共10小題,每題1分,共10分)1、FP——將負類預測為正類數。()2、交叉熵損失函數的好處是可以克服方差代價函數更新權重過慢的問 題。()3、邏輯回歸假設數據服從伯努利分布,通過極大化似然函數的方法,運用梯度下降來求解參數,來達到將數據二分類的目的。()4、決策樹容易發生欠擬合。()5、決策樹容易發生過擬合。()6、SVM無法做多分類。()7、SVM自帶正則項。()8、先從初始訓練集訓練出一個基學習器,再根據基學習器的表現對訓 練樣本分布進行調整,使得先前基學習器做錯的訓練樣本在后續受到更多的 關注,然后基于調整后的樣本分布來訓練下一個基學習器。()9、Boosting是一個迭代的過程,通過改變訓練樣本的分布,使得基分 類器聚焦在那些很難分的樣本上。()10、Boosting結合了很多弱學習器來形成一個強學習器,單個模型表 現不佳,但它們在數據集的某些部分表現很好。()三、填空(本大題共10小題,每題3分,共30分)1、回歸問題對數值型連續隨機變量進行預測和建模的監督學習算法。回歸往往會通過計算來確定模型的精確性。2、評判分類效果好壞的三個指標就是上面介紹的三個指標:,,。3、提取出的正確信息條數/提取出的信息條數是。4、模型把訓練樣本學習“太好了”,可能把一些訓練樣本自身的特性當做了所有潛在樣本都有的一般性質,導致泛化能力下降叫。5、模型沒有很好地捕捉到數據特征,不能夠很好地擬合數據叫。6、分類是預測,比如把人分為好人和壞人之類的學習任務。7、訓練用到的每個樣本叫。8、boosting算法得基本原理,以及的三種典型算法原理:,,。9、Adaboost提供一種,在框架內可以使用各種方法構建子分類器,可以使用簡單的弱分類器,不用對特征進行篩選,也不存在過擬合的現象。10、Adaboost算法不需要的先驗知識,最后得到的強分類器的分類精度依賴于所有弱分類器。無論是應用于人造數據還是真實數據,Adaboost都能顯著的提高學習精度。四、簡答題(本大題共3小題,共30分)1、常見的監督學習算法有哪些?帶核的SVM為什么能分類非線性問題?3、舉例說明機器學習的基本過程,并舉例說明基本步驟各有哪些方法?一、選擇題1.B 2.C 3.D 4.ABCD 5.AB 6.C 7.A 8.A 9.B 10.A二、判斷題1.對 2.對 3.對 4.對 5.對 6.錯 7.對 8.對 9.對 10.對 三、填空題1.誤差(Error) 2.正確率召回率F值 3.正確率 4.過擬合 5.欠擬合 6.離散值 7.訓練樣本 8.adaboostGBM(Gradientbosstingmachine)XGBoost 9.框架 10.弱分類器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論