人工智能機器學習技術練習(習題卷17)_第1頁
人工智能機器學習技術練習(習題卷17)_第2頁
人工智能機器學習技術練習(習題卷17)_第3頁
人工智能機器學習技術練習(習題卷17)_第4頁
人工智能機器學習技術練習(習題卷17)_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:人工智能機器學習技術練習人工智能機器學習技術練習(習題卷17)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能機器學習技術練習第1部分:單項選擇題,共58題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.如果SVM模型欠擬合,以下方法哪些可以改進模型:A)增大懲罰參數C的值B)減小懲罰參數C的值C)減小核系數(gamma參數)答案:A解析:[單選題]2.關于回歸問題,說法正確的是()A)可以不需要labelB)label列是連續型C)屬于無監督學習答案:B解析:[單選題]3.參數估計又可分為()和區間估計。A)線型估計B)點估計C)回歸估計D)二維分析答案:B解析:參數估計是根據從總體中抽取的隨機樣本來估計總體分布中未知參數的過程。從估計形式看,區分為點估計與區間估計。[單選題]4.核主成分分析是一種(__)方法。A)非線性降維B)線性降維C)分類D)回歸答案:A解析:[單選題]5.sc.parallelize([(1,2),(1,3),(2,3),(2,4),(3,1)].reduceByKey(lambdax,y:x+y).count().collect?操作中會產生()個stageA)1B)2C)3D)4答案:B解析:[單選題]6.下列說法錯誤的是()A)kNN算法的訓練階段需要構建模型B)kNN算法中k這個參數可以根據實際情況來調整C)kNN算法支持多分類D)kNN算法不屬于無監督學習答案:A解析:[單選題]7.詞匯表的增長將會導致文檔向量不斷的增長,表現為文檔向量的()不斷增加。A)個數B)維度C)集合D)元素答案:B解析:[單選題]8.現在有一個tcp服務端監聽了80端口,問最多同時能建立多少連接A)1023B)65534C)64511D)非常多基本和內存大小相關答案:D解析:[單選題]9.簡單地將數據對象集劃分成不重疊的子集,使得每個數據對象恰好在一個子集中,這種聚類方法稱作()。A)層次聚類B)劃分聚類C)非互斥聚類D)模糊聚類答案:B解析:[單選題]10.在數據科學中,有時需要通過樣本對總體進行(__)。A)描述統計B)洞見統計C)推斷統計D)歸納統計答案:C解析:[單選題]11.下面哪項操作能實現跟神經網絡中Dropout的類似效果A)BoostingB)BaggingC)StackingD)Mapping答案:B解析:Dropout可以認為是一種極端的Bagging,每一個模型都在單獨的數據上訓練,同時,通過和其他模型對應參數的共享,從而實現模型參數的高度正則化。[單選題]12.()是一個觀測值,它與其他觀測值的差別很大,以至于我們懷疑它是由不同的機制產生的。A)邊緣點B)質心C)離群點D)核點答案:C解析:[單選題]13.在利用矢量形式的圖像數據文件中?A)圖像的分辨率與數據文件的大小成正比;B)如果顯示其中的圖像會有方塊;?C)圖形由空間分布的像素的集合來表示;D)不僅有數據還有命令;答案:D解析:[單選題]14.()屬于無監督學習A)分類B)回歸C)聚類D)決策樹模型答案:C解析:[單選題]15.下方法中屬于無監督學習算法的是()A)線性回歸B)支持向量機C)決策樹D)K-Means聚類答案:D解析:[單選題]16.不屬于python標準數據類型的是A)DataframeB)字符串C)數值D)列表答案:A解析:[單選題]17.關于ZooKeeper的說法不正確是()A)采用層次化的數據結構B)采用類似于LINUX命令進行數據訪問C)具備臨時節點和永久節點D)永久節點會隨客戶端會話的結束而結束其生命周期答案:D解析:[單選題]18.學習方式劃分,機器學習通常分為()三類、A)監督學習、非監督學習、聚類B)監督學習、非監督學習、神經網絡C)監督學與、非監督學與、強化學習D)監督學習、非監督學習、有教師學習答案:C解析:[單選題]19.機器通過人類發現的問題空間的數據,進行機器學習,具有在人類發現的問題空間中求解的能力,并且求解的過程與結果可以被人類智能(),此為機器智能的產生A)理解B)參考C)相同D)采納答案:A解析:[單選題]20.(__)屬于基于概念方法。A)決策樹算法B)Find-S算法C)人工神經網絡D)KNN答案:B解析:[單選題]21.下列代碼片段>>>fromsklearn.model_selectionimporttrain_test_split>>>X_train,X_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.4,random_state=0)實現的功能是:A)加載數據B)分割數據C)分組數據D)刪除部分數據答案:B解析:[單選題]22.極大似然估計中參數是()A)確定且已知的量B)確定且未知的量C)已知的隨機變量D)未知的隨機變量答案:B解析:[單選題]23.在變量選擇過程中,下列哪些方法可用于檢查模型的性能?a.多重變量用于同一個模型b.模型的可解釋性c.特征的信息d.交叉驗證A)adB)abcC)acdD)全部答案:C解析:[單選題]24.下面關于假設檢驗相關描述不正確的有(__)。A)先對總體均值進行假設,然后利用樣本來檢驗假設是否成立這屬于假設檢驗B)區間估計不是假設檢驗C)非參數假設檢驗是假設檢驗D)點估計是假設檢驗答案:D解析:[單選題]25.關于樸素貝葉斯,下列選項中,描述正確的是()。A)它假設屬性之間相互獨立B)根據先驗概率計算后驗概率C)對于給定的待分類項X={a1,a2,,an},求解在此項出現的條件下各個類別yi出現的概率,哪個P(yi|X)最大,就把此待分類項歸屬于哪個類別D)它包括最小錯誤率判斷規則和最小風險判斷規則答案:A解析:[單選題]26.在Matplotlib中設置x軸的標簽的函數是()。A)xlabelsB)xticksC)xlabelD)Xtick答案:C解析:[單選題]27.在邏輯回歸輸出與目標對比的情況下,以下評估指標中()不適用。A)AUC-ROCB)準確度C)LoglossD)均方誤差答案:D解析:LogisticRegression是一個分類算法,所以它的輸出不能是實時值,所以均方誤差不能用于評估它。[單選題]28.谷歌新聞每天收集非常多的新聞,并運用()方法再將這些新聞分組,組成若干類有關聯的新聞。于是,搜索時同一組新聞事件往往隸屬同一主題的,所以顯示到一起。A)關聯規則B)聚類C)回歸D)分類答案:B解析:[單選題]29.下圖顯示了三個邏輯回歸模型的AUC-ROC曲線。不同的顏色表示不同超參數值的曲線。以下哪個AUC-ROC會給出最佳果?style="width:295px;"class="fr-ficfr-filfr-dibcursor-hover">A)黃色B)粉紅色C)黑色D)都相同答案:A解析:[單選題]30.下列神經網絡特點描述錯誤的是A)適應性B)由簡單單元組成C)廣泛并行互連的網絡D)線性特性答案:D解析:[單選題]31.層次聚類試圖在不同層次上對數據集進行劃分,從而形成(__)形結構。A)圖B)環C)網D)樹答案:D解析:[單選題]32.長短時記憶神經網絡通過什么來緩解梯度消失問題?()A)增加網絡深度B)減少網絡神經元C)使用雙向的網絡結構D)增加一個用來保存長期狀態的單元答案:D解析:[單選題]33.線性判別分析在二分類問題上也稱為()。A)線性回歸B)對數幾率回歸C)Fisher判別分析D)主成分分析答案:C解析:線性判別分析在二分類問題上也稱為Fisher判別分析。[單選題]34.關于Boltzmann描述錯誤的是A)基于能量的模型;B)優化目標函數為最小化能力函數;C)分為顯層和隱層;D)神經元都是數值型;答案:D解析:[單選題]35.如下代碼中plt的含義是()importmatplotlib.pyplotaspltA)別名B)類名C)函數名D)變量名答案:A解析:[單選題]36.關于SMO神經網絡描述錯誤的是A)一種競爭學習型的無監督神經網絡;B)將高維輸入數據映射到低維空間,保持輸入數據在高維空間的拓撲結構;C)SMO尋優目標為每個輸出神經元找到合適的權重;D)輸出層神經元以矩陣方式排列在二維空間;答案:C解析:[單選題]37.把詞典中的詞按照由長到短遞減的順序逐字搜索整個待處理的材料,一直到把全部的詞切分出來為止。不論分詞詞典多大,被處理的材料多么小,都得把這個分詞詞典匹配一遍。這種方法叫(__)。A)正向最大匹配法B)逆向最大匹配法C)逐詞遍歷法D)隱馬爾科夫模型答案:C解析:[單選題]38.下面這張圖是一個簡單的線性回歸模型,圖中標注了每個樣本點預測值與真實值的殘差。計算SSE為多少?A)3.02B)0.75C)1.01D)0.604答案:A解析:SSE是平方誤差之和(SumofSquaredError),SSE=(-0.2)^2+(0.4)^2+(-0.8)^2+(1.3)^2+(-0.7)^2=3.02[單選題]39.排列語言模型(PermutationLanguageModels)是下列哪項的特點?A)BERTB)EMMoC)GPTD)XLNET答案:D解析:[單選題]40.下列屬于線性分類方法的是()A)決策樹B)感知機C)最近鄰D)集成學習答案:B解析:[單選題]41.目前移動設備主流的屏幕幀率是每秒()幀A)24B)30C)60D)120答案:C解析:[單選題]42.()不屬于特征選擇的標準方法。A)散入B)過濾C)包裹D)抽樣答案:D解析:特征選擇的三種方法分別是過濾式(filter)、包裹式(wrapper)和嵌入式(embedded)。[單選題]43.以下哪個語句可以實現加載scikit-learn模塊的iris數據集:A)iris=datasets.read_iris()B)iris=datasets.load_iris()C)iris=datasets.iris()D)iris=datasets.load.iris()答案:B解析:[單選題]44.在一個神經網絡中,下面哪種方法可以用來處理過擬合?A)DropoutB)分批歸一化(BatchNormalization)C)正則化(regularization)D)都可以答案:D解析:[單選題]45.用OpenCV讀取圖像所需要的函數是()。A)cv.imshow()B)cv.inread()C)cv.imwrite()D)cv.imread()答案:D解析:[單選題]46.高斯核也稱為(__)。A)多項式核B)拉普拉斯核C)RBF核D)Sigmoid核答案:C解析:[單選題]47.請看如下代碼:ImportnumpyasnpArr=np.array([[6,2,7],[3,6,2],[4,3,2]]Arr.sort()Arr對代碼中的NumPy數組執行sort()方法結果正確的是()。A)[[267][236]]B)[[267][632]]C)[[762][632]]D)[[762][236]]答案:A解析:[單選題]48.(__)是在不影響數據完整性和數據分析結果準確性的前提下,通過減少數據規模的方式減少數據量,進而提升數據分析的效果與效率。A)數據縮減B)數據加工C)數據清洗D)數據歸約答案:D解析:[單選題]49.應用PCA后,以下哪項可以是前兩個主成分?1(0.5,0.5,0.5,0.5)和(0.71,0.71,0,0)2(0.5,0.5,0.5,0.5)和(0,0,-0.71,0.71)3(0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)4(0.5,0.5,0.5,0.5)和(-0.5,-0.5,0.5,0.5)A)1和2B)1和3C)2和4D)3和4答案:D解析:對于前兩個選擇,兩個向量不是正交的。[單選題]50.對于投影數據為((√2),(0),(√2))。現在如果在二維空間中重建,并將它們視為原始數據點的重建,那么重建誤差是多少?A)0%B)10%C)30%D)40%答案:A解析:重建誤差為0,因為所有三個點完全位于第一個主要分量的方向上或者計算重建;[單選題]51.spark的master和worker通過什么方式進行通信的()。A)httpB)nioC)nettyD)Akka答案:D解析:[單選題]52.下列關于LARS算法的說法正確的是A)每次選擇一個與殘差相關性最大的特征B)是一種包裹式特征選擇法C)基于線性回歸平絕對誤差最小化D)是通過對LASSO稍加修改而實現答案:A解析:[單選題]53.下列表示設置繪制圖像大小正確的是()。A)plt.figure(figsize=(10,6))B)plt.figure(figsize={10,6})C)plt.figure(10,6)D)plt.figure(figsize=[10,6])答案:A解析:[單選題]54.有四個整數a、b、c、d,且c>D,則?a>b?是?a-c>b-d?的:()A)必要不充分條件B)充分不必要條件C)充要條件D)既不充分也不必要條件答案:A解析:[單選題]55.對于一個分類任務,如果開始時神經網絡的權重不是隨機賦值的,二是都設成0,下面哪個敘述是正確的?A)其他選項都不對B)沒啥問題,神經網絡會正常開始訓練C)神經網絡可以訓練,但是所有的神經元最后都會變成識別同樣的東西D)神經網絡不會開始訓練,因為沒有梯度改變答案:C解析:令所有權重都初始化為0這個一個聽起來還蠻合理的想法也許是一個我們假設中最好的一個假設了,但結果是錯誤的,因為如果神經網絡計算出來的輸出值都一個樣,那么反向傳播算法計算出來的梯度值一樣,并且參數更新值也一樣(w=w?α?dw)。更一般地說,如果權重初始化為同一個值,網絡即是對稱的,最終所有的神經元最后都會變成識別同樣的東西。[單選題]56.對分類任務來說,學習器從類別標記集合中預測出一個標記,最常見的結合策略是(__)。A)投票法B)平均法C)學習法D)排序法答案:A解析:[單選題]57.(__)主要包括數據科學中的新理念、理論、方法、技術和工具以及數據科學的研究目的、研究內容、基本流程、主要原則等。A)理論基礎B)數據管理C)基礎理論D)數據產品答案:C解析:[單選題]58.決策樹中的分類結果是最末端的節點,這些節點稱為?()A)根節點B)父節點C)子節點D)葉節點答案:D解析:第2部分:多項選擇題,共21題,每題至少兩個正確答案,多選或少選均不得分。[多選題]59.以下說法正確的是()。A)條件獨立性假設不成立時,樸素貝葉斯分類器仍有可能產生最優貝葉斯分類器B)在估計概率值時使用的拉普拉斯修正避免了因訓練集樣本不充分而導致概率估值為零的問題C)由于馬爾可夫鏈通常很快就能趨于平穩分布,因此吉布斯采樣算法的收斂速度很快D)二分類任務中兩類數據滿足高斯分布且方差相同時,線性判別分析產生貝葉斯最優分類器答案:ABD解析:由于馬爾可夫鏈通常需要很長時間才能趨于平穩分布,因此吉布斯采樣算法的收斂速度較慢。[多選題]60.下列屬于深度神經網絡模型的是()A)DNN深層神經網絡B)CNN卷積神經網絡C)RNN循環神經網絡D)GAN生成對抗網絡答案:ABCD解析:[多選題]61.在ROC空間中,以(__)為橫軸,以(__)為縱軸。A)TPrateB)FNrateC)FPrateD)TNrate答案:AC解析:[多選題]62.訓練CNN時,GPU顯存溢出,此時可以采取什么辦法?()A)減少mini_batch大小B)移除一些卷積層C)減少圖片輸入大小D)增加激活函數答案:ABC解析:[多選題]63.K-means等聚類算法可用于以下哪些實際場景A)市場細分B)社交圈分析C)集群計算D)天體數據分析答案:ABCD解析:[多選題]64.關于BP神經網絡說法正確的是()A)是一種非線性模型B)sigmoid是其常用的一種激活函數C)可用于分類或回歸D)有良好的自組織自學習能力機器學習方法答案:ABCD解析:[多選題]65.隱馬爾可夫模型中的變量可以分為兩組(__)和(__)。A)狀態變量B)行為變量C)觀測變量D)已確定變量答案:AC解析:[多選題]66.KNN的關鍵參數是()A)K值B)距離計算方式C)樣本總量D)樣本均衡性答案:ABD解析:[多選題]67.以下屬于數據科學的研究目的的是()。A)數據洞見B)數據生態系統建設C)數據業務化D)數據產品的研發答案:ABCD解析:[多選題]68.分類評估指標的使用原則()A)所有指標都要盡可能的好B)首先確立重要類別C)為重要類別的部分指標制定高的標準D)滿足重要類別指標的前提下提升非重要類別的指標答案:BCD解析:[多選題]69.下列哪幾個優化算法適合大規模訓練集的場景:A)minibatchsgdB)AdamC)LBFSGD)FTRL答案:ABD解析:FTRL是對每一維單獨訓練,屬于一種在線學習優化算法。由于對參數的每一維單獨訓練,所以可以用于大規模數據訓練。[多選題]70.如果將圖像中對應直方圖中偶數項的像素灰度均用相應的對應直方圖中奇數項的像素灰度代替,所得到的圖像將?A)亮度減小;B)亮度增加;C)對比度減小;D)對比度增加;答案:BC解析:[多選題]71.()可以幫助解決訓練集在特征空間中線性不可分的問題。A)硬間隔B)軟間隔C)核函數D)拉格朗日乘子法答案:BC解析:核函數解決線性不可分的本質思想就是把原始的樣本通過核函數映射到高維空間中,讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束,使得樣本在特征空間中不是線性可分。[多選題]72.隨機森林有哪些特點___A)簡單B)容易實現C)計算開銷小D)起始性能相對較差答案:ABCD解析:[多選題]73.以下哪些機器學習算法可以不對特征做歸一化處理()A)隨機森林B)邏輯回歸C)SVMD)決策樹答案:AD解析:[多選題]74.以下可用于聚類性能測量的評估方法()A)Jaccard系數B)FM指數C)Rand指數D)DB指數答案:ABCD解析:[多選題]75.關于生物神經網絡中神經元向其他神經元發送化學物質正確的是A)當神經元興奮時,會向相連的神經元發送化學物質,從而改變這些神經元的內在電位;B)當神經元興奮時,會向相連的神經元發送化學物質,從而改變這些神經元的內在電荷;C)若某神經元的電位超過了一個?閾值?,那么它就會被激活;D)若某神經元的電荷超過了一個?閾值?,那么它就會被激活;答案:AC解析:第3部分:判斷題,共12題,請判斷題目是否正確。[判斷題]76.給定n個數據點,如果其中一半用于訓練,另一半用于測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減小A)正確B)錯誤答案:對解析:[判斷題]77.均方根誤差與均方誤差二者沒有關系。A)正確B)錯誤答案:錯解析:[判斷題]78.Sigmoid函數能夠把輸入的連續實值變換為0和1之間的輸出。A)正確B)錯誤答案:對解析:[判斷題]79.邏輯回歸和樸素貝葉斯都有對屬性特征獨立的要求A)正確B)錯誤答案:錯解析:[判斷題]80.RNN循環神經網絡是用來處理文本、視頻、音頻等序列數據A)正確B)錯誤答案:對解析:[判斷題]81.在K近鄰算法中,平均法是指選擇k個距離最近的樣本,將這K個樣本輸出標記的平均值作為預測結果A)正確B)錯誤答案:對解析:[判斷題]82.Pandas既可以按照索引排序也可以按照數據排序。A)正確B)錯誤答案:對解析:[判斷題]83.Series是一個類似于一維數組的對象。A)正確B)錯誤答案:對解析:[判斷題]84.深度學習與機器學習算法之間的區別在于,后者過程中無需進行特征提取工作,也就是說,我們建議在進行深度學習過程之前要首先完成特征提取的工作。這種說法是:A)正確的B)錯誤的答案:錯解析:[判斷題]85.?預訓練+微調?法以及?權共享?方法都是為了節省訓練開銷A)正確B)錯誤答案:對解析:[判斷題]86.機器學習方法傳統上可以分為2類?A)正確B)錯誤答案:錯解析:[判斷題]87.假設當前有一個3行3列的ndarray數組,如果想要獲取第3行第2列的元素,可以使用ndarray[3,2]。A)正確B)錯誤答案:錯解析:索引從0開始計數第4部分:問答題,共9題,請在空白處填寫正確答案。[問答題]88.設計一個實現LDA算法的基本流程答案:1.計算數據集中不同類別數據的d維均值向量2.計算散布矩陣,包括類間、類內散布矩陣3.計算散布矩陣的本征向量e1,e2,...,ed和對應的本征值λ1,λ2,...,λd4.將本征向量按本征值大小降序排列,然后選擇前k個最大本征值對應的本征向量,組建一個d×k維矩陣--即每一列就是一個本征向量5.用這個d×k維本征向量矩陣將樣本變換到新的子空間。這一步可以寫作矩陣乘法Y=X×W。其中X是n×d維矩陣,表示n個樣本;y是變換到子空間后的n×k維樣本。解析:[問答題]89.kmeans聚類算法的實現流程?答案:(1)在選擇初始化質心,最基本的方法就是從數據集XXX中選擇kkk個樣本。在初始化后,k-means就由剩下兩步循環完成。(2)通過計算將本樣本分到其最近的質心。(3)通過取分配給每個質心的所有樣本的均值來創建新的質心。計算新舊質心之間的差值,重復上面兩步(2)(3),直到差值小于閾值。解析:[問答題]90.學得模型適用于新樣本的能力,稱為()能力。該能力越強,說明學得的模型越能很好地適用于整個樣本空間。答案:泛化解析:[問答題]91.假設數據挖掘的任務是將8個點聚類成3個簇,A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9),距離函數是歐幾里得距離。假設初始

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論