




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據競賽理論題每日一測-11月02日[復制]您的姓名:·[填空題]*_________________________________1.關于進一步規范數據安全工作的通知,公司內部共享數據時,應遵照數據共享()開展。[單選題]*A.負面清單(正確答案)B.其余數據C.內部共享D.敏感數據2.假設一個線性回歸模型完美適合訓練數據(訓練誤差為0),則下列說法正確的是()。[單選題]*A.測試集誤差一直為0B.測試集誤差可能為0(正確答案)C.測試集誤差不會為0D.以上都不對3.假設需要調整超參數來最?化代價函數(costfunction),會使用下列哪項技術()。[單選題]*A.窮舉搜索B.隨機搜索C.Bayesian優化D.都可以(正確答案)4.當try子句中沒有任何錯誤時,一定不會執行()語句。[單選題]*A.tryB.slseC.except(正確答案)D.finally5.下列關于數據科學的描述錯誤的是()。[單選題]*A.數據科學中的數據不僅僅是數值,也不等同于數值B.數據科學中的計算包括數據的查詢、挖掘、洞見等C.數據科學強調的是跨學科視角D.數據科學不包括理論知識.只包括領域實務經驗(正確答案)6.Scikit-Learn中StandardScaler是將特征數據的分布調整成(),也就是使得數據的均值為0,方差為1。[單選題]*A.正態分布(正確答案)B.泊松分布C.均勻分布D.二項分布7.下列關于Matplotlib中繪圖標準流程的說法錯誤的是()。[單選題]*A.繪制最簡單的圖形可以不用創建畫布B.添加圖例可以在繪制圖形之前(正確答案)C.添加x軸、y軸的標簽可以在繪制圖形之前D.修改x軸標簽、y軸標簽和繪制圖形沒有先后8.關于Adam算法,下列哪一個陳述是錯誤的()。[單選題]*A.Adam結合了Rmsprop和動量的優點B.Adam中的學習率超參數通常需要調整C.我們經常使用超參數的“默認”值D.Adam應該用于批梯度計算,而不是用于mini-batch(正確答案)9.線性判別分析在二分類問題上也稱為()□[單選題]*A.線性回歸B.對數幾率回歸C.Fisher判別分析(正確答案)D.主成分分析10.前饋型神經網絡的中各個層之間是()的,反饋型神經網絡中各個層之間是()的。[單選題]*A.無環,無環B.無環,有環(正確答案)C.有環,有環D.有環,無環11.下列描述中不屬于向量空間模型缺陷的是()。[單選題]*A.維度災難B.模型稀疏性C.語義信息缺失D.無法計算文本相似度(正確答案)12.運行代碼n={}后,變量n的類型是()。[單選題]*A.setB.listC.未知類型D.dict(正確答案)13.假定訓練了一個線性SVM并推斷出這個模型出現了欠擬合現象,在下一次訓練時,應該釆取的措施是()。[單選題]*A.增加數據點B.減少數據點C.增加特征(正確答案)D.減少特征14.Matplotlib中的step()函數繪制的是()。[單選題]*A.階梯圖(正確答案)B.直方圖C.間斷條形圖D.堆積折線圖15.()算法假設聚類結構能通過樣本分布的緊密程度確定。[單選題]*A.原型聚類B.密度聚類(正確答案)C.層次聚類D.模型聚類16.下列關于聚類挖掘技術的說法錯誤的是()。[單選題]*A.不預先設定數據歸類類目.完全根據數據本身性質將數據聚合成不同類別B.要求同類數據的內容相似度盡可能小(正確答案)C.要求不同類數據的內容相似度盡可能小D.與分類挖掘技術相似的是.都是要對數據進行分類處理17.為保證流應用的快照存儲的可靠性,快照主要存儲在:()。[單選題]*A.本地文件系統中B.JobManager的內存中C.HDFS中(正確答案)D.可靠性高的單擊數據庫中18.下列不屬于可視化視覺下的數據類型的是()。[單選題]*A.定類數據B.定序數據C.定寬數據(正確答案)D.定比數據19.txt=open(filename)返回的是()。[單選題]*A.變量B.常數C.文件內容D.文件對象(正確答案)20.()是Spark中的抽象數據模型。[單選題]*A.RDD(正確答案)B.SchedulerC.StorageD.Shuffle21.公司大數據應用實施規劃介紹,構建客戶群體特征分析及細分模型,評估優化潛力,為用戶智能推薦個性化服務方案,滿足()需求。[單選題]*A.整體化服務B.個性化服務C.差異化服務(正確答案)D.智能化服務22.檢測一元正態分布中的離群點,屬于異常檢測中的基于()的離群點檢測。[單選題]*A.統計方法(正確答案)B.鄰近度C.密度D.聚類技術23.通過代理服務器進行爬蟲的方法是()。[單選題]*A.個人發送訪問請求到代理服務器,代理服務器轉發到網站,網站反饋給個人B.個人發送訪問請求到網站,網站反饋給個人,并備份訪問記錄到代理服務器C.個人發送訪問請求到代理服務器,代理服務器轉發到網站,網站反饋給代理服務器,代理服務器再發送給個人(正確答案)D.個人發送訪問請求到網站,網站反饋給代理服務器,個人再訪問代理服務器獲取網頁信息24.深度學習防止過擬合下列說法正確的是()。[單選題]*A.BN(批歸一化)B.增強數據集樣本數目、做一些數據增強的操作C.限制模型的學習能力D.以上都可以(正確答案)25.MaxcomputeSQL目前最多支持()個并發insertoverwrite/into操作。[單選題]*A.1000個B.128個(正確答案)C.64個D.500個26.下列關于支持向量機優化性問題形式的說法正確的是()。[單選題]*A.它是一個凸二次規劃問題(正確答案)B.它是一個凸一次規劃問題C.它是一個凹二次規劃問題D.它是一個凹一次規劃問題27.異常檢測中,檢測一元正態分布中的離群點基于的技術是()。[單選題]*A.統計方法(正確答案)B.鄰近度C.密度D.機器學習技術28.在Python中可以通過調用random庫來產生隨機數。a=random.randint(1,99),并賦值給變量a,則下列描述正確的是()o[單選題]*A.隨機產生一個1?99的小數B,隨機產生一個1?99的整數(正確答案)C.產生一個值為99的整數D.隨機產生一個1~99的無理數29.以下哪個不是MapReduce的特點()。[單選題]*A.易于編程B.良好擴展性C.實時計算(正確答案)D.高容錯性30.當學習器將訓練樣本自身的特點作為所有潛在樣本都具有的一般性質,這樣會導致泛化性能下降,這種現象稱為()。[單選題]*A.欠擬合B.過擬合(正確答案)C.擬合D.以上答案都不正確31.下列說法中:①R-Squared和AdjustedR-squared都是遞增的;②R-Squared是常量的,AdjustedR-squared是遞增的;③R-Squared是遞減的,AdjustedR-squared也是遞減的;④R-Squared是遞減的,AdjustedR-squared是遞增的。對于線性回歸模型,包括附加變量在內,可能正確的是([單選題]*A.①②B.①③C.②④D.以上都不是(正確答案)32.下列關于人工神經網絡(ANN)的描述錯誤的是()。[單選題]*A.神經網絡對訓練數據中的噪聲非常魯棒(正確答案)B.可以處理冗余特征C.訓練ANN是一個很耗時的過程D.至少含有一個隱藏層的多層神經網絡33.Scipy中計算偏度的函數是()o[單選題]*A.scipy.stats.skewtest()(正確答案)B.scipy.stats.norm.rvs()C.scipy.stats.kurtosis()D.scipy.stats.poisson.rvs()34.批量數據遷移提供20+同構/異構數據源之間批量數據遷移的功能,幫助實現數據自由流動。支持自建和云上的文件系統,關系數據庫,數據倉庫,NoSQL,大數據云服務,對象存儲等數據源,以下屬于關系型數據庫的是()。[單選題]*A.FTPB.SFTPC.分布式緩存服務(DCS)D.PostgreSQL(正確答案)35.在k近鄰學習算法中,隨著左的增加,上界將逐漸降低,當左區域無窮大時,上界和下界碰到一起,k近鄰法就達到了()。[單選題]*A.貝葉斯錯誤率(正確答案)B.漸進錯誤率C.最優值D.上界36.關系數據庫中存儲、計算和管理的數據是()。[單選題]*A.結構化數據(正確答案)B.海量數據C.半結構化數據D.非結構化數據37.回歸分析的任務就是根據()和因變量的觀察值,估計這個函數并討論與之有關的種種統計推斷的問題。[單選題]*A.相關變量B.樣本C.已知數據D.自變量(正確答案)38.繪圖通過()函數為項目設置matplotlib參數。[單選題]*A.rc()(正確答案)B.sci()C.axes()D.sca()39.()表達了在當前任務上任何學習算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。[單選題]*A.偏差B.方差C.噪聲(正確答案)D.泛化誤差40.假設有列表a=['name','age','sex']和b=['Dong',38,'Male'],請使用一個語句將這兩個列表的內容轉換為字典,并且以列表a中的元素為鍵,以列表b中的元素為值,則這個語句可以寫為()。[單選題]*A.c=dict(cross(a,b))B.c=dict(zip(a,b))(正確答案)C.c=map(zip(a,b))D.c=b41.數據資產維護是指為保證數據質量,對數據進行()等處理的過程。[單選題]*A.更正B.刪除C.補充錄入D.以上答案都正確(正確答案)42.批規范化(BatchNormalization)的好處都有啥()。[單選題]*A.讓每?層的輸?的范圍都?致固定(正確答案)B.它將權重的歸?化平均值和標準差C.它是?種?常有效的反向傳播(BP)?法D.這些均不是43.AGNES是一種采用()策略的層次聚類算法。[單選題]*A.自頂向下B.自底向上(正確答案)C.自左至右D.自右至左44.用OneHot對某個只有一個屬性的樣本進行編碼,則編碼結果可能是()[單選題]*A.1010B.1100C.1111D.1000(正確答案)45.在Matplotlib中,plt.title()函數的作用是()。[單選題]*A.繪制垂直線B.為圖設置標題(正確答案)C.為圖添加文本D.繪制互相關46.下列關于數據倉庫隨時間變化的描述不正確的是()。[單選題]*A.數據倉庫隨時間的變化不斷增加新的數據內容B.捕捉到的新數據會覆蓋原來的快照C.數據倉庫隨時間變化不斷刪去舊的數據內容(正確答案)D.數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合47.運行下面代碼,輸出結果為()。a=1try:a+=1except:a+=1else:a+=1finally:a+=1print(a)[單選題]*A.2B.3C.4(正確答案)D.548.假如使用Lasso回歸來擬合數據集,該數據集輸入特征有100個(X1,X2,...,X100)。現在,把其中一個特征的值擴大10倍(如特征X1),然后用相同的正則化參數對Lasso回歸進行修正。那么下列說法正確的是()。[單選題]*A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中(正確答案)C.無法確定特征X1是否被舍D.以上答案都不正確49.下列不屬于基于區域的圖像分割方法的是()。[單選題]*A.
區域生長法B.分水嶺算法C.大津算法(正確答案)D.基于圖論的分割算法50.在Adaboost算法的訓練過程中,根據每個基分類器的分類結果對其表決權賦予一個權重,下列說法正確的是()。[單選題]*A.基分類器錯誤率越低,表決權重越小B.基分類器錯誤率越低,表決權越大(正確答案)C.每個基分類器的權重一樣大D.所有基分類器的權重都不相同51.Hadoop中,Reducer的三個步驟是()。[單選題]*A.Shuffle—Sort—Reduce(正確答案)B.Shuffle—Reduce—SortC.Reduce—Shuffle—SortD.Sort—Shuffle—Reduce52.下列關于隨機森林的說法正確的是()。[單選題]*A.隨機森林對于高維數據集的處理能力比較好B.在對缺失數據進行估計時.隨機森林是一個十分有效的方法C.當存在分類不平衡的情況時.隨機森林能夠提供平衡數據集誤差的有效方法D.以上答案都正確(正確答案)53.PageRank是一個函數,它對Web中的每個網頁賦予一個實數值。它的意圖在于網頁的PageRank越高,那么它就()。[單選題]*A.相關性越高B.越不重要C.相關性越低D.越重要(正確答案)54.有反饋連接的架構是([單選題]*A.循環神經網絡(正確答案)B.卷積神經網絡C.受限玻爾茲曼機D.以上都不是55.下列關于Bagging的說法錯誤的是()。[單選題]*A.各基分類器之間有較強依賴.不可以進行并行訓練(正確答案)B.最著名的算法之一是基于決策樹基分類器的隨機森林C.當訓練樣本數量較少時.子集之間可能有重疊D.為了讓基分類器之間互相獨立.需要將訓練集分為若干子集56.scikit-learn中的K-means類,用來調節k值的參數是()。[單選題]*A.nclusters(正確答案)B.max_iterC.n_initD.init57.np.where([[True,False],[True,True]],[[1,2],[3,4]],[[9,8],[7,6]])的輸出結果是()。[單選題]*A.[[1,4],[9,7]]B.[[1,3],[9,7]]C.[[1,8],[3,4]](正確答案)D.[[2,9],[3,6]]58.Serverless架構給云數據倉庫帶來了極致的擴展性和彈性,在業界典型的產品代表有阿里云的MaxComput$;$GooleGCP的BigQuery。以下關于MaxCompute產品的說法,哪一項是錯誤的()。[單選題]*A.MaxCompute通過Tunnel服務和HTTP服務,提供數據通道服務和SQL作業通道,用戶無須關心底層分布式技術細節和資源管理,聚焦數據處理本身。B.用戶必須具備服務器運維能力才能玩轉MaxCompute(正確答案)C.Maxcompute服務在阿里云上開通即用,用戶無須做任何服務器資源準備工作。D.MaxCompute按照用戶提交的作業自動實時分配資源實現極致彈性。59.pytorch中,自定義模型需要繼承自哪個父類()。[單選題]*A.DatasetB.Module(正確答案)C.LinearD.Parameter60.MapReduce編程模型,鍵值對vkey,value>的key必須實現()接口。[單選題]*A.WritableComparable(正確答案)B.ComparableC.WritableD.LongWritable61.python中while的中止的關鍵字是()。[單選題]*A.continueB.brokenC.break(正確答案)D.plug62.MapReduce適用于()。[單選題]*A.任意應用程序B.任意可在WindowsServet2008上運行的程序C.可以串行處理的應用程序D.可以并行處理的應用程序(正確答案)63.在線性回歸問題中,用舟來衡量擬合的好壞。關于在線性回歸模型中增加特征值并再訓練同一模型,下列說法正確的是()。[單選題]*A.如果&2上升.則該變量是顯著的B.如果舟下降.則該變量不顯著C.不能完全反映變量重要性.不能就此得出正確結論(正確答案)D.以上答案都不正確64.連續不斷地爬取網頁信息,較容易被網站識別,想要實現間隔15s來爬取網頁需要使用的指令是()。[單選題]*A.timestop(5)B.timesleep(15)(正確答案)C.timestrptime(15)D.timesleep(5)65.在K均值算法中,()可用于獲得全局最小。[單選題]*A.
嘗試為不同的質心(centroid)初始化運行算法B.
調整迭代的次數C.
找到集群的最佳數量D.
以上答案都正確(正確答案)66.一幅512X512的圖像,若灰度級數為16,則該圖像大小為()。[單選題]*A.32kBB.128kB(正確答案)C.1MBD.2MB67.能夠提取出圖片邊緣特征的網絡是()。[單選題]*A.全連接層B.池化層C.卷積層(正確答案)D.隱藏層68.Python安裝擴展庫常用的是()工具[單選題]*A.pyinstallB.pip(正確答案)C.popD.post69.()不是長短時記憶神經網絡三個門中的一個門。[單選題]*A.輸入門B.輸出門C.遺忘門D.進化門(正確答案)70.下列方法不屬于漢語分詞方法的是()o[單選題]*A.
雙向掃描法B.
正向最大匹配法C.
逐詞遍歷法D.
詞向量匹配法(正確答案)71.具有體量大、來源多樣、生成極快和多變等特征并且難以用傳統數據體系機構有效處理的包含大量數據集的數據是()。[單選題]*A.海量數據B.大數據(正確答案)C.厚數據D.異構數據72.下列不屬于判別式模型的是()。[單選題]*A.決策樹B.BP神經網絡C.支持向量機D.貝葉斯(正確答案)73.假如使用一個較復雜的回歸模型來擬合樣本數據,使用Ridge回歸,調試正則化參數入,來降低模型復雜度關系的說法正確的是()。[單選題]*A.偏差減小.方差減小B.偏差減小.方差增大C.偏差增大.方差減少(正確答案)D.偏差增大.方差增大74.在MapReduce中,下列組件中用戶不指定也不會有默認的是()。[單選題]*A.CombinerB.OutputFormat(正確答案)B.OutputFormatC.PartitionerD.InputFormatD.InputFormat75.Matplotlib中設置x軸數值顯示范圍的函數是()o[單選題]*A.xrange()B.xspan()C.xlabel()D.xlim()(正確答案)76.列表中可以放()個字符串。[單選題]*A.1B.255C.無限個(正確答案)D.由用戶自己定義77.可以使數組計算沿指定軸進行應用操作的參數是()。[單選題]*A.axis(正確答案)B.inplaceC.dataD.dtype78.下列關于多層前饋神經網絡的描述錯誤的是()o[單選題]*A.輸出層與輸入層之間包含隱含層,且隱含層和輸出層都擁有激活函數的神經元B.神經元之間存在同層連接以及跨層連接(正確答案)C.輸入層僅僅是接收輸入,不進行函數處理D.每層神經元上一層與下一層全互連79.下列關于Python語句:f=open()中f的描述錯誤的是()。[單選題]*A.*f是文件句柄,用來在程序中表達文件B.表達式print(f)執行將報錯(正確答案)C.*f是一個Python內部變量類型D.將f當作文件對象,f.read()可以讀入文件全部信息80.如果自變量X和因變量Y之間存在高度的非線性和復雜關系,那么樹模型很可能優于經典回歸方法。則以上說法()。[單選題]*A.
正確(正確答案)B.
B.錯誤C.無法確定D.模型效果差別不大81.當訓練樣本近似線性可分時,()□[單選題]*A.通過硬間隔最大化.學習一個非線性支持向量機B.通過軟間隔最大化.學習一個線性支持向量機(正確答案)C.通過硬間隔最大化.學習一個線性支持向量機D.通過軟間隔最大化.學習一個非線性支持向量機82.在情感分析任務中,其目的是將無結構化的情感文本轉化成計算機容易識別和處理的結構化文本,進而供情感分析上層的研究和應用服務的是([單選題]*A.情感信息檢索B.情感信息抽取(正確答案)C.情感信息分類D.情感信息歸納83.下列哪個函數不可以做激活函數()。[單選題]*A.y=tanh(x)B.y=sin(x)C.y=max(x,0)D.y=2x(正確答案)84.在Pandas中,使用pivot_table()函數制作透視表時,用()設置行分組鍵。[單選題]*A.index(正確答案)B.rawC.valuesD.data85.下列關于boosting算法的描述錯誤的是([單選題]*A.可將強學習器降為弱學習器(正確答案)B.從初始訓練集訓練基學習器C.對訓練樣本分布進行調整D.做錯的訓練樣本多次訓練86.下列關于sigmoid激活函數的說法正確的有()。[單選題]*A.擁有非對稱結構B.輸出全為負值C.輸出全為正值(正確答案)D.輸出全部大于187.考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應該選擇()的相似度計算方法。[單選題]*A.平方歐幾里德距離B.余弦距離C.直接相似度D.共享最近鄰(正確答案)88.下列關于eval()函數的描述錯誤的是()。[單選題]*A.eval()函數的作用是將輸入的字符串轉為Python語句,并執行該語句B.如果用戶希望輸入一個數字,并用程序對這個數字進行計算,可以采用eval(input(<輸入提示字符串>))組合C.執行eval("Hllo")和執行eval("'Hello'")得到相同的結果(正確答案)D.eval()函數的定義為:eval(source,globals=None,locals=None,/)89.考慮某個具體問題時,可能只有少量數據來解決這個問題。不過有一個類似問題已經預先訓練好的神經網絡。可以用下面哪種方法來利用這個預先訓練好的網絡()。[單選題]*A.把除了最后一層外所有的層都凍結,重新訓練最后一層B.對新數據重新訓練整個模型C.只對最后?層進行調參(finetune)(正確答案)D.對每一層模型進行評估,選擇其中的少數來用90.K折交叉驗證器是()函數。[單選題]*A.model_selection.GroupKFold()B.model_selection.GroupShuffleSplit()C.model_selection.KFold()(正確答案)D.model_selection.RepeatedKFold()91.下列屬于無監督學習的是()。[單選題]*A.K-means(正確答案)B.SVMC.最大炳D.CRF92.關于數據分析服務目錄產品服務的業務領域,以下描述正確的是()。[單選題]*A.業務領域是根據公司“兩支撐三賦能”的要求,對數據產品服務進行歸類整理。(正確答案)B.業務領域是對居民用戶消費用電的服務范圍描述。C.業務領域僅需要對場景應用類的產品進行配置。D.以上都不對。93.pipinstallscipy=1.7與pipinstallscipy的區別是()[單選題]*A.兩者作用一樣B.前者安裝指定版本的包,后者安裝最新版本的包(正確答案)C.前者安裝指定版本的包,后者安裝隨機版本的包D.以上都不對94.下列關于長短時神經網絡的敘述錯誤的是()。[單選題]*A.引用自循環思想B.產生梯度長時間持續流動的路徑C.積累的時間尺度不可以因輸入序列而改變(正確答案)D.可應用于語音識別和機器翻譯95.機器學習算法在學習過程中對某種類型假設的偏好稱為()。[單選題]*A.訓練偏好B.歸納偏好(正確答案)C.分析偏好D.假設偏好96.()的系數沒有封閉形式(cl。sed-f。rm)的解。[單選題]*A.Ridge回歸B.Lasso(正確答案)C.Ridge回歸和LassoD.以上答案都不正確97.()不是HDFS的設計目標。[單選題]*A.流式數據訪問B.大規模數據集C.移動計算D.多次寫入,多次讀取的文件訪問模型(正確答案)98.在MapReduce中,reduce()函數可以將()值相同的輸入進行合并處理。[單選題]*A.inputB.key(正確答案)C.valueD.number99.數據可視化的本質是()。[單選題]*A.將數據轉換為知識(正確答案)B.將知識轉換為數據C.將數據轉換為信息D.將信息轉換為智慧100.實現多分類任務的神經網絡,輸出層的神經元個數一般選擇()。[單選題]*A.與類別數一致(正確答案)B.10以內C.2個D.類別數的2倍101.數據產品的定義是()。[單選題]*A.數據產品是指能夠供給市場,被人們使用和消費,并能滿足人們某種需求的任何東西B.數據產品是可以發揮數據價值去輔助用戶更優地做決策(甚至行動)的一種產品形式(正確答案)C.數據產品是指為了滿足自身的需要,通過科技發明或經驗總結而形成的技術D.數據產品是數據科學的結果,創造了新的實物形態和使用價值的產品102.Python中定義私有屬性的方法是()。[單選題]*A.使用private關鍵字B.使用public關鍵字C.使用__XX__定義屬性名D.使用__XX定義屬性名(正確答案)103.已知列表對象x=['11','2','3'],則表達式max(x,key=len)的值為()。[單選題]*A.'3'B.'11'(正確答案)C.'2'D.'1'104.執行下面代碼段時,輸出結果為()。motorcycles=['honda','yamaha','suzuki]motorcycles.append('ducati')motorcycles.pop(1)print(motorcycles)[單選題]*A.['honda','yamaha','suzuki']B.['yamaha','suzuki','ducati']C.[honda','yamaha','suzuki','ducati']D.['honda','suzuki','ducati'](正確答案)105.核矩陣是()的。[單選題]*A.沒有規律B.半正定(正確答案)C.正定D.樣本矩陣106.Numpy數組輸出的原則是()。[單選題]*A.從左到右,從下到上B.從左到右,從上到下(正確答案)C.從右到左,從下到上D.從右到左,從上到下107.下列哪一種架構有反饋連接()。[單選題]*A.循環神經網絡(正確答案)B.卷積神經網絡C.限制玻爾茲曼機D.都不是108.下列關于IPython的說法錯誤的是()[單選題]*A.IPython集成了交互式Python的很多優點B.IPython的性能遠遠優于標準的Python的shellC.IPython支持變量自動補全,自動收縮D.與標準的Python相比,IPython缺少內置的功能和函數(正確答案)109.下列特征選擇算法中不屬于常用的文本分類的是()。[單選題]*A,卡方檢驗B.互信息C.信息增益D.主成分分析(正確答案)110.下列關于Numpy.arange參數的描述錯誤的是()。[單選題]*A.start:起始值,默認為0B.stop:終止值(不包含)C.step:步長,默認為-1(正確答案)D.dtype:返回Ndarray的數據類型,如果沒有提供,則會使用輸入數據的類型。111.假設在龐大的數據集上使用L。gistic回歸模型,可能遇到一個問題,L。gistic回歸需要很長時間才能訓練,如果對相同的數據進行邏輯回歸,則花費更少的時間,并給出比較相似的精度的方法是()。[單選題]*A.降低學習率.減少迭代次數B.降低學習率.增加迭代次數C.提高學習率.增加迭代次數D.增加學習率.減少迭代次數(正確答案)112.()是唯一不在運行時發生的異常。[單選題]*A.ZeroDivisionErrorB.NameErrorC.SyntaxError(正確答案)D.KeyError113.下列關于BP網絡的說法不正確的是()o[單選題]*A.
標準BP算法每次僅針對一個訓練樣例更新連接權和閾值B.
BP神經網絡經常遭遇過擬合C.
早停策略可用來緩解BP網絡的過擬合問題D.
晚停策略可用來緩解BP網絡的欠擬合問題(正確答案)114.()特征選擇是直接把最終將要使用的學習器的性能作為特征子集的評價準則。[單選題]*A.嵌入式B.過濾式C.包裹式(正確答案)D.一體式115.若X的值為1?11(包含1、11),能用Scipy輸出標準正態分布的概率密度函數在X=5處的值的是()o[單選題]*A.scipy.stats.norm(loc=0,scale=l).pmf(5)B.scipy.stats.binorm(loc=0,scale=l).pdf(5)C.scipy.stats.binorm(loc=0,scale=l).pmf(5)D.scipy.stats.norm(loc=0,scale=l).pdf(5)(正確答案)116.下列關于長短時神經網絡的敘述錯誤的是()o[單選題]*A.引用自循環思想B.產生梯度長時間持續流動的路徑C.積累的時間尺度不可以因輸入序列而改變(正確答案)D.可應用于語音識別和機器翻譯117.下列用于關閉文件的是()。[單選題]*A.read()B.tell()C.seek()D.close()(正確答案)118.在pit中通常的lw參數代表的是()o[單選題]*A.線條的風格B.文字的顏色C.線條的寬度(正確答案)D.線條的透明度119.下列算法中屬于圖像平滑處理的是()o[單選題]*A.梯度銳化B.直方圖均衡化C.中值濾波(正確答案)D.Laplacian增強120.下列關于核函數特性的描述錯誤的是()o[單選題]*A.只要一個對稱函數所對應的核矩陣半正定就能稱為核函數B.核函數選擇作為支持向量機的最大變數C.核函數將影響支持向量機的性能D.核函數是一種降維模型(正確答案)121.在一個神經網絡中,下面哪種方法可以用來處理過擬合()。[單選題]*A.DropoutB.分批歸一化(BatchNormalization)C.正則化(regularization)D.都可以(正確答案)122.HBase依靠()提供強大的計算能力。[單選題]*A.ZooKeeperB.ChubbyC.RPCD.MapReduce(正確答案)123.在Numpy中,()模塊可以計算逆矩陣、求特征值、解線性方程組以及求解行列式。[單選題]*A.randomB.linalg(正確答案)C.NdarrayD.unicode124.Numpy中確定隨機數生成種子使用的函數是()[單選題]*A.np.random()B.np.random.seed()(正確答案)C.np.uniform()D.np.eig()125.Scipy的stats包中提供了產生連續性分布的函數,其中用于均勻分布的函數是()[單選題]*A.normB.uniform(正確答案)C.betaD.geom126.Python中statsmodels庫適用于()場景。[單選題]*A.統計分析(正確答案)B.機器學習C.圖像處理D.數據建模127.如果只寫open(flename),那就是用()模式打開。[單選題]*A.r(正確答案)B.wC.aD.b128.某工廠共有100名員工,他們的月工資方差是s,現在給每個員工的月工資增加3000元,那么他們的新工資的方差()。[單選題]*A.為s+3000B.小了C.大了D.不變(正確答案)129.Matplotlib的主要功能是()[單選題]*A.科學計算B.繪圖庫(正確答案)C.爬取網站數據、提取結構性數據D.機器學習庫130.scipy.stats()函數不能求()。[單選題]*A.均值B.方差C.峰度D.眾數(正確答案)131.目前,多數N。SQL數據庫是針對特定應用場景研發出來的,其設計遵循()原則,更強調讀寫效率、數據容量以及系統可擴展性。[單選題]*A.EASYB.READC.BASE(正確答案)D.BASIC132.ResNet-50有多少個卷積層()。[單選題]*A.48B.49(正確答案)C.50D.51133.正確導人日期模塊的語句是()。[單選題]*A.importdateB.importdatetime(正確答案)C.importtimeD.importdate_time134.為了提高系統性能,Spark釆取惰性計算模式。下列關于惰性計算模式的描述正確的是()o[單選題]*A,執行Transformation操作時不會提交,只有執行Action操作時才會被提交到集群中開始被執行(正確答案)B.執行Action操作時不會提交,只有執行Transformation操作時才會被提交到集群中開始被執行C.只有執行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執行D,執行完Action操作或Transformation操作時都不會提交到集群135.點擊率的預測是一個數據比例不平衡問題(如訓練集中樣本呈陰性的比例為99%,陽性的比例是1%),如果用這種數據建立模型并使得訓練集的準確率高達99%。則可以得出結論是()。[單選題]*A.模型的準確率非常高,我們不需要進一步探索B.模型不好,我們應建一個更好的模型C.無法評價模型(正確答案)D.以上答案都不正確136.數據銷毀環節的安全技術措施有通過軟件或物理方式保障磁盤中存儲數據的()、不可恢復,如數據銷毀軟件、硬盤消磁機、硬盤粉碎機等。[單選題]*A.暫時隔離B.暫時刪除C.永久刪除(正確答案)D.不做處理137.下列不屬于scikit-learn中用于標準化的函數是()[單選題]*A.StandardScalerB.MinMaxScalerC.MeanScaler(正確答案)D.以上都對138.下列關于模塊的描述不正確的是()。[單選題]*A.模塊是包含函數和變量的Python文件B.模塊可以被導入C.可以使用"."操作符訪問模塊中的函數和變量D.模塊使得代碼更復雜,可讀性變差(正確答案)139.()是指針對用戶非常明確的數據查詢和處理任務,以高性能和高吞吐量的方式實現大眾化的服務,是數據價值最重要也是最直接的發現方式。[單選題]*A.數據服務(正確答案)B.數據分析C.數據治理D.數據應用140.在使用pyplot畫圖時,線條相關屬性標記不能設置()。[單選題]*A.'*'B.'T'(正確答案)C.'D'D.'8'141.在HadoopMapReduce中,()是客戶端需要執行的一個工作單元。[單選題]*A.InputB.Job(正確答案)C.ClientD.Task142.模型構建完畢需要對模型進行評估量化,需要用到的模塊是()o[單選題]*A.utilsB.mixtureC.metrics(正確答案)D.manifold143.Maxcompute表t1、t2都是分區表,分區鍵是pt,對于sql語句selectt1.idfromt1leftouterjoint2ont1.id=t2.idwheret1.pt=’20140101’andt2.pt=’20140101’,()說法是正確的。[單選題]*A.兩張表都會進行分區裁剪B.t2表會進行分區裁剪C.t1表會進行分區裁剪(正確答案)D.兩張表都不會進行分區裁剪144.()屬于淺層學習模型。[單選題]*A.DBNB.CNNC.SVM(正確答案)D.RNN145.數據使用環節的安全技術措施除防火墻、()、防病毒、防DD。S、漏洞檢測等網絡安全防護技術措施外,還需實現以下安全技術能力:賬號權限管理、數據安全域、數據脫敏、日志管理和審計、異常行為實時監控和終端數據防泄漏。[單選題]*A.入侵檢測(正確答案)B.病毒檢測C.程序檢測D.進程檢測146.有關華為云MRS服務說法錯誤的是()。[單選題]*A.是一個在華為云上部署和管理Hadoop系統的服務B.華為云MRS服務適用于低時延實時數據分析場景C.不兼容開源接口(正確答案)D.MRS提供可視化大數據集群管理平臺,提高運維效率147.假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率。現在,在數據中增加一個新的特征,其他特征保持不變。然后重新訓練測試。則下列說法正確的是()。[單選題]*A.訓練樣本準確率一定會降低B.訓練樣本準確率一定增加或保持不變(正確答案)C.測試樣本準確率一定會降低D.測試樣本準確率一定增加或保持不變148.Kafka集群在運行期間直接依賴于()。[單選題]*A.HadoopB.SparkC.Zookeeper(正確答案)D.Hbase149.在深度學習中,我們經常會遇到收斂到localminimum,下列不屬于解決localminimum問題的方法是([單選題]*A.隨機梯度下降C.設置不同初始值B.設置MomentumD.增大batchsize(正確答案)150.概率模型的訓練過程就是()過程。[單選題]*A.分類B.聚類C.參數估計(正確答案)D.參數選擇151.Scipy中,()是空間數據結構和算法模塊。[單選題]*A.clusterB.constantsC.integrateD.spatial(正確答案)152.下列關于注意力機制的相關敘述,錯誤的是()。[單選題]*A.自上而下的有意識的注意力,稱為基于顯著性的注意力(正確答案)B.多頭注意力利用多個查詢,來并行地從輸入信息中選取多組信息C.為了提高模型能力,自注意力模型經常采用查詢-鍵-值模式D.自注意力模型可以擴展為多頭自注意力模型,在多個不同的投影空間中捕捉不同的交互信息153.運行下面程序,下列結果不正確的是()oimportnumpyasnpx=np.array([[1,2],[3,4]])y=np.linalg.inv(x)print(y)[單選題]*A.[[12][34]]B.[[-2.l.][1.5-0.5]](正確答案)C.[[1.0.][2.1.]]D.以上都不對154.對下面程序的描述錯誤的是(try:#語句塊1exceptIndexErrorasi:#語句塊2[單選題]*A.該程序對異常處理了,因此一定不會終止程序(正確答案)B.該程序對異常處理了,不一定不會因異常引發終止C.語句塊1如果拋出IndexError異常,不會因為異常終止程序D.語句塊2不一定會執行155.下列關于Numpy的簡單介紹不正確的是()。[單選題]*A.Numpy(NumericalPython)是Python語言的一個擴展程序庫B.支持大量的維度數組與矩陣運算C.針對數組運算提供大量的數學函數庫D.Numpy不開放源代碼(正確答案)156.數據管理成熟度模型—DMM將一個機構的數據管理工作抽象成6個關鍵過程域,即數據戰略、()、數據質量、平臺與架構、數據操作以及輔助性過程。[單選題]*A.數據管理B.數據治理(正確答案)C.數據策略D.數據安全157.運行下面程序,輸出的結果是()。defchanageInt(number2):number2=number2+1print("changeInt:number2=",number2)#調用number1=2;ChanageInt(number1)print("number:",number1)[單選題]*A.changelnt:number2=3number:3B.changeInt:number2=3number:2(正確答案)C.number:2changeInt:number2=2D.number:2changeInt:number2=3158.Matplotlib中的barh()函數可以繪制()o[單選題]*A.直方圖B.餅圖C.條形圖(正確答案)D.氣泡圖159.Numpy庫的主要功能是()。[單選題]*A.科學計算(正確答案)B.繪圖C.爬取網站數據、提取結構性數據D.機器學習庫160.下列說法錯誤的是()o[單選題]*A.當目標函數是凸函數時,梯度下降的解時全局最優解B.進行PCA降維時需要計算協方差矩陣C.沿負梯度下降的方向一定是最優的方向(正確答案)D.利用拉格朗日函數能解帶約束的優化問題161.下列關于Python布爾值的描述正確的是()。[單選題]*A.整型的0不可以表示FalseB.浮點型的0不可以表示FalseC.0+0j可以表示False(正確答案)D.布爾值不可以進行算術運算162.Numpy.array數組的簡稱是()[單選題]*A.arrayB.nparrayC.Ndarray(正確答案)D.pyarray163.下列回歸模型中最能影響過擬合與欠擬合之間平衡的步驟是()。[單選題]*A.多項式的階數(正確答案)B.是否通過矩陣求逆或梯度下降學習權重C.使用常數項D.使用正則化164.將一副圖像進行分割后,分割出的區域彼此之間()重疊。[單選題]*A.可以B.不可以(正確答案)C.根據任務需要確定是否可以D.根據分割方法確定是否可以165.不是Python合法標識符。[單選題]*A.int32B.40XL(正確答案)C._selfD.name166.數據科學處于()三大領域的重疊之處。[單選題]*A.數學與統計知識、黑客精神與技能、領域實務知識(正確答案)B.數據挖掘、黑客精神與技能、領域實務知識C.數學與統計知識、數據挖掘、領域實務知識D.數學與統計知識、黑客精神與技能、數據挖掘167.泛化誤差可分解為偏差、方差與噪聲之和,當學習器擬合程度不夠強時,()主導了泛化錯誤率。[單選題]*A.
偏差(正確答案)B.方差C.噪聲D.差與方差共同168.神經網絡感知機只有()神經元進行激活函數處理,即只擁有一層功能神經元。[單選題]*A.輸出層(正確答案)B.輸入層C.感知層D.網絡層169.()不可以直接來對文本分類。[單選題]*A.K-means(正確答案)B.決策樹C.支持向量機D.KNN170.邏輯回歸將輸出概率范圍限定為[0,1],()函數能起到這樣的作用。[單選題]*A.Sigmoid()函數(正確答案)B.tanh()函數C.ReLU()函數D.LeakyReLU()函數171.卷積神經網絡(convolutionalneuralnetwork,CNN)是一種專門用來處理具有類似()的數據的神經網絡。[單選題]*A.網格結構(正確答案)B.數組結構C.序列結構D.表格結構172.()是指個體對視覺感知信息的進一步加工處理過程,包括視覺信息的抽取、轉換、存儲、簡化、合并、理解和決策加工活動。[單選題]*A.視覺感知B.視覺認知(正確答案)C.視覺編碼D.視覺轉換173.下列關于數據清洗的說法不正確的是()。[單選題]*A.對單數據源,主鍵取值不能重復B.多數據源會存在數據重復、單位不一致的問題C.連續型數據不存在冗余問題(正確答案)D.缺失值可以采用刪除和填補等方法處理174.屬于深度學習框架的是()o[單選題]*A.TensorflowB.CaffeC.PyTorchD.以上答案都正確(正確答案)175.在一個神經網絡里,知道每一個神經元的權重和偏差是最重要的一步,如果以某種方法知道了神經網絡準確的權重和偏差,就可以近似任何函數,實現這個最佳的方法是什么()。[單選題]*A.隨機賦值,祈禱它們是正確的B.搜索所有權重的偏差的組合,直到得到最佳值C.賦予一個初始值,通過檢查跟最佳值的差值,然后迭代更新權重(正確答案)D.以上都不是176.大數據應用應嚴格執行()、數據使用、()、數據銷毀等環節安全管理要求,確保大數據應用工作安全合規。*A.數據獲取(正確答案)B.數據傳輸(正確答案)C.數據儲存(正確答案)D.數據共享(正確答案)177.公司大數據應用需求與立項管理遵循數字化項目管理規范,嚴格落實項目制管理要求,主要包括:()。*A.談判B.需求征集、評審、儲備、立項(正確答案)C.計劃編制(正確答案)D.調整(正確答案)178.大數據應用成果發布管理,主要包括()等內容。*A.發布平臺(正確答案)B.成果發布(正確答案)C.應用上線D.應用下線(正確答案)179.數據安全不僅包括數據保密性,還包括()。*A.完整性(正確答案)B.可用性(正確答案)C.不可否認性(正確答案)D.可審計性(正確答案)180.在網絡爬蟲的爬行策略中,應用最為常見的有()。*A.深度優先遍歷策略(正確答案)B.廣度優先遍歷策略(正確答案)C.高度優先遍歷策略D.反向鏈接策略181.python標準庫包含()。*A.os(正確答案)B.sys(正確答案)C.numpyD.re(正確答案)182.關于進一步規范數據安全工作的通知,數據傳輸環節,在互聯網大區傳輸重要數據時應加密保護,采用公司統一密碼基礎設施簽發的(),實現企業重要數據的加密傳輸。*A.密鑰(正確答案)B.證書(正確答案)C.加密D.數據183.在數據科學中,計算模式發生了根本性的變化——從集中式計算、分布式計算、網格計算等傳統計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司組織滑雪策劃方案
- 2025年物流與供應鏈管理考試卷及答案
- 2025年現代文學與書法藝術考試試題及答案
- 2025年企業文化與內部管理的考核試卷及答案
- 2025年品牌傳播與市場聯系考核考試試卷及答案
- 2025年可持續發展與環境政策基礎知識考試卷及答案
- 2025年媒體傳播與社會學習研究考試試卷及答案
- 2025年計算機網絡與信息安全課程考試題及答案
- 2025年材料科學與工程專業綜合能力測試卷及答案
- 2025年初中歷史學科教育考試試題及答案
- 《無衣》教學設計 統編版高中語文選擇性必修上冊
- 合肥市住宅小區物業服務等級標準
- 創造心智與創新訓練智慧樹知到期末考試答案2024年
- 食品廠員工衛生培訓方案
- 危房改造工程投標方案(技術標)
- 北京市西城區2022年五年級下冊《數學》期末試卷與參考答案
- (完整)大體積混凝土測溫記錄表
- 國開電大本科《中國法律史》在線形考(任務一至十二)試題及答案
- 提高住院病歷完成及時性持續改進(PDCA)
- 山東省濟寧市兗州區2022-2023學年八年級下學期期末數學試題(含答案)
- 加強中小學生作業管理完整PPT
評論
0/150
提交評論